BoolQ (Boolean Questions)
BoolQはYes/No形式の質問応答データセット。
質問と関連するパッセージが与えられ、その質問に対する答えが「はい」か「いいえ」で答えられるかを評価。
主に読解力と質問応答の精度を測定。
https://github.com/google-research-datasets/boolean-questions
GSM8K (Grade School Math 8K)
GSM8Kは、小学校レベルの数学問題を集めたデータセット。
数理的推論能力と問題解決能力を評価。
問題は手計算や論理的推論を必要とするものが多い。
https://github.com/openai/grade-school-math
HellaSwag
HellaSwagは、文の次に続く最も適切な文を選ぶタスク。
文脈理解と自然な言語生成能力を評価。
選択肢は非常に似通っており、文脈の微妙な違いを理解する必要がある。
https://rowanzellers.com/hellaswag/
HumanEval
HumanEvalは、コード生成能力を評価するためのベンチマーク。
問題文が与えられ、その問題を解決するためのPythonコードを生成するタスク。
コードの正確さと問題解決能力を評価。
https://github.com/openai/human-eval
MMLU (Massive Multitask Language Understanding)
MMLU は、言語モデルの能力を評価するためのベンチマーク。
数学、哲学、法律、医学など57の学術分野にわたる約16,000の多肢選択式質問で構成される。
これは、大規模言語モデルの能力を比較するための最も一般的に使用されるベンチマークの1つ。
- MMLU Humanities: 人文学に関連するタスクを含み、歴史、文学、哲学などが含まれる。
- MMLU Other: その他のタスクを含み、異なる学問領域からの問題をカバー。
- MMLU Social Sciences: 社会科学に関連するタスクを含み、心理学、社会学、政治学などが含まれる。
- MMLU STEM: STEM(科学、技術、工学、数学)分野のタスクを含み、物理学、化学、数学などが含まれる。
https://github.com/hendrycks/test
OpenBookQA
OpenBookQAは、一般知識と常識を評価する質問応答ベンチマーク。
問題と複数の選択肢が与えられ、最も適切な答えを選ぶ。
知識ベースに基づく推論能力が必要。
https://allenai.org/data/open-book-qa
PIQA (Physical Interaction: Question Answering)
PIQAは、物理的なインタラクションに関する質問応答タスク。
物理的な状況に対する理解と推論能力を評価。
選択肢から最も適切な答えを選ぶ。
Social IQA (Social Interaction Question Answering)
Social IQAは、社会的なインタラクションに関する質問応答タスク。
人間の行動や感情に関する理解と推論能力を評価。シナリオが与えられ、それに基づいて最適な答えを選ぶ。
https://github.com/ybisk/ybisk.github.io/blob/master/piqa/README.md
TruthfulQA MC1 (Multiple Choice)
TruthfulQAは、真実性に基づく質問応答ベンチマーク。
質問に対して最も真実に近い答えを選ぶタスク。
モデルの信頼性と事実に基づく応答能力を評価。
https://github.com/sylinrl/TruthfulQA
WinoGrande
WinoGrandeは、文脈を理解して曖昧な代名詞の参照を解決するタスク。
特定の状況における代名詞が何を指しているかを正確に特定する能力を評価。
これにより、モデルの言語理解力が測定される。