生成AIを評価するときに用いるベンチマーク

2024年7月23日

楠剛毅（goke）

個人開発から世界を変えるようなプロダクトづくりを目指しています

BoolQはYes/No形式の質問応答データセット。
質問と関連するパッセージが与えられ、その質問に対する答えが「はい」か「いいえ」で答えられるかを評価。
主に読解力と質問応答の精度を測定。

GSM8Kは、小学校レベルの数学問題を集めたデータセット。
数理的推論能力と問題解決能力を評価。
問題は手計算や論理的推論を必要とするものが多い。

HellaSwagは、文の次に続く最も適切な文を選ぶタスク。
文脈理解と自然な言語生成能力を評価。
選択肢は非常に似通っており、文脈の微妙な違いを理解する必要がある。

HumanEvalは、コード生成能力を評価するためのベンチマーク。
問題文が与えられ、その問題を解決するためのPythonコードを生成するタスク。
コードの正確さと問題解決能力を評価。

MMLU は、言語モデルの能力を評価するためのベンチマーク。
数学、哲学、法律、医学など57の学術分野にわたる約16,000の多肢選択式質問で構成される。
これは、大規模言語モデルの能力を比較するための最も一般的に使用されるベンチマークの1つ。

OpenBookQAは、一般知識と常識を評価する質問応答ベンチマーク。
問題と複数の選択肢が与えられ、最も適切な答えを選ぶ。
知識ベースに基づく推論能力が必要。

PIQAは、物理的なインタラクションに関する質問応答タスク。
物理的な状況に対する理解と推論能力を評価。
選択肢から最も適切な答えを選ぶ。

Social IQAは、社会的なインタラクションに関する質問応答タスク。
人間の行動や感情に関する理解と推論能力を評価。シナリオが与えられ、それに基づいて最適な答えを選ぶ。

TruthfulQAは、真実性に基づく質問応答ベンチマーク。
質問に対して最も真実に近い答えを選ぶタスク。
モデルの信頼性と事実に基づく応答能力を評価。

WinoGrandeは、文脈を理解して曖昧な代名詞の参照を解決するタスク。
特定の状況における代名詞が何を指しているかを正確に特定する能力を評価。
これにより、モデルの言語理解力が測定される。

楠剛毅（goke）

個人開発から世界を変えるようなプロダクトづくりを目指しています