評価データセット

コンテンツカテゴリ

用語

AIによる要約

言語モデルの能力を評価するためには、特定の下流タスクに特化した評価データセットやベンチマークが使用されます。質問応答データセットやオープンブック・クローズドブックタスクなどが一般的であり、TruthfulQA、Web Questions、TriviaQA、SQuADなどがよく使用されます。また、テキスト補完や複合ベンチマークも存在します。

コンテンツ

タグ

モデル性能評価

レベル

ツール

ChatGPT

作成日時

Jan 29, 2024 7:32 AM

最終更新日時

Jan 29, 2024 7:32 AM

言語モデルの能力を評価するために、特定の下流タスクに特化した多くのテストデータセットやベンチマークが開発されています。これらのテストは、一般的な知識、常識的な推論、数学的問題解決など、さまざまな能力を評価するために設計されています。

評価データセットの一般的なカテゴリ

質問応答データセット: これは質問と正しい答えのペアで構成されています。例えば、「サンノゼ・シャークスはスタンレーカップを獲得したことがありますか？」という質問に対する答えとして「いいえ」というものがあります。
「オープンブック」タスク: モデルのプロンプトに期待される答えを導き出すためのテキストが含まれている場合、そのタスクは「オープンブック」と見なされます。
「クローズドブック」タスク: モデルが訓練中に保持した知識に基づいて回答する必要がある場合、そのタスクは「クローズドブック」と見なされます。

一般的に使用される質問応答データセット

TruthfulQA
Web Questions
TriviaQA
SQuAD

その他の評価データセットの形式

テキスト補完: モデルがプロンプトを完成させるために最も可能性の高い単語や文を選択するタスク。

複合ベンチマーク

GLUE
SuperGLUE
MMLU
BIG-bench
HELM

これらは、さまざまな評価データセットとタスクを組み合わせたものです。

以前は、評価データセットの保持された部分について、残りの部分で監督付きファインチューニングを行った後に結果を報告するのが標準でした。現在では、プロンプト技術を通じて事前訓練済みのモデルを直接評価することが一般的ですが、研究者によって特定のタスクのプロンプトをどのように形式化するかの詳細は異なります。これには、プロンプトに解決済みのタスクの例がいくつ添付されるか（つまり、nショットプロンプトにおけるnの値）などが含まれます。