コンテンツカテゴリ
用語
AIによる要約
言語モデルの能力を評価するためには、特定の下流タスクに特化した評価データセットやベンチマークが使用されます。質問応答データセットやオープンブック・クローズドブックタスクなどが一般的であり、TruthfulQA、Web Questions、TriviaQA、SQuADなどがよく使用されます。また、テキスト補完や複合ベンチマークも存在します。
コンテンツ
タグ
モデル性能評価
レベル
ツール
ChatGPT
作成日時
Jan 29, 2024 7:32 AM
最終更新日時
Jan 29, 2024 7:32 AM
言語モデルの能力を評価するために、特定の下流タスクに特化した多くのテストデータセットやベンチマークが開発されています。これらのテストは、一般的な知識、常識的な推論、数学的問題解決など、さまざまな能力を評価するために設計されています。
評価データセットの一般的なカテゴリ
- 質問応答データセット: これは質問と正しい答えのペアで構成されています。例えば、「サンノゼ・シャークスはスタンレーカップを獲得したことがありますか?」という質問に対する答えとして「いいえ」というものがあります。
- 「オープンブック」タスク: モデルのプロンプトに期待される答えを導き出すためのテキストが含まれている場合、そのタスクは「オープンブック」と見なされます。
- 「クローズドブック」タスク: モデルが訓練中に保持した知識に基づいて回答する必要がある場合、そのタスクは「クローズドブック」と見なされます。
一般的に使用される質問応答データセット
- TruthfulQA
- Web Questions
- TriviaQA
- SQuAD
その他の評価データセットの形式
- テキスト補完: モデルがプロンプトを完成させるために最も可能性の高い単語や文を選択するタスク。
複合ベンチマーク
- GLUE
- SuperGLUE
- MMLU
- BIG-bench
- HELM
これらは、さまざまな評価データセットとタスクを組み合わせたものです。
以前は、評価データセットの保持された部分について、残りの部分で監督付きファインチューニングを行った後に結果を報告するのが標準でした。現在では、プロンプト技術を通じて事前訓練済みのモデルを直接評価することが一般的ですが、研究者によって特定のタスクのプロンプトをどのように形式化するかの詳細は異なります。これには、プロンプトに解決済みのタスクの例がいくつ添付されるか(つまり、nショットプロンプトにおけるnの値)などが含まれます。