モデルのパフォーマンスがサイズやトレーニングデータの量に応じてどのように変化するかを記述する法則。
LLMのスケーリング法則とは
(OpenAIが最初に紹介したもの)は、"ある量の計算機がある場合、最高のパフォーマンスを得るためには、どの程度の大きさのモデルをトレーニングすればよいのか?"という疑問 に答えようとするものです。
その答えは、基本的にモデルサイズとデータサイズのトレードオフに あります。例えば、GPT-3スケールのモデルの場合、トレードオフは次のような点です
- (a)インターネットのアーカイブの40%で200億のパラメータモデルをトレーニングする。
- (b)インターネットのアーカイブの4%を対象に、2,000億個のパラメータモデルをトレーニングする。
2020年、OpenAIは Scaling Laws for Neural Language Modelsを発表しました。この論文では、計算量を最適化するトレーニングのためには、データサイズを増やすよりもモデルサイズを増やすことが重要であるとしています。計算量が10倍になったら、モデルサイズを 5倍くらいにして、データサイズを2倍にするのが望ましいとしています。さらに10倍の計算量が得られれば、モデルサイズは25倍、データサイズは4倍に相当します。
この法則は、モデルのサイズ、トレーニングデータセットのサイズ、トレーニングのコスト、トレーニング後のパフォーマンスの4つの変数に基づいています。これらの変数はそれぞれ実数で定義でき、単純な統計法則(スケーリング法則)によって関連していることが経験的に見出されています。
モデルのサイズ
モデルのサイズは通常、パラメーターの数で示されます。しかし、エキスパートモデルの混合のようなスパースモデルでは、すべての推論でパラメーターの一部のみが使用されるという複雑さが生じます。これに対し、トランスフォーマーネットワークのような他の種類のニューラルネットワークは、通常、すべての推論でそのパラメーターを常に使用します。
トレーニングデータセットのサイズ
トレーニングデータセットのサイズは、通常、データポイントの数で量られます。大きなトレーニングデータセットが好まれる傾向がありますが、これはモデルが学習するための豊かで多様な情報源を提供するためです。しかし、トレーニングデータセットのサイズを増やすと、モデルのトレーニングに必要な計算リソースと時間も増加します。
トレーニングのコスト
トレーニングのコストは、トレーニングにかかる時間(モデルをトレーニングするのにどれくらい時間がかかるか)と計算リソース(モデルをトレーニングするのに必要な処理能力とメモリがどれくらいか)で測定されます。効率的なトレーニングアルゴリズム、最適化されたソフトウェアライブラリ、GPUやTPUなどの専用ハードウェアでの並列計算により、トレーニングのコストを大幅に削減することが可能です。
パフォーマンス
ニューラルモデルのパフォーマンスは、入力データに対して出力を正確に予測する能力に基づいて評価されます。モデルパフォーマンスを評価するための一般的な指標には以下が含まれます:
- 分類タスクの場合:精度、適合率、再現率、F1スコア
- 回帰タスクの場合:平均二乗誤差(MSE)または平均絶対誤差(MAE)
- 言語モデリングの場合:トークンごとの負の対数尤度(パープレキシティの対数)
パフォーマンスは、より多くのデータ、より大きなモデル、異なるトレーニングアルゴリズムの使用、過学習を防ぐためのモデルの正則化、検証セットを使用した早期停止によって改善される可能性があります。