モデルをトレーニングするために必要な計算コスト
トレーニングコストとは?
トレーニングコストとは、人工知能(AI)や機械学習モデルを訓練するために必要な資源や費用のことを指します。 これには以下のような要素が含まれます:
- 計算資源: 大規模モデル、特に言語モデルのような複雑なモデルをトレーニングするには、多くの計算能力が必要です。これは、高性能のGPUやTPUなどの専用ハードウェアに依存します。
- 時間: 訓練には時間がかかります。特に大規模モデルでは、数週間から数ヶ月にわたる訓練が必要になることがあります。
- データ: モデルの性能は、使用するトレーニングデータの質と量に大きく依存します。データ収集、クレンジング、ラベリングなどにもコストがかかります。
- 電力消費: 計算リソースの稼働には大量の電力が必要で、これはコストの重要な要素です。
- 専門知識: 専門家や研究者の知識と経験も重要です。効果的なモデルを設計し、トレーニングするための専門知識が必要です。
大規模モデルのトレーニングは特にコストが高くなる傾向があり、特に計算資源と電力消費が主な要因です。
トレーニングコストの徴候
2020年代には、大規模言語モデル(LLM)のトレーニングコストが大幅に低下しました。 例えば、2023年には12億パラメータのLLMのトレーニングコストが72,300 A100-GPU時間であった一方で、2020年には1.5億パラメータのLLM(当時の最先端モデルよりも2桁小さい)のトレーニングコストは8万ドルから160万ドルでした。GPT-2(1.5億パラメータモデル)の2019年のトレーニングコストは5万ドル、PaLM(540億パラメータモデル)の2022年のトレーニングコストは800万ドルでした。
トランスフォーマーベースのLLMでは、トレーニングコストは推論コストよりもはるかに高いです。 トレーニングには1トークンあたりパラメータごとに6 FLOPsが必要ですが、推論には1トークンあたりパラメータごとに1〜2 FLOPsが必要です。
LLM(Large Language Model、大規模言語モデル)のトレーニングには通常、全精度または半精度の浮動小数点数(float32やfloat16)が使用されます。float16は16ビット、すなわち2バイトですから、10億のパラメータには2GBの容量が必要です。最大のモデルは通常1000億のパラメータを持ち、これをロードするには200GBが必要となり、これはほとんどの消費者向け電子機器の範囲外です。