Mixture of Experts, MoE（混合エキスパート）

コンテンツカテゴリ

用語

AIによる要約

最大規模のモデルを直接トレーニングおよび使用するコストを削減するために適用される方法。

コンテンツ

タグ

レベル

ツール

ChatGPT

作成日時

Jan 29, 2024 7:32 AM

最終更新日時

Jan 29, 2024 7:32 AM

「Mixture-of-Experts (MoE; 混合エキスパート)」とは、複数の「エキスパート」ネットワークを組み合わせて、一つの問題を解決する機械学習の技術です。この手法では、異なるネットワーク（エキスパート）が問題の異なる部分に対応し、ゲーティング機構によって各エキスパートの出力を適切に組み合わせて最終的な予測を行います。

MoEモデルとは？

MoEモデルは、複数の専門的なサブモデル（エキスパート）と、これらのサブモデルの出力を統合するゲーティング機構から構成されます。各エキスパートは特定のタイプの入力データに特化しており、ゲーティング機能は入力データに基づいて、どのエキスパートを使用するかを決定します。

Mixture of experts

Mixture of experts (MoE) is a machine learning technique where multiple expert networks (learners) are used to divide a problem space into homogeneous regions. It differs from ensemble techniques in that typically only one or a few expert models will be run, rather than combining results from all models.

en.wikipedia.org

基本理論: MoEでは、複数の「エキスパート」ネットワークが同じ入力を取り込み、出力を生成します。重み付け関数（ゲーティング関数）が入力に基づいて重みのベクトルを出力し、これらの重みに基づいてエキスパートの出力を組み合わせます。エキスパートと重み付け関数は、損失関数を最小化することによって訓練されます。
メタパイネットワーク: エキスパートの出力の重み付け和を最終出力とするモデル。訓練は平均二乗誤差の損失に対する勾配降下法で行われます。エキスパートは任意の関数である可能性があります。
適応的局所エキスパートの混合: ガウス混合モデルを使用し、各エキスパートはガウス分布を予測します。重み付け関数は線形ソフトマックス関数です。
階層型MoE: 複数レベルのゲーティングを木構造で使用するモデル。最終的な予測は、リーフノードにあるエキスパートによって行われます。
バリエーション: ゲーティング関数の選択は通常ソフトマックスゲーティングですが、他の分布を使用する提案もあります。ハードMoEでは、最もランクが高いエキスパートのみが選択されます。
ディープラーニングへの応用: MoEは大規模モデルの実行において、条件付き計算を行う簡単な方法として深層学習に応用されています。重要な設計要素は、各クエリに対して少数のエキスパートのみを問い合わせることです。
スパースゲーティングMoEレイヤー: 少数のトップエキスパートのみの重み付き和によってスパース性を達成します。MoEレイヤーは、フィードフォワードネットワークとゲーティングネットワークで構成されます。
ルーティング: MoEでは、トップkエキスパートのみが問い合わせられ、出力はそれらの重み付き和です。他の方法にはハッシュMoEやソフトMoEなどがあります。
容量係数: ロードバランシングを保証するためのハード制約。各エキスパートは、バッチ内のクエリ数の最大許容量を持ちます。
トランスフォーマーモデルへの応用: MoEレイヤーは、学習や推論が高コストになる非常に大きなトランスフォーマーモデルで使用されます。これらのモデルでは、フィードフォワード層の選択にMoEレイヤーがしばしば使用されます。
最新のモデル: 2023年、フランスのスタートアップMistral AIがオープンソースモデルMixtral 8x7Bをリリースしました。これは高品質のスパースMoEモデルで、複数の言語をサポートし、コード生成に優れた性能を示しています。