sMLP アーキテクチャの概略図
N1 個の密なブロック (Dense Blocks) と
N2 個の疎なブロック (Sparse Blocks)で構成
異なるトークンの特徴量の
同じ次元を集めたベクトル
tMoE:ルーター (router) が、トークン単位 (x1,x2,...) で、どのエキスパート FF1, FF2, ... に割り振るかを決定。
sMoE:入力を特徴量の次元方向に分割したもの (y1,y2,...) を、それぞれどのエキスパート SL1, SL2, ..., に割り振るかを決定。
tMoEのみだと同じ隠れ次元の情報が異なるExpert(処理部)へ渡ってしまうため、精度が上がらない
そのため、sMoEにより同じ隠れ次元のベクトルを同じExpert(処理部)へ渡すことで、
前のトークンの情報へアクセスでき精度が上がる
背景:gMLPでは下流タスクでは精度が出ていない。
空間ゲーティング層を使った MLP モデルgMLP:
この主要な密なブロックを粗なブロックへ置き換えることで計算コストは変わらず、表現力を向上
混合エキスパートモデル (Mixture of Experts):
複数個の部分ネットワークに計算を動的に割り振り、その結果を統合する構造を持ったネットワーク。
モデルの重みと計算が、異なるデバイス (GPU) 上のエキスパート (専門家) に割り振られ、計算量を増や
すことなく、モデルの容量を大幅に上げ、訓練も高速化できるという特徴がある。