Slide 22
Slide 22 text
① Pretraining
モデルアーキテクチャ
● 基本的には今の所 Transformer 一択
● 細かい差異によりじわじわと進化している
例
● 活性化関数: SwiGLU, SquaredReLU, ……
● 位置埋め込み: RoPE系, ALiBi, ……
● 注意機構: MQA, GQA, SWA, ……
ちなみに、GPT-4に関して言うと、学習されたのが少し昔だし、そんなに先進的なアーキテクチャを利用していないのではないかと予想。
実際、この辺で工夫するために試行錯誤に時間使うぐらいなら、その分だけモデルを大きくして長く学習する方が、性能が良くなるかもしれない。
一方で、特に最近の小さいサイズのモデルの進化(Mistral 7B等)には、この辺の進歩も結構寄与しているかもしれない。