• 活性化関数: SwiGLU, SquaredReLU, …… • 位置埋め込み: RoPE系, ALiBi, …… • 注意機構: MQA, GQA, SWA, …… ちなみに、GPT-4に関して言うと、学習されたのが少し昔だし、そんなに先進的なアーキテクチャを利用していないのではないかと予想。 実際、この辺で工夫するために試行錯誤に時間使うぐらいなら、その分だけモデルを大きくして長く学習する方が、性能が良くなるかもしれない。 一方で、特に最近の小さいサイズのモデルの進化(Mistral 7B等)には、この辺の進歩も結構寄与しているかもしれない。