Slide 32
Slide 32 text
IsoFLOPによる最適なパラメータ数・訓練データ量の推定
31
①計算能⼒を𝐶 10 , 10 , 10 , 10 に固定し、
パラメータ数( 𝑁 )を変えつつ学習曲線を描き、
その際に必要な訓練データ量(𝐷)を経験則
𝐷 𝐶/6𝑁で求める。学習曲線を⼆次関数で
フィッティングして、極⼩となる点を求める
②計算能⼒𝐶 10 , 10 , 10 , 10 を横軸、パラメータ数および
訓練データを縦軸にして①で求めた⾕底の点を両対数でプロット
すると、べき乗則を確認できる。さらに、この2つの直線の傾きを
求めると𝑎 0.49, 𝑏 0.51となった。
スケーリング則の通り、パラメータ数、訓練データ量、計算能⼒の間にべき乗則
Hoffmann+ (2022) の通り、計算能⼒を増やすとき、パラメータ数と訓練データ量は
1:1の⽐率で増やしていくのがよいことが実験的に⽰された
J Hoffmann et al. 2022. Training Compute-Optimal Large Language Models. NeurIPS.