Slide 10
Slide 10 text
10
©2024 ELYZA,Inc
GENIAC: Depth Up-Scaling (1/2)
継続学習にモデルのスケールアップを組み合わせることで、既存モデルから
到達可能な性能のトップラインを引き上げる試み
研究
開発
1
0-80
80層 140層
0-10
5-15
10-20
60-70
65-75
70-80
・・・
Depth Up-Scaling [1]
Up-scaling
Llama-3-120B の継続事前学習
「Meta-Llama-3-70B-Instruct」をベースにスケールアップ
• mergekitのpassthroughを使用し、層を部分的に重複させながら積む
• 右図の設定で、Llama-3-120B (1,220億パラメータ) を作成
Llama-3-120Bに対し、約150Bトークンの追加事前学習と、事後学習を実施
[1] https://arxiv.org/abs/2312.15166