Slide 1

Slide 1 text

PFNにおけるSmall Language Modelの開発 
 鈴木 脩司
 (株式会社Preferred Networks/株式会社Preferred Elements)


Slide 2

Slide 2 text

2 自己紹介 経歴: ●-2015/03: 東京工業大学 博士後期課程 ●2015/04-2017/04: 富士通研究所 ●2017/05-現在: Preferred Networks (PFN) ● 2023/11: Preferred Elements (PFE)に出向中 現在の主な業務: 大規模言語モデルを開発するチームの一つの事前学習のチームリーダー

Slide 3

Slide 3 text

3 PFNグループについて ソリューション・製品 計算基盤 AIチップ 生成AI・基盤モデル 様々な産業・消費者向けのソリューション・製品群 GPUクラスタ MN-Core™ クラスタ (MN-3) MN-Core™2 クラスタ MN-Core™ 2による 計算能力のクラウド提供 (2024年開始予定) 物質の電子状態・ エネルギー計算モデル Preferred Potential (PFP) ● PFNグループでは、チップ、計算基盤、生成AI・基盤モデル、ソリューション・製品まで、AI技術のバリュー チェーンを垂直統合して独自開発しています PLaMo Prime PLaMo Lite(エッジ向けSLM) MN-Core™ MN-Core™ 2 MN-Core 第三世代 LLM向け 推論チップ

Slide 4

Slide 4 text

4 製造業、素材産業、医療、金融などの専門領域での応用を目指す PLaMo: 世界最高クラスの日本語性能を持つ純国産の生成 AI基盤モデル ● 独自構築したアーキテクチャ・ 学習データ・事前学習・事後学習 ● 他社の縛りがなく、学習が管理 された純国産の基盤モデル ● 主要な日本語ベンチマークにお いて全LLMを超える精度を記録 ● 日本に関する知識についても高 い性能を達成 ● 閉じたオンプレミス環境でも利 用可能 純国産フルスクラッチモデル 世界最高クラスの日本語性能 クラウドおよびオンプレミス で利用可能

Slide 5

Slide 5 text

5 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構(NEDO)が 実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) ● GENIAC 第2期の支援を受けて実施 PLaMo 2 事前学習の目的・目標 PLaMo-13B (2023/9) ● 13Bパラメータ ● ABCI の”第一回 大規模言語モデル構築支援プログラム”を利用 PLaMo-100B (2024/5) ● 100Bパラメータ ● GENIAC 第1期の支援を受けて実施

Slide 6

Slide 6 text

6 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構(NEDO)が 実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) ● GENIAC 第2期の支援を受けて実施 PLaMo 2 事前学習の目的・目標 PLaMo-13B (2023/9) ● 13Bパラメータ ● ABCI の”第一回 大規模言語モデル構築支援プログラム”を利用 PLaMo-100B (2024/5) ● 100Bパラメータ ● GENIAC 第1期の支援を受けて実施 問題点 ● 数学・コーディング等の能力が乏しい ● モデルが大きく様々なコストがかさむ ○ 推論にかかるGPUコスト ○ fine tuningなどで必要な計算資源

Slide 7

Slide 7 text

7 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構(NEDO)が 実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) ● GENIAC 第2期の支援を受けて実施中 PLaMo 2 事前学習の目的・目標 PLaMo-13B (2023/9) ● 13Bパラメータ ● ABCI の”第一回 大規模言語モデル構築支援プログラム”を利用 PLaMo-100B (2024/5) ● 100Bパラメータ ● GENIAC 第1期の支援を受けて実施 問題点 ● 数学・コーディング等の能力が乏しい ● モデルが大きく様々なコストがかさむ ○ 推論にかかるGPUコスト ○ fine tuningなどで必要な計算資源 PLaMo 2に求めるもの ● PLaMo-100Bと同等以上の能力 ○ 日本語一般のタスクでPLaMo-100Bと同等 ○ 数学・コーディングなどではPLaMo-100Bを上回る ● より小さなモデルサイズ ○ 8Bパラメータ以下で高い精度を目指す ■ この過程で1Bなどの小さいサイズのモデルを作り検証

Slide 8

Slide 8 text

8 PLaMo 2 のSLMの精度まとめ JMMLU (5-shot) 日本語による幅広いマルチタスク pfgen 日本語生成に関する性能 後ほど紹介するpruning + knowledge distillationを活用して、8Bモデルから作った2Bモデ ルの精度は以下の通り

Slide 9

Slide 9 text

9 効率よく計算資源を使う モデルサイズを抑えて性能を上げるために 計算資源を増やす ● 高品質なデータセットを使って学習する (e.g., wiki) ● 学習token数を増やす (overtraining) ● 大きいモデル を活用して小さいモデル を作る

Slide 10

Slide 10 text

10 効率よく計算資源を使う モデルサイズを抑えて性能を上げるために 計算資源を増やす ● 高品質なデータセットを使って学習する (e.g., wiki) ● 学習token数を増やす (overtraining) ● 大きいモデル を活用して小さいモデル を作る 今回はこちらに絞る

Slide 11

Slide 11 text

11 計算資源を増やす モデルサイズを抑えて性能を上げるために ● 学習token数を増やす (overtraining) ● 大きいモデル を活用して 小さいモデル を作る Minitron http://arxiv.org/abs/2407.14679

Slide 12

Slide 12 text

12 計算資源を増やす モデルサイズを抑えて性能を上げるために ● 学習token数を増やす (overtraining) ● 大きいモデル を活用して 小さいモデル を作る Minitron http://arxiv.org/abs/2407.14679

Slide 13

Slide 13 text

13 : モデルサイズ : 学習token量 : loss 実現が簡単な一方、性能向上はどこかで頭打ちになる 計算資源を増やす: overtraining モデルサイズが変わらないので一定 学習tokenを増やすと0に近づく

Slide 14

Slide 14 text

14 : モデルサイズ : 学習token量 : loss 実現が簡単な一方、性能向上はどこかで頭打ちになる 計算資源を増やす: overtraining モデルサイズが変わらないので一定 学習tokenを増やすと0に近づく Q. 8Bモデルの場合どのくらいで頭打ちになるのか? A. ある論文の実験を参考にすると、2~3Ttokenで限界となる可能性 [Language models scale reliably with over-training and on downstream tasks]

Slide 15

Slide 15 text

15 : モデルサイズ : 学習token量 : loss 実現が簡単な一方、性能向上はどこかで頭打ちになる 計算資源を増やす: overtraining モデルサイズが変わらないので一定 学習tokenを増やすと0に近づく Q. 8Bモデルの場合どのくらいで頭打ちになるのか? A. ある論文の実験を参考にすると、2~3Ttokenで限界となる可能性 [Language models scale reliably with over-training and on downstream tasks] overtrainingは効果が薄い可能性

Slide 16

Slide 16 text

16 計算資源を増やす モデルサイズを抑えて性能を上げるために ● 学習token数を増やす (overtraining) ● 大きいモデル を活用して 小さいモデル を作る Minitron http://arxiv.org/abs/2407.14679

Slide 17

Slide 17 text

17 小さいモデル 大きいモデルを活用して小さいモデルを作る 大きいモデル pruning + knowledge distillation [Compact Language Models via Pruning and Knowledge Distillation] 別のモデルを学習してその重みを利用する

Slide 18

Slide 18 text

18 PLaMo 2 の検証: overtraining ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない 100Btoken 1Ttoken 4Ttoken (PLaMo-2-1B) 100Btoken

Slide 19

Slide 19 text

19 PLaMo 2 の検証: overtraining ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない 100Btoken 1Ttoken 4Ttoken (PLaMo-2-1B) 100Btoken overtrainingの限界が見える

Slide 20

Slide 20 text

20 PLaMo 2 の検証: pruning + knowledge distillation ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない 4Ttoken (PLaMo-2-1B) 100Btoken w/ pruning + knowledge distillation 400Btoken 6Ttoken (PLaMo-2-8B ) 学習継続 pruning + knowledge distillation pruning + knowledge distillationによって モデル性能を改善できそう

Slide 21

Slide 21 text

21 PLaMo 2 の検証: pruning + knowledge distillation ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない 4Ttoken (PLaMo-2-1B) 100Btoken w/ pruning + knowledge distillation 400Btoken 6Ttoken (PLaMo-2-8B ) 学習継続 pruning + knowledge distillation pruningによってモデル性能を改善できそう Distillation Scaling Law [arXiv.2502.08606] 十分token数が多ければknowledge distillationとovertrainingで 性能は変わらない pruning等も効果が乏しい可能性がある

Slide 22

Slide 22 text

22 Minitron: 教師モデルの学習後半で使うデータのみをpruningなどに用いる [Compact Language Models via Pruning and Knowledge Distillation] Pruning + knowledge distillationはなぜ性能改善につ ながったのか (仮説) overtraining pruning + knowledge distillation 前半データセットの学習 高品質データ その他データ 後半データセットの学習 高品質データ 後半データセットの学習 高品質データ

Slide 23

Slide 23 text

23 Minitron: 教師モデルの学習後半で使うデータのみをpruningなどに用いる [Compact Language Models via Pruning and Knowledge Distillation] Pruning + knowledge distillationはなぜ性能改善につ ながったのか (仮説) overtraining pruning + knowledge distillation 前半データセットの学習 高品質データ その他データ 後半データセットの学習 高品質データ 後半データセットの学習 高品質データ 高品質データのみで学習したことが性能改善の理由かもしれない (高品質なデータセットでovertrainingすれば性能は揃うかも) ● overtraining: 高品質データを大量に集めることは困難 ⇒ 高品質なデータセットでのovertrainingは難しい ● pruning (等): 同じ性能に到達するまでの学習tokenを短くできる ⇒ 高品質なデータセットのみを使用して学習できる

Slide 24

Slide 24 text

24 ● 方法は大きく以下の2つ ○ 計算資源を効率よく利用する ○ 学習に使う計算資源を増やす ● 既存研究をまとめると、計算資源を増やしての性能向上は難しそう ⇒ データセットの品質をあげて計算資源を効率よく利用することが重要 ● 学習手法の変更により間接的にデータセットの品質を上げることは可能 ○ pruningやknowledge distillationによって短い学習tokenで学習する等 ○ 他にも工夫のしどころはあるかもしれない まとめ