SSII2025 [OS1-03] PFNにおけるSmall Language Modelの開発

by 画像センシングシンポジウム

Slide 1

Slide 1 text

PFNにおけるSmall Language Modelの開発   鈴木脩司  （株式会社Preferred Networks/株式会社Preferred Elements） 

Slide 2

Slide 2 text

2 自己紹介経歴: ●-2015/03: 東京工業大学　博士後期課程 ●2015/04-2017/04: 富士通研究所 ●2017/05-現在: Preferred Networks (PFN) ● 2023/11: Preferred Elements (PFE)に出向中現在の主な業務: 大規模言語モデルを開発するチームの一つの事前学習のチームリーダー

Slide 3

Slide 3 text

3 PFNグループについてソリューション・製品計算基盤 AIチップ生成AI・基盤モデル様々な産業・消費者向けのソリューション・製品群 GPUクラスタ MN-Core™ クラスタ（MN-3） MN-Core™2 クラスタ MN-Core™ 2による計算能力のクラウド提供 (2024年開始予定）物質の電子状態・エネルギー計算モデル Preferred Potential (PFP) ● PFNグループでは、チップ、計算基盤、生成AI・基盤モデル、ソリューション・製品まで、AI技術のバリューチェーンを垂直統合して独自開発しています PLaMo Prime PLaMo Lite（エッジ向けSLM） MN-Core™ MN-Core™ 2 MN-Core 第三世代 LLM向け推論チップ

Slide 4

Slide 4 text

4 製造業、素材産業、医療、金融などの専門領域での応用を目指す PLaMo：世界最高クラスの日本語性能を持つ純国産の生成 AI基盤モデル ● 独自構築したアーキテクチャ・学習データ・事前学習･事後学習 ● 他社の縛りがなく、学習が管理された純国産の基盤モデル ● 主要な日本語ベンチマークにおいて全LLMを超える精度を記録 ● 日本に関する知識についても高い性能を達成 ● 閉じたオンプレミス環境でも利用可能純国産フルスクラッチモデル世界最高クラスの日本語性能クラウドおよびオンプレミスで利用可能

Slide 5

Slide 5 text

5 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構（NEDO）が実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) ● GENIAC 第2期の支援を受けて実施 PLaMo 2 事前学習の目的・目標 PLaMo-13B (2023/9) ● 13Bパラメータ ● ABCI の”第一回大規模言語モデル構築支援プログラム”を利用 PLaMo-100B (2024/5) ● 100Bパラメータ ● GENIAC 第1期の支援を受けて実施

Slide 6

Slide 6 text

6 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構（NEDO）が実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) ● GENIAC 第2期の支援を受けて実施 PLaMo 2 事前学習の目的・目標 PLaMo-13B (2023/9) ● 13Bパラメータ ● ABCI の”第一回大規模言語モデル構築支援プログラム”を利用 PLaMo-100B (2024/5) ● 100Bパラメータ ● GENIAC 第1期の支援を受けて実施問題点 ● 数学・コーディング等の能力が乏しい ● モデルが大きく様々なコストがかさむ ○ 推論にかかるGPUコスト ○ ﬁne tuningなどで必要な計算資源

Slide 7

Slide 7 text

7 GENIAC: 経済産業省及び国立研究開発法人新エネルギー‧産業技術総合開発機構（NEDO）が実施する、国内の生成AIの開発力を強化するためのプロジェクト PLaMo 2 (2025/1~) ● GENIAC 第2期の支援を受けて実施中 PLaMo 2 事前学習の目的・目標 PLaMo-13B (2023/9) ● 13Bパラメータ ● ABCI の”第一回大規模言語モデル構築支援プログラム”を利用 PLaMo-100B (2024/5) ● 100Bパラメータ ● GENIAC 第1期の支援を受けて実施問題点 ● 数学・コーディング等の能力が乏しい ● モデルが大きく様々なコストがかさむ ○ 推論にかかるGPUコスト ○ ﬁne tuningなどで必要な計算資源 PLaMo 2に求めるもの ● PLaMo-100Bと同等以上の能力 ○ 日本語一般のタスクでPLaMo-100Bと同等 ○ 数学・コーディングなどではPLaMo-100Bを上回る ● より小さなモデルサイズ ○ 8Bパラメータ以下で高い精度を目指す ■ この過程で1Bなどの小さいサイズのモデルを作り検証

Slide 8

Slide 8 text

8 PLaMo 2 のSLMの精度まとめ JMMLU (5-shot) 日本語による幅広いマルチタスク pfgen 日本語生成に関する性能後ほど紹介するpruning + knowledge distillationを活用して、8Bモデルから作った2Bモデルの精度は以下の通り

Slide 9

Slide 9 text

9 効率よく計算資源を使うモデルサイズを抑えて性能を上げるために計算資源を増やす ● 高品質なデータセットを使って学習する (e.g., wiki) ● 学習token数を増やす (overtraining) ● 大きいモデルを活用して小さいモデルを作る

Slide 10

Slide 10 text

10 効率よく計算資源を使うモデルサイズを抑えて性能を上げるために計算資源を増やす ● 高品質なデータセットを使って学習する (e.g., wiki) ● 学習token数を増やす (overtraining) ● 大きいモデルを活用して小さいモデルを作る今回はこちらに絞る

Slide 11

Slide 11 text

11 計算資源を増やすモデルサイズを抑えて性能を上げるために ● 学習token数を増やす (overtraining) ● 大きいモデルを活用して小さいモデルを作る Minitron http://arxiv.org/abs/2407.14679

Slide 12

Slide 12 text

12 計算資源を増やすモデルサイズを抑えて性能を上げるために ● 学習token数を増やす (overtraining) ● 大きいモデルを活用して小さいモデルを作る Minitron http://arxiv.org/abs/2407.14679

Slide 13

Slide 13 text

13 : モデルサイズ : 学習token量 : loss 実現が簡単な一方、性能向上はどこかで頭打ちになる計算資源を増やす: overtraining モデルサイズが変わらないので一定学習tokenを増やすと0に近づく

Slide 14

Slide 14 text

14 : モデルサイズ : 学習token量 : loss 実現が簡単な一方、性能向上はどこかで頭打ちになる計算資源を増やす: overtraining モデルサイズが変わらないので一定学習tokenを増やすと0に近づく Q. 8Bモデルの場合どのくらいで頭打ちになるのか？ A. ある論文の実験を参考にすると、2~3Ttokenで限界となる可能性 [Language models scale reliably with over-training and on downstream tasks]

Slide 15

Slide 15 text

15 : モデルサイズ : 学習token量 : loss 実現が簡単な一方、性能向上はどこかで頭打ちになる計算資源を増やす: overtraining モデルサイズが変わらないので一定学習tokenを増やすと0に近づく Q. 8Bモデルの場合どのくらいで頭打ちになるのか？ A. ある論文の実験を参考にすると、2~3Ttokenで限界となる可能性 [Language models scale reliably with over-training and on downstream tasks] overtrainingは効果が薄い可能性

Slide 16

Slide 16 text

16 計算資源を増やすモデルサイズを抑えて性能を上げるために ● 学習token数を増やす (overtraining) ● 大きいモデルを活用して小さいモデルを作る Minitron http://arxiv.org/abs/2407.14679

Slide 17

Slide 17 text

17 小さいモデル大きいモデルを活用して小さいモデルを作る大きいモデル pruning + knowledge distillation [Compact Language Models via Pruning and Knowledge Distillation] 別のモデルを学習してその重みを利用する

Slide 18

Slide 18 text

18 PLaMo 2 の検証: overtraining ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない 100Btoken 1Ttoken 4Ttoken (PLaMo-2-1B) 100Btoken

Slide 19

Slide 19 text

19 PLaMo 2 の検証: overtraining ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない 100Btoken 1Ttoken 4Ttoken (PLaMo-2-1B) 100Btoken overtrainingの限界が見える

Slide 20

Slide 20 text

20 PLaMo 2 の検証: pruning + knowledge distillation ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない 4Ttoken (PLaMo-2-1B) 100Btoken w/ pruning + knowledge distillation 400Btoken 6Ttoken (PLaMo-2-8B ) 学習継続 pruning + knowledge distillation pruning + knowledge distillationによってモデル性能を改善できそう

Slide 21

Slide 21 text

21 PLaMo 2 の検証: pruning + knowledge distillation ※ データセットは時期により多少異なり、厳密にはapple-to-appleな比較でない 4Ttoken (PLaMo-2-1B) 100Btoken w/ pruning + knowledge distillation 400Btoken 6Ttoken (PLaMo-2-8B ) 学習継続 pruning + knowledge distillation pruningによってモデル性能を改善できそう Distillation Scaling Law [arXiv.2502.08606] 十分token数が多ければknowledge distillationとovertrainingで性能は変わらない pruning等も効果が乏しい可能性がある

Slide 22

Slide 22 text

22 Minitron: 教師モデルの学習後半で使うデータのみをpruningなどに用いる [Compact Language Models via Pruning and Knowledge Distillation] Pruning + knowledge distillationはなぜ性能改善につながったのか (仮説) overtraining pruning + knowledge distillation 前半データセットの学習高品質データその他データ後半データセットの学習高品質データ後半データセットの学習高品質データ

Slide 23

Slide 23 text

23 Minitron: 教師モデルの学習後半で使うデータのみをpruningなどに用いる [Compact Language Models via Pruning and Knowledge Distillation] Pruning + knowledge distillationはなぜ性能改善につながったのか (仮説) overtraining pruning + knowledge distillation 前半データセットの学習高品質データその他データ後半データセットの学習高品質データ後半データセットの学習高品質データ高品質データのみで学習したことが性能改善の理由かもしれない (高品質なデータセットでovertrainingすれば性能は揃うかも) ● overtraining: 高品質データを大量に集めることは困難 ⇒ 高品質なデータセットでのovertrainingは難しい ● pruning (等): 同じ性能に到達するまでの学習tokenを短くできる ⇒ 高品質なデータセットのみを使用して学習できる

Slide 24

Slide 24 text

24 ● 方法は大きく以下の2つ ○ 計算資源を効率よく利用する ○ 学習に使う計算資源を増やす ● 既存研究をまとめると、計算資源を増やしての性能向上は難しそう ⇒ データセットの品質をあげて計算資源を効率よく利用することが重要 ● 学習手法の変更により間接的にデータセットの品質を上げることは可能 ○ pruningやknowledge distillationによって短い学習tokenで学習する等 ○ 他にも工夫のしどころはあるかもしれないまとめ