合成データパイプラインを利用したSwallowProjectにおけるLLM性能向上

合成データパイプラインを利用したSwallowProjectにおけるLLMの性能向上東京科学大学 (Institute of Science Tokyo) 情報理工学院修士2年藤井
一喜

Swallow Project オープンモデルを利用して英語と日本語に強い大規模言語モデル (LLM) を研究開発する • 東京科学大学、産総研の共同研究 ◦
岡崎研究室 (NLP) ◦ 横田研究室 (HPC, ML) • 数多くの日本語LLMをリリース ◦ これまでに12モデルシリーズを公開 ▪ Llama 3, Gemma 2ベースが最新 ◦ 産業応用を見据えたモデル開発 2

背景: 合成データの利用 Microsoft Research Phi [1] 以降、LLMを利用して作成された”合成データ”の利用が進んでいる[2]。 GPT-5の学習でも使用されていることが明言されている[3]。 • 合成データの利点
◦ 人手によるアノテーションやデータ作成を必要としない ◦ 計算資源(GPU)があれば、スケールする場合が多い • 合成データの欠点 ◦ 多様性が失われやすい (形式、内容の類似) ◦ 事実性の担保が容易ではない (ハルシネーションした結果が混入) ◦ 生成元のモデルのライセンスに縛られる Swallow Projectでも、日本語データ、コード、数学データの高品質化のために合成データを利用 [1] Textbooks Are All You Need: https://arxiv.org/abs/2306.11644 [2] Qwen3 Technical Report: https://arxiv.org/abs/2505.09388 [3] Mark Chen: GPT-5, Open-Source, Agents, Future of OpenAI, and more!: https://www.youtube.com/watch?v=SOP4W2hid8A&t=279s 3

効果検証: 合成データを用いた LLMの強化合成データパイプラインを作成し検証 → 日本語QA、コード生成、数学的推論で性能向上 • コーディングタスクで16〜17ポイント向上 (右上図)
• 数学タスクで7〜12ポイント向上(右下図) → オープンに公開されているデータセットからでも高性能なLLM(Llama-3超え)を作成することが可能知見を論文で公開済み[4] データセットも公開済み[5][6] [4] Rewriting Pre-Training Data Boosts LLM Performance in Math and Code [5] https://huggingface.co/datasets/tokyotech-llm/swallow-code [6] https://huggingface.co/datasets/tokyotech-llm/swallow-math 4 Rewriting Pre-Training Data Boosts LLM Performance in Math and Code 表1より Rewriting Pre-Training Data Boosts LLM Performance in Math and Code 表5より

技術的な工夫と合成データ作成パイプライン • 多様性の確保 ◦ LLMごとに作成しやすい形式、内容に偏りがある ◦ 生成する内容のキーワード等を渡すだけでは限界がある (Billion scaleにはならない) →
オープンデータをフィルタリング後、Rephrasing や Rewriting することで対処 → 多様性の確保と品質向上を両立 (形式の類似性などは依然課題 ) • 低精度の利用 ◦ コスト削減のために量子化モデルを利用 (Weight: FP8, Activation: FP8) ◦ 性能に影響を与えないかは、下流タスクで検証してから利用合成データ作成パイプライン (右図) • オレンジ色の箇所でGPU (H100: P5インスタンス )を利用 ◦ 環境構築が容易なSagemaker HyperPodを利用し学習の隙間で実施 • オープンなデータ(stack v2)からステージ1, 2でフィルタリングを実施 • その後、Rewriting(LLMによる書き換え)をステージ3, 4で実施 5 Rewriting Pre-Training Data Boosts LLM Performance in Math and Code 表2より

プロジェクト進行上の困難 • 合成データ作成に要するコストの多さ ◦ 8Bモデルを750Bトークン学習するコストと、16Bトークンの合成データを作成するコストは同規模 → 上手くいく保証がない合成データに大量の計算資源を投下してしまう危険性 → 小規模作成して人手で評価
し、明らかな品質的改善が得られるまで大規模化しない (本来の利点である人手からの解放が部分的に脅かされている) • vLLMプロセスの死活監視 ◦ 合成データを作成中はGPUは確保し続ける必要あり → 長期間利用することになる(=コストも莫大) → フィルタリングのミスやデータ配置のミス、GPUの不具合でProcessが停止しうる → プロセスを監視し、問題が発生するとSlackに通知する機構を構築 • チーム内での方向性のすり合わせ ◦ 合成データパイプラインの整備 → 実験 → 検証 → 改善案 → パイプラインの修正 … を繰り返す → どの評価タスクを上げたいのか、実験Aで期待される効果は何なのかなど、共有されている必要あり → 作業に取り掛かる前に、目標、期待される効果を相互に確認分析結果も、齟齬がないか2人以上で確認 6

合成データパイプラインを利用したSwallowProjectにおけるLLM性能向上

合成データパイプラインを利用したSwallowProjectにおけるLLM性能向上

Kazuki Fujii

More Decks by Kazuki Fujii

Featured

Transcript

合成データパイプラインを利用したSwallowProjectにおけるLLMの性能向上東京科学大学 (Institute of Science Tokyo) 情報理工学院修士2年藤井

Swallow Project オープンモデルを利用して英語と日本語に強い大規模言語モデル (LLM) を研究開発する • 東京科学大学、産総研の共同研究 ◦

背景: 合成データの利用 Microsoft Research Phi [1] 以降、LLMを利用して作成された”合成データ”の利用が進んでいる[2]。 GPT-5の学習でも使用されていることが明言されている[3]。 • 合成データの利点

効果検証: 合成データを用いた LLMの強化合成データパイプラインを作成し検証 → 日本語QA、コード生成、数学的推論で性能向上 • コーディングタスクで16〜17ポイント向上 (右上図)

技術的な工夫と合成データ作成パイプライン • 多様性の確保 ◦ LLMごとに作成しやすい形式、内容に偏りがある ◦ 生成する内容のキーワード等を渡すだけでは限界がある (Billion scaleにはならない) →

合成データパイプラインを利用したSwallowProjectに おけるLLM性能向上

合成データパイプラインを利用したSwallowProjectに おけるLLM性能向上

Kazuki Fujii

More Decks by Kazuki Fujii

Featured

Transcript

合成データパイプラインを利用したSwallowProjectに おけるLLMの性能向上 東京科学大学 (Institute of Science Tokyo) 情報理工学院 修士2年 藤井

Swallow Project オープンモデルを利用して 英語と日本語に強い 大規模言語モデル (LLM) を研究開発する • 東京科学大学、産総研の共同研究 ◦

背景: 合成データの利用 Microsoft Research Phi [1] 以降、LLMを利用して作成された”合成データ”の利用が進んでいる[2]。 GPT-5の学習でも使用されていることが明言されている[3]。 • 合成データの利点

効果検証: 合成データを用いた LLMの強化 合成データパイプラインを作成し検証 → 日本語QA、コード生成、数学的推論で 性能向上 • コーディングタスクで16〜17ポイント向上 (右上図)

技術的な工夫と合成データ作成パイプライン • 多様性の確保 ◦ LLMごとに作成しやすい形式、内容に偏りがある ◦ 生成する内容のキーワード等を渡すだけでは限界がある (Billion scaleにはならない) →

合成データパイプラインを利用したSwallowProjectにおけるLLM性能向上

合成データパイプラインを利用したSwallowProjectにおけるLLM性能向上

合成データパイプラインを利用したSwallowProjectにおけるLLMの性能向上東京科学大学 (Institute of Science Tokyo) 情報理工学院修士2年藤井

Swallow Project オープンモデルを利用して英語と日本語に強い大規模言語モデル (LLM) を研究開発する • 東京科学大学、産総研の共同研究 ◦

効果検証: 合成データを用いた LLMの強化合成データパイプラインを作成し検証 → 日本語QA、コード生成、数学的推論で性能向上 • コーディングタスクで16〜17ポイント向上 (右上図)