Upgrade to Pro — share decks privately, control downloads, hide ads and more …

合成データパイプラインを利用したSwallowProjectに おけるLLM性能向上

Avatar for Kazuki Fujii Kazuki Fujii
August 26, 2025
180

合成データパイプラインを利用したSwallowProjectに おけるLLM性能向上

Avatar for Kazuki Fujii

Kazuki Fujii

August 26, 2025
Tweet

Transcript

  1. Swallow Project オープンモデルを利用して 英語と日本語に強い 大規模言語モデル (LLM) を研究開発する • 東京科学大学、産総研の共同研究 ◦

    岡崎研究室 (NLP) ◦ 横田研究室 (HPC, ML) • 数多くの日本語LLMをリリース ◦ これまでに12モデルシリーズ を公開 ▪ Llama 3, Gemma 2ベースが最新 ◦ 産業応用 を見据えたモデル開発 2
  2. 背景: 合成データの利用 Microsoft Research Phi [1] 以降、LLMを利用して作成された”合成データ”の利用が進んでいる[2]。 GPT-5の学習でも使用されていることが明言されている[3]。 • 合成データの利点

    ◦ 人手によるアノテーションやデータ作成を必要としない ◦ 計算資源(GPU)があれば、スケールする場合が多い • 合成データの欠点 ◦ 多様性が失われやすい (形式、内容の類似) ◦ 事実性の担保が容易ではない (ハルシネーションした結果が混入) ◦ 生成元のモデルのライセンス に縛られる Swallow Projectでも、日本語データ、コード、数学データの高品質化のために合成データを利用 [1] Textbooks Are All You Need: https://arxiv.org/abs/2306.11644 [2] Qwen3 Technical Report: https://arxiv.org/abs/2505.09388 [3] Mark Chen: GPT-5, Open-Source, Agents, Future of OpenAI, and more!: https://www.youtube.com/watch?v=SOP4W2hid8A&t=279s 3
  3. 効果検証: 合成データを用いた LLMの強化 合成データパイプラインを作成し検証 → 日本語QA、コード生成、数学的推論で 性能向上 • コーディングタスクで16〜17ポイント向上 (右上図)

    • 数学タスクで7〜12ポイント向上(右下図) → オープンに公開されているデータセットからでも 高性能なLLM(Llama-3超え)を作成することが可能 知見を論文で公開済み[4] データセットも公開済み[5][6] [4] Rewriting Pre-Training Data Boosts LLM Performance in Math and Code [5] https://huggingface.co/datasets/tokyotech-llm/swallow-code [6] https://huggingface.co/datasets/tokyotech-llm/swallow-math 4 Rewriting Pre-Training Data Boosts LLM Performance in Math and Code 表1より Rewriting Pre-Training Data Boosts LLM Performance in Math and Code 表5より
  4. 技術的な工夫と合成データ作成パイプライン • 多様性の確保 ◦ LLMごとに作成しやすい形式、内容に偏りがある ◦ 生成する内容のキーワード等を渡すだけでは限界がある (Billion scaleにはならない) →

    オープンデータをフィルタリング後、Rephrasing や Rewriting することで対処 → 多様性の確保 と品質向上を両立 (形式の類似性などは依然課題 ) • 低精度の利用 ◦ コスト削減のために量子化モデル を利用 (Weight: FP8, Activation: FP8) ◦ 性能に影響を与えないかは、下流タスクで検証してから利用 合成データ作成パイプライン (右図) • オレンジ色の箇所でGPU (H100: P5インスタンス )を利用 ◦ 環境構築が容易なSagemaker HyperPodを利用し学習の隙間で実施 • オープンなデータ(stack v2)からステージ1, 2でフィルタリングを実施 • その後、Rewriting(LLMによる書き換え)をステージ3, 4で実施 5 Rewriting Pre-Training Data Boosts LLM Performance in Math and Code 表2より
  5. プロジェクト進行上の困難 • 合成データ作成に要する コストの多さ ◦ 8Bモデルを750Bトークン学習するコストと、16Bトークンの合成データを作成するコストは同規模 → 上手くいく保証がない合成データに大量の計算資源を投下してしまう危険性 → 小規模作成して人手で評価

    し、明らかな品質的改善が得られるまで大規模化しない (本来の利点である人手からの解放が部分的に脅かされている) • vLLMプロセスの死活監視 ◦ 合成データを作成中はGPUは確保し続ける必要あり → 長期間利用することになる(=コストも莫大) → フィルタリングのミスやデータ配置のミス、GPUの不具合でProcessが停止しうる → プロセスを監視 し、問題が発生するとSlackに通知する機構を構築 • チーム内での方向性のすり合わせ ◦ 合成データパイプラインの整備 → 実験 → 検証 → 改善案 → パイプラインの修正 … を繰り返す → どの評価タスクを上げたいのか、実験Aで期待される効果は何なのかなど、共有されている必要あり → 作業に取り掛かる前に、目標、期待される効果を相互に確認 分析結果も、齟齬がないか2人以上で確認 6