Slide 19
Slide 19 text
19
[Kang+, arXiv 2025] Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls
合成データのスケーリング則と混合戦略 [Kang+, arXiv 2025]
(1/3)
研究の目的:LLMの事前学習における合成データの効果・限界・スケーリング則を、大規模な実証実験
により体系的に評価し、実用的な指針を提供する。
実験条件:
• 学習規模:最大3Bパラメータの1000以上のLLMを学習(計10万GPU時間)
• データ生成手法:
• Synthetic Textbooks (TXBK):CommonCrawl (CC)から抽出したキーワードに基づき教科書の
ような完全に新しいテキストを生成
• H Q Rephrasing:CC文書を高品質で一貫性のあるWikipediaのようなテキストに書き換え
• QA Rephrasing:CC文書を、質問応答形式の会話形式に書き換え
• データ混合:0, 33, 67, 100%の4段階の混合比で比較
研究課題:
• RQ1:合成データは事前学習の性能を向上できるか?
• RQ2:どのようなタイプの合成データが有効か?
• RQ3:合成データの最適な混合比や生成モデルのサイズの影響は?