A Systematic Study of Scaling Laws, Benefits, and Pitfalls 合成データのスケーリング則と混合戦略 [Kang+, arXiv 2025] (1/3) 研究の目的:LLMの事前学習における合成データの効果・限界・スケーリング則を、大規模な実証実験 により体系的に評価し、実用的な指針を提供する。 実験条件: • 学習規模:最大3Bパラメータの1000以上のLLMを学習(計10万GPU時間) • データ生成手法: • Synthetic Textbooks (TXBK):CommonCrawl (CC)から抽出したキーワードに基づき教科書の ような完全に新しいテキストを生成 • H Q Rephrasing:CC文書を高品質で一貫性のあるWikipediaのようなテキストに書き換え • QA Rephrasing:CC文書を、質問応答形式の会話形式に書き換え • データ混合:0, 33, 67, 100%の4段階の混合比で比較 研究課題: • RQ1:合成データは事前学習の性能を向上できるか? • RQ2:どのようなタイプの合成データが有効か? • RQ3:合成データの最適な混合比や生成モデルのサイズの影響は?