◦ 人手によるアノテーションやデータ作成を必要としない ◦ 計算資源(GPU)があれば、スケールする場合が多い • 合成データの欠点 ◦ 多様性が失われやすい (形式、内容の類似) ◦ 事実性の担保が容易ではない (ハルシネーションした結果が混入) ◦ 生成元のモデルのライセンス に縛られる Swallow Projectでも、日本語データ、コード、数学データの高品質化のために合成データを利用 [1] Textbooks Are All You Need: https://arxiv.org/abs/2306.11644 [2] Qwen3 Technical Report: https://arxiv.org/abs/2505.09388 [3] Mark Chen: GPT-5, Open-Source, Agents, Future of OpenAI, and more!: https://www.youtube.com/watch?v=SOP4W2hid8A&t=279s 3