大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models

第5回福岡データエンジニアリング勉強会 2025年10月24日大規模言語モデルにおける Data-Centric AIと合成データの活用さくらインターネット株式会社鶴田博文

2 自己紹介鶴田博文（@tsurubee3）所属：さくらインターネット株式会社・株式会社COGNANO 最近の取り組み • 創薬、材料科学、システム運用等の分野におけるAI技術の研究開発に従事 •
AI創薬のためのデータセット構築に関する主著論文がNeurIPS 2023・2024のDatasets and Benchmarks Trackに2年連続採択

3 アジェンダ 1. Data-Centric AIの潮流 2. LLMとデータの接点：Data-Centric研究の分類 3. 合成データに関する注目論文の紹介

5 データカスケード [Sambasivan+, CHI 2021] • データカスケードの蔓延：インタビュー参加者53名のAI実務者の92%が1回以上、45.3%が 2回以上のデータカスケードを経験 [Sambasivan+,
CHI 2021] “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI データカスケード：データの問題から生じる負の影響が連鎖的に下流に波及していく事象 • データ作業の軽視：データ収集やアノテーションなどの作業はモデル開発と比較して、成果が適切に評価されづらく、インセンティブ（報酬や学術的成果など）が不足しているため、軽視される傾向にある。 • データカスケードの原因：現実世界との乖離、応用ドメイン領域の知識不足、相反する報酬システム、組織間におけるドキュメント不足により発生

6 • データ枯渇の予測：現在のLLM開発トレンドが継続した場合、モデルは2026年から 2032年の間に、利用可能な人間が生成したテキストデータの総量とほぼ同じサイズのデータセットで学習されると予測 • 今後の戦略：データ枯渇は避けられない可能性が高い。今後のLLMのスケーリングを維持
するためには以下の戦略が重要 [Villalobos+, ICML 2024] Will we run out of data? Limits of LLM scaling based on human-generated data 大規模言語モデル(LLM)のデータ枯渇 [Villalobos+, ICML 2024] • データ効率の改善 • 多様なデータ領域からの転移学習 • AIによる合成データ

7 ※論文数はGoogle Scholarで“data-centric AI”を検索し、ヒット数を集計 (※) https://www.youtube.com/watch?v=06-AZXmwHjo https://https-deeplearning-ai.github.io/data-centric-comp/ Andrew Ng先生の講演
コンペティションの開催 NeurIPSでワークショップ開催 NeurIPSで研究トラックが新設 https://datacentricai.org/neurips21/ https://neuripsconf.medium.com/announcing-the-neurips- 2021-datasets-and-benchmarks-track-644e27c1e66c Data-Centric AIに関する論文数の推移

9 LLMとデータの接点 [Xu+, EMNLP 2024] Position Paper: Data-Centric AI in
the Age of Large Language Models

10 LLMとデータの接点：① Data Curation LLMを学習するための膨大なデータを収集・選別・整形し、高品質で信頼性の高い学習データとして体系的に整備する。 [Xu+, EMNLP 2024] Position
Paper: Data-Centric AI in the Age of Large Language Models

11 LLMとデータの接点：② Attribution & Unlearning 著作権侵害や有害なメッセージなどの問題があるLLMの出力のソースを追跡（Attribution）し、その影響を除去（Unlearning）する。 [Xu+, EMNLP 2024]
Position Paper: Data-Centric AI in the Age of Large Language Models

12 LLMとデータの接点：③ Knowledge Transfer 大規模な汎用モデルが持つ知識を抽出し、特定のタスクに最適化された小規模モデルへ効率的に転移する。 [Xu+, EMNLP 2024] Position

13 LLMとデータの接点：④ Inference Contextualization LLMの推論時にRetrieval-augmented Generation (RAG)などの手法により、外部データや文脈情報を動的に取り込み、出力の精度と関連性を高める。 [Xu+, EMNLP
2024] Position Paper: Data-Centric AI in the Age of Large Language Models

14 LLMとデータの接点：注目論文の紹介今回は、Data CurationとKnowledge Transferに関連する「LLMによる合成データの活用」について、二つの注目論文を紹介する。 [Xu+, EMNLP 2024] Position

16 合成データによるモデル崩壊 [Shumailov+, Nature 2024] (1/3) [Shumailov+, Nature 2024] AI
models collapse when trained on recursively generated data • 研究の目的：将来、インターネット上のコンテンツの多くがAIによって生成されるようになると、新しいモデルはAI生成データを再び学習することになる。本研究では、AIが自ら生成した情報を再学習し続けたときに、モデルの性能や分布特性にどのような影響が生じるのかを明らかにする。 • モデル崩壊：学習済みのモデルが生成したデータが次世代モデルの学習データセットを汚染し、後続モデルが現実を誤って認識するようになる退化的なプロセスのこと。

models collapse when trained on recursively generated data • 実験条件：wikitext2で学習したOPT-125M (Generation 0)を起点に、前世代が生成したデータのみで再学習を繰り返す (Generation 1~9) • モデル崩壊の進行：世代を重ねるごとに、分布のピークが低Perplexity側にシフトし、予測しやすい（ありきたりな）文章ばかりを生成するようになる。一方、高Perplexity側にテールが伸びモデルが幻覚的・異常なサンプルを生成し始める。

models collapse when trained on recursively generated data • 実験条件： wikitext2で学習したOPT-125M (Generation 0)を起点に、前世代が生成したデータ (90%) とwikitext2からランダム抽出したデータ (10%)で再学習を繰り返す (Generation 1~9) • モデル崩壊の緩和：合成データのみの学習に比べて分布の形状が保たれる。人間が生成したデータを少量でも保持することで、モデル崩壊を抑制できることが示された。 → 人間生成データの価値が一層高まることを示唆。ただしAI生成データとの識別が不可欠。

19 [Kang+, arXiv 2025] Demystifying Synthetic Data in LLM Pre-training:
A Systematic Study of Scaling Laws, Benefits, and Pitfalls 合成データのスケーリング則と混合戦略 [Kang+, arXiv 2025] (1/3) 研究の目的：LLMの事前学習における合成データの効果・限界・スケーリング則を、大規模な実証実験により体系的に評価し、実用的な指針を提供する。実験条件： • 学習規模：最大3Bパラメータの1000以上のLLMを学習（計10万GPU時間） • データ生成手法： • Synthetic Textbooks (TXBK)：CommonCrawl (CC)から抽出したキーワードに基づき教科書のような完全に新しいテキストを生成 • H Q Rephrasing：CC文書を高品質で一貫性のあるWikipediaのようなテキストに書き換え • QA Rephrasing：CC文書を、質問応答形式の会話形式に書き換え • データ混合：0, 33, 67, 100%の4段階の混合比で比較研究課題： • RQ1：合成データは事前学習の性能を向上できるか？ • RQ2：どのようなタイプの合成データが有効か？ • RQ3：合成データの最適な混合比や生成モデルのサイズの影響は？

A Systematic Study of Scaling Laws, Benefits, and Pitfalls 合成データのタイプ • 教科書スタイルの合成データ (TXBK)を学習に用いた場合、Validation loss が明確に高く、性能が劣化する。 • 再言語化合成データ(HQやQA)では、自然データ (CC)と同等、あるいはわずかに良好な結果が得られた。合成データのスケーリング則と混合戦略 [Kang+, arXiv 2025] (2/3)

A Systematic Study of Scaling Laws, Benefits, and Pitfalls 合成データの混合比率 • CCに対して合成データを1/3混合した構成が、最もValidation lossが低く、学習効率が高い。 • 特に、再言語化合成データ（HQやQA）を1/3混合した場合には、CCのみで学習した場合と比べて、同一のValidation lossに到達するまでの収束が約5〜10倍速い。合成データのスケーリング則と混合戦略 [Kang+, arXiv 2025] (3/3)

22 まとめ • データの問題が下流に波及するデータカスケードやLLMの学習データが将来的に不足する懸念について紹介し、Data-Centricなアプローチの重要性を強調した。 1. Data-Centric AIの潮流 2. LLMとデータの接点：Data-Centric研究の分類
3. 合成データに関する注目論文の紹介 • LLMとデータの4つの接点(1) Data Curation、(2) Attribution & Unlearning、(3) Knowledge Transfer、(4) Inference Contextualizationを紹介した。 • AIが自らが生成した情報を再学習し続けることで性能が退化するモデル崩壊について調査した論文を紹介した。 • 大規模な実証実験から合成データの適切な混合比や生成方法を明らかにした論文を紹介した。

大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Cen...

大規模言語モデルにおけるData-Centric AIと合成データの活用 / Data-Centric AI and Synthetic Data in Large Language Models

tsurubee

More Decks by tsurubee

Other Decks in Research

Featured

Transcript

第5回福岡データエンジニアリング勉強会 2025年10月24日大規模言語モデルにおける Data-Centric AIと合成データの活用さくらインターネット株式会社鶴田博文

2 自己紹介鶴田博文（@tsurubee3）所属：さくらインターネット株式会社・株式会社COGNANO 最近の取り組み • 創薬、材料科学、システム運用等の分野におけるAI技術の研究開発に従事 •

3 アジェンダ 1. Data-Centric AIの潮流 2. LLMとデータの接点：Data-Centric研究の分類 3. 合成データに関する注目論文の紹介

4 アジェンダ 1. Data-Centric AIの潮流 2. LLMとデータの接点：Data-Centric研究の分類 3. 合成データに関する注目論文の紹介

5 データカスケード [Sambasivan+, CHI 2021] • データカスケードの蔓延：インタビュー参加者53名のAI実務者の92%が1回以上、45.3%が 2回以上のデータカスケードを経験 [Sambasivan+,

7 ※論文数はGoogle Scholarで“data-centric AI”を検索し、ヒット数を集計 (※) https://www.youtube.com/watch?v=06-AZXmwHjo https://https-deeplearning-ai.github.io/data-centric-comp/ Andrew Ng先生の講演

8 アジェンダ 1. Data-Centric AIの潮流 2. LLMとデータの接点：Data-Centric研究の分類 3. 合成データに関する注目論文の紹介

9 LLMとデータの接点 [Xu+, EMNLP 2024] Position Paper: Data-Centric AI in

10 LLMとデータの接点：① Data Curation LLMを学習するための膨大なデータを収集・選別・整形し、高品質で信頼性の高い学習データとして体系的に整備する。 [Xu+, EMNLP 2024] Position

11 LLMとデータの接点：② Attribution & Unlearning 著作権侵害や有害なメッセージなどの問題があるLLMの出力のソースを追跡（Attribution）し、その影響を除去（Unlearning）する。 [Xu+, EMNLP 2024]

12 LLMとデータの接点：③ Knowledge Transfer 大規模な汎用モデルが持つ知識を抽出し、特定のタスクに最適化された小規模モデルへ効率的に転移する。 [Xu+, EMNLP 2024] Position

13 LLMとデータの接点：④ Inference Contextualization LLMの推論時にRetrieval-augmented Generation (RAG)などの手法により、外部データや文脈情報を動的に取り込み、出力の精度と関連性を高める。 [Xu+, EMNLP

14 LLMとデータの接点：注目論文の紹介今回は、Data CurationとKnowledge Transferに関連する「LLMによる合成データの活用」について、二つの注目論文を紹介する。 [Xu+, EMNLP 2024] Position

15 アジェンダ 1. Data-Centric AIの潮流 2. LLMとデータの接点：Data-Centric研究の分類 3. 合成データに関する注目論文の紹介

16 合成データによるモデル崩壊 [Shumailov+, Nature 2024] (1/3) [Shumailov+, Nature 2024] AI

17 合成データによるモデル崩壊 [Shumailov+, Nature 2024] (2/3) [Shumailov+, Nature 2024] AI

18 合成データによるモデル崩壊 [Shumailov+, Nature 2024] (3/3) [Shumailov+, Nature 2024] AI

19 [Kang+, arXiv 2025] Demystifying Synthetic Data in LLM Pre-training:

20 [Kang+, arXiv 2025] Demystifying Synthetic Data in LLM Pre-training:

21 [Kang+, arXiv 2025] Demystifying Synthetic Data in LLM Pre-training: