Slide 1

Slide 1 text

第12回 Data-Centric AI勉強会 2025年1月27日 AIトップカンファレンスからみる Data-Centric AIの研究動向 さくらインターネット株式会社・株式会社COGNANO 鶴田 博文

Slide 2

Slide 2 text

2 自己紹介 鶴田 博文(@tsurubee3) 所属:さくらインターネット株式会社・株式会社COGNANO 最近の取り組み • 創薬、材料科学、システム運用等の分野におけるAI技術の研究 開発に従事 • AI創薬のためのデータセット構築に関する主著論文がNeurIPS 2023・2024のDatasets and Benchmarks Trackに2年連続採択

Slide 3

Slide 3 text

3 アジェンダ 1. Data-Centric AIの重要性 2. 学術界におけるData-Centricの潮流 3. NeurIPS 2024からみる研究動向

Slide 4

Slide 4 text

4 アジェンダ 1. Data-Centric AIの重要性 2. 学術界におけるData-Centricの潮流 3. NeurIPS 2024からみる研究動向

Slide 5

Slide 5 text

5 データカスケード [Sambasivan+, CHI 2021] • データカスケードの蔓延:インタビュー参加 者53名のAI実務者の92%が1回以上、45.3%が 2回以上のデータカスケードを経験 [Sambasivan+, CHI 2021] “Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI データカスケード:データの問題から生じる 負の影響が連鎖的に下流に波及していく事象 • データ作業の軽視:データ収集やアノテー ションなどの作業はモデル開発と比較して、 成果が適切に評価されづらく、インセン ティブ(報酬や学術的成果など)が不足し ているため、軽視される傾向にある。 • データカスケードの原因:現実世界との乖離、 応用ドメイン領域の知識不足、相反する報酬 システム、組織間におけるドキュメント不足 により発生

Slide 6

Slide 6 text

6 研究者のデータセット利用/再利用[Koch+, NeurIPS 2021] (1/2) 多くのコミュニティでは、時間の経過とともに、少数のデータセットに利用が集中する傾向にある。 全体的な傾向として、2015~2020年の間にGini係数が0.113増加すると予測した。 [Koch+, NeurIPS 2021] Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research RQ1:機械学習のタスクコミュニティは特定のデータセットにどの程度集中しているか。 分析対象: Papers With Code (PWC)から収集された2015年から2020年の期間のデータセット コンピュータビジョンと方法論のコミュニティでは、70%以上が他のタスクのために設計された データセットを利用している。 RQ2:研究者は他のタスクのために設計されたデータセットをどの程度再利用しているか。

Slide 7

Slide 7 text

7 研究者のデータセット利用/再利用[Koch+, NeurIPS 2021] (2/2) [Koch+, NeurIPS 2021] Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research 分析対象: Papers With Code (PWC)から収集された2015年から2020年の期間のデータセット 2021年6月時点でのPWC上のデータセット利用の50%以上は、12のエリート機関によって提供された ものであり、この傾向は年々強まっている。 RQ3:主要な機械学習ベンチマークはどのような機関が提供しているか。 少数のデータセットに研究が集中する現状は、モデルの過剰適合を引き起こし、汎用的なモデル開発や 研究の発展を阻害するため、高品質で多様なベンチマークデータセットの開発を促進することが重要

Slide 8

Slide 8 text

8 • データ枯渇の予測:現在のLLM開発トレン ドが継続した場合、モデルは2026年から 2032年の間に、利用可能な人間が生成した テキストデータの総量とほぼ同じサイズの データセットで学習されると予測 • 今後の戦略:データ枯渇は避けられない可能 性が高い。今後のLLMのスケーリングを維持 するためには以下の戦略が重要 [Villalobos+, ICML 2024] Will we run out of data? Limits of LLM scaling based on human-generated data 大規模言語モデル(LLM)のデータ枯渇 [Villalobos+, ICML 2024] • AIによる合成データ • 多様なデータ領域からの転移学習 • データ効率の改善

Slide 9

Slide 9 text

9 アジェンダ 1. Data-Centric AIの重要性 2. 学術界におけるData-Centricの潮流 3. NeurIPS 2024からみる研究動向

Slide 10

Slide 10 text

10 論文数の推移 ※論文数はGoogle Scholarで“data-centric AI”を検索し、 ヒット数を集計 (※)

Slide 11

Slide 11 text

11 論文数の推移 ※論文数はGoogle Scholarで“data-centric AI”を検索し、 ヒット数を集計 (※) https://www.youtube.com/watch?v=06-AZXmwHjo https://https-deeplearning-ai.github.io/data-centric-comp/ Andrew Ng先生の講演 コンペティションの開催 NeurIPSでワークショップ開催 NeurIPSで研究トラックが新設 https://datacentricai.org/neurips21/ https://neuripsconf.medium.com/announcing-the-neurips- 2021-datasets-and-benchmarks-track-644e27c1e66c

Slide 12

Slide 12 text

12 論文数の推移 ※論文数はGoogle Scholarで“data-centric AI”を検索し、 ヒット数を集計 (※) https://www.youtube.com/watch?v=06-AZXmwHjo https://https-deeplearning-ai.github.io/data-centric-comp/ Andrew Ng先生の講演 コンペティションの開催 NeurIPSでワークショップ開催 NeurIPSで研究トラックが新設 https://datacentricai.org/neurips21/ https://neuripsconf.medium.com/announcing-the-neurips- 2021-datasets-and-benchmarks-track-644e27c1e66c

Slide 13

Slide 13 text

13 NeurIPS Datasets and Benchmarks Track: 概要 • AI分野のトップカンファレンスであるNeurIPSは、2021年に新たにDatasets and Benchmark Trackを発足 • 本トラックは、「非常に価値の高い機械学習データセットやベンチマークに関する質の高い論文、 講演、ポスターの発表の場として、また、データセット開発の改善方法に関する議論の場として 機能します。」(公式ブログ※より翻訳) ※ https://neuripsconf.medium.com/announcing-the-neurips-2021-datasets-and-benchmarks-track-644e27c1e66c

Slide 14

Slide 14 text

14 NeurIPS Datasets and Benchmarks Track: スコープ https://neurips.cc/Conferences/2024/CallForDatasetsBenchmarks

Slide 15

Slide 15 text

15 NeurIPS Datasets and Benchmarks Track: 査読 Main Trackとは異なる独自の査読ガイドライン ※ https://arxiv.org/abs/1803.09010 • 査読は原則としてシングルブラインド (条件を満たせばダブルブラインドも可) • データセットのメタデータフォーマットとし てCroissantを推奨(詳細は後述) • データセットのドキュメント化にDatasheets for Datasets※を推奨。データセットの内容や 使用目的、前処理方法、配布方法、メンテナ ンス方法などの記述が求められる。 https://zenn.dev/tsurubee/articles/5d84372c3cfca3

Slide 16

Slide 16 text

16 NeurIPS Datasets and Benchmarks Track: 論文数の推移 • 投稿件数の増加: 2022年以降は、毎年投稿件数が 約2倍近く増加し、2024年の投稿論文件数は1820件 • 採択率の低下: 2022年以降は、採択率が年々低下 し、2024年の採択率はMain Trackと同等レベルの 25.3% • 2020年以前のNeurIPS:新しいデータセットの提案 に焦点を当てた採択論文は年間で5本以下、幅広い データセットにわたるアルゴリズムのベンチマーク に焦点を当てた採択論文は10本程度※ ※ https://neuripsconf.medium.com/announcing-the-neurips-2021-datasets-and-benchmarks-track-644e27c1e66c

Slide 17

Slide 17 text

17 アジェンダ 1. Data-Centric AIの重要性 2. 学術界におけるData-Centricの潮流 3. NeurIPS 2024からみる研究動向

Slide 18

Slide 18 text

18 Language (46.6%) Image (24.3%) Video (10.4%) Others (14.7%) データのモダリティ 各キーワードが含まれるか検索し、ヒット数を集計 ※マルチモーダルな研究は考慮していない。 分析対象:NeurIPS 2024 Datasets and Benchmarks Trackの採択論文460件のアブストラクト Time-series (2.1%) Audio (1.9%)

Slide 19

Slide 19 text

19 Data-Centric AIの研究論文の分類 [Zha+, 2023] Data-centric Artificial Intelligence: A Survey

Slide 20

Slide 20 text

20 Data-Centric AIの研究論文の分類 [Zha+, 2023] Data-centric Artificial Intelligence: A Survey Data-centric benchmark

Slide 21

Slide 21 text

21 Data-Centric AIの研究論文の分類 [Zha+, 2023] Data-centric Artificial Intelligence: A Survey Data-centric benchmark

Slide 22

Slide 22 text

22 DataComp for Language Models [Li+, NeurIPS 2024] (1/2) Data-centric benchmark 言語モデルのためのData-centricベンチマーク:240兆トークンの大規模な公開コーパスDCLM-POOL を用いて、データセットのフィルタリング、混合などのアルゴリズムを評価するためのフレームワーク DataComp for Language Models (DCLM)を提案 [Li+, NeurIPS 2024] DataComp-LM: In search of the next generation of training sets for language models

Slide 23

Slide 23 text

23 Data-centric benchmark • DCLMを用いた高品質なデータセット構築:DCLM-POOLを出発点としてモデルベースのフィルタリ ングを主要な要素とする多段階の処理を行い、DCLM-BASELINEを開発 [Li+, NeurIPS 2024] DataComp-LM: In search of the next generation of training sets for language models • モデルの性能評価:DCLM-BASELINEを用いて事前学習した7Bパラメータの言語モデルは、MMLUで 64%を達成し、6.6倍の計算量で学習させたLlama 3 8Bに匹敵する性能を示した。 DataComp for Language Models [Li+, NeurIPS 2024] (2/2)

Slide 24

Slide 24 text

24 Data-Centric AIの研究論文の分類 [Zha+, 2023] Data-centric Artificial Intelligence: A Survey Data-centric benchmark

Slide 25

Slide 25 text

25 OpenMathInstruct-1 [Toshniwal+, NeurIPS 2024] (1/2) [Toshniwal+, NeurIPS 2024] OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset ※ https://huggingface.co/datasets/nvidia/OpenMathInstruct-1 • 数学的推論のためのInstructionデータセット:180万件の数学の問題と解答のペアからなる大規模な データセットOpenMathInstruct-1※を公開 • オープンソースLLMによる合成データ: GSM8KとMATHの2つの一般的な数学的推論ベンチマークに 対して、Mixtralモデルを使用してコードインタープリター形式の解答を生成 Training data development

Slide 26

Slide 26 text

26 OpenMathInstruct-1 [Toshniwal+, NeurIPS 2024] (2/2) [Toshniwal+, NeurIPS 2024] OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset GPT蒸留モデルに匹敵する性能の実現: OpenMathInstruct-1でファインチューニング されたMistral-7BモデルやCodeLlama-70Bモ デルなどは、GPT-3.5/4による合成データで ファインチューニングしたGPT蒸留モデルに 匹敵するスコアを達成し、データセットの品 質の高さを実証 Training data development

Slide 27

Slide 27 text

27 Selective Language Modeling [Lin+, NeurIPS 2024] (1/2) Training data development [Lin+, NeurIPS 2024] Not All Tokens Are What You Need for Pretraining • 研究の仮説:『コーパス内の全てのトークンが言語モデルの学習にとって等しく重要であるわけでは ない』という仮説に基づき、従来のLLMの事前学習に対して疑問を呈した。 • トークンレベルのデータ選択:参照モデルを用いて事前学習コーパスの各トークンをスコアリングし、 より重要なトークンを選択的に学習するSelective Language Modeling (SLM)を提案した。SLMでは、 学習モデルの損失と参照モデルの損失の差が大きいトークンほど高いスコアを割り当てられる。

Slide 28

Slide 28 text

28 Selective Language Modeling [Lin+, NeurIPS 2024] (2/2) Training data development [Lin+, NeurIPS 2024] Not All Tokens Are What You Need for Pretraining • 学習効率の向上:SLMを用いたRHO-1モデル(1B)は、ベースラインモデルと比較して、10倍少ない学 習トークン数でMATHベンチマークにおいて同等の性能を達成 • 数学的な推論力の向上:Tinyllama-1BをベースにOpenWebMathデータを用いてSLMで学習された RHO-1-Mathモデルは、同モデル・データで通常の継続事前学習を行ったTinyllama-CTに比べて16% 以上の平均精度向上を達成

Slide 29

Slide 29 text

29 Data-Centric AIの研究論文の分類 [Zha+, 2023] Data-centric Artificial Intelligence: A Survey Data-centric benchmark

Slide 30

Slide 30 text

30 MMLU-Pro [Wang+, NeurIPS 2024] (1/2) Inference data development [Wang+, NeurIPS 2024] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark • MMLUの課題:LLMの性能が頭打ちになり、モデル性能の微妙な差を識別するのが困難 例えば、 GPT-4oとGPT-4-TurboのMMLUでの精度差は約2% • MMLU-Proの特徴:①選択肢の数を4から10に増加、②高度な推論能力を必要とする問題の導入、 ③専門家の2段階レビューによるデータセットの高品質化

Slide 31

Slide 31 text

31 MMLU-Pro [Wang+, NeurIPS 2024] (2/2) Inference data development • MMLU-Proの困難性:MMLU-Proでは、最先端のGPT-4oでさえ72.5%の精度にとどまった。また、 GPT-4oとGPT-4-Turboの精度差は約9%に広がった。 • Chain of Thought (CoT)による性能向上: MMLU-ProではCoT推論を使用することで、MMLUより も顕著に性能が向上 [Wang+, NeurIPS 2024] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

Slide 32

Slide 32 text

32 GenAI Arena [Jiang+, NeurIPS 2024] (1/2) Inference data development [Jiang+, NeurIPS 2024] GenAI Arena: An Open Evaluation Platform for Generative Models • GenAI Arena:テキストから画像生成、画像編集、テキストから動画生成という3つのタスクにおいて、 マルチモーダルな生成AIをユーザーの嗜好に基づいて評価するオープンなプラットフォームを提案 • ユーザ参加型の評価:ユーザーが実際にモデルを比較し、どちらが優れているか投票することで、モデ ルの性能をより民主的かつ正確に評価することを目指す。

Slide 33

Slide 33 text

33 GenAI Arena [Jiang+, NeurIPS 2024] (2/2) Inference data development [Jiang+, NeurIPS 2024] GenAI Arena: An Open Evaluation Platform for Generative Models ※ https://huggingface.co/datasets/TIGER-Lab/GenAI-Bench • GenAI-Bench:収集されたユーザーの投票データはGenAI-Bench※として公開され、マルチモーダル 大規模言語モデル(MLLM)の評価能力の向上のための研究を促進 • MLLMの評価精度: GenAI-Benchを用いた評価では、既存のMLLMは人間の嗜好を正確に模倣するの に苦戦している。例えば、最先端のGPT-4oでさえ、3つのタスクの平均精度が49.19%程度

Slide 34

Slide 34 text

34 Data-Centric AIの研究論文の分類 [Zha+, 2023] Data-centric Artificial Intelligence: A Survey Data-centric benchmark

Slide 35

Slide 35 text

35 Croissant [Akhtar+, NeurIPS 2024] (1/2) Data maintenance • Croissant:機械学習ツール、フレー ムワーク、プラットフォーム間での 機械学習データセットの発見性、移 植性、再現性、相互運用性を向上さ せるために設計されたメタデータ フォーマットCroissantを提案 [Akhtar+, NeurIPS 2024] Croissant: A Metadata Format for ML-Ready Datasets • NeurIPSでの推奨:NeurIPS Datasets and Benchmarksでは論文 の補足資料にCroissantのURLを記載 することが推奨 JSON-LD形式

Slide 36

Slide 36 text

36 Croissant [Akhtar+, NeurIPS 2024] (2/2) Data maintenance データセットリポジトリとの統合:Hugging Face DatasetsやKaggle Datasetsを含む主要なデータ セットリポジトリに統合されており、これらのツールを通じて簡単にアクセスできる。 [Akhtar+, NeurIPS 2024] Croissant: A Metadata Format for ML-Ready Datasets

Slide 37

Slide 37 text

37 まとめ • データの問題が下流に波及するデータカスケードや、研究者のデータセット利用が一部のデータ セットに偏重する問題、LLMの学習データが将来的に不足する懸念について紹介し、Data- Centricなアプローチの重要性を強調した。 1. Data-Centric AIの重要性 2. 学術界におけるData-Centricの潮流 3. NeurIPS 2024からみる研究動向 • Data-Centric AIの研究論文は2021年以降、急増している。 • 主な要因としてNeurIPS Datasets and Benchmarks Trackの設立が挙げられ、2024年には460本 の論文が出版された。 • Data-Centric AIの研究論文を(1) Data-centric benchmark、(2) Training data development、 (3) Inference data development、(4) Data maintenanceの4カテゴリに分類し、各カテゴリに おけるNeurIPS 2024の注目論文を紹介した。