AI開発をスケールさせるデータ中心の仕組みづくり

by Kazuyuki Miyazawa

Slide 1

Slide 1 text

AI開発をスケールさせるデータ中心の仕組みづくり 2026.01.23 実践的パフォーマンスエンジニアリングによるAI高速化×Data-centric AI入門セミナー

Slide 2

Slide 2 text

自己紹介 2 @kzykmyzw 宮澤一之 GOドライブ株式会社 AI技術開発1部部長経歴 April 2020 - July 2025 グループマネージャ@GO April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 https://gihyo.jp/book/2025/978-4-297-14663-4 Data-Centric AI コミュニティを運営し定期的に勉強会を開催中

Slide 3

Slide 3 text

Data-centric AIとは 3 データモデル（コード）開発者データモデル（コード）開発者 Model-centric AI Data-centric AI データを固定し、モデルを改善モデルを固定し、データを改善

Slide 4

Slide 4 text

書籍紹介 4 2025.01.08発売コンピュータビジョンや自然言語処理 (LLM)、さらにロボットまで幅広い分野の専門家がAI開発におけるデータの重要性やデータ品質を高める技術について詳しく解説すると共に、企業等における実践例も紹介第1章　Data-centric AIの概要第2章　画像データ第3章　テキストデータの収集と構築第4章　大規模言語モデルのファインチューニングデータ第5章　ロボットデータ第6章　Data-centric AIの実践例

Slide 5

Slide 5 text

Tesla Autonomy Day (2019) 5 ● 2019年のイベントでテスラがデータエンジンというデータ中心のAI開発の仕組みを紹介 ● 膨大なテスラ車のそれぞれがプローブとなり、車両に搭載された AIが苦手な状況に遭遇した際のデータを自動的にアップロード ● アップロードされたデータで再学習（苦手を克服）したAIを再び車両にデプロイし、同じサイクルを繰り返す ● サイクルを回すほどデータセット品質とAI性能がスケールしていく https://www.youtube.com/live/Ucp0TTmvqOE?si=NvTTu4y6iGKoR3p3&t=7780 Tesla Autonomy Day, 2019. [YouTube]

Slide 6

Slide 6 text

Data Flywheel 6 ● データエンジンよりも上位の概念として、データフライホイールという言葉も使われている ● データフライホイールとは、やりとりやプロセスから収集したデータをAIモデルの継続的な改良に利用するフィードバックループのことであり、これにより、より良い成果とより価値の高いデータを生成することができます。　 (NVIDIA) https://www.nvidia.com/ja-jp/glossary/data-flywheel/ ● データフライホイールとは、ビジネスリーダーやテクノロジーリーダー向けの包括的また付加的なアプローチであり、組織がデータから最大限の価値を引き出すことを可能にします。 (AWS) https://pages.awscloud.com/data-flywheel-jp.html https://www.nvidia.com/ja-jp/glossary/data-flywheel/

Slide 7

Slide 7 text

データエンジン 7 デプロイモニタリングデータ収集キュレーションアノテーション再学習評価実世界/本番環境

Slide 8

Slide 8 text

データエンジン 8 デプロイモニタリングデータ収集キュレーションアノテーション再学習評価実世界/本番環境データエンジンの効率 ∝ データ品質とモデル性能のスケール効率

Slide 9

Slide 9 text

3S を高めデータエンジンの効率を上げる 9 Signal-to-noise Simplicity Speed ノイズの少ないデータを高速に、簡潔なプロセスで処理できるようにする本講演では、3Sを高める具体的なアプローチについて主に画像認識やLLMを題材に企業の事例や論文を紹介します

Slide 10

Slide 10 text

Signal-to-noise データセットのサイズよりもSN比を意識して有益なデータを賢く集める 10 デプロイモニタリングデータ収集キュレーションアノテーション再学習評価実世界/本番環境 ● 大きなデータセットは何をするにもコストが高く、SN比が低いとプロセス全体に無駄が出るため、早い段階で有益なデータだけに絞り SN比を高める（シフトレフト） ● 有益なデータの条件を洗い出し、それに合致するデータだけを集められるような仕組みを考える ● 収集後のさらなるデータ選定（キュレーション）においては、データ構造やツールの工夫が効率を大きく左右する

Slide 11

Slide 11 text

有益なデータ = モデル性能が不十分となる入力データ 11 入力出力モデル ● ある属性に対する学習データ量が足りないなど、モデル性能が不十分となる入力データの属性がわかっている ● モデルへの入力やシステムの周辺をモニタリングし、対象属性のデータが入力されたことを検知してデータを収集する ● どのような属性のデータに対してモデル性能が不十分となるかはわからないが、未知の課題に対処したい ● モデルからの出力やシステム全体の挙動をモニタリングし、モデル性能が不十分だったことを検知してデータを収集する

Slide 12

Slide 12 text

特定属性のデータを検知するモデルをデプロイ 12 入力出力モデルレア条件下の標識の画像収集（テスラ） ● 街路樹による遮蔽、特定の補助標識との組み合わせなど、ランダムな収集では学習データが手に入りづらい標識が存在 ● 特定の条件の標識だけを検出するモデルを開発して車両にデプロイし、そのモデルが何かを検出したことをトリガとしてデータを収集 ● トリガとなるモデルは「シャドウモード」で稼働し、本来の車両の動作やユーザの操作には影響しない ● トリガとなるモデルは最初に手元にある少ないデータで作る必要があり初期の精度は低いと思われるが、一台あたりの発見率が低くても膨大な車両数でカバーできる https://youtu.be/g2R2T631x7k?si=AvP_KHWRcFlJuZ-a&t=625 A. Karpathy, CVPR Workshop on Scalability in Autonomous Driving, 2020. [YouTube]

Slide 13

Slide 13 text

外部ソースを使ってデータ収集効率を高める 13 入力出力モデルレアクラス標識の画像収集（GOドライブ） ● 標識の設置頻度は標識のクラスによって大きく異なり、設置頻度が低く学習データが手に入りづらいレアな標識が存在 ● 地図で管理されている標識の緯度経度を外部ソースとして利用し、GPS情報から車両が対象クラスの標識周辺を走行したことを検知して車載カメラの動画をアップロード ● アップロードされた動画からさらに対象クラスの標識が写っているであろうフレームだけを抽出してアノテータに提示 ● ランダムに動画を収集する場合と比べてアノテーション効率が10倍に改善 GPS 地図アノテータクラウド動画 GPS軌跡

Slide 14

Slide 14 text

モデル性能が低いことで発生する事象を検知 14 入力出力モデルレーダー廃止のための学習データ収集（テスラ） ● レーダーは前方車両の距離と速度を正確に計測できるが、ノイズや垂直分解能の低さが課題となるため、テスラではレーダーを廃止してカメラによる画像認識に置き換え ● 画像認識モデルの開発にあたり、モデル性能が低下する状況のデータを収集するため、モデル性能が不十分な場合に何が起こるかをトリガ条件として洗い出し、トリガ発動時にデータを収集 ● カメラとレーダーの結果の不整合など200 種類以上のトリガ条件によって100万本の動画が収集され、4ヶ月で画像認識モデルの開発を完了 ❏ radar vision mismatch ❏ bounding box jitter ❏ detection ﬂicker ❏ detection in Main camera but not Narrow camera ❏ driver didn't break but tracker thinks CIPV is rapidly decelerating ❏ break lights are detected as on but acceleration is positive ❏ rarely high/low velocity or acceleration ❏ CIPV cuts in / cuts out ❏ CIPV has high lateral velocity ❏ bounding-box derived depth disagrees with network-predicted depth ❏ rarely sloping road surface (hillcrest or dip) ❏ rarely sharp turning road surface ❏ driver breaks sharply on the highway ❏ stop and go traﬃc ❏ Main or Narrow or both cameras appear to be blinded ❏ driver enters/exits tunnel ❏ objects on the roof (e.g. canoes) ❏ driver brakes harshly and there is a VRU close to us but there is no intersection データ収集のためのトリガの例 A. Karpathy, CVPR Workshop on Autonomous Driving, 2021. [YouTube]

Slide 15

Slide 15 text

15 入力出力モデルモデル出力へのユーザの反応をモニタリング RLHFのためのチャットからのユーザ嗜好収集（ChatGPTのUIを例に*） ● ユーザからの明示的なフィードバック ● ユーザの嗜好が直接的に反映される反面、データ量は少ない ● LLMの回答をユーザが採用したか、採用の際に編集したかなど、ユーザ行動による暗黙的なフィードバック ● 大量収集が可能だがノイジーなため統計処理やキュレーションが必須 ● フォローアップ質問や A/Bテストなどの能動的なフィードバック ● ユーザからのフィードバックを待つよりもデータ量は増やせるがやりすぎるとUXが悪化 https://www.reddit.com/r/ChatGPT/comments/1gu3i1t/openai_abtesting_some_reasoning_model/ 参考：Real-World LLM Testing: Role of User Feedback * OpenAIが実際に本スライドで紹介するような方法でフィードバックを集め、学習に利用しているかは未確認です

Slide 16

Slide 16 text

コラム　収集データのバイアスに注意しよう 16 ● 発生頻度が低いレアな正例を検出するモデルを開発するため、正例を効率的に集められるようにデータ収集を工夫してデータセットを構築したとする ● このデータセットでモデルを学習、評価する場合、正例の頻度が現実世界とは大きく異なる（レア事象ではなくなっている）ことを忘れがち ● 例えば正例と負例が1:1のデータセットで90%のPrecisionで正例を検出できるモデルができたとしても、現実世界の割合が1:9なら運用時のPrecision は50%になってしまう ● 特に検証用データと現実世界の分布の乖離に注意を払う必要がある　　　　検出対象であるレアな正例が効率的に手に入るようにデータ収集を工夫💪 正例（検出対象）負例分布が乖離学習検証

Slide 17

Slide 17 text

キュレーション効率を高めるための基盤構築 17 自動運転の開発における走行ログ活用のための基盤構築（Turing） ● 自動運転の開発では、センサデータや動画などの非構造化データを大量に収集、管理する必要がある ● データから抽出した特徴量や、動画から検出したオブジェクトの情報などを扱いやすい形でデータベース化し、容易に検索やキュレーションを実施できる基盤を構築することで開発効率を大きく改善安本, “E2E自動運転の実現に向けたMLOpsの取り組み,” 第11回 Data-Centric AI勉強会, 2024. [slides]

Slide 18

Slide 18 text

AIによるデータ収集/キュレーション 18 オリジナルの52kのInstruction Tuning データセットで学習 (Alpaca-52k) 品質スコアの高い9kのデータのみで学習 (AlpaGasus-9k) vs. ChatGPTを使って各データに対して品質スコア (0~5) を付与 AlpaGasus [ICLR’24] ● LLMのInstruction Tuning用データセットをChatGPTが付与した品質スコアによってキュレーション ● 元の52kから抽出した高品質な9k (< 20%) だけで学習したLLMは52kで学習したLLMの性能を上回る L. Chen et al., “AlpaGasus: Training a Better Alpaca with Fewer Data,” ICLR, 2024. [paper]

Slide 19

Slide 19 text

AIによるデータ生成 19 Demystifying Synthetic Data in LLM Pre-training [EMNLP’25] ● Instruction Tuningやアラインメントなどの事後学習においてLLMにデータを生成させることの有効性は広く知られているが、事前学習においては統一見解がない ● 1000種類以上のLLMに対して10万GPU時間以上のリソースをかけて実験を行い、事前学習における LLM生成データの効果を体系的に調査自然データとの混合比率が重要生成データ単体での利用は効果がないが、学習データ全体のうち約 30%を生成データとすると収束スピードが 5~10倍に高速化ゼロからの生成よりも言い換えゼロから生成させたデータでの学習は性能低下（モデル崩壊）を引き起こすが、既存テキストの「言い換え」は性能向上に寄与大規模なモデルは必須ではないデータ生成に用いる LLMのパラメータ数を 8Bから70Bに増やしても性能向上は見られない（3Bと8Bでは8Bの方が効果が高い）多様性と品質のトレードオフ生成データにより多様性やテストデータとの類似性は低下するが、性能が向上するのは多様性と品質にトレードオフがあるため？ F. Kang et al., “Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Beneﬁts, and Pitfalls,” EMNLP, 2025. [paper]

Slide 20

Slide 20 text

コラム　画像もゼロから生成するより編集の方がいい？ 20 オリジナル標識を変える車線数を変える道路を劣化させる歩行者を増やす車を逆走させるゼロからの生成はプロンプトが大変だが、自然画像の編集であれば学習データを効率的に増やせるかも？自分で撮影した画像をnano banana proで編集

Slide 21

Slide 21 text

Speed 人への依存を減らし可能な限り自動化することでプロセスの流れを早める 21 デプロイモニタリングデータ収集キュレーションアノテーション再学習評価実世界/本番環境 ● データエンジンを構成するプロセスの中で最もボトルネックになりやすいのがアノテーション ● 完全に人に依存したアノテーションは純粋に時間がかかる上にスケールさせづらい ● 開発中のモデルを積極的に活用することに加え、加速度的に進歩しているLLMや基盤モデルを利用して可能な限り自動化する

Slide 22

Slide 22 text

アノテーションの自動化に活用できるもの 22 開発中モデル大規模モデル外部知識・センサデータ ● 開発対象となるモデルの出力をラベルとして使う ● ドメインが一致するため使いやすいが、開発初期はモデル性能が低い ● 開発対象とは異なる大規模モデルの出力や複数モデルのアンサンブル結果をラベルとして使う ● 運用に比べてコスト制約が緩いアノテーションでは使えることが多い ● 公開モデルとドメインが一致すれば初期から高品質なラベルが入手可能 ● 運用段階では手に入らないが、アノテーション段階では利用可能な外部知識やセンサデータからラベルを得る ● 時系列データなら推論時刻よりも先（未来）の情報を使うことも可能

Slide 23

Slide 23 text

開発中モデルの積極活用によるスケーリング 23 SAMシリーズ (Meta) ● 画像セグメンテーションモデルSAMのためのアノテーションでは、開発中のモデルが生成したラベルを人間が修正するという流れを複数の段階に分け、段階を経るごとに人間の割合を減らして最終的に99%以上のラベルをモデルが自動生成 ● 1100万枚の画像と11億個のラベルを持つ人手のみではほぼ不可能なスケールのデータセットを構築 ● SAM2では対象を静止画から動画に拡張し、5万本の動画の各フレームにラベルを付与 ● 3次元に拡張したSAM3Dではラベルとなる3D形状の作成という困難な作業をスケールさせるため、まず一般のアノテータがモデルが生成した複数の候補形状の中から最良のものを選び、うまく候補が生成できない形状だけを3Dアーティストに任せることで100万枚の画像に対して300万個以上の3D形状を付与 SAM2による動画中のオブジェクトセグメンテーション SAM3Dによる静止画からの3Dモデル生成 A. Kirillov et al., “Segment Anything,” arXiv, 2023. [paper] N. Ravi et al., “SAM 2: Segment Anything in Images and Videos,” arXiv, 2024. [paper] SAM 3D Team, “SAM 3D: 3Dfy Anything in Images,” arXiv, 2025. [paper] https://ai.meta.com/sam2/ https://github.com/facebookresearch/sam-3d-objects

Slide 24

Slide 24 text

LLMがあれば人間によるラベルは不要か？ 24 Keeping Humans in the Loop [ICWSM’25] ● 11個のテキストデータセットから27個の二値分類タスクを定義し、各タスクで人間によるアノテーションとLLM (GPT-4) によるアノテーションを比較 ● LLMによるアノテーション精度の中央値はAccuracy で0.85、F1で0.707と高精度だが、同じデータセットであってもタスクが異なるとF1が0.811から0.259まで低下（人間のラベルと乖離）するケースが存在人間によるラベルに対するLLMによるラベルの精度 ● LLMによるアノテーションの自動化は大いに有望だが、人間によるラベルとの比較やその結果に基づいたプロンプト最適化など、人間参加型のワークフローを構築すべき同じデータセットに由来するタスクでも精度が大きく変動 N. Pangakis et al., “Keeping Humans in the Loop: Human-Centered Automated Annotation with Generative AI,” ICWSM, 2025. [paper]

Slide 25

Slide 25 text

オフラインで構築した情報の活用 25 多視点動画へのアノテーション効率化（テスラ） ● テスラの車両には複数のカメラが搭載されており、各カメラから得られた動画へのアノテーションは膨大な工数を要する（カメラ数 x フレーム数） ● ナイーブな各フレームへのアノテーションから、複数カメラの映像で再構成した3次元空間へのアノテーションに移行 ● 3次元空間でアノテーションした結果は各カメラの各フレームに自動的に投影できるため、1度のアノテーションで複数カメラ、複数フレームのアノテーションが完結 → 効率が100倍に https://www.youtube.com/live/j0z4FweCy4M?si=lbQ30Yolu2xcLnN6&t=5218 Tesla AI Day, 2021. [YouTube]

Slide 26

Slide 26 text

コラム　推測するな、計測せよ 26 ● アノテーションへのAI活用はデータエンジンのSpeedの改善施策としてわかりやすいが、既存のアノテーションが本当にボトルネックなのか、そうだとしたら作業のどこをAI化すると効果的なのかをまずは計測するべき ● 例えばAIがアノテーションした結果をアノテータが修正するような場合、ゼロからアノテーションすることに習熟しており高速に作業ができるアノテータにとっては、AIの結果を修正する作業の方が逆に手間になることもある ● 事前の計測に加えて、施策の結果として本当にSpeedが向上しているかどうかを計測することも重要改善？

Slide 27

Slide 27 text

Simplicity 余計な手間や待ちをなくしてエンジン全体が容易に回る仕組みを作る 27 デプロイモニタリングデータ収集キュレーションアノテーション再学習評価実世界/本番環境 ● データエンジンを構成するプロセス全体にわたって無駄を取り除きシンプルな仕組みを作る ● 作業に関することだけでなく、部署間の連携改善や暗黙知の形式知化なども重要な要素 ● 泥臭く生データを見ることや、時間のかかる組織作りなども最終的には手戻りなどの無駄を減らすことにつながる

Slide 28

Slide 28 text

データ品質の管理プロセスの体系化 28 ACP Data Quality（LINEヤフー） ● 独自のAI開発環境ACPにおいて、ACP Data Qualityと呼ばれるデータ品質管理システムを提供 ● 中核機能であるデータ品質モデル言語DQMLは、データ品質に対する要件をコードで記述することでデータ品質の管理プロセスを体系化 (Data Quality as Code) ● データサイエンティストの負荷やデータ品質管理のコストの低減を実現古川, “データ品質をコード化！LINEヤフーのMLOpsを最適化するACP Data Qualityの紹介,” 第7回 Data-Centric AI勉強会, 2024. [slides]

Slide 29

Slide 29 text

高品質なデータのための組織作り 29 アノテーションチームとの密接な連携（LayerX） ● アノテーションチームはエンジニアとは別組織になることが多いため連携時にロスが発生しがち ● ドキュメント整備はもちろん、密なコミュニケーションのための仕組みや文化を作ることが重要 ● 加えて、普段からどれだけ良い関係性を築けているかという人同士のウェットな側面が結局は大事松村, “バクラクのAI-OCR機能の体験を支える良質なデータセット作成の仕組み,” 第1回 Data-Centric AI勉強会, 2023. [slides]

Slide 30

Slide 30 text

まとめ 30 3Sを高めてデータエンジンを効率的に回し、データとモデルを共に成長させる Signal-to-noise データセットのサイズよりも SN比を意識して有益なデータを賢く集める Speed 人への依存を減らし可能な限り自動化することでプロセスの流れを早める Simplicity 余計な手間や待ちをなくしてエンジン全体が容易に回る仕組みを作る