Slide 1

Slide 1 text

AI開発をスケールさせるデータ中心の仕組みづくり 2026.01.23 実践的パフォーマンスエンジニアリングによるAI高速化×Data-centric AI入門セミナー

Slide 2

Slide 2 text

自己紹介 2 @kzykmyzw 宮澤 一之 GOドライブ株式会社 AI技術開発1部 部長 経歴 April 2020 - July 2025 グループマネージャ@GO April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 https://gihyo.jp/book/2025/978-4-297-14663-4 Data-Centric AI コミュニティを 運営し定期的に勉強会を開催中

Slide 3

Slide 3 text

Data-centric AIとは 3 データ モデル (コード) 開発者 データ モデル (コード) 開発者 Model-centric AI Data-centric AI データを固定し、モデルを改善 モデルを固定し、データを改善

Slide 4

Slide 4 text

書籍紹介 4 2025.01.08発売 コンピュータビジョンや自然言語処理 (LLM)、さらに ロボットまで幅広い分野の専門家がAI開発における データの重要性やデータ品質を高める技術について詳 しく解説すると共に、企業等における実践例も紹介 第1章 Data-centric AIの概要 第2章 画像データ 第3章 テキストデータの収集と構築 第4章 大規模言語モデルのファインチューニングデータ 第5章 ロボットデータ 第6章 Data-centric AIの実践例

Slide 5

Slide 5 text

Tesla Autonomy Day (2019) 5 ● 2019年のイベントでテスラが データエンジンというデータ中心 のAI開発の仕組みを紹介 ● 膨大なテスラ車のそれぞれがプ ローブとなり、車両に搭載された AIが苦手な状況に遭遇した際の データを自動的にアップロード ● アップロードされたデータで再学 習(苦手を克服)したAIを再び車 両にデプロイし、同じサイクルを 繰り返す ● サイクルを回すほどデータセット 品質とAI性能がスケールしていく https://www.youtube.com/live/Ucp0TTmvqOE?si=NvTTu4y6iGKoR3p3&t=7780 Tesla Autonomy Day, 2019. [YouTube]

Slide 6

Slide 6 text

Data Flywheel 6 ● データエンジンよりも上位の概念 として、データフライホイールと いう言葉も使われている ● データフライホイールとは、やりとりやプ ロセスから収集したデータをAIモデルの継 続的な改良に利用するフィードバックルー プのことであり、これにより、より良い成 果とより価値の高いデータを生成すること ができます。  (NVIDIA) https://www.nvidia.com/ja-jp/glossary/data-flywheel/ ● データフライホイールとは、ビジネスリー ダーやテクノロジーリーダー向けの包括的 また付加的なアプローチであり、組織が データから最大限の価値を引き出すことを 可能にします。 (AWS) https://pages.awscloud.com/data-flywheel-jp.html https://www.nvidia.com/ja-jp/glossary/data-flywheel/

Slide 7

Slide 7 text

データエンジン 7 デプロイ モニタリング データ収集 キュレーション アノテーション 再学習 評価 実世界/本番環境

Slide 8

Slide 8 text

データエンジン 8 デプロイ モニタリング データ収集 キュレーション アノテーション 再学習 評価 実世界/本番環境 データエンジンの効率 ∝ データ品質とモデル性能のスケール効率

Slide 9

Slide 9 text

3S を高めデータエンジンの効率を上げる 9 Signal-to-noise Simplicity Speed ノイズの少ないデータを高速に、簡潔なプロセスで処理できるようにする 本講演では、3Sを高める具体的なアプローチについて主に画像認識やLLMを題材に企業の事例や論文を紹介します

Slide 10

Slide 10 text

Signal-to-noise データセットのサイズよりもSN比を意識して有益なデータを賢く集める 10 デプロイ モニタリング データ収集 キュレーション アノテーション 再学習 評価 実世界/本番環境 ● 大きなデータセットは何をするに もコストが高く、SN比が低いとプ ロセス全体に無駄が出るため、早 い段階で有益なデータだけに絞り SN比を高める(シフトレフト) ● 有益なデータの条件を洗い出し、 それに合致するデータだけを集め られるような仕組みを考える ● 収集後のさらなるデータ選定 (キュレーション)においては、 データ構造やツールの工夫が効率 を大きく左右する

Slide 11

Slide 11 text

有益なデータ = モデル性能が不十分となる入力データ 11 入力 出力 モデル ● ある属性に対する学習データ量が足りない など、モデル性能が不十分となる入力デー タの属性がわかっている ● モデルへの入力やシステムの周辺をモニタ リングし、対象属性のデータが入力された ことを検知してデータを収集する ● どのような属性のデータに対してモデル性 能が不十分となるかはわからないが、 未 知の課題に対処したい ● モデルからの出力やシステム全体の挙動を モニタリングし、モデル性能が不十分だっ たことを検知してデータを収集する

Slide 12

Slide 12 text

特定属性のデータを検知するモデルをデプロイ 12 入力 出力 モデル レア条件下の標識の画像収集(テスラ) ● 街路樹による遮蔽、特定の補助標識との組 み合わせなど、ランダムな収集では学習 データが手に入りづらい標識が存在 ● 特定の条件の標識だけを検出するモデルを 開発して車両にデプロイし、そのモデルが 何かを検出したことをトリガとしてデータ を収集 ● トリガとなるモデルは「シャドウモード」 で稼働し、本来の車両の動作やユーザの操 作には影響しない ● トリガとなるモデルは最初に手元にある少 ないデータで作る必要があり初期の精度は 低いと思われるが、一台あたりの発見率が 低くても膨大な車両数でカバーできる https://youtu.be/g2R2T631x7k?si=AvP_KHWRcFlJuZ-a&t=625 A. Karpathy, CVPR Workshop on Scalability in Autonomous Driving, 2020. [YouTube]

Slide 13

Slide 13 text

外部ソースを使ってデータ収集効率を高める 13 入力 出力 モデル レアクラス標識の画像収集(GOドライブ) ● 標識の設置頻度は標識のクラスによって大 きく異なり、設置頻度が低く学習データが 手に入りづらいレアな標識が存在 ● 地図で管理されている標識の緯度経度を外 部ソースとして利用し、GPS情報から車両 が対象クラスの標識周辺を走行したことを 検知して車載カメラの動画をアップロード ● アップロードされた動画からさらに対象ク ラスの標識が写っているであろうフレーム だけを抽出してアノテータに提示 ● ランダムに動画を収集する場合と比べてア ノテーション効率が10倍に改善 GPS 地図 アノテータ クラウド 動画 GPS軌跡

Slide 14

Slide 14 text

モデル性能が低いことで発生する事象を検知 14 入力 出力 モデル レーダー廃止のための学習データ収集(テスラ) ● レーダーは前方車両の距離と速度を正確に 計測できるが、ノイズや垂直分解能の低さ が課題となるため、テスラではレーダーを 廃止してカメラによる画像認識に置き換え ● 画像認識モデルの開発にあたり、モデル性 能が低下する状況のデータを収集するた め、モデル性能が不十分な場合に何が起こ るかをトリガ条件として洗い出し、トリガ 発動時にデータを収集 ● カメラとレーダーの結果の不整合など200 種類以上のトリガ条件によって100万本の 動画が収集され、4ヶ月で画像認識モデル の開発を完了 ❏ radar vision mismatch ❏ bounding box jitter ❏ detection flicker ❏ detection in Main camera but not Narrow camera ❏ driver didn't break but tracker thinks CIPV is rapidly decelerating ❏ break lights are detected as on but acceleration is positive ❏ rarely high/low velocity or acceleration ❏ CIPV cuts in / cuts out ❏ CIPV has high lateral velocity ❏ bounding-box derived depth disagrees with network-predicted depth ❏ rarely sloping road surface (hillcrest or dip) ❏ rarely sharp turning road surface ❏ driver breaks sharply on the highway ❏ stop and go traffic ❏ Main or Narrow or both cameras appear to be blinded ❏ driver enters/exits tunnel ❏ objects on the roof (e.g. canoes) ❏ driver brakes harshly and there is a VRU close to us but there is no intersection データ収集のためのトリガの例 A. Karpathy, CVPR Workshop on Autonomous Driving, 2021. [YouTube]

Slide 15

Slide 15 text

15 入力 出力 モデル モデル出力へのユーザの反応をモニタリング RLHFのためのチャットからのユーザ嗜好収集(ChatGPTのUIを例に*) ● ユーザからの明示的な フィードバック ● ユーザの嗜好が直接的 に反映される反面、 データ量は少ない ● LLMの回答をユーザが採用したか、 採用の際に編集したかなど、ユーザ 行動による暗黙的なフィードバック ● 大量収集が可能だがノイジーなため 統計処理やキュレーションが必須 ● フォローアップ質問や A/Bテストなどの能動的 なフィードバック ● ユーザからのフィード バックを待つよりも データ量は増やせるが やりすぎるとUXが悪化 https://www.reddit.com/r/ChatGPT/comments/1gu3i1t/openai_abtesting_some_reasoning_model/ 参考:Real-World LLM Testing: Role of User Feedback * OpenAIが実際に本スライドで紹介するような方法でフィードバックを集め、学習に利用しているかは未確認です

Slide 16

Slide 16 text

コラム 収集データのバイアスに注意しよう 16 ● 発生頻度が低いレアな正例を検出する モデルを開発するため、正例を効率的 に集められるようにデータ収集を工夫 してデータセットを構築したとする ● このデータセットでモデルを学習、評 価する場合、正例の頻度が現実世界と は大きく異なる(レア事象ではなく なっている)ことを忘れがち ● 例えば正例と負例が1:1のデータセッ トで90%のPrecisionで正例を検出で きるモデルができたとしても、現実世 界の割合が1:9なら運用時のPrecision は50%になってしまう ● 特に検証用データと現実世界の分布の 乖離に注意を払う必要がある         検出対象であるレアな正例 が効率的に手に入るように データ収集を工夫💪 正例(検出対象) 負例 分布が乖離 学習 検証

Slide 17

Slide 17 text

キュレーション効率を高めるための基盤構築 17 自動運転の開発における走行ログ活用のための基盤構築(Turing) ● 自動運転の開発では、センサデータや動画などの非構造化データを大量に収集、管理する必要がある ● データから抽出した特徴量や、動画から検出したオブジェクトの情報などを扱いやすい形でデータ ベース化し、容易に検索やキュレーションを実施できる基盤を構築することで開発効率を大きく改善 安本, “E2E自動運転の実現に向けたMLOpsの取り組み,” 第11回 Data-Centric AI勉強会, 2024. [slides]

Slide 18

Slide 18 text

AIによるデータ収集/キュレーション 18 オリジナルの52kのInstruction Tuning データセットで学習 (Alpaca-52k) 品質スコアの高い9kのデータ のみで学習 (AlpaGasus-9k) vs. ChatGPTを使って 各データに対して 品質スコア (0~5) を付与 AlpaGasus [ICLR’24] ● LLMのInstruction Tuning用データセットをChatGPTが付与した品質スコアによってキュレーション ● 元の52kから抽出した高品質な9k (< 20%) だけで学習したLLMは52kで学習したLLMの性能を上回る L. Chen et al., “AlpaGasus: Training a Better Alpaca with Fewer Data,” ICLR, 2024. [paper]

Slide 19

Slide 19 text

AIによるデータ生成 19 Demystifying Synthetic Data in LLM Pre-training [EMNLP’25] ● Instruction Tuningやアラインメントなどの事後学習においてLLMにデータを生成させることの有効 性は広く知られているが、事前学習においては統一見解がない ● 1000種類以上のLLMに対して10万GPU時間以上のリソースをかけて実験を行い、事前学習における LLM生成データの効果を体系的に調査 自然データとの混 合比率が重要 生成データ単体での利 用は効果がないが、学 習データ全体のうち約 30%を生成データとす ると収束スピードが 5~10倍に高速化 ゼロからの生成よ りも言い換え ゼロから生成させた データでの学習は性能 低下(モデル崩壊)を 引き起こすが、既存テ キストの「言い換え」 は性能向上に寄与 大規模なモデルは 必須ではない データ生成に用いる LLMのパラメータ数を 8Bから70Bに増やして も性能向上は見られな い(3Bと8Bでは8Bの 方が効果が高い) 多様性と品質のト レードオフ 生成データにより多様 性やテストデータとの 類似性は低下するが、 性能が向上するのは多 様性と品質にトレード オフがあるため? F. Kang et al., “Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls,” EMNLP, 2025. [paper]

Slide 20

Slide 20 text

コラム 画像もゼロから生成するより編集の方がいい? 20 オリジナル 標識を変える 車線数を変える 道路を劣化させる 歩行者を増やす 車を逆走させる ゼロからの生成はプロンプトが大変だが、自然画像の編集であれば学習データを効率的に増やせるかも? 自分で撮影した画像をnano banana proで編集

Slide 21

Slide 21 text

Speed 人への依存を減らし可能な限り自動化することでプロセスの流れを早める 21 デプロイ モニタリング データ収集 キュレーション アノテーション 再学習 評価 実世界/本番環境 ● データエンジンを構成するプロセ スの中で最もボトルネックになり やすいのがアノテーション ● 完全に人に依存したアノテーショ ンは純粋に時間がかかる上にス ケールさせづらい ● 開発中のモデルを積極的に活用す ることに加え、加速度的に進歩し ているLLMや基盤モデルを利用し て可能な限り自動化する

Slide 22

Slide 22 text

アノテーションの自動化に活用できるもの 22 開発中モデル 大規模モデル 外部知識・センサデータ ● 開発対象となるモデルの出力をラベルとして使う ● ドメインが一致するため使いやすいが、開発初期はモデル性能が低い ● 開発対象とは異なる大規模モデルの出力や複数モデルのアンサンブル結 果をラベルとして使う ● 運用に比べてコスト制約が緩いアノテーションでは使えることが多い ● 公開モデルとドメインが一致すれば初期から高品質なラベルが入手可能 ● 運用段階では手に入らないが、アノテーション段階では利用可能な外部 知識やセンサデータからラベルを得る ● 時系列データなら推論時刻よりも先(未来)の情報を使うことも可能

Slide 23

Slide 23 text

開発中モデルの積極活用によるスケーリング 23 SAMシリーズ (Meta) ● 画像セグメンテーションモデルSAMのためのアノテー ションでは、開発中のモデルが生成したラベルを人間 が修正するという流れを複数の段階に分け、段階を経 るごとに人間の割合を減らして最終的に99%以上のラ ベルをモデルが自動生成 ● 1100万枚の画像と11億個のラベルを持つ人手のみで はほぼ不可能なスケールのデータセットを構築 ● SAM2では対象を静止画から動画に拡張し、5万本の 動画の各フレームにラベルを付与 ● 3次元に拡張したSAM3Dではラベルとなる3D形状の 作成という困難な作業をスケールさせるため、まず一 般のアノテータがモデルが生成した複数の候補形状の 中から最良のものを選び、うまく候補が生成できない 形状だけを3Dアーティストに任せることで100万枚の 画像に対して300万個以上の3D形状を付与 SAM2による動画中のオブジェクトセグメンテーション SAM3Dによる静止画からの3Dモデル生成 A. Kirillov et al., “Segment Anything,” arXiv, 2023. [paper] N. Ravi et al., “SAM 2: Segment Anything in Images and Videos,” arXiv, 2024. [paper] SAM 3D Team, “SAM 3D: 3Dfy Anything in Images,” arXiv, 2025. [paper] https://ai.meta.com/sam2/ https://github.com/facebookresearch/sam-3d-objects

Slide 24

Slide 24 text

LLMがあれば人間によるラベルは不要か? 24 Keeping Humans in the Loop [ICWSM’25] ● 11個のテキストデータセットから27個の二値分類タ スクを定義し、各タスクで人間によるアノテーション とLLM (GPT-4) によるアノテーションを比較 ● LLMによるアノテーション精度の中央値はAccuracy で0.85、F1で0.707と高精度だが、同じデータセット であってもタスクが異なるとF1が0.811から0.259ま で低下(人間のラベルと乖離)するケースが存在 人間によるラベルに対するLLMによるラベルの精度 ● LLMによるアノテーショ ンの自動化は大いに有望 だが、人間によるラベル との比較やその結果に基 づいたプロンプト最適化 など、人間参加型のワー クフローを構築すべき 同じデータセットに 由来するタスクでも 精度が大きく変動 N. Pangakis et al., “Keeping Humans in the Loop: Human-Centered Automated Annotation with Generative AI,” ICWSM, 2025. [paper]

Slide 25

Slide 25 text

オフラインで構築した情報の活用 25 多視点動画へのアノテーション効率化(テスラ) ● テスラの車両には複数のカメラが 搭載されており、各カメラから得 られた動画へのアノテーションは 膨大な工数を要する(カメラ数 x フレーム数) ● ナイーブな各フレームへのアノ テーションから、複数カメラの映 像で再構成した3次元空間へのア ノテーションに移行 ● 3次元空間でアノテーションした 結果は各カメラの各フレームに自 動的に投影できるため、1度のア ノテーションで複数カメラ、複数 フレームのアノテーションが完結 → 効率が100倍に https://www.youtube.com/live/j0z4FweCy4M?si=lbQ30Yolu2xcLnN6&t=5218 Tesla AI Day, 2021. [YouTube]

Slide 26

Slide 26 text

コラム 推測するな、計測せよ 26 ● アノテーションへのAI活用はデータエ ンジンのSpeedの改善施策としてわか りやすいが、既存のアノテーションが 本当にボトルネックなのか、そうだと したら作業のどこをAI化すると効果的 なのかをまずは計測するべき ● 例えばAIがアノテーションした結果を アノテータが修正するような場合、ゼ ロからアノテーションすることに習熟 しており高速に作業ができるアノテー タにとっては、AIの結果を修正する作 業の方が逆に手間になることもある ● 事前の計測に加えて、施策の結果とし て本当にSpeedが向上しているかどう かを計測することも重要 改善?

Slide 27

Slide 27 text

Simplicity 余計な手間や待ちをなくしてエンジン全体が容易に回る仕組みを作る 27 デプロイ モニタリング データ収集 キュレーション アノテーション 再学習 評価 実世界/本番環境 ● データエンジンを構成するプロセ ス全体にわたって無駄を取り除き シンプルな仕組みを作る ● 作業に関することだけでなく、部 署間の連携改善や暗黙知の形式知 化なども重要な要素 ● 泥臭く生データを見ることや、時 間のかかる組織作りなども最終的 には手戻りなどの無駄を減らすこ とにつながる

Slide 28

Slide 28 text

データ品質の管理プロセスの体系化 28 ACP Data Quality(LINEヤフー) ● 独自のAI開発環境ACPにおいて、ACP Data Qualityと呼ばれるデータ品質管理システムを提供 ● 中核機能であるデータ品質モデル言語DQMLは、データ品質に対する要件をコードで記述することで データ品質の管理プロセスを体系化 (Data Quality as Code) ● データサイエンティストの負荷やデータ品質管理のコストの低減を実現 古川, “データ品質をコード化!LINEヤフーのMLOpsを最適化するACP Data Qualityの紹介,” 第7回 Data-Centric AI勉強会, 2024. [slides]

Slide 29

Slide 29 text

高品質なデータのための組織作り 29 アノテーションチームとの密接な連携(LayerX) ● アノテーションチームはエンジニアとは別組織になることが多いため連携時にロスが発生しがち ● ドキュメント整備はもちろん、密なコミュニケーションのための仕組みや文化を作ることが重要 ● 加えて、普段からどれだけ良い関係性を築けているかという人同士のウェットな側面が結局は大事 松村, “バクラクのAI-OCR機能の体験を支える良質なデータセット作成の仕組み,” 第1回 Data-Centric AI勉強会, 2023. [slides]

Slide 30

Slide 30 text

まとめ 30 3Sを高めてデータエンジンを効率的に回し、データとモデルを共に成長させる Signal-to-noise データセットのサイズよりも SN比を意識して有益なデータ を賢く集める Speed 人への依存を減らし可能な限 り自動化することでプロセス の流れを早める Simplicity 余計な手間や待ちをなくしてエンジン全体が容易に回る仕組みを作る