code, companies should focus on developing systematic engineering practices for improving data in ways that are reliable, efficient, and systematic. In other words, companies need to move from a model-centric approach to a data-centric approach.” — Andrew Ng, CEO and Founder of LandingAI “企業は、コードに焦点を当てるのではなく、信頼性があり、効率的、体系的に データを改善できるエンジニアリング手段を開発することに焦点を当てるべきである。 つまり、企業はモデル中心のアプローチからデータ中心のアプローチへと移行する 必要がある。” https://en.wikipedia.org/wiki/Andrew_Ng https://landing.ai/data-centric-ai/
2. アノテータ間でのラベルのばらつきを評価する 3. アノテータ間でのばらつきが大きいクラスについてアノテーションルールを見直す 4. 1.〜3.を収束するまで繰り返す A. Ng, A chat with Andrew on MLOps: From model-centric to data-centric AI, 2021. [YouTube]
ノイズを除去する ◦ データセットのサイズを2倍にする データ量が少ないほど品質が重要 A. Ng, A chat with Andrew on MLOps: From model-centric to data-centric AI, 2021. [YouTube] データ量:少 データ品質:低 データ量:多 データ品質:低 データ量:少 データ品質:高
機械学習プロジェクトのライフサイクル全体を通じて高品質なデータを保証する どのような データをどのように 集めるか 性能改善のために どのようにデータに 手を加えるか コンセプト/データ ドリフトの検知のために どのようなデータを トラッキングするか MLOps A. Ng, A chat with Andrew on MLOps: From model-centric to data-centric AI, 2021. [YouTube]
◦ 運用時のデータがフィードバックされる(データ・コンセプトドリフトをカバーしている) ◦ サイズが適切である Big DataからGood Dataへ A. Ng, A chat with Andrew on MLOps: From model-centric to data-centric AI, 2021. [YouTube]
てランダムに選んだ1000枚をラベルあり、 残り49000枚をラベルなしとする • モデルはResNet18 • BMALにおけるバッチの大きさを2000枚と してクエリ生成 → 学習 → 評価のサイクル を繰り返す active learningでは20000〜30000サンプル(全体の40〜60%)へのラベル付与で全 サンプルを使った学習と同等精度となるが、ランダムサンプリングでは2〜3ptほど精 度が悪化 全サンプルを利用 した場合の精度 Y. Ji et al., “Randomness is the root of all evil: More reliable evaluation of deep active learning,” WACV, 2023. サイズ 拡大 ノイズ 除去 冗長性 削減
MS COCOの10%をラベルありとした場合、STACの有無でmAPは26.18% → 28.64% STAC [Sohn+, arXiv 2020] SSL framework for object detection based on Self-Training and Augmentation driven Consistency regularization K. Sohn et al., “A simple semi-supervised learning framework for object detection,” arXiv, 2020. サイズ 拡大 ノイズ 除去 冗長性 削減
するまで繰り返す CEAL [Wang+, IEEE TCSVT 2016] Cost-Effective Active Learning K. Wang et al., “Cost effective active learning for deep image classification,” IEEE TCSVT, 2016. サイズ 拡大 ノイズ 除去 冗長性 削減
てクリーンなサンプルとノイジーなサンプルを分離する手法がある ロバスト学習のサーベイ[Song+, IEEE TNNLS 2022]より引用 H. Song et al., “Learning from noisy labels with deep neural networks: A survey,” IEEE TNNLS, 2022. サイズ 拡大 ノイズ 除去 冗長性 削減
• クリーンとみなすサンプルの割合はそのデータセットにおけるノイズの割合に応じて決め るが、ノイズ割合は一般には未知なため実験的に決めるなどする必要がある ITLM [Shen+, ICML 2019] Iterative Trimmed Loss Minimization ノイジーなサンプル クリーンなサンプル モデル更新 ロス大 ロス小 Y. Shen et al., “Learning with bad training data via iterative trimmed loss minimization,” ICML, 2019. サイズ 拡大 ノイズ 除去 冗長性 削減
• 極端に大きなデータセットを構築するのは非効率的 • ランダムな大量のデータではなく、注意深く選別されたより少ないデータを集めることが 基盤データセットの確立につながるかもしれない Neural Scaling Lawとの関係 [Sorscher+, NeurIPS 2022] “Overall these results shed theoretical and empirical insights into the nature of data in deep learning and our ability to prune it, and suggest our current practice of collecting extremely large datasets may be highly inefficient. Our initial results in beating power law scaling motivate further studies and investments in not just inefficiently collecting large amounts of random data, but rather, intelligently collecting much smaller amounts of carefully selected data, potentially leading to the creation and dissemination of foundation datasets, in addition to foundation models.” B. Sorscher et al., “Beyond neural scaling laws: Beating power law scaling via data pruning,” NeurIPS, 2022.
特徴量をクラスタリングし、サンプル数が少ないクラスタの画像を重点的にデータ拡張 ◦ AutoAugmentの利用 • 学習データ選定 ◦ 目視によるクレンジング(ラベル誤りの修正、重複サンプルの削除) ◦ 検証データでスコアの不確実性が高いサンプルを選び、学習データに追加 ◦ 複数のモデルを使った投票による低品質なサンプルの特定 上位解法の例 How I Won the First Data-centric AI Competition: Divakar Roy [Blog] How We Won the First Data-Centric AI Competition: Innotescus [Blog] How We Won the First Data-Centric AI Competition: Synaptic-AnN [Blog]
必要に応じてクレンジング … ロス小 ロス大 与えらえたデータ 候補データ (100万) 学習データ 検証データ モデル • 与えられたデータ(2880枚)をデー タ拡張することで100万枚の候補デ ータを生成 • 検証データのうち、モデルが分類を 誤ったサンプルと最も近い特徴量を 持つサンプルを候補データから探索 して学習データに加える • 学習データの数がルール上限に達す るまで同様のサイクルを繰り返す • 特徴量をUMAPで可視化し、学習デ ータには含まれるが検証データに含 まれない領域を特定 • 特定した領域の学習データを検証デ ータに移すことで学習・検証の不一 致を緩和 How I Won the First Data-centric AI Competition: Mohammad Motamedi [Blog] How I Won the First Data-centric AI Competition: Johnson Kuan [Blog] How We Won the First Data-centric AI Competition: GoDataDriven [Blog]
• 上記2手法のANDをとった14億サンプルのデータセットDataComp-1Bで学習したCLIPは 23億サンプルのLAION-2Bで学習した場合よりも性能が高い フィルタリングのベースライン手法 A happy golden retriever enjoying a sunny day in the park. テキスト エンコーダ 画像 エンコーダ CLIPスコアフィルタリング コサイン 類似度 閾値以上? 画像ベースフィルタリング CommonPoolの サンプルから 抽出した特徴量 ImageNetの サンプルから 抽出した特徴量
jitter • detection flicker • detection in Main camera but not Narrow camera • driver didn't break but tracker thinks CIPV is rapidly decelerating • break lights are detected as on but acceleration is positive • rarely high/low velocity or acceleration • CIPV cuts in / cuts out • CIPV has high lateral velocity • bounding-box derived depth disagrees with network- predicted depth • rarely sloping road surface (hillcrest or dip) • rarely sharp turning road surface • driver breaks sharply on the highway • stop an go traffic • Main or Narrow or both cameras appear to be blinded • driver enters/exits tunnel • objects on the roof (e.g. canoes) • driver breaks harshly and there is a VRU cloys to us but there is no intersection 75 • レーダーは前方車両の距離と速度を正確に 計測できるが、ノイズや垂直分解能の低さ が課題 • カメラのみでレーダーと同等精度の計測を 可能にする機械学習モデルを4ヶ月で開発 • データ収集のためのトリガ(カメラとレー ダーの不整合発生など)を221種類用意し、 学習データとして10秒の映像を100万種類 (1.5ペタバイト)を収集 • リリース判断のための検証には人手で選ん だ6000種類の動画を利用 レーダーのカメラへの置き換え トリガの例 A. Karpathy, CVPR Workshop on Autonomous Driving, 2021. [YouTube]
• 点のクリックやバウンディングボックス、テキストなどの多様なプロンプト入力からゼロ ショットでのセグメンテーションが可能 • SAMの学習のため、1100万枚の画像に対して11億個のラベル(マスク)を付与したデー タセットSA-1Bを構築 Meta Platforms, Inc. https://segment-anything.com/ A. Kirillov et al., “Segment anything,” arXiv, 2023.
captioning GRiTによる dense captioning GPT-3.5による文章化 埋め込みによる ベクトル化 ベクトル検索 埋め込みによる ベクトル化 検索結果 走行動画 走行ログ 検索文 My car is waiting at the traffic light in front of the intersection at night. 走行データベース • 既存の画像エンコーダとLLMとの間をつ なぐTransformerのみを学習する • 画像キャプションのSOTAモデル • 画像全体を説明するような文章は高精度 に生成できるが、細かい物体レベルまで 認識するのは苦手 J. Li et al., “BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models,” arXiv, 2023.
captioning GRiTによる dense captioning GPT-3.5による文章化 埋め込みによる ベクトル化 ベクトル検索 埋め込みによる ベクトル化 検索結果 走行動画 走行ログ 検索文 My car is waiting at the traffic light in front of the intersection at night. 走行データベース • 物体検出を行い、物体ごとにキャプショ ンを生成 • 画像エンコーダ (ViT) で抽出した特徴量 から物体を検出し、物体領域の特徴量を テキストデコーダに入力 • タスクトークンにより物体検出(クラス 名生成)とキャプション生成を切り替え J. Wu et al., “GRiT: A generative region-to-text transformer for object understanding,” arXiv, 2023.
captioning GPT-3.5による文章化 埋め込みによる ベクトル化 ベクトル検索 埋め込みによる ベクトル化 検索結果 走行動画 走行ログ 検索文 My car is waiting at the traffic light in front of the intersection at night. 走行データベース • OpenAIが提供している埋め込みモデル (text-embedding-ada-002) を利用して 文章をベクトルに変換 • 走行データに対して生成した文章、およ びユーザが入力した検索文の双方をベク トル化し、ベクトル検索により検索文に 近い文章を持つ走行データを探す • ベクトル検索の高速化のため、近似最近 傍検索ライブラリであるFaissを利用 岩政, “大規模走行データを効率的に活用する検索システムの開発,” 第3回 Data-Centric AI勉強会, 2023. [Slides]