Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data-centric AI入門第6章:Data-centric AIの実践例

Data-centric AI入門第6章:Data-centric AIの実践例

「第13回 Data-Centric AI勉強会 ~Data-centric AI入門 著者LT大会~」での発表資料です。
https://dcai-jp.connpass.com/event/342802/

Tatsuya Suzuki

February 12, 2025
Tweet

More Decks by Tatsuya Suzuki

Other Decks in Technology

Transcript

  1. 6章 Data-centric AIの実践例 6.1 テスラ 6.2 メタ 6.3 チューリング 6.4

    LINEヤフー 6.5 GO 6.6 コンペティションとベンチマーク 6.6.1 Data-centric AI Competition 6.6.2 DataComp 6.6.3 DataPerf 6.6.4 Kaggle 6.7 Data-centric AI 実践のためのサービス 6.7.1 Snorkel AI 6.7.2 Cleanlab 6.8 おわりに 3 体系化を目指すDCAIだが、現場のアプローチは多種多様。 プロジェクトと密に結びついたものが多いのが実情。 まずは実例から学ぶために、6章では企業の事例やコンペ ティション・ベンチマーク・サービスを紹介。 当勉強会での発表の一部も紹介させていただきました。 今日のLTで紹介 今日のLTで紹介
  2. GOの事例1:脇見検知における能動学習の活用 背景 次世代AIドラレコサービス『DRIVE CHART』ではカメラで脇見運転を検知。 課題 脇見は発生頻度が低くドライブレコーダーの映像をランダムに収集しても 学習データ量を増やすことが難しい。 解決策 能動学習の活用:モデルが確信を持っていないデータを抽出し学習データセットを拡充。 評価データセットの再構築:能動学習で拡充したようなデータが既存データセットには少ない。

    母集団からのランダムサンプリングで再構築し、 新たに強化された部分も適切に評価。 結果 Precisionが改善前を100とすると136.61と大幅改善。 4 https://speakerdeck.com/mot_techtalk/wei-xian-yun-zhuan-jian-zhi-nodata-centric-ainaqu-rizu-miより 母集団 データ 既存 データ セット あるフィルタ処理 (ランダムではない) 新学習 データ セット 能動学習 能動学習で収集 したようなデー タは少ない 分布異なる
  3. データの品質改善のためのCleanlab 概要 2021年創業の米国スタートアップが提供するサービス。 Confident Learning[1]の技術がベース。 やれること アノテーション済みデータのラベル誤りを自動で検出。 Confident Learningとは 学習済みモデルの高信頼度の推論結果を「真のラベル」とみなし、

    アノテーションされたラベルとの混同行列を算出。 誤ったラベルの可能性が高いデータを特定。 事例 スペインのBBVA銀行の例では、取引内容を説明するテキストの 分類タスクにおいて、ラベルクリーニングにより精度が28%改善。 6 有償版のCleanlab Studio 修正まで一貫して行える https://cleanlab.ai/ オープンソース版のcleanlab テーブル・画像・テキストなど各種対応 https://github.com/cleanlab/cleanlab [1] Curtisa Northcutt, Jiang Lu, and Chuang Isaac. “Confident Learning: Estimating Uncertainty in Dataset Labels”. In: Journal of Artificial Intelligence Research 70 (2021).