Slide 1

Slide 1 text

6章 Data-centric AIの実践例 第13回 Data-Centric AI勉強会 鈴木達哉

Slide 2

Slide 2 text

自己紹介 2 鈴木 達哉 Data-Centric AI Community運営 GO株式会社 AI技術開発部 AI研究開発第二グループ (DeNAから出向中) 専門はコンピュータビジョン

Slide 3

Slide 3 text

6章 Data-centric AIの実践例 6.1 テスラ 6.2 メタ 6.3 チューリング 6.4 LINEヤフー 6.5 GO 6.6 コンペティションとベンチマーク 6.6.1 Data-centric AI Competition 6.6.2 DataComp 6.6.3 DataPerf 6.6.4 Kaggle 6.7 Data-centric AI 実践のためのサービス 6.7.1 Snorkel AI 6.7.2 Cleanlab 6.8 おわりに 3 体系化を目指すDCAIだが、現場のアプローチは多種多様。 プロジェクトと密に結びついたものが多いのが実情。 まずは実例から学ぶために、6章では企業の事例やコンペ ティション・ベンチマーク・サービスを紹介。 当勉強会での発表の一部も紹介させていただきました。 今日のLTで紹介 今日のLTで紹介

Slide 4

Slide 4 text

GOの事例1:脇見検知における能動学習の活用 背景 次世代AIドラレコサービス『DRIVE CHART』ではカメラで脇見運転を検知。 課題 脇見は発生頻度が低くドライブレコーダーの映像をランダムに収集しても 学習データ量を増やすことが難しい。 解決策 能動学習の活用:モデルが確信を持っていないデータを抽出し学習データセットを拡充。 評価データセットの再構築:能動学習で拡充したようなデータが既存データセットには少ない。 母集団からのランダムサンプリングで再構築し、 新たに強化された部分も適切に評価。 結果 Precisionが改善前を100とすると136.61と大幅改善。 4 https://speakerdeck.com/mot_techtalk/wei-xian-yun-zhuan-jian-zhi-nodata-centric-ainaqu-rizu-miより 母集団 データ 既存 データ セット あるフィルタ処理 (ランダムではない) 新学習 データ セット 能動学習 能動学習で収集 したようなデー タは少ない 分布異なる

Slide 5

Slide 5 text

GOの事例2:道路標識検出における地図の活用 5 https://speakerdeck.com/mot_techtalk/mot-techtalk-number-11-torarekodong-hua-woshi-tutadi-tu-mentenansufalsexiao-lu-huaより 背景 車両前方のカメラで70種類近くの道路標識を検出。 課題 標識の種類ごとに設置頻度に差があり、ドライブレコーダーの映像を ランダムに収集しても希少な標識の学習データはほとんど取得できない。 解決策 地図データから道路標識の位置・種類を把握。 指定した道路を通った映像を収集・対象付近のフレームのみアノテーション。 結果 希少な標識の収集効率が約10倍改善。 映像 時刻 アノテーターへ GPS軌跡 映像を収集

Slide 6

Slide 6 text

データの品質改善のためのCleanlab 概要 2021年創業の米国スタートアップが提供するサービス。 Confident Learning[1]の技術がベース。 やれること アノテーション済みデータのラベル誤りを自動で検出。 Confident Learningとは 学習済みモデルの高信頼度の推論結果を「真のラベル」とみなし、 アノテーションされたラベルとの混同行列を算出。 誤ったラベルの可能性が高いデータを特定。 事例 スペインのBBVA銀行の例では、取引内容を説明するテキストの 分類タスクにおいて、ラベルクリーニングにより精度が28%改善。 6 有償版のCleanlab Studio 修正まで一貫して行える https://cleanlab.ai/ オープンソース版のcleanlab テーブル・画像・テキストなど各種対応 https://github.com/cleanlab/cleanlab [1] Curtisa Northcutt, Jiang Lu, and Chuang Isaac. “Confident Learning: Estimating Uncertainty in Dataset Labels”. In: Journal of Artificial Intelligence Research 70 (2021).

Slide 7

Slide 7 text

他の様々な事例はぜひ書籍で確認を! 今後も勉強会での事例の共有よろしくお願いします! 7