Data-centric AI入門第6章：Data-centric AIの実践例

Slide 1

Slide 1 text

6章 Data-centric AIの実践例第13回 Data-Centric AI勉強会鈴木達哉

Slide 2

Slide 2 text

自己紹介 2 鈴木達哉 Data-Centric AI Community運営 GO株式会社 AI技術開発部 AI研究開発第二グループ（DeNAから出向中）専門はコンピュータビジョン

Slide 3

Slide 3 text

6章 Data-centric AIの実践例 6.1 テスラ 6.2 メタ 6.3 チューリング 6.4 LINEヤフー 6.5 GO 6.6 コンペティションとベンチマーク 6.6.1 Data-centric AI Competition 6.6.2 DataComp 6.6.3 DataPerf 6.6.4 Kaggle 6.7 Data-centric AI 実践のためのサービス 6.7.1 Snorkel AI 6.7.2 Cleanlab 6.8 おわりに 3 体系化を目指すDCAIだが、現場のアプローチは多種多様。プロジェクトと密に結びついたものが多いのが実情。まずは実例から学ぶために、6章では企業の事例やコンペティション・ベンチマーク・サービスを紹介。当勉強会での発表の一部も紹介させていただきました。今日のLTで紹介今日のLTで紹介

Slide 4

Slide 4 text

GOの事例1：脇見検知における能動学習の活用背景次世代AIドラレコサービス『DRIVE CHART』ではカメラで脇見運転を検知。課題脇見は発生頻度が低くドライブレコーダーの映像をランダムに収集しても学習データ量を増やすことが難しい。解決策能動学習の活用：モデルが確信を持っていないデータを抽出し学習データセットを拡充。評価データセットの再構築：能動学習で拡充したようなデータが既存データセットには少ない。母集団からのランダムサンプリングで再構築し、新たに強化された部分も適切に評価。結果 Precisionが改善前を100とすると136.61と大幅改善。 4 https://speakerdeck.com/mot_techtalk/wei-xian-yun-zhuan-jian-zhi-nodata-centric-ainaqu-rizu-miより母集団データ既存データセットあるフィルタ処理（ランダムではない）新学習データセット能動学習能動学習で収集したようなデータは少ない分布異なる

Slide 5

Slide 5 text

GOの事例2：道路標識検出における地図の活用 5 https://speakerdeck.com/mot_techtalk/mot-techtalk-number-11-torarekodong-hua-woshi-tutadi-tu-mentenansufalsexiao-lu-huaより背景車両前方のカメラで70種類近くの道路標識を検出。課題標識の種類ごとに設置頻度に差があり、ドライブレコーダーの映像をランダムに収集しても希少な標識の学習データはほとんど取得できない。解決策地図データから道路標識の位置・種類を把握。指定した道路を通った映像を収集・対象付近のフレームのみアノテーション。結果希少な標識の収集効率が約10倍改善。映像時刻アノテーターへ GPS軌跡映像を収集

Slide 6

Slide 6 text

データの品質改善のためのCleanlab 概要 2021年創業の米国スタートアップが提供するサービス。 Confident Learning[1]の技術がベース。やれることアノテーション済みデータのラベル誤りを自動で検出。 Confident Learningとは学習済みモデルの高信頼度の推論結果を「真のラベル」とみなし、アノテーションされたラベルとの混同行列を算出。誤ったラベルの可能性が高いデータを特定。事例スペインのBBVA銀行の例では、取引内容を説明するテキストの分類タスクにおいて、ラベルクリーニングにより精度が28%改善。 6 有償版のCleanlab Studio 修正まで一貫して行える https://cleanlab.ai/ オープンソース版のcleanlab テーブル・画像・テキストなど各種対応 https://github.com/cleanlab/cleanlab [1] Curtisa Northcutt, Jiang Lu, and Chuang Isaac. “Confident Learning: Estimating Uncertainty in Dataset Labels”. In: Journal of Artificial Intelligence Research 70 (2021).

Slide 7

Slide 7 text

他の様々な事例はぜひ書籍で確認を！今後も勉強会での事例の共有よろしくお願いします！ 7