Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data-Centric AIの紹介

Data-Centric AIの紹介

Mobility Technologiesの社内勉強会でAndrew Ng先生が提唱するData-Centric AIについて紹介した際の資料です。

Kazuyuki Miyazawa

January 20, 2022
Tweet

More Decks by Kazuyuki Miyazawa

Other Decks in Technology

Transcript

  1. Mobility Technologies Co., Ltd. 宮澤 一之 株式会社Mobility Technologies AI技術開発部 AI研究開発第二グループ

    グループリーダー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 自己紹介 2 @kzykmyzw
  2. Mobility Technologies Co., Ltd. Model-Centric AIとData-Centric AI 5 Model-Centric AI

    ▪ データを集め、データに含まれるノイズに耐えられるような良いモデルを開発する ▪ データを固定し、コード/モデルを繰り返し改良していく Data-Centric AI ▪ データの一貫性を最重要とし、ツールを使ってデータの品質を改善する ▪ コード/モデルを固定し、データを繰り返し改良していく 現在のパラダイム 新しいパラダイム
  3. Mobility Technologies Co., Ltd. Andrew Ng ▪ xxxx 年 xx月

    すごい経歴(略 ▪ 2017年12月 Landing AIというスタートアップを立ち上げ ▪ 2020年10月 製造業向けの外観検査ツールLandingLensをローンチ ▪ 2021年03月 Deeplearning.AIのイベントでData-Centric AIについて講演 ▪ 2021年06月 Data-Centirc AI Competition開催 ▪ 2021年12月 NeurIPSでData-Centric AI Workshop開催 Data-Centric AIの提唱者 6 https://en.wikipedia.org/wiki/Andrew_Ng
  4. Mobility Technologies Co., Ltd. ▪ 外観検査プロジェクトにおいて、ベースライン方式をどれだけ改善できるか Model-CentricとData-Centricを比較 ▪ Model-Centricではベースライン性能をほとんど改善できなかったのに対し、 Data-Centricでは大きな改善が得られた

    Model-Centric vs. Data-Centric 7 鉄製品の欠陥検査 ソーラーパネルの 欠陥検査 表面検査 Baseline 76.2% 75.68% 85.05% Model-Centric 76.2% (+0%) 75.72% (+0.04%) 85.05% (+0%) Data-Centric 93.1% (+16.9%) 78.74% (+3.06%) 85.45% (+0.4%) A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  5. Mobility Technologies Co., Ltd. Data-Centricアプローチ 8 イグアナをBBOXで囲む アノテータA アノテータB アノテータC

    ▪ アノテータによるラベルの偏りがない、一貫したデータセットの構築を目指す ▪ データにおける問題の発見、解決を機械学習エンジニアのスキルに依存するの ではなくシステマティックに行う A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  6. Mobility Technologies Co., Ltd. データが少ないほど品質が重要 10 ▪ データ量が多ければある程度のノイズはキャンセルされるが、データ量が少な い場合はその品質が極めて重要になる ▪

    500枚の学習データの12%がノイズである場合、以下2つは同じ効果を持つ ▪ ノイズを除去する ▪ 追加で500枚を学習データに加える(データセットサイズを2倍にする) データ量:少 データ品質:低 データ量:多 データ品質:低 データ量:少 データ品質:高 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  7. Mobility Technologies Co., Ltd. 従来のソフトウェア 機械学習ソフトウェア 従来のソフトウェアと機械学習ソフトウェアの違い 11 スコープ定義 コーディング

    デプロイ スコープ定義 学習 デプロイ データ収集 DevOps MLOps A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  8. Mobility Technologies Co., Ltd. MLOpsの役割 12 スコープ定義 学習 デプロイ データ収集

    MLOps 機械学習プロジェクトのライフサイクル全体を通じて高品質なデータを保証する Q. どのようにデータを定 義し、集めればよいか? Q. モデルの性能改善のた めにどのようにデータを 変更すればよいか? Q. コンセプト/データド リフトを検知するために どのようなデータをトラ ックすればよいか? MLOpsチームは各フェーズでのこれらの問いに答えられる必要がある A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  9. Mobility Technologies Co., Ltd. Good Data is: ▪ 定義が一貫している(ラベル y

    の定義に曖昧さがない) ▪ 重要なケースをカバーしている(入力 x の分布を十分にカバーしている) ▪ 現在のデータがタイムリーにフィードバックされる(データ分布がデータドリ フトやコンセプトドリフトをカバーしている) ▪ サイズが適切である Big DataからGood Dataへ 13 A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  10. Mobility Technologies Co., Ltd. まとめ 14 AI System = Code

    + Data Model-Centric AI 性能を改善するためにどのように モデル(コード)を変更するか Data-Centric AI 性能を改善するためにどのように システマティックにデータを変更 するか ▪ MLOpsの最重要タスクは、機械学習プロジェクトのライフサイクル全体 を通じて高品質なデータを保証すること ▪ 今後はData-Centric AIを効率的かつシステマティックに実現するためのツ ールが重要となる A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube
  11. Mobility Technologies Co., Ltd. コンペ概要 期間:2021/6/24〜9/4 内容/ルール: ▪ 手書きローマ数字のデータセット(2880枚)に対する分類精度を改善する ▪

    分類モデル(ResNet50)や学習スクリプトは固定であり、参加者はデータ セットのみを変更する ▪ データセットサイズはtrain/val併せて10000枚まで ▪ train/valのスプリット方法も参加者が決める ▪ 変更したデータセットをzipで固めてCodaLabからアップロードすると、学 習がCodaLab上で実行されてhidden test setでの評価が行われる 16
  12. Mobility Technologies Co., Ltd. 結果 20 順位 チーム名 Accuracy Baseline

    0.64421 1 Divakar Roy 0.85826 2 Innotescus 0.85744 3 Synaptic-AnN 0.85455 4 Synaptic-AnN 0.85083 5 Jens Kramer 0.84959 … … … 486 RAHUL GUPTA 0.059091 Best Performance賞が上位3チームに授与 その他、順位に関係なく(?)Most Innovative賞が3チームに授与
  13. Mobility Technologies Co., Ltd. Best Performance - 1st 21 文字領域(前景)とノイズ(背景)を分離

    文字領域をクロップしてデータ拡張 拡張した文字領域を背景に合成 目視によるデータクレンジング ・ラベルミスの修正 ・類似サンプルの削除 ・曖昧サンプルの削除 https://www.deeplearning.ai/data-centric-ai-competition-divakar-roy/
  14. Mobility Technologies Co., Ltd. Best Performance - 2nd 22 目視によるデータクレンジング

    ・ラベルミスの修正 ・曖昧サンプルの削除 https://www.deeplearning.ai/data-centric-ai-competition-innotescus/ データセットサイズは当初の78% となったがAccuracyは9%改善 train/valスプリットの調整 サブクラスのbalancing hard exampleの追加 画像特徴をクラスタリングすることで各 クラスをサブクラスに分け、サブクラス レベルでbalancingするようにデータ拡張 validationサンプルに対し以下の difficulty scoreを定義し、スコアに 基づいてhard exampleを探して学 習データに追加 Po max:クラス確率の最大値 Po 2ndmax:クラス確率の2番目に大きい値
  15. Mobility Technologies Co., Ltd. Best Performance - 3rd 23 目視によるデータクレンジング

    https://www.deeplearning.ai/data-centric-ai-competition-synaptic-ann/ 手書きによるデータ追加 testセットサンプルからのデータ拡張 AutoAugment 複数モデルの投票によるフィルタリング サンプル画像(青枠)の一部をコピペ することでデータを拡張 AutoAugment論文からSVHN向けに探 索されたデータ拡張手法を流用 拡張したデータセットに対して複数の CNNモデルで推論を行い、クラス確 率の投票値に基づいて低品質な画像を フィルタリング
  16. Mobility Technologies Co., Ltd. Most Innovative - 1st 24 目視によるデータクレンジング

    ・重複サンプルの削除 補助モデルの学習 補助モデルによるスクリーニング クラス不均衡の解消 N-fold Cross Validation 少数のサンプルを選び、ラベルが正確 であることを確認した上で分類モデル を学習 補助モデルでデータセット全体を推論 し、ロスが小さいサンプルK枚とロス が大きいサンプルL枚を取り出して目 視確認を行い、必要に応じてラベル修 正や削除を実施 補助モデルの学習データ 残りの学習データ 小 ロス 大 目視 目視により修正した高品質なデータを 補助モデルの学習データに加え、補助 モデルを学習し直す 補助モデルの学習データ 残りの学習データ 全サンプルを目視するまで繰り返し https://www.deeplearning.ai/data-centric-ai-competition-mohammad-motamedi/
  17. Mobility Technologies Co., Ltd. Most Innovative - 2nd 25 目視によるデータクレンジング

    ・ラベルミスの修正 ・曖昧サンプルの削除 https://www.deeplearning.ai/data-centric-ai-competition-johnson-kuan/ 候補データとして、データ拡張により100万枚を生成 trainセットで学習、valセットで推論 valセットで推論を誤ったサンプルと最も近いサンプル を候補データから探索し、trainセットに加える trainセットがルール上限である1万枚 に到達するまで繰り返し 別途用意したpretrainedモデル で抽出した特徴量を使って最 近傍探索を実施
  18. Mobility Technologies Co., Ltd. Most Innovative - 3rd 26 目視によるデータクレンジング

    ・ラベルミスの修正 https://www.deeplearning.ai/data-centric-ai-competition-godatadriven/ 特徴量の可視化によるtrain/val不均衡の調査 Streamlitでインタラクティブにデータ拡張 UMAPで特徴量を可視化 valに存在しない領域
  19. Mobility Technologies Co., Ltd. ケーススタディ 〜 Tesla 〜 27 3

    以下資料の抜粋です Teslaにおけるコンピュータビジョン技術の調査
  20. Mobility Technologies Co., Ltd. ユーザ車両からのデータ収集 29 https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=7625s ▪ あらかじめ設定した条件をトリガとしてユーザ車両からデータを自動収集 ▪

    新機能はまずシャドーモードでデプロイし、機能がうまく動作しないシーンなどのデータを収集 ▪ 収集したデータは学習データの他、一部は将来的に対応すべきシーンとしてユニットテストに追加 ▪ デプロイ → データ収集 → 学習 → デプロイ…のループを”データエンジン”と呼ぶ
  21. Mobility Technologies Co., Ltd. 所感 ▪ Data-Centric AIの細かい構成要素で言えば、特に目新しいものはなく、皆が課 題と感じており、すでに解決策を模索している ▪

    Data-Centric AIの言わんとしていることは、それらを個人のスキルや暗黙知に 依存させるのではなく、分野としてしっかり体系化しましょうということ (Andrew先生も、systematicにやるという点を強調していた) ▪ そのためには汎用的なツールの開発が最も重要になる(データセットのバージ ョン管理技術なども含む) 38