Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data-Centric AIの紹介

Data-Centric AIの紹介

Mobility Technologiesの社内勉強会でAndrew Ng先生が提唱するData-Centric AIについて紹介した際の資料です。

Kazuyuki Miyazawa

January 20, 2022
Tweet

More Decks by Kazuyuki Miyazawa

Other Decks in Technology

Transcript

  1. Mobility Technologies Co., Ltd.
    Data-Centric AIの紹介
    Mobility Technologies
    宮澤一之

    View full-size slide

  2. Mobility Technologies Co., Ltd.
    宮澤 一之
    株式会社Mobility Technologies
    AI技術開発部 AI研究開発第二グループ
    グループリーダー
    経歴
    April 2019 - March 2020
    AI研究開発エンジニア@DeNA
    April 2010 - March 2019
    研究員@三菱電機
    March 2010
    博士@東北大学
    自己紹介
    2
    @kzykmyzw

    View full-size slide

  3. Mobility Technologies Co., Ltd.
    本日の内容
    1. Data-Centric AIとは
    2. Data-Centric AI Competition
    3. ケーススタディ
    4. 所感
    3

    View full-size slide

  4. Mobility Technologies Co., Ltd.
    Data-Centric AIとは
    4
    1

    View full-size slide

  5. Mobility Technologies Co., Ltd.
    Model-Centric AIとData-Centric AI
    5
    Model-Centric AI
    ■ データを集め、データに含まれるノイズに耐えられるような良いモデルを開発する
    ■ データを固定し、コード/モデルを繰り返し改良していく
    Data-Centric AI
    ■ データの一貫性を最重要とし、ツールを使ってデータの品質を改善する
    ■ コード/モデルを固定し、データを繰り返し改良していく
    現在のパラダイム
    新しいパラダイム

    View full-size slide

  6. Mobility Technologies Co., Ltd.
    Andrew Ng
    ■ xxxx 年 xx月 すごい経歴(略
    ■ 2017年12月 Landing AIというスタートアップを立ち上げ
    ■ 2020年10月 製造業向けの外観検査ツールLandingLensをローンチ
    ■ 2021年03月 Deeplearning.AIのイベントでData-Centric AIについて講演
    ■ 2021年06月 Data-Centirc AI Competition開催
    ■ 2021年12月 NeurIPSでData-Centric AI Workshop開催
    Data-Centric AIの提唱者
    6
    https://en.wikipedia.org/wiki/Andrew_Ng

    View full-size slide

  7. Mobility Technologies Co., Ltd.
    ■ 外観検査プロジェクトにおいて、ベースライン方式をどれだけ改善できるか
    Model-CentricとData-Centricを比較
    ■ Model-Centricではベースライン性能をほとんど改善できなかったのに対し、
    Data-Centricでは大きな改善が得られた
    Model-Centric vs. Data-Centric
    7
    鉄製品の欠陥検査
    ソーラーパネルの
    欠陥検査
    表面検査
    Baseline 76.2% 75.68% 85.05%
    Model-Centric 76.2% (+0%) 75.72% (+0.04%) 85.05% (+0%)
    Data-Centric 93.1% (+16.9%) 78.74% (+3.06%) 85.45% (+0.4%)
    A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube

    View full-size slide

  8. Mobility Technologies Co., Ltd.
    Data-Centricアプローチ
    8
    イグアナをBBOXで囲む
    アノテータA アノテータB
    アノテータC
    ■ アノテータによるラベルの偏りがない、一貫したデータセットの構築を目指す
    ■ データにおける問題の発見、解決を機械学習エンジニアのスキルに依存するの
    ではなくシステマティックに行う
    A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube

    View full-size slide

  9. Mobility Technologies Co., Ltd.
    1. 複数のアノテータに同一のサンプル画像を提示
    2. アノテータ間のラベルの一貫性を定量化
    3. アノテータ間でばらつきの大きいクラスについてアノテーションルールを見直し
    4. 1. - 3. を収束するまで反復
    一貫したラベルを得るための手法例
    9
    A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube

    View full-size slide

  10. Mobility Technologies Co., Ltd.
    データが少ないほど品質が重要
    10
    ■ データ量が多ければある程度のノイズはキャンセルされるが、データ量が少な
    い場合はその品質が極めて重要になる
    ■ 500枚の学習データの12%がノイズである場合、以下2つは同じ効果を持つ
    ■ ノイズを除去する
    ■ 追加で500枚を学習データに加える(データセットサイズを2倍にする)
    データ量:少
    データ品質:低
    データ量:多
    データ品質:低
    データ量:少
    データ品質:高
    A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube

    View full-size slide

  11. Mobility Technologies Co., Ltd.
    従来のソフトウェア
    機械学習ソフトウェア
    従来のソフトウェアと機械学習ソフトウェアの違い
    11
    スコープ定義 コーディング デプロイ
    スコープ定義 学習 デプロイ
    データ収集
    DevOps
    MLOps
    A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube

    View full-size slide

  12. Mobility Technologies Co., Ltd.
    MLOpsの役割
    12
    スコープ定義 学習 デプロイ
    データ収集
    MLOps
    機械学習プロジェクトのライフサイクル全体を通じて高品質なデータを保証する
    Q. どのようにデータを定
    義し、集めればよいか?
    Q. モデルの性能改善のた
    めにどのようにデータを
    変更すればよいか?
    Q. コンセプト/データド
    リフトを検知するために
    どのようなデータをトラ
    ックすればよいか?
    MLOpsチームは各フェーズでのこれらの問いに答えられる必要がある
    A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube

    View full-size slide

  13. Mobility Technologies Co., Ltd.
    Good Data is:
    ■ 定義が一貫している(ラベル y の定義に曖昧さがない)
    ■ 重要なケースをカバーしている(入力 x の分布を十分にカバーしている)
    ■ 現在のデータがタイムリーにフィードバックされる(データ分布がデータドリ
    フトやコンセプトドリフトをカバーしている)
    ■ サイズが適切である
    Big DataからGood Dataへ
    13
    A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube

    View full-size slide

  14. Mobility Technologies Co., Ltd.
    まとめ
    14
    AI System = Code + Data
    Model-Centric AI
    性能を改善するためにどのように
    モデル(コード)を変更するか
    Data-Centric AI
    性能を改善するためにどのように
    システマティックにデータを変更
    するか
    ■ MLOpsの最重要タスクは、機械学習プロジェクトのライフサイクル全体
    を通じて高品質なデータを保証すること
    ■ 今後はData-Centric AIを効率的かつシステマティックに実現するためのツ
    ールが重要となる
    A Chat with Andrew on MLOps: From Model-centric to Data-centric AI, YouTube

    View full-size slide

  15. Mobility Technologies Co., Ltd.
    Data-Centric AI Competition
    15
    2
    https://https-deeplearning-ai.github.io/data-centric-comp/

    View full-size slide

  16. Mobility Technologies Co., Ltd.
    コンペ概要
    期間:2021/6/24〜9/4
    内容/ルール:
    ■ 手書きローマ数字のデータセット(2880枚)に対する分類精度を改善する
    ■ 分類モデル(ResNet50)や学習スクリプトは固定であり、参加者はデータ
    セットのみを変更する
    ■ データセットサイズはtrain/val併せて10000枚まで
    ■ train/valのスプリット方法も参加者が決める
    ■ 変更したデータセットをzipで固めてCodaLabからアップロードすると、学
    習がCodaLab上で実行されてhidden test setでの評価が行われる
    16

    View full-size slide

  17. Mobility Technologies Co., Ltd.
    サンプルデータ(正常)*
    17
    * 参加された方のQiita記事より引用

    View full-size slide

  18. Mobility Technologies Co., Ltd.
    サンプルデータ(ノイズ)*
    18
    * 参加された方のQiita記事より引用

    View full-size slide

  19. Mobility Technologies Co., Ltd.
    サンプルデータ(ラベルミス、判別不能)*
    19
    * 参加された方のQiita記事より引用

    View full-size slide

  20. Mobility Technologies Co., Ltd.
    結果
    20
    順位 チーム名 Accuracy
    Baseline 0.64421
    1 Divakar Roy 0.85826
    2 Innotescus 0.85744
    3 Synaptic-AnN 0.85455
    4 Synaptic-AnN 0.85083
    5 Jens Kramer 0.84959
    … … …
    486 RAHUL GUPTA 0.059091
    Best Performance賞が上位3チームに授与
    その他、順位に関係なく(?)Most
    Innovative賞が3チームに授与

    View full-size slide

  21. Mobility Technologies Co., Ltd.
    Best Performance - 1st
    21
    文字領域(前景)とノイズ(背景)を分離
    文字領域をクロップしてデータ拡張
    拡張した文字領域を背景に合成
    目視によるデータクレンジング
    ・ラベルミスの修正
    ・類似サンプルの削除
    ・曖昧サンプルの削除
    https://www.deeplearning.ai/data-centric-ai-competition-divakar-roy/

    View full-size slide

  22. Mobility Technologies Co., Ltd.
    Best Performance - 2nd
    22
    目視によるデータクレンジング
    ・ラベルミスの修正
    ・曖昧サンプルの削除
    https://www.deeplearning.ai/data-centric-ai-competition-innotescus/
    データセットサイズは当初の78%
    となったがAccuracyは9%改善
    train/valスプリットの調整
    サブクラスのbalancing
    hard exampleの追加
    画像特徴をクラスタリングすることで各
    クラスをサブクラスに分け、サブクラス
    レベルでbalancingするようにデータ拡張
    validationサンプルに対し以下の
    difficulty scoreを定義し、スコアに
    基づいてhard exampleを探して学
    習データに追加
    Po
    max:クラス確率の最大値
    Po
    2ndmax:クラス確率の2番目に大きい値

    View full-size slide

  23. Mobility Technologies Co., Ltd.
    Best Performance - 3rd
    23
    目視によるデータクレンジング
    https://www.deeplearning.ai/data-centric-ai-competition-synaptic-ann/
    手書きによるデータ追加
    testセットサンプルからのデータ拡張
    AutoAugment
    複数モデルの投票によるフィルタリング
    サンプル画像(青枠)の一部をコピペ
    することでデータを拡張
    AutoAugment論文からSVHN向けに探
    索されたデータ拡張手法を流用
    拡張したデータセットに対して複数の
    CNNモデルで推論を行い、クラス確
    率の投票値に基づいて低品質な画像を
    フィルタリング

    View full-size slide

  24. Mobility Technologies Co., Ltd.
    Most Innovative - 1st
    24
    目視によるデータクレンジング
    ・重複サンプルの削除
    補助モデルの学習
    補助モデルによるスクリーニング
    クラス不均衡の解消
    N-fold Cross Validation
    少数のサンプルを選び、ラベルが正確
    であることを確認した上で分類モデル
    を学習
    補助モデルでデータセット全体を推論
    し、ロスが小さいサンプルK枚とロス
    が大きいサンプルL枚を取り出して目
    視確認を行い、必要に応じてラベル修
    正や削除を実施
    補助モデルの学習データ 残りの学習データ
    小 ロス 大
    目視
    目視により修正した高品質なデータを
    補助モデルの学習データに加え、補助
    モデルを学習し直す
    補助モデルの学習データ 残りの学習データ
    全サンプルを目視するまで繰り返し
    https://www.deeplearning.ai/data-centric-ai-competition-mohammad-motamedi/

    View full-size slide

  25. Mobility Technologies Co., Ltd.
    Most Innovative - 2nd
    25
    目視によるデータクレンジング
    ・ラベルミスの修正
    ・曖昧サンプルの削除
    https://www.deeplearning.ai/data-centric-ai-competition-johnson-kuan/
    候補データとして、データ拡張により100万枚を生成
    trainセットで学習、valセットで推論
    valセットで推論を誤ったサンプルと最も近いサンプル
    を候補データから探索し、trainセットに加える
    trainセットがルール上限である1万枚
    に到達するまで繰り返し
    別途用意したpretrainedモデル
    で抽出した特徴量を使って最
    近傍探索を実施

    View full-size slide

  26. Mobility Technologies Co., Ltd.
    Most Innovative - 3rd
    26
    目視によるデータクレンジング
    ・ラベルミスの修正
    https://www.deeplearning.ai/data-centric-ai-competition-godatadriven/
    特徴量の可視化によるtrain/val不均衡の調査
    Streamlitでインタラクティブにデータ拡張
    UMAPで特徴量を可視化
    valに存在しない領域

    View full-size slide

  27. Mobility Technologies Co., Ltd.
    ケーススタディ 〜 Tesla 〜
    27
    3
    以下資料の抜粋です
    Teslaにおけるコンピュータビジョン技術の調査

    View full-size slide

  28. Secret
    Mobility Technologies Co., Ltd.
    28
    https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=8181s

    View full-size slide

  29. Mobility Technologies Co., Ltd.
    ユーザ車両からのデータ収集
    29
    https://www.youtube.com/watch?v=Ucp0TTmvqOE&t=7625s
    ■ あらかじめ設定した条件をトリガとしてユーザ車両からデータを自動収集
    ■ 新機能はまずシャドーモードでデプロイし、機能がうまく動作しないシーンなどのデータを収集
    ■ 収集したデータは学習データの他、一部は将来的に対応すべきシーンとしてユニットテストに追加
    ■ デプロイ → データ収集 → 学習 → デプロイ…のループを”データエンジン”と呼ぶ

    View full-size slide

  30. Mobility Technologies Co., Ltd.
    事例1:標識検出
    30
    ■ 標識検出では、オクルージョンや補助標識による条件付きなど様々なケースに対応する必要がある
    ■ 例えば木で隠された標識だけを見つける検出器を作ってユーザ車両にデプロイし、検出結果をトリガと
    して木で隠された標識の画像を大量に自動収集して学習データセットに加える
    https://www.youtube.com/watch?v=hx7BXih7zx8&t=700s

    View full-size slide

  31. Mobility Technologies Co., Ltd.
    ■ レーダーは前方車両の距離と速度を正確に計測できるが、ノイズや垂直分解能の低さが課題
    ■ カメラのみでレーダーと同等精度の計測を可能にする機械学習モデルをわずか4ヶ月で開発
    ■ データ収集のためのトリガ(カメラとレーダーの不整合発生など)を221種類用意し、学習データとして
    100万映像(1.5ペタバイト)を収集
    事例2:レーダーの廃止
    31
    https://www.youtube.com/watch?v=g6bOwQdCJrc&t=893s

    View full-size slide

  32. Mobility Technologies Co., Ltd.
    ■ 前方車両の急ブレーキや道路にかかる橋などによりレーダーが不正確となるケースでもカメラにより正
    確な計測が可能となった
    ■ リリースにあたっては6000種類のクリップによるユニットテストやシミュレーションで生成した1万シナ
    リオを使って検証を実施
    事例2:レーダーの廃止
    32
    https://www.youtube.com/watch?v=g6bOwQdCJrc&t=1366s

    View full-size slide

  33. Mobility Technologies Co., Ltd.
    ■ 自社に1000人規模のアノテーションチームを設置し、そのためのインフラをフルスクラッチで開発
    ■ オフライン処理である利点を活用してアノテーションを自動化し、その誤りを人間が修正
    ■ 車両にデプロイできないような大規模なモデルやアンサンブルの利用
    ■ 未来情報(hindsight)の活用
    ■ 同一箇所を走行した複数車両のデータを統合
    アノテーション
    33
    https://www.youtube.com/watch?v=j0z4FweCy4M&t=5075s https://www.youtube.com/watch?v=g6bOwQdCJrc&t=732s

    View full-size slide

  34. Mobility Technologies Co., Ltd.
    4次元空間でのアノテーション
    34
    https://www.youtube.com/watch?v=j0z4FweCy4M&t=5223s
    📹

    View full-size slide

  35. Mobility Technologies Co., Ltd.
    複数車両のデータの統合
    35
    https://www.youtube.com/watch?v=j0z4FweCy4M&t=5417s
    📹

    View full-size slide

  36. Mobility Technologies Co., Ltd.
    ■ シミュレータを活用することでレアケースや人手でのアノテーションが困難なシーンを生成
    ■ 車両や歩行者などのオブジェクトは数千種類、マニュアルで作成した道路は2000マイル以上
    ■ 現行モデルが失敗したシーンの実データを3次元再構成してシミュレータ内に再現し改善に役立てる
    ■ より写実的なレンダリングのため、ニューラルレンダリングも活用
    シミュレーションの活用
    36
    https://www.youtube.com/watch?v=j0z4FweCy4M&t=5715s

    View full-size slide

  37. Mobility Technologies Co., Ltd.
    所感
    37
    4

    View full-size slide

  38. Mobility Technologies Co., Ltd.
    所感
    ■ Data-Centric AIの細かい構成要素で言えば、特に目新しいものはなく、皆が課
    題と感じており、すでに解決策を模索している
    ■ Data-Centric AIの言わんとしていることは、それらを個人のスキルや暗黙知に
    依存させるのではなく、分野としてしっかり体系化しましょうということ
    (Andrew先生も、systematicにやるという点を強調していた)
    ■ そのためには汎用的なツールの開発が最も重要になる(データセットのバージ
    ョン管理技術なども含む)
    38

    View full-size slide

  39. 文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
    Mobility Technologies Co., Ltd.
    39

    View full-size slide