Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第1回 Data-Centric AI勉強会 LT: AIドラレコを支える一貫性のあるデータの作り方

moyomot
June 01, 2023
780

第1回 Data-Centric AI勉強会 LT: AIドラレコを支える一貫性のあるデータの作り方

moyomot

June 01, 2023
Tweet

Transcript

  1. © GO Inc. 2 自己紹介 GO株式会社 スマートドライビング事業本部 システム開発部 AI基盤グループ 森本

    淳司 2021年 GO株式会社に入社 AI基盤グループで次世代AIドラレコサービス『DRIVE CHART』 のMLOps業務に従事
  2. © GO Inc. 1. 次世代AIドラレコサービス『DRIVE CHART』について 2. Data-Centric AIについて復習 3.

    『DRIVE CHART』における一貫性のある データの作り方 4 本日お話すること
  3. © GO Inc. AIドラレコ DRIVE CHARTの仕組み 7 外向きカメラ 3軸加速度 センサ

    3軸角速度 センサ GPS 内向きカメラ レポートサーバ 地図 参考:DRIVE CHARTを支える技術(内田、2020) https://www.slideshare.net/ren4yu/drive-chartai-2393 11682 レポートシステム レポート アルゴリズム 深層学習モデル エッジAIライブラリ コンピュータ ビジョン
  4. © GO Inc. • 基本的な仕組みで実験用データの収集を実現 ◦ エッジデバイスからセンサーデータ、動画を収集 ▪ ランダムサンプリングやモデルのconfidenceを用いるなど様々な収集が可能 ◦

    実験環境のデータレイクに保管 ◦ 弊社アノテーショングループがラベル付け ▪ GO株式会社の強み! ◦ 実験や継続的学習に使用 14 DRIVE CHARTでの実験データの集め方 外向きカメラ 3軸加速度 センサ 3軸角速度 センサ GPS 内向きカメラ データレイク Amazon S3 Amazon Aurora BigQuery MLOps 実験環境 本番環境 継続的学習 アノテーション 環境
  5. © GO Inc. • AIエンジニアがアノテーションマニュアル作成 ◦ 基本的には過去のアノテーション仕様書をもとに作成 ◦ 新しいラベル付けはアノテーショングループと最初に密なコミュニケーション ▪

    主にはSlackベース ▪ 必要に応じてオンラインミーティング • AIエンジニアが最初のアノテーションをテスト ◦ ラベル付で悩むポイントの洗い出し • アノテータ側も管理者とアノテータ1名でテストアノテーション ◦ アノテーショングループによる改善点の共有 • ラベルが収束し一貫性ができたら大規模展開 ◦ フィードバックサイクルをこまめに実施する • アノテーションツールは自社管理のNotaを使用 ◦ https://github.com/dena/nota 15 DRIVE CHARTでの一貫性のあるデータの作りかた アノテーションマ ニュアル作成 テスト アノテーション アノテータと管理者に よるテスト 大規模展開
  6. © GO Inc. 1. アノテーション実施 2. 実験進捗 3. さらなる実験のために新たにデータを追加しアノテーション実施 •

    過去の失敗 ◦ 2. ~ 3.を繰り返すことでデータバージョンの変化に伴いラベルの細分化や属性の追加削除が行 われる場合がある ◦ DataLoader等でフォーマットの差分を吸収していたがコードの運用等で複雑になりがち ◦ 結果的に過去分データセットのなかで必要な量のアノテーションを再実施 • 学び ◦ データセット単位でのラベルの一貫性を担保 ▪ ラベルが収束するまでフィードバックを繰り返す ▪ Andrew Ng氏の講義やDRIVE CHARTの例からも様々な方法がある ◦ プロジェクト単位でのアノテーション仕様の一貫性を担保 ▪ 新規プロジェクトの場合、理想のフォーマットに到達するためには試行錯誤が必要 ▪ 対処療法を積み重ねるよりは都度あるべき姿に修正したほうが運用ストレスは少ない 中長期プロジェクト視点での一貫性のあるデータの作り方