Upgrade to Pro — share decks privately, control downloads, hide ads and more …

完全自動運転のモデル開発におけるデータ品質とは

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Kei Kei
March 18, 2025
710

 完全自動運転のモデル開発におけるデータ品質とは

Avatar for Kei

Kei

March 18, 2025
Tweet

Transcript

  1. • 松⽥ 和樹 • 所属 ◦ チューリング株式会社(2024/02〜) ◦ MLOps チーム

    • 経歴 ◦ ネット広告の会社でインフラエンジニア ◦ ネット広告系のスタートアップで⾊々 ◦ AWS でスタートアップ専任の SA ⾃⼰紹介
  2. Ohio Region (us-east-2) DataLake MLOps Architecture 15 Videos Logs Dataset

    Creator (Step Functions) PCD files Sampling (AWS Batch) AutoLabeling (AWS Batch) ※ Nvidia T4 Dataset (nuScenes compatible) Parallel Cluster L4 or L40S or A100 Gaggle Cluster (on-premises) H100 * 16 15 AutoLoader Databricks Frame Images PCD Files Frame Images PreProcess (Lambda) FSx Lustre EFS Dataset Copy Replication Visualize Oregon Region (us-west-2)
  3. • End to End モデルの学習には、品質の「良い」データが必要。 E2E モデルの学習には良いデータが必要 • 最近のモデル(特にTransformerベース)はData hungry。

    • マルチモーダル特有の課題(センサ間の位置関係の精度) • センサーデータ特有の課題(ノイズ、キャリブレーション) • Imitation Learningの課題(エキスパートデータの質) • 様々な交通条件のデータが必要 (場所、天候、交通エージェントの有無) 量 質 多様 性
  4. 1. データ収集の仕組み、RAW データの品質 ◦ 期待通りデータ収集できているか 2. 収集したデータの中⾝の品質 ◦ 正常に収集できている中で、機械学習で使えるかどうか 3.

    データセットの品質 ◦ 20秒ずつの「シーン」に区切り、有⽤な場⾯だけ集めたもの データ品質もいろいろ RAW データ Dataset Vehicle
  5. • ⾒つかったデータのエラーについては、今後⾃動でチェックでき るようコード化し、新規データ登録のタイミングで実⾏。 • 検知されたエラーは Sentry を介して Slack にも通知。 1.

    データ収集の仕組み、RAW データの品質 S3 へのデータアップロードをトリガーに Validation処 理を実行。Error の数をモニタリング。
  6. • 各センサー間のデータの時刻同期 ◦ カメラ*8, LiDAR, GNSS(GPS), CAN(⾞両データ) ◦ マイクロ秒レベルで同期が必要 •

    センサー⾃体のデータ精度 ◦ 位置情報などの精度 2. 収集したデータの中⾝の品質
  7. Databricks 例)GNSS (GPS) の精度が低いデータ(Ground Truth に必要) • Jupyter Notebook で現状や影響度を調査。Python

    で修正したデータを⽣成 2. 収集したデータの中⾝の品質 gnss_table corrected_gnss_table Notebook 可視化 Spark Job (Dead Reckoning) RAW データ