$30 off During Our Annual Pro Sale. View Details »

完全自動運転のモデル開発におけるデータ品質とは

Avatar for Kei Kei
March 18, 2025
690

 完全自動運転のモデル開発におけるデータ品質とは

Avatar for Kei

Kei

March 18, 2025
Tweet

Transcript

  1. • 松⽥ 和樹 • 所属 ◦ チューリング株式会社(2024/02〜) ◦ MLOps チーム

    • 経歴 ◦ ネット広告の会社でインフラエンジニア ◦ ネット広告系のスタートアップで⾊々 ◦ AWS でスタートアップ専任の SA ⾃⼰紹介
  2. Ohio Region (us-east-2) DataLake MLOps Architecture 15 Videos Logs Dataset

    Creator (Step Functions) PCD files Sampling (AWS Batch) AutoLabeling (AWS Batch) ※ Nvidia T4 Dataset (nuScenes compatible) Parallel Cluster L4 or L40S or A100 Gaggle Cluster (on-premises) H100 * 16 15 AutoLoader Databricks Frame Images PCD Files Frame Images PreProcess (Lambda) FSx Lustre EFS Dataset Copy Replication Visualize Oregon Region (us-west-2)
  3. • End to End モデルの学習には、品質の「良い」データが必要。 E2E モデルの学習には良いデータが必要 • 最近のモデル(特にTransformerベース)はData hungry。

    • マルチモーダル特有の課題(センサ間の位置関係の精度) • センサーデータ特有の課題(ノイズ、キャリブレーション) • Imitation Learningの課題(エキスパートデータの質) • 様々な交通条件のデータが必要 (場所、天候、交通エージェントの有無) 量 質 多様 性
  4. 1. データ収集の仕組み、RAW データの品質 ◦ 期待通りデータ収集できているか 2. 収集したデータの中⾝の品質 ◦ 正常に収集できている中で、機械学習で使えるかどうか 3.

    データセットの品質 ◦ 20秒ずつの「シーン」に区切り、有⽤な場⾯だけ集めたもの データ品質もいろいろ RAW データ Dataset Vehicle
  5. • ⾒つかったデータのエラーについては、今後⾃動でチェックでき るようコード化し、新規データ登録のタイミングで実⾏。 • 検知されたエラーは Sentry を介して Slack にも通知。 1.

    データ収集の仕組み、RAW データの品質 S3 へのデータアップロードをトリガーに Validation処 理を実行。Error の数をモニタリング。
  6. • 各センサー間のデータの時刻同期 ◦ カメラ*8, LiDAR, GNSS(GPS), CAN(⾞両データ) ◦ マイクロ秒レベルで同期が必要 •

    センサー⾃体のデータ精度 ◦ 位置情報などの精度 2. 収集したデータの中⾝の品質
  7. Databricks 例)GNSS (GPS) の精度が低いデータ(Ground Truth に必要) • Jupyter Notebook で現状や影響度を調査。Python

    で修正したデータを⽣成 2. 収集したデータの中⾝の品質 gnss_table corrected_gnss_table Notebook 可視化 Spark Job (Dead Reckoning) RAW データ