[IBIS2024 ビジネスと機械学習] 近年のData-Centricな自動運転AI開発

近年のData-Centricな⾃動運転AI開発 Turing株式会社 IBIS2024 ビジネスと機械学習

• 岩政公平 • チューリング株式会社 E2E⾃動運転チーム MLエンジニア ◦ 2022年8⽉~ インターン
◦ 2023年4⽉~ ⼊社 • Kaggle Tier: Kaggle Competitions Master ⾃⼰紹介

会社概要名称  Turing株式会社  創業  2021年8月20日    事業内容  完全自動運転 AIの開発  本社所在地 
東京都品川区大崎1丁目11−2   ゲートシティ大崎イースト棟4階  資本金  3000万円（累計60億円調達）  社員数  社員数 55 名  (正社員44名、アルバイト・インターン 11名) 

チューリングの⽣成AI開発 Vision-Language Modelの開発世界モデル“Terra”の開発 • 様々な画像エンコーダ、アダプタ、LLMを組み合わせて学習可能なフレームワーク “Heron”の公開（ turingmotors/heron） •
Vision情報をもとに、運転環境のキャプションと運転計画情報を含む Vision-Language-Actionデータセットの “CoVLA Dataset”の公開（WACV2025に採択） • 現実世界を理解し予測する世界モデル • 将来の経路情報による条件付けも可能

GPUリソース GENIACプロジェクト 2024/2~8 ⾃社GPUクラスタ “Gaggle Cluster” • H100 96基 •
ノード間通信‧ストレージI/Oの最⼤化 • HPC的なジョブ管理システム https://www.meti.go.jp/policy/mono_info_service/geniac/index.html • 国内の代表的なAI開発事業者を政府が⽀援 • GCP上の⼤量のH100ノードを利⽤可能

Tokyo30 2025年末までに、カメラと AIだけで東京エリアを30分以上介入なしで走行し続ける自動運転モデルを開発します

チューリングが開発しているモデル Tokyo30プロジェクトを達成するためにEnd-to-Endモデル “TD-1”を開発中

End-to-End(E2E)⾃動運転とは？物体認識運動予測⾏動計画 End-to-End型アプローチ: 単⼀のモデルで全体最適化可能なアプローチモジュラー型アプローチ: モジュールごとに閉じた最適化を⾏うアプローチ物体認識運動予測
⾏動計画佐藤育郎 (2024), “⾃動運転のためのビジョン技術”, 第27回画像の認識‧理解シンポジウム MIRU2024.

E2Eモデル (1) UniAD [Hu+ CVPR2023] 物体検出マップ予測運動予測 Occupancy予測⾏動計画
• 複数カメラ画像を⼊⼒に、マルチタスクを同時最適化する単⼀のモデル • 各モジュールごとにQueryを持ち、別のモジュールにはKey, Valueとして渡す設計 ◦ Transformer Decoderをベースとした構造 Hu+ (2023), “Planning-oriented Autonomous Driving”, CVPR 2023.より引⽤ BEV特徴

UniAD [Hu+ CVPR2023] OpenDriveLab, “UniAD Sampled Visualization”. https://www.youtube.com/watch?v=1nkiSXrwEvY

E2Eモデル (2) VAD [Jiang+ ICCV2023] • ⾛⾏シーンを全てベクターとする • ⾏動計画⽤のEgo Queryに対し、
Agent/Map QueryをKey, Valueとして Transformer Decoder構造で処理 • UniADよりも⾼速で⾼精度に PARA-Drive [Weng+ CVPR2024] • 全てのモジュールが並列でもSoTA相当の精度 • 推論時は⾏動計画以外のモジュールを除いて⾼速化することも可能 (2.77倍⾼速化) • モジュール間の情報のやりとりはBEV特徴を介して暗黙的に⾏われる UniAD VAD 物体検出 / 運動予測マップ予測⾏動計画マップ予測物体検出運動予測 Occupancy 予測⾏動計画 BEV特徴 Jiang+ (2023), “VAD: Vectorized Scene Representation for Eﬃcient Autonomous Driving”, ICCV 2023.より引⽤ Weng+ (2024), “PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving”, CVPR 2024.より引⽤

E2Eモデルを1からつくるには？ 1. センサデータを収集する 2. センサデータにアノテーションする 3. センサデータを⼊⼒にE2Eモデルを学習する 4. E2Eモデルのエッジデバイスでのリアルタイム推論の達成

E2Eモデルを1からつくるには？まずはここから考えてみる 1. センサデータを収集する 2. センサデータにアノテーションする 3. センサデータを⼊⼒にE2Eモデルを学習する 4.
E2Eモデルのエッジデバイスでのリアルタイム推論の達成

ハードウェアと教師データの依存の⼀例⾃⼰位置カメラ LiDAR ミリ波レーダー GPS/GNSS機器 IMU ハードウェア 2次元物体ラベル 3次元物体ラベル
ベクターマップ Occupancy ⾏動計画⽤の経路教師ラベル • 各タスクの教師ラベルをカメラ画像のみから作成するのは難しい • 必要な教師ラベルと、その教師ラベルをつくるためのハードウェアとの依存関係の(あくまで)⼀例

カメラについて LiDAR ミリ波レーダー GPS/GNSS機器 IMU ハードウェア教師ラベル⾃⼰位置カメラ 2次元物体ラベル
3次元物体ラベルベクターマップ Occupancy ⾏動計画⽤の経路 • 画像を撮影して視覚情報を収集 • 2次元物体のアノテーションや画像を3次元点群に重畳することで 3次元物体ラベルやベクターマップなどを⾼精度にアノテーション • 連続する画像を⽤いて移動量‧姿勢を推定するVisual Odometryを⾃⼰位置推定に活⽤可能 Liu+ (2024), “A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook”. より引⽤

ミリ波レーダー GPS/GNSS機器 IMU ハードウェア教師ラベルカメラ 2次元物体ラベル LiDARについて⾃⼰位置 3次元物体ラベル
ベクターマップ Occupancy ⾏動計画⽤の経路 LiDAR • レーザー光を照射して対象物までの距離を3次元点群データとして取得 • 3次元物体や占有状態のアノテーション、ベクターマップは点群地図を作成して、さらにオルソ画像に変換してアノテーション • 点群地図があればLiDAR点群と位置合わせした⾃⼰位置推定も可能 (オドメトリも計算可能) Liu+ (2024), “A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook”. より引⽤

GPS/GNSS機器 IMU カメラ 2次元物体ラベル⾃⼰位置ベクターマップ Occupancy ⾏動計画⽤の経路 LiDAR ハードウェア
教師ラベルミリ波レーダーについてミリ波レーダー 3次元物体ラベル • 波⻑の短い電波を照射して、対象物の距離‧相対速度を計測 • 特に動的な3次元物体の速度情報を付与するために活⽤ Liu+ (2024), “A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook”. より引⽤

ミリ波レーダーカメラ 2次元物体ラベル LiDAR ハードウェア教師ラベル GPS/GNSS機器‧IMUセンサについて GPS/GNSS機器⾃⼰位置 3次元物体ラベル
ベクターマップ Occupancy ⾏動計画⽤の経路 IMU • GPS/GNSS機器は衛星信号を受信して位置情報を測定し、IMUは加速度‧⾓速度を測定して他のセンサで推定した移動量‧姿勢と合わせて⾃⼰位置推定 • 多くの教師ラベルで⾃⼰位置の情報や、時間ごとの移動量が必要

学術データセット nuScenes [Caesar+ CVPR2020] • 1シーン20秒(アノテーション付きは約40フレーム)からなる1,000シーンの⾃律運転データセット ◦ これまで紹介したE2Eモデルは全てnuScenesでベンチマークスコアを測定 • センサ構成
◦ 6x カメラ ◦ 1x 回転式LiDAR ◦ 5x ミリ波レーダー ◦ GPS/IMU機器 • 多様なアノテーション ◦ 2次元物体データ (nuImage) ◦ 3次元物体データ‧トラッキング ◦ 3D Semantic Segmentation ◦ Occupancy (SurroundOcc [Wei+ ICCV2023]) ◦ ベクターマップなど Caesar+ (2020), “nuScenes: A multimodal dataset for autonomous driving”, CVPR2020. より引⽤ Wei+ (2023), “SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving”, ICCV2023.

nuScenesの課題シーンの多様性がどうしても少ない • ⾏動計画において前⽅⽅向に直進する経路が集中している (AD-MLP[Zhai+ 2023]) ◦ 約70%もの経路が直線⽅向 •
データ量は時間換算で約5.6時間と少ない ◦ ⾏動計画⽤のデータセットとして1,500時間分のnuPlan[Caesar+ 2021]が公開されているものの、センサデータではなく物体検出された後のためE2Eモデルの学習には不向き ◦ （そもそも1,000時間程度のデータでE2Eモデルを学習するには莫⼤な計算リソースが必要...）多様性に富んだ質が⾼い⼤量のデータを収集する必要があるあと計算リソースも必要 Zhai+ (2023), “Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes”.より引⽤ Caesar+ (2021), “NuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles”. 3秒間の経路のパターン 3秒後の⽅位⾓の変化約70%が直進⽅向

実際にE2Eモデルを作ってみよう！

E2Eモデル開発実際にE2Eモデル開発を⾏うとモデル開発以外の領域が多い Sculley+ (2015), “Hidden Technical Debt in Machine Learning
Systems”, NeurIPS2015. より引⽤

E2Eモデル開発まで必要なことデータ収集⾞アノテーションデータ準備モデル学習 • センサ構成決め • センサの配置 •
キャリブレーション • 収集⾞の施⼯ • メンテナンス • 異常データ検知 • データアップロード • ⾛⾏ルート⽣成 • データ正規化 • メタデータ付与 • キャプショニング • 埋め込みベクトル化 • データバリデーション • 学習データセット作成ツール • 2次元物体ラベル • 3次元物体ラベル • ベクターマップ • 占有状態 • オートラベリング • E2Eモデル開発 • E2Eモデル学習 • 実験管理 • SDK • 可視化ツール • モデルデプロイ • リアルタイム推論 • 制御など⾞両側クラウド上モデル運⽤

データ収集⾞カメラ GNSS LiDAR • ⾞両はトヨタアルファード • センサ構成 ◦
8x カメラ ◦ 1x 回転式LiDAR ◦ 1x RTK-GNSSセンサ • 1台1⽇あたり10時間のデータ収集 • 様々な要因によりセンサ構成‧収集データを変更（現状はversion 3で安定稼働中）データ収集⾞の構成 5⽉ 6⽉ 7⽉ 8⽉ 9⽉ 10⽉ version 1 version 2 version 3

ここで⼀句

キャリブレーションの⾃動化 LiDAR-カメラキャリブレーション • ⾞両によってセンサ配置の個体差が⽣じることや、E2Eモデルの⼊⼒にセンサ間の位置関係が必要 • カメラの内部パラメータとLiDAR-カメラの相対的な位置関係をターゲットレスで最適化可能に LiDAR 点群マップ点群同⼠を⼀致させるパラメータ推定 RGB点群

データパイプラインデータ収集データ準備モデル学習

収集データの可視化収集したデータの⾛⾏経路やデータの詳細を確認できる社内向けサービスの開発

データバリデーション version 2 version 3 収集データに異常がないかバリデーションを⾏う

アノテーション収集したデータをもとに各タスク⽤のアノテーションを⾏う 3次元物体検出アノテーションベクターマップアノテーションの可視化

SDK開発 • 作成した学習データセットの操作を簡単にするSDKの開発 • Jupyter Notebookなどで可視化が可能 3次元物体検出の可視化マップラベルの可視化

ようやくデータの準備完了！次はE2Eモデル学習

E2Eモデル:

定性的なモデルの評価（1） 4,000フレーム 16,000フレーム

定性的なモデルの評価（2） 16,000フレーム 40,000フレーム (nuScenes相当)

定量的なモデルの評価 • E2Eモデルの改善もありつつもデータの品質や量を増やす • 14,000フレーム→40,000フレームに増やすことで精度改善 ◦ 3次元物体検出スコア(mAP): 0.1156 → 0.1733
◦ マップ予測スコア(mAP) : 0.2823 → 0.5974 epoch epoch mAP mAP ３次元物体検出マップ予測

実際に学習したモデルで⾛⾏する⾛⾏試験場で学習したE2Eモデルで⾛⾏テスト

今後の課題

今後の課題とData-Centric AI • 1,000時間以上の学習データに対して全て⼈⼿でアノテーションはコスト⾼オートラベリングが必要 3次元物体検出におけるオートラベリング • オートラベリングモデルは以下の制約がない ◦ リアルタイム推論が必要
→ クラウド上で動作 ◦ 未来の情報が使えない → 使える ◦ LiDAR点群を使えない → 使える⾼精度なオートべリングモデルが必要 3次元物体検出のオートラベリング結果

今後の課題とData-Centric AI • ⾛⾏シーンにはレアな交通エージェントがある（e.g., 電動キックボード, 緊急⾞両） • シーンにメタデータを付与して検索可能にする ◦
2次元物体検出の結果 ◦ 画像や動画としてのキャプショニング ◦ CLIP [Radford+ 2021] によるImage embedding 多様性サンプリング Radford+ (2021), “Learning Transferable Visual Models From Natural Language Supervision” • 現状のモデルの出⼒で“不確実性”が⾼いサンプルを選ぶ ◦ 確率分布の分布形状での評価 ◦ 複数のモデルの推論結果のばらつきで評価 ◦ 定性的な評価不確実性サンプリングラベルなしデータラベル付きデータアノテータモデルサンプリング能動学習（Active Learning）

今後の課題とData-Centric AI サンプリング • メタデータをもとに、信号機が写っている画像フレームを検索 • 少数クラスの物体は、出現した場所付近にもあるはず、という仮定のもとサンプリング
半⾃動アノテーション • オートラベリングの結果をアノテーションツール上で先にラベリングする →アノテーション業務の効率化とモデルが苦⼿なシーンを修正することができるチューリングの能動学習の例: 信号機認識夜の⻩⾊信号も検出

今後の課題とData-Centric AI マップにおけるオートラベリング • ⽇本全体のマップを作成するコスト⾼ • 連続しないシーンのカメラ画像からベクターマップを作成する検証を⾏っている学習ベースの⾏動計画の教師データに対するData-Centricなアプローチ
• そもそも⾏動計画の評価が難しい ◦ オープンループ評価‧クローズドループ評価は相関しない • モデルの推論結果とエラー率が⾼いシーン ≠ Hard Example • どういうシーンが “ノイジー” なのか評価する必要がある

[IBIS2024 ビジネスと機械学習] 近年のData-Centricな 自動運転AI開発

[IBIS2024 ビジネスと機械学習] 近年のData-Centricな 自動運転AI開発

More Decks by Kohei Iwamasa

Featured

Transcript

[IBIS2024 ビジネスと機械学習] 近年のData-Centricな自動運転AI開発

[IBIS2024 ビジネスと機械学習] 近年のData-Centricな自動運転AI開発