Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[IBIS2024 ビジネスと機械学習] 近年のData-Centricな 自動運転AI開発

Kohei Iwamasa
November 06, 2024
1.7k

[IBIS2024 ビジネスと機械学習] 近年のData-Centricな 自動運転AI開発

Kohei Iwamasa

November 06, 2024
Tweet

Transcript

  1. 会社概要 名称
 Turing株式会社
 創業
 2021年8月20日
 
 事業内容
 完全自動運転 AIの開発
 本社所在地


    東京都品川区大崎1丁目11−2 
 ゲートシティ大崎 イースト棟4階
 資本金
 3000万円(累計60億円調達)
 社員数
 社 員 数 55 名
 (正社員44名、アルバイト・インターン 11名)

  2. チューリングの⽣成AI開発 Vision-Language Modelの開発 世界モデル“Terra”の開発 • 様々な画像エンコーダ、アダプタ、LLMを 組み合わせて学習可能なフレームワーク “Heron”の公開( turingmotors/heron) •

    Vision情報をもとに、運転環境の キャプションと運転計画情報を含む Vision-Language-Actionデータセットの “CoVLA Dataset”の公開(WACV2025に採択) • 現実世界を理解し予測する世界モデル • 将来の経路情報による条件付けも可能
  3. GPUリソース GENIACプロジェクト 2024/2~8 ⾃社GPUクラスタ “Gaggle Cluster” • H100 96基 •

    ノード間通信‧ストレージI/Oの最⼤化 • HPC的なジョブ管理システム https://www.meti.go.jp/policy/mono_info_service/geniac/index.html • 国内の代表的なAI開発事業者を政府が⽀援 • GCP上の⼤量のH100ノードを利⽤可能
  4. E2Eモデル (1) UniAD [Hu+ CVPR2023] 物体検出 マップ予測 運動予測 Occupancy予測 ⾏動計画

    • 複数カメラ画像を⼊⼒に、マルチタスクを同時最適化する単⼀のモデル • 各モジュールごとにQueryを持ち、別のモジュールにはKey, Valueとして渡す設計 ◦ Transformer Decoderをベースとした構造 Hu+ (2023), “Planning-oriented Autonomous Driving”, CVPR 2023.より引⽤ BEV特徴
  5. E2Eモデル (2) VAD [Jiang+ ICCV2023] • ⾛⾏シーンを全てベクターとする • ⾏動計画⽤のEgo Queryに対し、

    Agent/Map QueryをKey, Valueとして Transformer Decoder構造で処理 • UniADよりも⾼速で⾼精度に PARA-Drive [Weng+ CVPR2024] • 全てのモジュールが並列でもSoTA相当の精度 • 推論時は⾏動計画以外のモジュールを除いて ⾼速化することも可能 (2.77倍⾼速化) • モジュール間の情報のやりとりはBEV特徴を 介して暗黙的に⾏われる UniAD VAD 物体検出 / 運動予測 マップ予測 ⾏動計画 マップ 予測 物体検出 運動予測 Occupancy 予測 ⾏動計画 BEV特徴 Jiang+ (2023), “VAD: Vectorized Scene Representation for Efficient Autonomous Driving”, ICCV 2023.より引⽤ Weng+ (2024), “PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving”, CVPR 2024.より引⽤
  6. ハードウェアと教師データの依存の⼀例 ⾃⼰位置 カメラ LiDAR ミリ波レーダー GPS/GNSS機器 IMU ハードウェア 2次元物体ラベル 3次元物体ラベル

    ベクターマップ Occupancy ⾏動計画⽤の経路 教師ラベル • 各タスクの教師ラベルをカメラ画像のみから作成するのは難しい • 必要な教師ラベルと、その教師ラベルをつくるためのハードウェアとの依存関係の(あくまで)⼀例
  7. カメラについて LiDAR ミリ波レーダー GPS/GNSS機器 IMU ハードウェア 教師ラベル ⾃⼰位置 カメラ 2次元物体ラベル

    3次元物体ラベル ベクターマップ Occupancy ⾏動計画⽤の経路 • 画像を撮影して視覚情報を収集 • 2次元物体のアノテーションや画像を3次元点群に重畳することで 3次元物体ラベルやベクターマップなどを⾼精度にアノテーション • 連続する画像を⽤いて移動量‧姿勢を推定するVisual Odometryを⾃⼰位置推定に活⽤可能 Liu+ (2024), “A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook”. より引⽤
  8. ミリ波レーダー GPS/GNSS機器 IMU ハードウェア 教師ラベル カメラ 2次元物体ラベル LiDARについて ⾃⼰位置 3次元物体ラベル

    ベクターマップ Occupancy ⾏動計画⽤の経路 LiDAR • レーザー光を照射して対象物までの距離を3次元点群データとして取得 • 3次元物体や占有状態のアノテーション、ベクターマップは 点群地図を作成して、さらにオルソ画像に変換してアノテーション • 点群地図があればLiDAR点群と位置合わせした⾃⼰位置推定も可能 (オドメトリも計算可能) Liu+ (2024), “A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook”. より引⽤
  9. GPS/GNSS機器 IMU カメラ 2次元物体ラベル ⾃⼰位置 ベクターマップ Occupancy ⾏動計画⽤の経路 LiDAR ハードウェア

    教師ラベル ミリ波レーダーについて ミリ波レーダー 3次元物体ラベル • 波⻑の短い電波を照射して、対象物の距離‧相対速度を計測 • 特に動的な3次元物体の速度情報を付与するために活⽤ Liu+ (2024), “A Survey on Autonomous Driving Datasets: Statistics, Annotation Quality, and a Future Outlook”. より引⽤
  10. ミリ波レーダー カメラ 2次元物体ラベル LiDAR ハードウェア 教師ラベル GPS/GNSS機器‧IMUセンサについて GPS/GNSS機器 ⾃⼰位置 3次元物体ラベル

    ベクターマップ Occupancy ⾏動計画⽤の経路 IMU • GPS/GNSS機器は衛星信号を受信して位置情報を測定し、IMUは加速度‧⾓速度を 測定して他のセンサで推定した移動量‧姿勢と合わせて⾃⼰位置推定 • 多くの教師ラベルで⾃⼰位置の情報や、時間ごとの移動量が必要
  11. 学術データセット nuScenes [Caesar+ CVPR2020] • 1シーン20秒(アノテーション付きは約40フレーム)からなる1,000シーンの⾃律運転データセット ◦ これまで紹介したE2Eモデルは全てnuScenesでベンチマークスコアを測定 • センサ構成

    ◦ 6x カメラ ◦ 1x 回転式LiDAR ◦ 5x ミリ波レーダー ◦ GPS/IMU機器 • 多様なアノテーション ◦ 2次元物体データ (nuImage) ◦ 3次元物体データ‧トラッキング ◦ 3D Semantic Segmentation ◦ Occupancy (SurroundOcc [Wei+ ICCV2023]) ◦ ベクターマップ など Caesar+ (2020), “nuScenes: A multimodal dataset for autonomous driving”, CVPR2020. より引⽤ Wei+ (2023), “SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving”, ICCV2023.
  12. nuScenesの課題 シーンの多様性がどうしても少ない • ⾏動計画において前⽅⽅向に直進する 経路が集中している (AD-MLP[Zhai+ 2023]) ◦ 約70%もの経路が直線⽅向 •

    データ量は時間換算で約5.6時間と少ない ◦ ⾏動計画⽤のデータセットとして1,500時間分のnuPlan[Caesar+ 2021]が公開されているものの、 センサデータではなく物体検出された後のためE2Eモデルの学習には不向き ◦ (そもそも1,000時間程度のデータでE2Eモデルを学習するには莫⼤な計算リソースが必要...) 多様性に富んだ質が⾼い⼤量のデータを収集する必要がある あと計算リソースも必要 Zhai+ (2023), “Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in nuScenes”.より引⽤ Caesar+ (2021), “NuPlan: A closed-loop ML-based planning benchmark for autonomous vehicles”. 3秒間の経路のパターン 3秒後の⽅位⾓の変化 約70%が 直進⽅向
  13. E2Eモデル開発まで必要なこと データ収集⾞ アノテーション データ準備 モデル学習 • センサ構成決め • センサの配置 •

    キャリブレーション • 収集⾞の施⼯ • メンテナンス • 異常データ検知 • データアップロード • ⾛⾏ルート⽣成 • データ正規化 • メタデータ付与 • キャプショニング • 埋め込みベクトル化 • データバリデーション • 学習データセット作成 ツール • 2次元物体ラベル • 3次元物体ラベル • ベクターマップ • 占有状態 • オートラベリング • E2Eモデル開発 • E2Eモデル学習 • 実験管理 • SDK • 可視化ツール • モデルデプロイ • リアルタイム推論 • 制御     など ⾞両側 クラウド上 モデル運⽤
  14. データ収集⾞ カメラ GNSS LiDAR • ⾞両はトヨタ アルファード • センサ構成 ◦

    8x カメラ ◦ 1x 回転式LiDAR ◦ 1x RTK-GNSSセンサ • 1台1⽇あたり10時間のデータ収集 • 様々な要因によりセンサ構成‧収集データを 変更(現状はversion 3で安定稼働中) データ収集⾞の構成 5⽉ 6⽉ 7⽉ 8⽉ 9⽉ 10⽉ version 1 version 2 version 3
  15. 今後の課題とData-Centric AI • 1,000時間以上の学習データに対して全て⼈⼿でアノテーションはコスト⾼ オートラベリングが必要 3次元物体検出におけるオートラベリング • オートラベリングモデルは以下の制約がない ◦ リアルタイム推論が必要

    → クラウド上で動作 ◦ 未来の情報が使えない → 使える ◦ LiDAR点群を使えない → 使える ⾼精度なオートべリングモデルが必要 3次元物体検出のオートラベリング結果
  16. 今後の課題とData-Centric AI • ⾛⾏シーンにはレアな交通エージェントがある (e.g., 電動キックボード, 緊急⾞両) • シーンにメタデータを付与して検索可能にする ◦

    2次元物体検出の結果 ◦ 画像や動画としてのキャプショニング ◦ CLIP [Radford+ 2021] によるImage embedding 多様性サンプリング Radford+ (2021), “Learning Transferable Visual Models From Natural Language Supervision” • 現状のモデルの出⼒で“不確実性”が⾼いサンプルを選ぶ ◦ 確率分布の分布形状での評価 ◦ 複数のモデルの推論結果のばらつきで評価 ◦ 定性的な評価 不確実性サンプリング ラベルなしデータ ラベル付きデータ アノテータ モデル サンプリング 能動学習(Active Learning)
  17. 今後の課題とData-Centric AI サンプリング • メタデータをもとに、信号機が写って いる画像フレームを検索 • 少数クラスの物体は、出現した場所 付近にもあるはず、という仮定のもと サンプリング

    半⾃動アノテーション • オートラベリングの結果をアノテーションツール上で先にラベリングする →アノテーション業務の効率化とモデルが苦⼿なシーンを修正することができる チューリングの能動学習の例: 信号機認識 夜の⻩⾊信号も検出
  18. 今後の課題とData-Centric AI マップにおけるオートラベリング • ⽇本全体のマップを作成するコスト⾼ • 連続しないシーンのカメラ画像から ベクターマップを作成する検証を ⾏っている 学習ベースの⾏動計画の教師データに対するData-Centricなアプローチ

    • そもそも⾏動計画の評価が難しい ◦ オープンループ評価‧クローズドループ評価は相関しない • モデルの推論結果とエラー率が⾼いシーン ≠ Hard Example • どういうシーンが “ノイジー” なのか評価する必要がある