SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から

by 画像センシングシンポジウム

Slide 1

Slide 1 text

End-to-End ⾃動運転の実応⽤の現場から阿部理也 Turing 株式会社 E2E ⾃動運転チーム 1

Slide 2

Slide 2 text

登壇者紹介 2019/09 東京⼤学⼤学院情報理⼯学系研究科 (修⼠) 2019/10 ~ 2024/12 SenseTime Japan 深層学習を⽤いた⾞載カメラ画像による周辺物体‧⾛路認識技術の研究開発 2025/01 ~ Turing End-to-End の完全⾃動運転モデルの開発阿部理也 (Michiya Abe) Twitter: @abemii_ 経歴興味のある領域 2 画像ベースの End-to-End ⾃動運転モデル，量⼦化，⾼速化

Slide 3

Slide 3 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための（多くの）壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめアウトライン 3

Slide 4

Slide 4 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための（多くの）壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめアウトライン 4

Slide 5

Slide 5 text

チューリング株式会社累計調達額: 70億円従業員数: 90名会社概要事業完全⾃動運転⾞の開発基盤AIによる実現を⽬指す設⽴: 2021年8⽉代表取締役: ⼭本⼀成 5

Slide 6

Slide 6 text

End-to-Endモデルで東京を⾛る 6 ⾃社で収集‧構築した⾃動運転データセットで学習東京都内を30分間⾛⾏させる⽬標を掲げる

Slide 7

Slide 7 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための（多くの）壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめアウトライン 7

Slide 8

Slide 8 text

https://www.nuscenes.org/nuscenes ⼊⼒ t=1 t=2 t=3 経路計画将来の⾃⾞の状態（位置‧姿勢‧速度など）の系列 t=0 アクセル‧ブレーキステアリング制御加速度や舵⾓などを指令して⾞を動かす⾃動運転システムとは…？⾞載センサの⼊⼒‧地図情報を（いい感じに）処理して，⾃⾞の経路計画‧制御を⾏う 8 RGB カメラ画像⾼精度地図 (HD Map) LiDAR 点群様々なセンサ出⼒

Slide 9

Slide 9 text

End-to-End ⾃動運転アプローチ Neural Network マルチカメラ画像将来の経路 End-to-End (E2E) アプローチ: 単⼀のNeural Network を使って画像から⾞の経路を直接出⼒画像 LiDAR点群 HDマップ知覚 ● 物体認識 ● 標識認識 ● レーン認識予測 ● 移動予測 ● 将来マップ予測 ● 交通エージェント計画 ● 探索問題 ● 経路計画制御 ● 制御アルゴリズム【従来】モジュールベースアプローチ: 個別に最適化した機能別モジュールから構成 9

Slide 10

Slide 10 text

End-to-End ⾃動運転アプローチの研究物体検出マップ予測運動予測占有率予測⾏動計画 BEV特徴 Hu+ (2023), “Planning-oriented Autonomous Driving”, CVPR 2023.より引⽤ 10 UniAD (2023) 以降，End-to-End アプローチの研究が多く出てきているマルチビューカメラの画像から，サブタスクとして物体検出‧マップ推定などを⾏いつつ，最終的な⾃⾞の経路を⼀気通貫に予測する 1 つのニューラルネットワーク

Slide 11

Slide 11 text

End-to-End ⾃動運転アプローチの産業応⽤ 11 前⽅で曲がってくるバスに反応して減速駐⾞場から⾃動で発進し，他の⾞を避けながら出る Tesla FSD13 は End-to-End アプローチナビで⽬的地を設定すれば，ほとんど無介⼊でレーンチェンジや右左折をしながら⽬的地に到達できる Turing の⾃動運転モデルもこのアプローチ！

Slide 12

Slide 12 text

Turing の E2E ⾃動運転モデル: TD-1 12 様々な認識と予測タスクを⾏うことで「世界を表すベクトル」を獲得する初めて⾛⾏する場所でも、周囲を認識して経路を⽣成することが可能に単⼀の Neural Network 3D物体認識 & 移動予測マップ認識 BEV 3次元特徴マルチカメラ画像経路⽣成将来の経路

Slide 13

Slide 13 text

Turing の E2E ⾃動運転モデル: TD-1 13 マルチビューカメラの画像（⼊⼒）パスプラン/マップ/ 物体の予測（出⼒）速度‧加速度の予測 (出⼒) 実際の⾛⾏データを⽤いてデータセットを構築し，モデルの学習‧評価を実施

Slide 14

Slide 14 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための（多くの）壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめアウトライン 14

Slide 15

Slide 15 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための（多くの）壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめアウトライン 15

Slide 16

Slide 16 text

Q. どちらが良い⾛⾏でしょうか？ 16 A マルチビューカメラの画像（⼊⼒）パスプラン/マップ/ 物体の予測（出⼒）速度‧加速度の予測 (出⼒)

Slide 17

Slide 17 text

Q. どちらが良い⾛⾏でしょうか？ 17 マルチビューカメラの画像（⼊⼒）パスプラン/マップ/ 物体の予測（出⼒）速度‧加速度の予測 (出⼒) B

Slide 18

Slide 18 text

Q. どちらが良い⾛⾏でしょうか？ 18 答え：わからない検証データのスコア (mAP や ADE など) や可視化はほとんど変わらないのにもかかわらず，実際に⾞両に乗せて制御⾛⾏してみると⼤きく違う． → オープンループ‧クローズドループのギャップ

Slide 19

Slide 19 text

オープンループ vs クローズドループ 19 オープンループセンサデータモデル経路計画/ 制御司令世界の状態変化なし⾛⾏ログ (GT) ⽐較時刻 0 時刻 1 ずれていったのに，次の時刻では元通り⾛⾏ログ

Slide 20

Slide 20 text

オープンループ vs クローズドループ 20 クローズドループセンサデータモデル世界の状態が変化経路計画/ 制御司令時刻 0 ⾏動の結果，世界の状態が変化⾛⾏ログ時刻 1 どんどんずれていくことも

Slide 21

Slide 21 text

オープンループ vs クローズドループ 21 オープンループセンサデータモデル経路計画/ 制御司令世界の状態変化なし⾛⾏ログ (GT) ⽐較センサデータモデル経路計画/ 制御司令世界の状態が変化クローズドループこのギャップを埋めるためには…？

Slide 22

Slide 22 text

オープンループ vs クローズドループ 22 実際に⾛⾏しないと何もわからないモデルとシステムの繋ぎこみのエンジニアリングや，実際に⾛らせてみることがとても⼤事

Slide 23

Slide 23 text

オープンループ vs クローズドループ 23 3D Gaussian Splatting によるクローズドループシミュレータ（開発中）

Slide 24

Slide 24 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための（多くの）壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめアウトライン 24

Slide 25

Slide 25 text

推論速度との戦い 25 交通シーンは時々刻々と変化歩⾏者今 1 秒後時間リアルタイム (10 Hz 以上) で動作させる必要

Slide 26

Slide 26 text

推論速度との戦い 26 代表的な⼿法の Latency (推論時間) Latency [ms] FPS UniAD 555.6 1.8 VAD-Base 224.3 4.5 VAD-Tiny 59.5 16.8 PARA-Drive* 239.5 5.4 いずれも A100 や RTX3090 などのデータセンター‧ハイエンドGPUでの結果本当に重要なのは，エッジデバイスでの推論時間 Hu+. Planning-oriented Autonomous Driving. CVPR, 2023. Jiang+. VAD: Vectorized Scene Representation for Eﬃcient Autonomous Driving. ICCV, 2023. Weng+. PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving. CVPR, 2024.

Slide 27

Slide 27 text

推論速度との戦い 27 貧弱な HW でも⾼速に動かす A100 Jetson AGX Orin CUDA Core 数 ↑ 6912 2048 Tensor Core 数 ↑ 432 64 メモリ ↑ 40 64 (uniﬁed memory) TFLOPs ↑ 19.5 5.3 データセンター向けGPUとエッジ向けGPUのスペック⽐較データセンターで⾼速に動いても，そのままではエッジデバイスで動かない https://www.nvidia.com/en-us/data-center/a100/ https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-orin/

Slide 28

Slide 28 text

(例) 推論時の無駄を削る！推論速度との戦い 28 入力 1 入力 2 入力 3 モジュール 1 モジュール 2 モジュール 3 入力 1 入力 2 入力 3 (計算済み) モジュール 1 モジュール 2 実は毎フレーム同じデータが⼊っているのでは？ → 毎回計算しなくて良いから計算済みの値を⼊れよう！モデルのアーキテクチャやデプロイ時の量⼦化などの⼯夫により， Orin でも 70 ms 程度の Latency を達成！

Slide 29

Slide 29 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための（多くの）壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめアウトライン 29

Slide 30

Slide 30 text

JADD: 3D BBOX/地図アノテーションつき⾛⾏データセット nuScenes (パブリックな⾃動運転データセット) に⽐べ，桁違いに多いシーン数データの「量」 30 ⼤量の多様なシーンをモデルに学習させることが重要 JADD small (300) JADD middle (1000) JADD standard (10000) JADD mini (20) nuScenesのサイズ (1000) JADD standard (30000) JADD large (164000) JADD standard (70000) 机上で信号に反応信号でstop&go ⼀時停⽌できた交差点で歩⾏者を待てた東京中を⾛⾏し，シーン数を増やしていくだけで，モデルが強くなっていった（アルゴリズムの改善よりも遥かに利得が⼤きい）

Slide 31

Slide 31 text

⾞両間のセンサの組み付け誤差同⼀の設計でセンサを取り付けても，画⾓が変わってしまう．データの「質」 31 ⾞両 A ⽐較⾞両 B 加⼯前（⽣画像）

Slide 32

Slide 32 text

⾞両間のセンサの組み付け誤差同⼀の設計でセンサを取り付けても，画⾓が変わってしまう． → 歪補正の⼯夫により，ほぼ同じ画⾓になるように加⼯データの「質」 32 ⾞両 A ⽐較⾞両 B ⾞両間の「差」を減らすことで，他の⾞両でも同じように⾛れるようにする！加⼯後（歪補正後）

Slide 33

Slide 33 text

データ収集ドライバー間での⾛⾏の仕⽅の違いに注⽬⼀時停⽌線での停⽌位置‧左折時のコース取り‧加減速の仕⽅など単に模倣学習しただけでは，平均化されて中途半端な⾛⾏になってしまった → ドライバー間の⾛⾏の違いを分析‧⾛り⽅をフィードバックデータの「質」 33 モデルにとって「嬉しい」質の良いデータを収集‧選別することが重要曲がり⽅停⽌位置曲がり⽅停⽌位置

Slide 34

Slide 34 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための（多くの）壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめアウトライン 34

Slide 35

Slide 35 text

● E2E ⾃動運転モデルや，要素技術としての認識モデルの研究は⽇々進化 ● しかし，実際にモデルで⾞両を動かすまでには多くの障壁があり，泥臭いエンジニアリングやデータの⼯夫によって解決していく必要がある ● ティザー動画に驚くだけでなく、実際に動かしてみることが⼤切まとめ 35