Slide 1

Slide 1 text

End-to-End ⾃動運転の 実応⽤の現場から 阿部理也 Turing 株式会社 E2E ⾃動運転チーム 1

Slide 2

Slide 2 text

登壇者紹介 2019/09 東京⼤学⼤学院 情報理⼯学系研究科 (修⼠) 2019/10 ~ 2024/12 SenseTime Japan 深層学習を⽤いた⾞載カメラ画像 による周辺物体‧⾛路認識技術の 研究開発 2025/01 ~ Turing End-to-End の完全⾃動運転 モデルの開発 阿部理也 (Michiya Abe) Twitter: @abemii_ 経歴 興味のある領域 2 画像ベースの End-to-End ⾃動運転モデル,量⼦化,⾼速化

Slide 3

Slide 3 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 3

Slide 4

Slide 4 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 4

Slide 5

Slide 5 text

チューリング株式会社 累計調達額: 70億円 従業員数: 90名 会社概要 事業 完全⾃動運転⾞の開発 基盤AIによる実現を⽬指す 設⽴: 2021年8⽉ 代表取締役: ⼭本⼀成 5

Slide 6

Slide 6 text

End-to-Endモデルで東京を⾛る 6 ⾃社で収集‧構築した⾃動運転データセットで学習 東京都内を30分間⾛⾏させる⽬標を掲げる

Slide 7

Slide 7 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 7

Slide 8

Slide 8 text

https://www.nuscenes.org/nuscenes ⼊⼒ t=1 t=2 t=3 経路計画 将来の⾃⾞の状態 (位置‧姿勢‧速度など) の系列 t=0 アクセル‧ブレーキ ステアリング 制御 加速度や舵⾓などを 指令して⾞を動かす ⾃動運転システムとは…? ⾞載センサの⼊⼒‧地図情報を(いい感じに)処理して,⾃⾞の経路計画‧制御を⾏う 8 RGB カメラ画像 ⾼精度地図 (HD Map) LiDAR 点群 様々なセンサ 出⼒

Slide 9

Slide 9 text

End-to-End ⾃動運転アプローチ Neural Network マルチカメラ画像 将来の経路 End-to-End (E2E) アプローチ: 単⼀のNeural Network を使って画像から⾞の経路を直接出⼒ 画像 LiDAR点群 HDマップ 知覚 ● 物体認識 ● 標識認識 ● レーン認識 予測 ● 移動予測 ● 将来マップ予測 ● 交通エージェント 計画 ● 探索問題 ● 経路計画 制御 ● 制御アルゴ リズム 【従来】モジュールベースアプローチ: 個別に最適化した機能別モジュールから構成 9

Slide 10

Slide 10 text

End-to-End ⾃動運転アプローチの研究 物体検出 マップ予測 運動予測 占有率予測 ⾏動計画 BEV特徴 Hu+ (2023), “Planning-oriented Autonomous Driving”, CVPR 2023.より引⽤ 10 UniAD (2023) 以降,End-to-End アプローチの研究が多く出てきている マルチビューカメラの画像から,サブタスクとして物体検出‧マップ推定などを⾏いつつ, 最終的な⾃⾞の経路を⼀気通貫に予測する 1 つのニューラルネットワーク

Slide 11

Slide 11 text

End-to-End ⾃動運転アプローチの産業応⽤ 11 前⽅で曲がってくるバスに反応して減速 駐⾞場から⾃動で発進し,他の⾞を避けながら出る Tesla FSD13 は End-to-End アプローチ ナビで⽬的地を設定すれば,ほとんど無介⼊でレーンチェンジや右左折をしながら⽬的地に到達できる Turing の⾃動運転モデルもこのアプローチ!

Slide 12

Slide 12 text

Turing の E2E ⾃動運転モデル: TD-1 12 様々な認識と予測タスクを⾏うことで「世界を表すベクトル」を獲得する 初めて⾛⾏する場所でも、周囲を認識して経路を⽣成することが可能に 単⼀の Neural Network 3D物体認識 & 移動予測 マップ認識 BEV 3次元特徴 マルチカメラ画像 経路⽣成 将来の経路

Slide 13

Slide 13 text

Turing の E2E ⾃動運転モデル: TD-1 13 マルチビューカメラの画像(⼊⼒) パスプラン/マップ/ 物体の予測(出⼒) 速度‧加速度の予測 (出⼒) 実際の⾛⾏データを⽤いてデータセットを構築し,モデルの学習‧評価を実施

Slide 14

Slide 14 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 14

Slide 15

Slide 15 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 15

Slide 16

Slide 16 text

Q. どちらが良い⾛⾏でしょうか? 16 A マルチビューカメラの画像(⼊⼒) パスプラン/マップ/ 物体の予測(出⼒) 速度‧加速度の予測 (出⼒)

Slide 17

Slide 17 text

Q. どちらが良い⾛⾏でしょうか? 17 マルチビューカメラの画像(⼊⼒) パスプラン/マップ/ 物体の予測(出⼒) 速度‧加速度の予測 (出⼒) B

Slide 18

Slide 18 text

Q. どちらが良い⾛⾏でしょうか? 18 答え:わからない 検証データのスコア (mAP や ADE など) や可視化はほとんど変わらないのにもかかわらず, 実際に⾞両に乗せて制御⾛⾏してみると⼤きく違う. → オープンループ‧クローズドループのギャップ

Slide 19

Slide 19 text

オープンループ vs クローズドループ 19 オープンループ センサデータ モデル 経路計画/ 制御司令 世界の状態 変化なし ⾛⾏ログ (GT) ⽐較 時刻 0 時刻 1 ずれていったのに, 次の時刻では元通り ⾛⾏ログ

Slide 20

Slide 20 text

オープンループ vs クローズドループ 20 クローズドループ センサデータ モデル 世界の状態 が変化 経路計画/ 制御司令 時刻 0 ⾏動の結果, 世界の状態が変化 ⾛⾏ログ 時刻 1 どんどんずれていく ことも

Slide 21

Slide 21 text

オープンループ vs クローズドループ 21 オープンループ センサデータ モデル 経路計画/ 制御司令 世界の状態 変化なし ⾛⾏ログ (GT) ⽐較 センサデータ モデル 経路計画/ 制御司令 世界の状態 が変化 クローズドループ このギャップを埋めるためには…?

Slide 22

Slide 22 text

オープンループ vs クローズドループ 22 実際に⾛⾏しないと何もわからない モデルとシステムの繋ぎこみのエンジニアリングや,実際に⾛らせてみることがとても⼤事

Slide 23

Slide 23 text

オープンループ vs クローズドループ 23 3D Gaussian Splatting によるクローズドループシミュレータ(開発中)

Slide 24

Slide 24 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 24

Slide 25

Slide 25 text

推論速度との戦い 25 交通シーンは時々刻々と変化 歩⾏者 今 1 秒後 時間 リアルタイム (10 Hz 以上) で動作させる必要

Slide 26

Slide 26 text

推論速度との戦い 26 代表的な⼿法の Latency (推論時間) Latency [ms] FPS UniAD 555.6 1.8 VAD-Base 224.3 4.5 VAD-Tiny 59.5 16.8 PARA-Drive* 239.5 5.4 いずれも A100 や RTX3090 などの データセンター‧ハイエンドGPUでの 結果 本当に重要なのは,エッジデバイスでの推論時間 Hu+. Planning-oriented Autonomous Driving. CVPR, 2023. Jiang+. VAD: Vectorized Scene Representation for Efficient Autonomous Driving. ICCV, 2023. Weng+. PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving. CVPR, 2024.

Slide 27

Slide 27 text

推論速度との戦い 27 貧弱な HW でも⾼速に動かす A100 Jetson AGX Orin CUDA Core 数 ↑ 6912 2048 Tensor Core 数 ↑ 432 64 メモリ ↑ 40 64 (unified memory) TFLOPs ↑ 19.5 5.3 データセンター向けGPUとエッジ向けGPUのスペック⽐較 データセンターで⾼速に動いても,そのままではエッジデバイスで動かない https://www.nvidia.com/en-us/data-center/a100/ https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-orin/

Slide 28

Slide 28 text

(例) 推論時の無駄を削る! 推論速度との戦い 28 入力 1 入力 2 入力 3 モジュー ル 1 モジュー ル 2 モジュー ル 3 入力 1 入力 2 入力 3 (計算 済み) モジュー ル 1 モジュー ル 2 実は毎フレーム同じデータが⼊っているのでは? → 毎回計算しなくて良いから計算済みの値を⼊れよう! モデルのアーキテクチャやデプロイ時の量⼦化などの⼯夫により, Orin でも 70 ms 程度の Latency を達成!

Slide 29

Slide 29 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 29

Slide 30

Slide 30 text

JADD: 3D BBOX/地図アノテーションつき⾛⾏データセット nuScenes (パブリックな⾃動運転データセット) に⽐べ,桁違いに多いシーン数 データの「量」 30 ⼤量の多様なシーンをモデルに学習させることが重要 JADD small (300) JADD middle (1000) JADD standard (10000) JADD mini (20) nuScenesのサイズ (1000) JADD standard (30000) JADD large (164000) JADD standard (70000) 机上で 信号に反応 信号でstop&go ⼀時停⽌できた 交差点で歩⾏者 を待てた 東京中を⾛⾏し,シーン数を増やしていくだけで, モデルが強くなっていった (アルゴリズムの改善よりも遥かに利得が⼤きい)

Slide 31

Slide 31 text

⾞両間のセンサの組み付け誤差 同⼀の設計でセンサを取り付けても,画⾓が変わってしまう. データの「質」 31 ⾞両 A ⽐較 ⾞両 B 加⼯前(⽣画像)

Slide 32

Slide 32 text

⾞両間のセンサの組み付け誤差 同⼀の設計でセンサを取り付けても,画⾓が変わってしまう. → 歪補正の⼯夫により,ほぼ同じ画⾓になるように加⼯ データの「質」 32 ⾞両 A ⽐較 ⾞両 B ⾞両間の「差」を減らすことで,他の⾞両でも同じように⾛れるようにする! 加⼯後(歪補正後)

Slide 33

Slide 33 text

データ収集ドライバー間での⾛⾏の仕⽅の違いに注⽬ ⼀時停⽌線での停⽌位置‧左折時のコース取り‧加減速の仕⽅など 単に模倣学習しただけでは,平均化されて中途半端な⾛⾏になってしまった → ドライバー間の⾛⾏の違いを分析‧⾛り⽅をフィードバック データの「質」 33 モデルにとって「嬉しい」質の良いデータを収集‧選別することが重要 曲がり⽅ 停⽌位置 曲がり⽅ 停⽌位置

Slide 34

Slide 34 text

1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 34

Slide 35

Slide 35 text

● E2E ⾃動運転モデルや,要素技術としての認識モデルの研究は⽇々進化 ● しかし,実際にモデルで⾞両を動かすまでには多くの障壁があり, 泥臭いエンジニアリングやデータの⼯夫によって解決していく必要がある ● ティザー動画に驚くだけでなく、実際に動かしてみることが⼤切 まとめ 35