Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
画像センシングシンポジウム
PRO
May 30, 2025
3.5k
6
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から
画像センシングシンポジウム
PRO
May 30, 2025
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2026 [SS1] 作業動画理解 〜基盤モデル時代の応用と課題〜
ssii
PRO
0
590
SSII2026 [SS2] CADにおけるAI分野の動向と製造業 への実適⽤
ssii
PRO
1
1k
SSII2026 [TS2] 日本古典文化とAI ~ データセットからアプリケーションまで~
ssii
PRO
0
420
SSII2026 [PT1] アクセラレーテッド・コンピューティングが切り拓く知能の最前線 ~生成AIからエージェンティックAI、そしてフィジカルAIへの進化~
ssii
PRO
0
530
SSII2026 [PT2] 記号創発ロボティクスとフィジカルAIの展開 〜集合的予測符号化が繋ぐ言語と身体の時空間階層性〜
ssii
PRO
0
560
SSII2026 [OS1] 計算機インフラどうしてる?
ssii
PRO
0
330
SSII2026 [OS1-1] 機械学習のための計算基盤の開発
ssii
PRO
0
330
SSII2026 [OS1-2] 学術クラウド基盤mdx IIの 設計と運用
ssii
PRO
0
300
SSII2026 [OS1-3] 実験室自動化を目指した 計算機との試行錯誤
ssii
PRO
0
300
Featured
See All Featured
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
190
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
22k
State of Search Keynote: SEO is Dead Long Live SEO
ryanjones
0
200
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
How to build a perfect <img>
jonoalderson
1
5.6k
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
250
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Fireside Chat
paigeccino
42
3.9k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.2k
Transcript
End-to-End ⾃動運転の 実応⽤の現場から 阿部理也 Turing 株式会社 E2E ⾃動運転チーム 1
登壇者紹介 2019/09 東京⼤学⼤学院 情報理⼯学系研究科 (修⼠) 2019/10 ~ 2024/12 SenseTime Japan
深層学習を⽤いた⾞載カメラ画像 による周辺物体‧⾛路認識技術の 研究開発 2025/01 ~ Turing End-to-End の完全⾃動運転 モデルの開発 阿部理也 (Michiya Abe) Twitter: @abemii_ 経歴 興味のある領域 2 画像ベースの End-to-End ⾃動運転モデル,量⼦化,⾼速化
1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs
End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 3
1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs
End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 4
チューリング株式会社 累計調達額: 70億円 従業員数: 90名 会社概要 事業 完全⾃動運転⾞の開発 基盤AIによる実現を⽬指す 設⽴:
2021年8⽉ 代表取締役: ⼭本⼀成 5
End-to-Endモデルで東京を⾛る 6 ⾃社で収集‧構築した⾃動運転データセットで学習 東京都内を30分間⾛⾏させる⽬標を掲げる
1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs
End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 7
https://www.nuscenes.org/nuscenes ⼊⼒ t=1 t=2 t=3 経路計画 将来の⾃⾞の状態 (位置‧姿勢‧速度など) の系列 t=0
アクセル‧ブレーキ ステアリング 制御 加速度や舵⾓などを 指令して⾞を動かす ⾃動運転システムとは…? ⾞載センサの⼊⼒‧地図情報を(いい感じに)処理して,⾃⾞の経路計画‧制御を⾏う 8 RGB カメラ画像 ⾼精度地図 (HD Map) LiDAR 点群 様々なセンサ 出⼒
End-to-End ⾃動運転アプローチ Neural Network マルチカメラ画像 将来の経路 End-to-End (E2E) アプローチ: 単⼀のNeural
Network を使って画像から⾞の経路を直接出⼒ 画像 LiDAR点群 HDマップ 知覚 • 物体認識 • 標識認識 • レーン認識 予測 • 移動予測 • 将来マップ予測 • 交通エージェント 計画 • 探索問題 • 経路計画 制御 • 制御アルゴ リズム 【従来】モジュールベースアプローチ: 個別に最適化した機能別モジュールから構成 9
End-to-End ⾃動運転アプローチの研究 物体検出 マップ予測 運動予測 占有率予測 ⾏動計画 BEV特徴 Hu+ (2023),
“Planning-oriented Autonomous Driving”, CVPR 2023.より引⽤ 10 UniAD (2023) 以降,End-to-End アプローチの研究が多く出てきている マルチビューカメラの画像から,サブタスクとして物体検出‧マップ推定などを⾏いつつ, 最終的な⾃⾞の経路を⼀気通貫に予測する 1 つのニューラルネットワーク
End-to-End ⾃動運転アプローチの産業応⽤ 11 前⽅で曲がってくるバスに反応して減速 駐⾞場から⾃動で発進し,他の⾞を避けながら出る Tesla FSD13 は End-to-End アプローチ
ナビで⽬的地を設定すれば,ほとんど無介⼊でレーンチェンジや右左折をしながら⽬的地に到達できる Turing の⾃動運転モデルもこのアプローチ!
Turing の E2E ⾃動運転モデル: TD-1 12 様々な認識と予測タスクを⾏うことで「世界を表すベクトル」を獲得する 初めて⾛⾏する場所でも、周囲を認識して経路を⽣成することが可能に 単⼀の Neural
Network 3D物体認識 & 移動予測 マップ認識 BEV 3次元特徴 マルチカメラ画像 経路⽣成 将来の経路
Turing の E2E ⾃動運転モデル: TD-1 13 マルチビューカメラの画像(⼊⼒) パスプラン/マップ/ 物体の予測(出⼒) 速度‧加速度の予測
(出⼒) 実際の⾛⾏データを⽤いてデータセットを構築し,モデルの学習‧評価を実施
1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs
End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 14
1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs
End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 15
Q. どちらが良い⾛⾏でしょうか? 16 A マルチビューカメラの画像(⼊⼒) パスプラン/マップ/ 物体の予測(出⼒) 速度‧加速度の予測 (出⼒)
Q. どちらが良い⾛⾏でしょうか? 17 マルチビューカメラの画像(⼊⼒) パスプラン/マップ/ 物体の予測(出⼒) 速度‧加速度の予測 (出⼒) B
Q. どちらが良い⾛⾏でしょうか? 18 答え:わからない 検証データのスコア (mAP や ADE など) や可視化はほとんど変わらないのにもかかわらず,
実際に⾞両に乗せて制御⾛⾏してみると⼤きく違う. → オープンループ‧クローズドループのギャップ
オープンループ vs クローズドループ 19 オープンループ センサデータ モデル 経路計画/ 制御司令 世界の状態
変化なし ⾛⾏ログ (GT) ⽐較 時刻 0 時刻 1 ずれていったのに, 次の時刻では元通り ⾛⾏ログ
オープンループ vs クローズドループ 20 クローズドループ センサデータ モデル 世界の状態 が変化 経路計画/
制御司令 時刻 0 ⾏動の結果, 世界の状態が変化 ⾛⾏ログ 時刻 1 どんどんずれていく ことも
オープンループ vs クローズドループ 21 オープンループ センサデータ モデル 経路計画/ 制御司令 世界の状態
変化なし ⾛⾏ログ (GT) ⽐較 センサデータ モデル 経路計画/ 制御司令 世界の状態 が変化 クローズドループ このギャップを埋めるためには…?
オープンループ vs クローズドループ 22 実際に⾛⾏しないと何もわからない モデルとシステムの繋ぎこみのエンジニアリングや,実際に⾛らせてみることがとても⼤事
オープンループ vs クローズドループ 23 3D Gaussian Splatting によるクローズドループシミュレータ(開発中)
1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs
End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 24
推論速度との戦い 25 交通シーンは時々刻々と変化 歩⾏者 今 1 秒後 時間 リアルタイム (10
Hz 以上) で動作させる必要
推論速度との戦い 26 代表的な⼿法の Latency (推論時間) Latency [ms] FPS UniAD 555.6
1.8 VAD-Base 224.3 4.5 VAD-Tiny 59.5 16.8 PARA-Drive* 239.5 5.4 いずれも A100 や RTX3090 などの データセンター‧ハイエンドGPUでの 結果 本当に重要なのは,エッジデバイスでの推論時間 Hu+. Planning-oriented Autonomous Driving. CVPR, 2023. Jiang+. VAD: Vectorized Scene Representation for Efficient Autonomous Driving. ICCV, 2023. Weng+. PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving. CVPR, 2024.
推論速度との戦い 27 貧弱な HW でも⾼速に動かす A100 Jetson AGX Orin CUDA
Core 数 ↑ 6912 2048 Tensor Core 数 ↑ 432 64 メモリ ↑ 40 64 (unified memory) TFLOPs ↑ 19.5 5.3 データセンター向けGPUとエッジ向けGPUのスペック⽐較 データセンターで⾼速に動いても,そのままではエッジデバイスで動かない https://www.nvidia.com/en-us/data-center/a100/ https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-orin/
(例) 推論時の無駄を削る! 推論速度との戦い 28 入力 1 入力 2 入力 3
モジュー ル 1 モジュー ル 2 モジュー ル 3 入力 1 入力 2 入力 3 (計算 済み) モジュー ル 1 モジュー ル 2 実は毎フレーム同じデータが⼊っているのでは? → 毎回計算しなくて良いから計算済みの値を⼊れよう! モデルのアーキテクチャやデプロイ時の量⼦化などの⼯夫により, Orin でも 70 ms 程度の Latency を達成!
1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs
End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 29
JADD: 3D BBOX/地図アノテーションつき⾛⾏データセット nuScenes (パブリックな⾃動運転データセット) に⽐べ,桁違いに多いシーン数 データの「量」 30 ⼤量の多様なシーンをモデルに学習させることが重要 JADD
small (300) JADD middle (1000) JADD standard (10000) JADD mini (20) nuScenesのサイズ (1000) JADD standard (30000) JADD large (164000) JADD standard (70000) 机上で 信号に反応 信号でstop&go ⼀時停⽌できた 交差点で歩⾏者 を待てた 東京中を⾛⾏し,シーン数を増やしていくだけで, モデルが強くなっていった (アルゴリズムの改善よりも遥かに利得が⼤きい)
⾞両間のセンサの組み付け誤差 同⼀の設計でセンサを取り付けても,画⾓が変わってしまう. データの「質」 31 ⾞両 A ⽐較 ⾞両 B 加⼯前(⽣画像)
⾞両間のセンサの組み付け誤差 同⼀の設計でセンサを取り付けても,画⾓が変わってしまう. → 歪補正の⼯夫により,ほぼ同じ画⾓になるように加⼯ データの「質」 32 ⾞両 A ⽐較 ⾞両
B ⾞両間の「差」を減らすことで,他の⾞両でも同じように⾛れるようにする! 加⼯後(歪補正後)
データ収集ドライバー間での⾛⾏の仕⽅の違いに注⽬ ⼀時停⽌線での停⽌位置‧左折時のコース取り‧加減速の仕⽅など 単に模倣学習しただけでは,平均化されて中途半端な⾛⾏になってしまった → ドライバー間の⾛⾏の違いを分析‧⾛り⽅をフィードバック データの「質」 33 モデルにとって「嬉しい」質の良いデータを収集‧選別することが重要 曲がり⽅ 停⽌位置
曲がり⽅ 停⽌位置
1. Tokyo30: Turing の E2E ⾃動運転開発プロジェクト 2. ⾃動運転のアプローチ: モジュール⽅式 vs
End-to-End ⽅式 3. E2E モデルを実⾞で⾛らせるための(多くの)壁 a. オープンループとクローズドループ b. エッジでの推論速度 c. データの量と質 4. まとめ アウトライン 34
• E2E ⾃動運転モデルや,要素技術としての認識モデルの研究は⽇々進化 • しかし,実際にモデルで⾞両を動かすまでには多くの障壁があり, 泥臭いエンジニアリングやデータの⼯夫によって解決していく必要がある • ティザー動画に驚くだけでなく、実際に動かしてみることが⼤切 まとめ 35