Slide 1

Slide 1 text

© 2025 TURING, INC. Vision Language Modelと 完全⾃動運転AIの最新動向 Tsubasa Takahashi Turing Inc. DEIM2025チュートリアル 2025. 3. 3

Slide 2

Slide 2 text

Generative AI developed by Turing VLM “Heron” World Model “Terra” Terra is specialized for driving environments and can generate driver perspective videos from in-vehicle cameras. Terra can generate different situations Generates the continuation of a short video 3 (L) Generated video following the green trajectory (R) Generated video following the red trajectory

Slide 3

Slide 3 text

Contents 1. ⾃動運転AIとは 2. ⽣成AIの活⽤ (VLM / VLA / 世界モデル) 3. 信頼性と安全性 4. おわりに 4

Slide 4

Slide 4 text

⾃動運転AIとは Part I

Slide 5

Slide 5 text

⾃動運転AIの役割 6 周囲の環境に関する⼊⼒から、⾃⾞が進むべき経路(パス)を出⼒する ⾃動運転 AI ⼊⼒の例:マルチカメラ /LiDAR/IMU ※最終的にはパスに沿って進むための制御信号を出⼒するのがゴールですが、この場では簡単化のため割愛します

Slide 6

Slide 6 text

経路予測のアプローチ 7 ルールベースでも、機械学習モデルによる予測でも、⽣成モデルでも実現可能 if condition0: return else if condition1: return else if condition2: ・・・ 自動運転 AI ルールベース ML Predictor 予測モデル Generator ⽣成モデル

Slide 7

Slide 7 text

Evolution of Autonomous Driving ・Front Camera ・LiDAR 1st Gen (CNN) Model not performant and limited sensory equipment ・Multiple Cameras ・LiDAR ・Radar ・HD Map 2nd Gen (CNN, Rule-based) HD map and if-then logic as critical limitations ・Multiple Cameras ・Behavior Cloning Model performant but still issues handling edge cases 3rd Gen (Transformer, E2E) ・Multiple Cameras ・Language based UI ・LLM/World Model Model can finally handle all situations and edge cases 4th Gen (LLM, E2E) 2012 2017 2021 2025 8

Slide 8

Slide 8 text

End-to-End⾃動運転 9 ⼊⼒から経路予測までを全てNNで⾏うアプローチが近年出てきている マルチカメラ画像 Neural Network 将来の経路 → どう学習する?

Slide 9

Slide 9 text

End-to-End⾃動運転AIの学習 10 ⼈間の運転経路を教師ありで学習する「模倣学習」が基本 Sensor signals IMU/GNSS Radar Steering Throttle/ brake Speed Video frames Speed IMU GNSS Trajectories Kalman Filter ⼈間の運転で⾛⾏データを収集する End-to-End⾃動運転NN ⼊⼒データの時刻から⾒て未来の軌跡

Slide 10

Slide 10 text

訓練データを増やせば増やすほど性能向上 11 E2E⾃動運転では、質の⾼いデータを⼤量に与えることで性能を上げる 4,000フレーム (約30分データ) 16,000フレーム (約2時間データ) 40,000フレーム (約5時間データ)

Slide 11

Slide 11 text

チューリングのE2E⾃動運転モデル 12 地図認識‧交通エージェント予測‧⾏動計画を⾏うE2Eモデル“TD-1”を開発

Slide 12

Slide 12 text

Closed-loop Simulator - CARLA 13 ⾃動運転システムの開発、学習、検証を⽀援するためオープンソースのシミュレータ 天候や時間帯の変更、静的‧動的アクターの制御、マップのカスタマイズ、等が可能 https://carla.org/

Slide 13

Slide 13 text

⿃瞰図による特徴表現 – BEVFormer 14 BEV (Bird’s Eye View): 空から⾒下ろした視点でシーン を表現する⼿法 特徴 • シーン全体を俯瞰可能 • センサーデータの統合が⽤意 • プランニングやマッピングに 適している BEVFormer: マルチカメラ画 像からBEVを推定する⼿法 Li+, “BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers” ECCV2022

Slide 14

Slide 14 text

VAD: シーンのベクトル表現による⾃動運転AI 15 Jiang+, “VAD: Vectorized Scene Representation for Efficient Autonomous Driving” ICCV2023 よく知られたE2Eモデル (ベースラインとして活⽤されている) BEVでセンサー情報を密に統合 するアプローチを採⽤ ベクトル形式で表現した運転シ ーンをもとにPlanning à推論が⾼速 (ラスタ表現に⽐) ベクトル表現 ラスタ表現

Slide 15

Slide 15 text

PARA-Drive 16 タスク実⾏順の依存関係を排除した並列処理アーキテクチャ。約3倍⾼速化 Weng+, “PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving” CVPR2024

Slide 16

Slide 16 text

DriveTransformer 17 特徴抽出をBEV表現を⽤いずに センサー‧タスク‧時系列間の 依存関係をデータから獲得 あらゆる情報を蜜に統合する BEV表現は、実⾏時間に課題 データから依存関係を疎に獲得 することで、⾼速な特徴表現の 獲得を⽬指している Jia+, “DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving” ICLR2025

Slide 17

Slide 17 text

SparseDrive 18 Sun+, “SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation” https://arxiv.org/abs/2405.19620

Slide 18

Slide 18 text

Trajectoryの推定⼿法 19 (a) Single-mode Trajectory 回帰によって1つの軌跡を導出。 精度およびロバスト性に課題 (b) 離散Vocabularyの分類 事前に⽤意したVocabularyから 選択。Vocabularyが⼤きくても out-of-vocabularyになりがち (c) DiffusionPolicy 拡散モデルによって多様な⾏動 分布を学習。多段の拡散ステッ プを要するため推論時間に課題 (d) 分類+DiffusionPolicy 少数のVocabularyから尤もらし い軌跡を推定し、数回の拡散ス テップでGTに近似させる。⾼速 Liao+, “DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving” https://arxiv.org/abs/2411.15139

Slide 19

Slide 19 text

データ量を増しても解決が難しい問題は存在する 20 稀な事象や、複雑な状況はそもそもデータがほとんどなくデータ量での解決が困難 運転状況の難しさ 頻度 少 ← → 難 易 ← → 多 多い / 簡単 少ない / 難しい 交通環境には頻度が少ないが、 多様で困難な状況が存在する (= ロングテール) Makansi+ "On exposing the challenging long tail in future prediction of traffic actors." ICCV 2021.

Slide 20

Slide 20 text

LLMを⾃動運転に活⽤することが期待されている 21

Slide 21

Slide 21 text

⽣成AIの活⽤ Vision Language Model / Vision Language Action Model / 世界モデル Part II

Slide 22

Slide 22 text

Vision Language Model (VLM) とは? 23 画像とテキストを⼊⼒とし、テキストを⽣成するモデル https://huggingface.co/blog/vlms

Slide 23

Slide 23 text

VLM = LLM + 画像エンコーダ 24 画像や動画を⼊⼒できるように拡張した⾔語 モデル 画像エンコーダ • 画像や動画から特徴を抽出し、ベクトルなどの 形式に変換する機能 • ResnetやVAE、CLIPなどが⽤いられる マルチモーダルプロジェクタ • ⾔語などの他のモダリティと共通の⼊⼒形式 (トークン)に変換する機能 • LLMが多様なモダリティを扱えるようにする • 画像エンコーダと統合されている場合もある Text Decoder (LLM) Multimodal Projector Text Embeddings Image Encoder Text Output (Answer)

Slide 24

Slide 24 text

空間認知に関するVQA - SpatialRGPT 25 空間情報を⾃動抽出するパイプライン を構築。膨⼤なアノテーションを⽣成 Spatial VQAの教師データを提供 Cheng+, “SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models” NeurIPS 2024 “VLMは物理世界へのクエリエンジン”

Slide 25

Slide 25 text

DriveLM 26 多段の質問応答 (VQA) を通して運転の判断をするモデル Sima, Chonghao, et al. "DriveLM: Driving with Graph Visual Question Answering" ECCV 2024.

Slide 26

Slide 26 text

VLM-RL 27 VLM (CLIP) によって、良い(悪い)運転の⾔語表現とBEV表現 (画像)とを対応づける 良い運転に近づき、悪い運転から遠ざかるように報酬を与え、運転ポリシーを強化学習

Slide 27

Slide 27 text

VLMからE2Eモデルへの蒸留 – DiMA 28 E2EモデルとVLMとの間で運転ポリシーを近づけるように学習 VLMに多様で複雑な運転関連タスクを学習させ、その知識をE2Eモデルに蒸留 ⽅向転換や追い越しといった複雑なタスクの精度向上に寄与 Hegde+, “Distilling Multi-modal Large Language Models for Autonomous Driving” https://arxiv.org/abs/2501.09757

Slide 28

Slide 28 text

Vision Language Action Model (VLA) 29 LLMに視覚⼊⼒とアクション出⼒の能⼒を付与するVLAが盛り上がりつつある https://www.physicalintelligence.company/blog/pi0

Slide 29

Slide 29 text

𝜋! : Generalist Robot Policy 30 https://www.physicalintelligence.company/blog/pi0

Slide 30

Slide 30 text

アクションとは? - ⾃動運転を例に考える 31 「左折」のようなコマンドから、制御信号まで様々な出⼒がアクションになりうる 抽象度:⾼ 抽象度:低 コマンド “左折”, “減速”のように ラベル付けがされている ⾃⾞の動きを離散的に扱う Target(Goal) Point 数秒後~数⼗秒で⽬指したい ⽬標地点の座標など Trajectory ⾃⾞が数秒~数⼗秒の間で進 むべき軌道 Control Signal 速度やハンドル⾓の⽬標値な ど “ACCELERATE” Meta Action

Slide 31

Slide 31 text

LINGO-2 (by Wayve) 32 英Wayveが開発 実⾞にデプロイされたVLAモデル 運転シーンのコメンタリや質問応答 が可能 https://wayve.ai/thinking/lingo-2-driving-with-language/

Slide 32

Slide 32 text

CoVLA-Agent 33 チューリングが開発したVLAのコンセプト検証モデル Ground truth caption: The ego vehicle is moving straight at a moderate speed following leading car with acceleration. There is a traffic light near the ego vehicle displaying a green signal. … Predicted caption: The ego vehicle is moving at a moderate speed and turning right. There is a traffic light near the ego vehicle displaying a green signal. … VLAが予測した軌跡 実際の軌跡 Arai, Miwa, Sasaki+, "CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving.” WACV2025

Slide 33

Slide 33 text

世界モデル(World Model) 34 環境のダイナミクスを学習し、シミュレーションや予測を⾏うモデル 未来の状況を予測したり、シミュレーションの中で試⾏錯誤させることができる https://worldmodels.github.io/ Ha and Schmidhuber, “World Models.” NIPS2018 A World Model, from Scott McColud’s Understanding Comics. ⾃転⾞を運転する際にひとの 頭の中にある「世界モデル」 Vision, Memory, Controllerで 構成された世界モデル 世界モデルの幻想の中で 強化学習したゲームエージェント

Slide 34

Slide 34 text

⾃動運転向けの世界モデル – GAIA-1 35 英Wayveが開発した、⾃⼰回帰Transformerベースの世界モデル https://wayve.ai/thinking/introducing-gaia1/

Slide 35

Slide 35 text

⾃動運転向けの世界モデル – Terra 36 ⼊⼒した軌跡に追随する(未知の)運転シーン動画を⽣成するモデル 収集が困難な負例やヒヤリハットの⽣成や評価、強化学習の環境としての利⽤に期待 Terra is specialized for driving environments and can generate driver perspective videos from in-vehicle cameras. Terra can generate different situations Generates the continuation of a short video (L) Generated video following the green trajectory (R) Generated video following the red trajectory

Slide 36

Slide 36 text

Part IIのまとめ 37 • 複雑な状況に対処するためのアプローチとして、Vision Language Modelの活⽤に期 待が集まっている • また、アクションの⽣成までこなすVision Language Action Modelが近年話題 • ⾃動運転の安全性を⾼めるための⼀つのアプローチとして世界モデルの利⽤が検討 • 英国や中国では、VLM / VLAを⾃動運転にデプロイした事例が報告 • ⽣成モデルを実⾞で動作させるためには、さまざまなハードルが残存

Slide 37

Slide 37 text

VLM‧⾃動運転の信頼性 Part IV

Slide 38

Slide 38 text

LLM / VLMへの敵対的⼊⼒ 39 Pre-training Instruction Tuning Preference Tuning Guardrail Adversarial Prompt Harmful Output ● Misaligned output (e.g., toxic text) ● Unauthorized usage (e.g., Deepfake) ● Attribute inference ● Jailbreak How to build safeguards? How to make a bomb? What diseases does this man have? Generate a racist joke with this girl’s face. Generative AI

Slide 39

Slide 39 text

VLMや⾃動運転AIは画像エンコーダに依存 40 Text Decoder (LLM) Multimodal Projector Text Embeddings Image Encoder Text Output (Answer) 信頼できる? 信頼できる? Liao+, “DiffusionDrive: Truncated Diffusion Model for End-to- End Autonomous Driving” https://arxiv.org/abs/2411.15139

Slide 40

Slide 40 text

Adversarial Example ⼊⼒データに誤分類‧誤判断を誘発するよう設計した摂動を加算したもの https://openai.com/blog/adversarial-example-research/ against Image Classifier against Face Recognition https://arxiv.org/abs/1801.00349 41

Slide 41

Slide 41 text

Seeking Adversarial Examples ターゲットクラス 𝑡 の出⼒確率が他のクラスより⾼くなるように摂動を探索 gibbon panda ⼈が知覚できない範囲 Adversarial Example logit Carlini-Wagner Attack Seeking Perturbation 42 min 𝑥! − 𝑥 " + 𝑐 max #$% 𝐹 𝑥! # − 𝐹 𝑥! % & 𝐹 𝑥! " 𝑡 𝑡

Slide 42

Slide 42 text

⾃動運転向けのAdversarial Example 43 Wang+, “Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving” https://arxiv.org/abs/2501.13563

Slide 43

Slide 43 text

LLMのジェイルブレイク 44 Zou et. al., Universal and Transferable Adversarial Attacks on Aligned Language Models. https://arxiv.org/abs/2307.15043

Slide 44

Slide 44 text

画像エンコーダのジェイルブレイク 45 Hossain+, “Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks”, https://arxiv.org/abs/2409.07353

Slide 45

Slide 45 text

分布外データ(Out-of-Distribution)に弱い 46 分布外データ(OOD): 訓練時データとは異なる特性を 持つデータ 分布外データに対して正しい推 論ができないケースがある 対策 • 分布外データに対しても頑健 な訓練⽅法の開発 • 多様な(合成)データを⽤いて OODを減らす • Red-teaming (後述) TSI: Toyota Smarthome Dataset Panos+, “Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models”, https://arxiv.org/abs/2407.16526

Slide 46

Slide 46 text

モダリティギャップ 47 ⾔語と画像といった異なるドメイン間で認知の歪みがある それらしい⽂章を⽣成できても、それを画像でも再現できるとは限らない(逆も然り) Li+, “Split to Merge: Unifying Separated Modalities for Unsupervised Domain Adaptation” CVPR2024

Slide 47

Slide 47 text

ハルシネーション 48 Hallucination (幻覚):実際には存在しない物体やイベント、事実を誤って認識する現象 DNNのアーキテクチャが幻覚の要因となるだけでなく、モダリティギャップもまた幻覚を 引き起こす要因として知られている Multi-Object Hallucination in VLM (NeurIPS24) https://arxiv.org/abs/2407.06192 Understanding Hallucinations in Diffusion Models through Mode Interpolation https://arxiv.org/abs/2406.09358

Slide 48

Slide 48 text

ハルシネーションの抑制 49 HaloQuest (ECCV24) https://arxiv.org/abs/2407.15680 Differential Transformer https://arxiv.org/abs/2410.05258 Dataset Collection Seeking Less Hallucination Architectures

Slide 49

Slide 49 text

Reinforcement Learning from Human Feedback LLMを⼈間のフィードバックを活⽤して最適化。ひとの嗜好や価値基準により適合させる Instruction Tuning • Follow the instructions provided by experts (e.g., labelers) • By supervised fine-tuning Preference Tuning • Align human preferences using votes and ranks for generated contents • By reward modeling and reinforcement learning https://arxiv.org/abs/2203.02155 50

Slide 50

Slide 50 text

RLAIF for Safety Alignment ⼈間のフィードバックを収集するコストは⾮常に⾼い Constitutional AI:事前に定義された “憲法 (constitution)” を基にLLM⾃⾝が出⼒を改善 事前に定義された憲法 に基づき、LLMは⾃⾝ の応答を批評à修正を 反復的に⾏う 修正した応答を⽤いて ファインチューニング https://arxiv.org/abs/2212.08073 Critique Request Revision Request Vanilla Response Aligned Response Constitutional AI 51

Slide 51

Slide 51 text

Red-teaming 敵対的なテストケースを活⽤して⽣成AIに有害な/不正確なコンテンツを⽣成させることで、 モデルのミスアライメントを特定する⼿法 https://arxiv.org/abs/2202.03286 https://arxiv.org/abs/2401.12915 Red teaming for Toxicity Red teaming for Unlearning 52

Slide 52

Slide 52 text

Part IIIのまとめ 53 • VLMや⾃動運転AIは、LLMや従来の機械学習と同様に、敵対的な⼊⼒への脆弱性がある • 加えて、ハルシネーションやモダリティギャップによる推論の信頼性の課題あり • さらに、画像エンコーダへの依存の⾼さも課題であり、信頼できる画像エンコーダの開 発も重要な取り組み • LLMなどと同様に、RLHFやRed-teamingといった⼿法を取り⼊れて、安全性と信頼性 を⾼めていく努⼒を積み重ねていく必要があある

Slide 53

Slide 53 text

おわりに Part IV

Slide 54

Slide 54 text

まとめ 55 • ⽶国や中国などで、⾃動運転は急速に発展し⽇常に浸透しつつある • ⼀⽅、稀な状況や先読みが必要な複雑な状況には課題が残っている • ⼈間のように思考する (⽣成)AI による課題解決が模索されている • ⽣成AI、⾃動運転AIの開発はデータセントリック • E2E⾃動運転には、特徴表現の構成や管理、効率化など、データ⼯学の課題が⼭積み • Vision Language Model (VLM) は物理世界へのクエリエンジン • VLM、⾃動運転AI、ともに信頼性に関する課題が残されている