Vision Language Modelと完全自動運転AIの最新動向

© 2025 TURING, INC. Vision Language Modelと完全⾃動運転AIの最新動向 Tsubasa Takahashi
Turing Inc. DEIM2025チュートリアル 2025. 3. 3

Generative AI developed by Turing VLM “Heron” World Model “Terra”
Terra is specialized for driving environments and can generate driver perspective videos from in-vehicle cameras. Terra can generate different situations Generates the continuation of a short video 3 (L) Generated video following the green trajectory (R) Generated video following the red trajectory

Contents 1. ⾃動運転AIとは 2. ⽣成AIの活⽤ (VLM / VLA / 世界モデル)
3. 信頼性と安全性 4. おわりに 4

⾃動運転AIとは Part I

⾃動運転AIの役割 6 周囲の環境に関する⼊⼒から、⾃⾞が進むべき経路(パス)を出⼒する⾃動運転 AI ⼊⼒の例：マルチカメラ /LiDAR/IMU ※最終的にはパスに沿って進むための制御信号を出⼒するのがゴールですが、この場では簡単化のため割愛します

経路予測のアプローチ 7 ルールベースでも、機械学習モデルによる予測でも、⽣成モデルでも実現可能 if condition0: return else if condition1: return
else if condition2: ・・・自動運転 AI ルールベース ML Predictor 予測モデル Generator ⽣成モデル

Evolution of Autonomous Driving ・Front Camera ・LiDAR 1st Gen (CNN)
Model not performant and limited sensory equipment ・Multiple Cameras ・LiDAR ・Radar ・HD Map 2nd Gen (CNN, Rule-based) HD map and if-then logic as critical limitations ・Multiple Cameras ・Behavior Cloning Model performant but still issues handling edge cases 3rd Gen (Transformer, E2E) ・Multiple Cameras ・Language based UI ・LLM/World Model Model can finally handle all situations and edge cases 4th Gen (LLM, E2E) 2012 2017 2021 2025 8

End-to-End⾃動運転 9 ⼊⼒から経路予測までを全てNNで⾏うアプローチが近年出てきているマルチカメラ画像 Neural Network 将来の経路 → どう学習する？

End-to-End⾃動運転AIの学習 10 ⼈間の運転経路を教師ありで学習する「模倣学習」が基本 Sensor signals IMU/GNSS Radar Steering Throttle/ brake
Speed Video frames Speed IMU GNSS Trajectories Kalman Filter ⼈間の運転で⾛⾏データを収集する End-to-End⾃動運転NN ⼊⼒データの時刻から⾒て未来の軌跡

訓練データを増やせば増やすほど性能向上 11 E2E⾃動運転では、質の⾼いデータを⼤量に与えることで性能を上げる 4,000フレーム（約30分データ） 16,000フレーム (約2時間データ) 40,000フレーム (約5時間データ)

チューリングのE2E⾃動運転モデル 12 地図認識‧交通エージェント予測‧⾏動計画を⾏うE2Eモデル“TD-1”を開発

Closed-loop Simulator - CARLA 13 ⾃動運転システムの開発、学習、検証を⽀援するためオープンソースのシミュレータ天候や時間帯の変更、静的‧動的アクターの制御、マップのカスタマイズ、等が可能 https://carla.org/

⿃瞰図による特徴表現 – BEVFormer 14 BEV (Bird’s Eye View): 空から⾒下ろした視点でシーンを表現する⼿法
特徴 • シーン全体を俯瞰可能 • センサーデータの統合が⽤意 • プランニングやマッピングに適している BEVFormer: マルチカメラ画像からBEVを推定する⼿法 Li+, “BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers” ECCV2022

VAD: シーンのベクトル表現による⾃動運転AI 15 Jiang+, “VAD: Vectorized Scene Representation for Efficient
Autonomous Driving” ICCV2023 よく知られたE2Eモデル（ベースラインとして活⽤されている） BEVでセンサー情報を密に統合するアプローチを採⽤ベクトル形式で表現した運転シーンをもとにPlanning à推論が⾼速 (ラスタ表現に⽐) ベクトル表現ラスタ表現

PARA-Drive 16 タスク実⾏順の依存関係を排除した並列処理アーキテクチャ。約3倍⾼速化 Weng+, “PARA-Drive: Parallelized Architecture for Real-time Autonomous
Driving” CVPR2024

DriveTransformer 17 特徴抽出をBEV表現を⽤いずにセンサー‧タスク‧時系列間の依存関係をデータから獲得あらゆる情報を蜜に統合する BEV表現は、実⾏時間に課題データから依存関係を疎に獲得することで、⾼速な特徴表現の獲得を⽬指している
Jia+, “DriveTransformer: Uniﬁed Transformer for Scalable End-to-End Autonomous Driving” ICLR2025

SparseDrive 18 Sun+, “SparseDrive: End-to-End Autonomous Driving via Sparse Scene
Representation” https://arxiv.org/abs/2405.19620

Trajectoryの推定⼿法 19 (a) Single-mode Trajectory 回帰によって1つの軌跡を導出。精度およびロバスト性に課題 (b) 離散Vocabularyの分類事前に⽤意したVocabularyから
選択。Vocabularyが⼤きくても out-of-vocabularyになりがち (c) DiffusionPolicy 拡散モデルによって多様な⾏動分布を学習。多段の拡散ステップを要するため推論時間に課題 (d) 分類+DiffusionPolicy 少数のVocabularyから尤もらしい軌跡を推定し、数回の拡散ステップでGTに近似させる。⾼速 Liao+, “DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving” https://arxiv.org/abs/2411.15139

データ量を増しても解決が難しい問題は存在する 20 稀な事象や、複雑な状況はそもそもデータがほとんどなくデータ量での解決が困難運転状況の難しさ頻度少 ← → 難易
← → 多多い / 簡単少ない / 難しい交通環境には頻度が少ないが、多様で困難な状況が存在する（= ロングテール） Makansi+ "On exposing the challenging long tail in future prediction of trafﬁc actors." ICCV 2021.

LLMを⾃動運転に活⽤することが期待されている 21

⽣成AIの活⽤ Vision Language Model / Vision Language Action Model /
世界モデル Part II

Vision Language Model (VLM) とは？ 23 画像とテキストを⼊⼒とし、テキストを⽣成するモデル https://huggingface.co/blog/vlms

VLM = LLM + 画像エンコーダ 24 画像や動画を⼊⼒できるように拡張した⾔語モデル画像エンコーダ •
画像や動画から特徴を抽出し、ベクトルなどの形式に変換する機能 • ResnetやVAE、CLIPなどが⽤いられるマルチモーダルプロジェクタ • ⾔語などの他のモダリティと共通の⼊⼒形式（トークン）に変換する機能 • LLMが多様なモダリティを扱えるようにする • 画像エンコーダと統合されている場合もある Text Decoder (LLM) Multimodal Projector Text Embeddings Image Encoder Text Output (Answer)

空間認知に関するVQA - SpatialRGPT 25 空間情報を⾃動抽出するパイプラインを構築。膨⼤なアノテーションを⽣成 Spatial VQAの教師データを提供 Cheng+, “SpatialRGPT:
Grounded Spatial Reasoning in Vision Language Models” NeurIPS 2024 “VLMは物理世界へのクエリエンジン”

DriveLM 26 多段の質問応答 (VQA) を通して運転の判断をするモデル Sima, Chonghao, et al. "DriveLM:
Driving with Graph Visual Question Answering" ECCV 2024.

VLM-RL 27 VLM (CLIP) によって、良い(悪い)運転の⾔語表現とBEV表現 (画像)とを対応づける良い運転に近づき、悪い運転から遠ざかるように報酬を与え、運転ポリシーを強化学習

VLMからE2Eモデルへの蒸留 – DiMA 28 E2EモデルとVLMとの間で運転ポリシーを近づけるように学習 VLMに多様で複雑な運転関連タスクを学習させ、その知識をE2Eモデルに蒸留⽅向転換や追い越しといった複雑なタスクの精度向上に寄与 Hegde+, “Distilling Multi-modal
Large Language Models for Autonomous Driving” https://arxiv.org/abs/2501.09757

Vision Language Action Model (VLA) 29 LLMに視覚⼊⼒とアクション出⼒の能⼒を付与するVLAが盛り上がりつつある https://www.physicalintelligence.company/blog/pi0

𝜋! : Generalist Robot Policy 30 https://www.physicalintelligence.company/blog/pi0

アクションとは？ - ⾃動運転を例に考える 31 「左折」のようなコマンドから、制御信号まで様々な出⼒がアクションになりうる抽象度：⾼抽象度：低コマンド “左折”, “減速”のように
ラベル付けがされている⾃⾞の動きを離散的に扱う Target(Goal) Point 数秒後~数⼗秒で⽬指したい⽬標地点の座標など Trajectory ⾃⾞が数秒~数⼗秒の間で進むべき軌道 Control Signal 速度やハンドル⾓の⽬標値など “ACCELERATE” Meta Action

LINGO-2 (by Wayve) 32 英Wayveが開発実⾞にデプロイされたVLAモデル運転シーンのコメンタリや質問応答が可能 https://wayve.ai/thinking/lingo-2-driving-with-language/

CoVLA-Agent 33 チューリングが開発したVLAのコンセプト検証モデル Ground truth caption: The ego vehicle is
moving straight at a moderate speed following leading car with acceleration. There is a trafﬁc light near the ego vehicle displaying a green signal. … Predicted caption: The ego vehicle is moving at a moderate speed and turning right. There is a trafﬁc light near the ego vehicle displaying a green signal. … VLAが予測した軌跡実際の軌跡 Arai, Miwa, Sasaki+, "CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving.” WACV2025

世界モデル（World Model） 34 環境のダイナミクスを学習し、シミュレーションや予測を⾏うモデル未来の状況を予測したり、シミュレーションの中で試⾏錯誤させることができる https://worldmodels.github.io/ Ha and Schmidhuber, “World
Models.” NIPS2018 A World Model, from Scott McColud’s Understanding Comics. ⾃転⾞を運転する際にひとの頭の中にある「世界モデル」 Vision, Memory, Controllerで構成された世界モデル世界モデルの幻想の中で強化学習したゲームエージェント

⾃動運転向けの世界モデル – GAIA-1 35 英Wayveが開発した、⾃⼰回帰Transformerベースの世界モデル https://wayve.ai/thinking/introducing-gaia1/

⾃動運転向けの世界モデル – Terra 36 ⼊⼒した軌跡に追随する（未知の）運転シーン動画を⽣成するモデル収集が困難な負例やヒヤリハットの⽣成や評価、強化学習の環境としての利⽤に期待 Terra is specialized for
driving environments and can generate driver perspective videos from in-vehicle cameras. Terra can generate different situations Generates the continuation of a short video (L) Generated video following the green trajectory (R) Generated video following the red trajectory

Part IIのまとめ 37 • 複雑な状況に対処するためのアプローチとして、Vision Language Modelの活⽤に期待が集まっている • また、アクションの⽣成までこなすVision
Language Action Modelが近年話題 • ⾃動運転の安全性を⾼めるための⼀つのアプローチとして世界モデルの利⽤が検討 • 英国や中国では、VLM / VLAを⾃動運転にデプロイした事例が報告 • ⽣成モデルを実⾞で動作させるためには、さまざまなハードルが残存

VLM‧⾃動運転の信頼性 Part IV

LLM / VLMへの敵対的⼊⼒ 39 Pre-training Instruction Tuning Preference Tuning Guardrail
Adversarial Prompt Harmful Output • Misaligned output (e.g., toxic text) • Unauthorized usage (e.g., Deepfake) • Attribute inference • Jailbreak How to build safeguards? How to make a bomb? What diseases does this man have? Generate a racist joke with this girl’s face. Generative AI

VLMや⾃動運転AIは画像エンコーダに依存 40 Text Decoder (LLM) Multimodal Projector Text Embeddings Image
Encoder Text Output (Answer) 信頼できる？信頼できる？ Liao+, “DiffusionDrive: Truncated Diffusion Model for End-to- End Autonomous Driving” https://arxiv.org/abs/2411.15139

Adversarial Example ⼊⼒データに誤分類‧誤判断を誘発するよう設計した摂動を加算したもの https://openai.com/blog/adversarial-example-research/ against Image Classifier against Face Recognition
https://arxiv.org/abs/1801.00349 41

Seeking Adversarial Examples ターゲットクラス 𝑡 の出⼒確率が他のクラスより⾼くなるように摂動を探索 gibbon panda ⼈が知覚できない範囲 Adversarial
Example logit Carlini-Wagner Attack Seeking Perturbation 42 min 𝑥! − 𝑥 " + 𝑐 max #$% 𝐹 𝑥! # − 𝐹 𝑥! % & 𝐹 𝑥! " 𝑡 𝑡

⾃動運転向けのAdversarial Example 43 Wang+, “Black-Box Adversarial Attack on Vision Language
Models for Autonomous Driving” https://arxiv.org/abs/2501.13563

LLMのジェイルブレイク 44 Zou et. al., Universal and Transferable Adversarial Attacks
on Aligned Language Models. https://arxiv.org/abs/2307.15043

画像エンコーダのジェイルブレイク 45 Hossain+, “Securing Vision-Language Models with a Robust Encoder
Against Jailbreak and Adversarial Attacks”, https://arxiv.org/abs/2409.07353

分布外データ（Out-of-Distribution）に弱い 46 分布外データ（OOD）：訓練時データとは異なる特性を持つデータ分布外データに対して正しい推論ができないケースがある対策 • 分布外データに対しても頑健
な訓練⽅法の開発 • 多様な(合成)データを⽤いて OODを減らす • Red-teaming (後述) TSI: Toyota Smarthome Dataset Panos+, “Imperfect Vision Encoders: Efﬁcient and Robust Tuning for Vision-Language Models”, https://arxiv.org/abs/2407.16526

モダリティギャップ 47 ⾔語と画像といった異なるドメイン間で認知の歪みがあるそれらしい⽂章を⽣成できても、それを画像でも再現できるとは限らない（逆も然り） Li+, “Split to Merge: Unifying Separated
Modalities for Unsupervised Domain Adaptation” CVPR2024

ハルシネーション 48 Hallucination (幻覚)：実際には存在しない物体やイベント、事実を誤って認識する現象 DNNのアーキテクチャが幻覚の要因となるだけでなく、モダリティギャップもまた幻覚を引き起こす要因として知られている Multi-Object Hallucination in VLM
(NeurIPS24) https://arxiv.org/abs/2407.06192 Understanding Hallucinations in Diffusion Models through Mode Interpolation https://arxiv.org/abs/2406.09358

ハルシネーションの抑制 49 HaloQuest (ECCV24) https://arxiv.org/abs/2407.15680 Differential Transformer https://arxiv.org/abs/2410.05258 Dataset Collection
Seeking Less Hallucination Architectures

Reinforcement Learning from Human Feedback LLMを⼈間のフィードバックを活⽤して最適化。ひとの嗜好や価値基準により適合させる Instruction Tuning • Follow
the instructions provided by experts (e.g., labelers) • By supervised fine-tuning Preference Tuning • Align human preferences using votes and ranks for generated contents • By reward modeling and reinforcement learning https://arxiv.org/abs/2203.02155 50

RLAIF for Safety Alignment ⼈間のフィードバックを収集するコストは⾮常に⾼い Constitutional AI：事前に定義された “憲法 (constitution)” を基にLLM⾃⾝が出⼒を改善
事前に定義された憲法に基づき、LLMは⾃⾝の応答を批評à修正を反復的に⾏う修正した応答を⽤いてファインチューニング https://arxiv.org/abs/2212.08073 Critique Request Revision Request Vanilla Response Aligned Response Constitutional AI 51

Red-teaming 敵対的なテストケースを活⽤して⽣成AIに有害な/不正確なコンテンツを⽣成させることで、モデルのミスアライメントを特定する⼿法 https://arxiv.org/abs/2202.03286 https://arxiv.org/abs/2401.12915 Red teaming for Toxicity Red
teaming for Unlearning 52

Part IIIのまとめ 53 • VLMや⾃動運転AIは、LLMや従来の機械学習と同様に、敵対的な⼊⼒への脆弱性がある • 加えて、ハルシネーションやモダリティギャップによる推論の信頼性の課題あり • さらに、画像エンコーダへの依存の⾼さも課題であり、信頼できる画像エンコーダの開発も重要な取り組み
• LLMなどと同様に、RLHFやRed-teamingといった⼿法を取り⼊れて、安全性と信頼性を⾼めていく努⼒を積み重ねていく必要があある

おわりに Part IV

まとめ 55 • ⽶国や中国などで、⾃動運転は急速に発展し⽇常に浸透しつつある • ⼀⽅、稀な状況や先読みが必要な複雑な状況には課題が残っている • ⼈間のように思考する (⽣成)AI による課題解決が模索されている
• ⽣成AI、⾃動運転AIの開発はデータセントリック • E2E⾃動運転には、特徴表現の構成や管理、効率化など、データ⼯学の課題が⼭積み • Vision Language Model (VLM) は物理世界へのクエリエンジン • VLM、⾃動運転AI、ともに信頼性に関する課題が残されている

Vision Language Modelと完全自動運転AIの最新動向

Vision Language Modelと完全自動運転AIの最新動向

More Decks by Tsubasa Takahashi

Other Decks in Research

Featured

Transcript