Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Vision Language Modelと完全自動運転AIの最新動向

Vision Language Modelと完全自動運転AIの最新動向

DEIM2025チュートリアル

Tsubasa Takahashi

February 25, 2025
Tweet

More Decks by Tsubasa Takahashi

Other Decks in Research

Transcript

  1. Generative AI developed by Turing VLM “Heron” World Model “Terra”

    Terra is specialized for driving environments and can generate driver perspective videos from in-vehicle cameras. Terra can generate different situations Generates the continuation of a short video 3 (L) Generated video following the green trajectory (R) Generated video following the red trajectory
  2. Evolution of Autonomous Driving ・Front Camera ・LiDAR 1st Gen (CNN)

    Model not performant and limited sensory equipment ・Multiple Cameras ・LiDAR ・Radar ・HD Map 2nd Gen (CNN, Rule-based) HD map and if-then logic as critical limitations ・Multiple Cameras ・Behavior Cloning Model performant but still issues handling edge cases 3rd Gen (Transformer, E2E) ・Multiple Cameras ・Language based UI ・LLM/World Model Model can finally handle all situations and edge cases 4th Gen (LLM, E2E) 2012 2017 2021 2025 8
  3. End-to-End⾃動運転AIの学習 10 ⼈間の運転経路を教師ありで学習する「模倣学習」が基本 Sensor signals IMU/GNSS Radar Steering Throttle/ brake

    Speed Video frames Speed IMU GNSS Trajectories Kalman Filter ⼈間の運転で⾛⾏データを収集する End-to-End⾃動運転NN ⼊⼒データの時刻から⾒て未来の軌跡
  4. ⿃瞰図による特徴表現 – BEVFormer 14 BEV (Bird’s Eye View): 空から⾒下ろした視点でシーン を表現する⼿法

    特徴 • シーン全体を俯瞰可能 • センサーデータの統合が⽤意 • プランニングやマッピングに 適している BEVFormer: マルチカメラ画 像からBEVを推定する⼿法 Li+, “BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers” ECCV2022
  5. VAD: シーンのベクトル表現による⾃動運転AI 15 Jiang+, “VAD: Vectorized Scene Representation for Efficient

    Autonomous Driving” ICCV2023 よく知られたE2Eモデル (ベースラインとして活⽤されている) BEVでセンサー情報を密に統合 するアプローチを採⽤ ベクトル形式で表現した運転シ ーンをもとにPlanning à推論が⾼速 (ラスタ表現に⽐) ベクトル表現 ラスタ表現
  6. Trajectoryの推定⼿法 19 (a) Single-mode Trajectory 回帰によって1つの軌跡を導出。 精度およびロバスト性に課題 (b) 離散Vocabularyの分類 事前に⽤意したVocabularyから

    選択。Vocabularyが⼤きくても out-of-vocabularyになりがち (c) DiffusionPolicy 拡散モデルによって多様な⾏動 分布を学習。多段の拡散ステッ プを要するため推論時間に課題 (d) 分類+DiffusionPolicy 少数のVocabularyから尤もらし い軌跡を推定し、数回の拡散ス テップでGTに近似させる。⾼速 Liao+, “DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving” https://arxiv.org/abs/2411.15139
  7. データ量を増しても解決が難しい問題は存在する 20 稀な事象や、複雑な状況はそもそもデータがほとんどなくデータ量での解決が困難 運転状況の難しさ 頻度 少 ← → 難 易

    ← → 多 多い / 簡単 少ない / 難しい 交通環境には頻度が少ないが、 多様で困難な状況が存在する (= ロングテール) Makansi+ "On exposing the challenging long tail in future prediction of traffic actors." ICCV 2021.
  8. VLM = LLM + 画像エンコーダ 24 画像や動画を⼊⼒できるように拡張した⾔語 モデル 画像エンコーダ •

    画像や動画から特徴を抽出し、ベクトルなどの 形式に変換する機能 • ResnetやVAE、CLIPなどが⽤いられる マルチモーダルプロジェクタ • ⾔語などの他のモダリティと共通の⼊⼒形式 (トークン)に変換する機能 • LLMが多様なモダリティを扱えるようにする • 画像エンコーダと統合されている場合もある Text Decoder (LLM) Multimodal Projector Text Embeddings Image Encoder Text Output (Answer)
  9. アクションとは? - ⾃動運転を例に考える 31 「左折」のようなコマンドから、制御信号まで様々な出⼒がアクションになりうる 抽象度:⾼ 抽象度:低 コマンド “左折”, “減速”のように

    ラベル付けがされている ⾃⾞の動きを離散的に扱う Target(Goal) Point 数秒後~数⼗秒で⽬指したい ⽬標地点の座標など Trajectory ⾃⾞が数秒~数⼗秒の間で進 むべき軌道 Control Signal 速度やハンドル⾓の⽬標値な ど “ACCELERATE” Meta Action
  10. CoVLA-Agent 33 チューリングが開発したVLAのコンセプト検証モデル Ground truth caption: The ego vehicle is

    moving straight at a moderate speed following leading car with acceleration. There is a traffic light near the ego vehicle displaying a green signal. … Predicted caption: The ego vehicle is moving at a moderate speed and turning right. There is a traffic light near the ego vehicle displaying a green signal. … VLAが予測した軌跡 実際の軌跡 Arai, Miwa, Sasaki+, "CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving.” WACV2025
  11. 世界モデル(World Model) 34 環境のダイナミクスを学習し、シミュレーションや予測を⾏うモデル 未来の状況を予測したり、シミュレーションの中で試⾏錯誤させることができる https://worldmodels.github.io/ Ha and Schmidhuber, “World

    Models.” NIPS2018 A World Model, from Scott McColud’s Understanding Comics. ⾃転⾞を運転する際にひとの 頭の中にある「世界モデル」 Vision, Memory, Controllerで 構成された世界モデル 世界モデルの幻想の中で 強化学習したゲームエージェント
  12. ⾃動運転向けの世界モデル – Terra 36 ⼊⼒した軌跡に追随する(未知の)運転シーン動画を⽣成するモデル 収集が困難な負例やヒヤリハットの⽣成や評価、強化学習の環境としての利⽤に期待 Terra is specialized for

    driving environments and can generate driver perspective videos from in-vehicle cameras. Terra can generate different situations Generates the continuation of a short video (L) Generated video following the green trajectory (R) Generated video following the red trajectory
  13. Part IIのまとめ 37 • 複雑な状況に対処するためのアプローチとして、Vision Language Modelの活⽤に期 待が集まっている • また、アクションの⽣成までこなすVision

    Language Action Modelが近年話題 • ⾃動運転の安全性を⾼めるための⼀つのアプローチとして世界モデルの利⽤が検討 • 英国や中国では、VLM / VLAを⾃動運転にデプロイした事例が報告 • ⽣成モデルを実⾞で動作させるためには、さまざまなハードルが残存
  14. LLM / VLMへの敵対的⼊⼒ 39 Pre-training Instruction Tuning Preference Tuning Guardrail

    Adversarial Prompt Harmful Output • Misaligned output (e.g., toxic text) • Unauthorized usage (e.g., Deepfake) • Attribute inference • Jailbreak How to build safeguards? How to make a bomb? What diseases does this man have? Generate a racist joke with this girl’s face. Generative AI
  15. VLMや⾃動運転AIは画像エンコーダに依存 40 Text Decoder (LLM) Multimodal Projector Text Embeddings Image

    Encoder Text Output (Answer) 信頼できる? 信頼できる? Liao+, “DiffusionDrive: Truncated Diffusion Model for End-to- End Autonomous Driving” https://arxiv.org/abs/2411.15139
  16. Seeking Adversarial Examples ターゲットクラス 𝑡 の出⼒確率が他のクラスより⾼くなるように摂動を探索 gibbon panda ⼈が知覚できない範囲 Adversarial

    Example logit Carlini-Wagner Attack Seeking Perturbation 42 min 𝑥! − 𝑥 " + 𝑐 max #$% 𝐹 𝑥! # − 𝐹 𝑥! % & 𝐹 𝑥! " 𝑡 𝑡
  17. ⾃動運転向けのAdversarial Example 43 Wang+, “Black-Box Adversarial Attack on Vision Language

    Models for Autonomous Driving” https://arxiv.org/abs/2501.13563
  18. LLMのジェイルブレイク 44 Zou et. al., Universal and Transferable Adversarial Attacks

    on Aligned Language Models. https://arxiv.org/abs/2307.15043
  19. 画像エンコーダのジェイルブレイク 45 Hossain+, “Securing Vision-Language Models with a Robust Encoder

    Against Jailbreak and Adversarial Attacks”, https://arxiv.org/abs/2409.07353
  20. 分布外データ(Out-of-Distribution)に弱い 46 分布外データ(OOD): 訓練時データとは異なる特性を 持つデータ 分布外データに対して正しい推 論ができないケースがある 対策 • 分布外データに対しても頑健

    な訓練⽅法の開発 • 多様な(合成)データを⽤いて OODを減らす • Red-teaming (後述) TSI: Toyota Smarthome Dataset Panos+, “Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models”, https://arxiv.org/abs/2407.16526
  21. Reinforcement Learning from Human Feedback LLMを⼈間のフィードバックを活⽤して最適化。ひとの嗜好や価値基準により適合させる Instruction Tuning • Follow

    the instructions provided by experts (e.g., labelers) • By supervised fine-tuning Preference Tuning • Align human preferences using votes and ranks for generated contents • By reward modeling and reinforcement learning https://arxiv.org/abs/2203.02155 50
  22. RLAIF for Safety Alignment ⼈間のフィードバックを収集するコストは⾮常に⾼い Constitutional AI:事前に定義された “憲法 (constitution)” を基にLLM⾃⾝が出⼒を改善

    事前に定義された憲法 に基づき、LLMは⾃⾝ の応答を批評à修正を 反復的に⾏う 修正した応答を⽤いて ファインチューニング https://arxiv.org/abs/2212.08073 Critique Request Revision Request Vanilla Response Aligned Response Constitutional AI 51
  23. まとめ 55 • ⽶国や中国などで、⾃動運転は急速に発展し⽇常に浸透しつつある • ⼀⽅、稀な状況や先読みが必要な複雑な状況には課題が残っている • ⼈間のように思考する (⽣成)AI による課題解決が模索されている

    • ⽣成AI、⾃動運転AIの開発はデータセントリック • E2E⾃動運転には、特徴表現の構成や管理、効率化など、データ⼯学の課題が⼭積み • Vision Language Model (VLM) は物理世界へのクエリエンジン • VLM、⾃動運転AI、ともに信頼性に関する課題が残されている