Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[CV勉強会@関東 世界モデル論文読み会] VLA自動運転model Alpamayo-R1

Avatar for Shin-kyoto Shin-kyoto
February 08, 2026
350

[CV勉強会@関東 世界モデル論文読み会] VLA自動運転model Alpamayo-R1

2026/02/08 関東CV勉強会の資料です。
Cosmos-Reasonをbackboneとして用いるVLA自動運転モデルについての発表です。

arxiv: https://arxiv.org/abs/2511.00088
code: https://github.com/NVlabs/alpamayo
tech blog: https://developer.nvidia.com/blog/building-autonomous-vehicles-that-reason-with-nvidia-alpamayo

Avatar for Shin-kyoto

Shin-kyoto

February 08, 2026
Tweet

Transcript

  1. Alpamayo-R1 Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving

    in the Long Tail arxiv: https://arxiv.org/abs/2511.00088 code: https://github.com/NVlabs/alpamayo tech blog: https://developer.nvidia.com/blog/building-autonomous-vehicles-that-reason-with-nvidia-alpamayo ※資料中の図表は断りのない限り上記論文から引用
  2. 自己紹介 Shin • 趣味で自動運転関連技術を追っています • 自動運転用ML Plannerの分野に興味があり, 自分なりの「こうすべきでは」という仮説作りが 最近のマイブームです ◦

    この分野がどの程度有望そうなのか?・自分の仮説は正しそうなのか? を調べている状態です • 博士後期課程進学に興味があります • 前回はWMでのtrajectory評価を行う論文について発表 • 今回はtrajectory生成側でCosmos-Reasonがどう応用されているか発表します Twitter: @AquaRobot0202
  3. can be viewed as implicit world models? VLAはsemantic spaceで動作するimplicit world

    modelだと主張。 (個人的には) World Modelの厳密な定義には 当てはまらないと考えていますが (s_t+1=f(s_t | a_t)という構造ではないので) 「暗黙的に次frameの遷移を予測し判断する」 という意味で上記のように述べられているのだと理 解しています。 https://developer.nvidia.com/blog/building-autonomous-ve hicles-that-reason-with-nvidia-alpamayo/
  4. VLMのtext出力で運転できるわけではない -> trajectory出力への拡張 https://arxiv.org/abs/2503.15558v1 Cosmos-Reason • multimodal large language models

    specialized in Physical AI reasoning • Physical AIにおける意味理解に特化したVLM • 出力形式はtext
  5. VLMのtext出力で運転できるわけではない -> trajectory出力への拡張 https://arxiv.org/abs/2503.15558v1 Cosmos-Reason • multimodal large language models

    specialized in Physical AI reasoning • Physical AIにおける意味理解に特化したVLM • 出力形式はtext Alpamayo-R1 • vision–language–action model (VLA) • 出力形式はtrajectory(waypoints) https://developer.nvidia.com/blog/building-autonomous-vehicles-that-re ason-with-nvidia-alpamayo/
  6. Alpamayo-R1 • 自動運転用VLA • Cosmos-ReasonをVLM Backboneに使用 • 10B ◦ 7B

    Cosmos-Reason backbone ◦ 2B Diffusion-based trajectory decoder ▲ Mercedes CLAへ搭載 https://www.youtube.com/watch?v=ukKHKuVab-g
  7. Alpamayo-R1 Input • 画像(2-second historical video) • Text Encoder(User Command,

    Navigation) • Ego History Output • Reasoning • Meta Actions • Trajectory Decoder
  8. Chain of Causation Reasoning 「どんな理由でこの行動を取るのか」 • Driving Decisionと強く結びつく記述の みをアノテーションして学習 •

    運転行動に影響を与える Critical Components(e.g. cut-in motorcycle)を運転行動の原因とし て触れている • ReasoningとTrajectoryが矛盾しな いように学習
  9. Output: Trajectory 64個のwaypoints • 各pointは(a, κ)を持つ ◦ a: acceleration ◦

    κ: curvature • 10 Hz, 6.4 sec • unicycle dynamicsにより(a,κ)_iと(x,y,θ,v)_iから (x,y,θ,v)_i+1を取得