[CV勉強会@関東世界モデル論文読み会] VLA自動運転model Alpamayo-R1

Slide 1

Slide 1 text

Alpamayo-R1 Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail arxiv: https://arxiv.org/abs/2511.00088 code: https://github.com/NVlabs/alpamayo tech blog: https://developer.nvidia.com/blog/building-autonomous-vehicles-that-reason-with-nvidia-alpamayo ※資料中の図表は断りのない限り上記論文から引用

Slide 2

Slide 2 text

自己紹介 Shin ● 趣味で自動運転関連技術を追っています ● 自動運転用ML Plannerの分野に興味があり，自分なりの「こうすべきでは」という仮説作りが最近のマイブームです ○ この分野がどの程度有望そうなのか？・自分の仮説は正しそうなのか？を調べている状態です ● 博士後期課程進学に興味があります ● 前回はWMでのtrajectory評価を行う論文について発表 ● 今回はtrajectory生成側でCosmos-Reasonがどう応用されているか発表します Twitter: @AquaRobot0202

Slide 3

Slide 3 text

今日紹介する論文概要 ● 自動運転用VLA. Cosmos-ReasonをVLM Backboneにしています ● NVIDIAからの論文です ● 推論用codeが公開され、Mercedes CLAでも実機実験されています

Slide 4

Slide 4 text

can be viewed as implicit world models? VLAはsemantic spaceで動作するimplicit world modelだと主張。 (個人的には) World Modelの厳密な定義には当てはまらないと考えていますが (s_t+1=f(s_t | a_t)という構造ではないので) 「暗黙的に次frameの遷移を予測し判断する」という意味で上記のように述べられているのだと理解しています。 https://developer.nvidia.com/blog/building-autonomous-ve hicles-that-reason-with-nvidia-alpamayo/

Slide 5

Slide 5 text

Background: Cosmos World Foundation Model

Slide 6

Slide 6 text

https://www.nvidia.com/en-us/on-demand/session/gtc25-dd40000/

Slide 7

Slide 7 text

https://arxiv.org/abs/2501.03575

Slide 8

Slide 8 text

https://arxiv.org/abs/2501.03575

Slide 9

Slide 9 text

https://www.nvidia.com/en-us/ai/cosmos/

Slide 10

Slide 10 text

https://www.nvidia.com/en-us/ai/cosmos/

Slide 11

Slide 11 text

Cosmos-Reason: 物理空間の意味理解(Reasoning)をtextで出力するmodel https://huggingface.co/blog/nvidia/nvidia-cosmos-reason-2-brings-advanced-reasoning ◀工事現場の横を通り抜けるシーンの意味理解

Slide 12

Slide 12 text

Cosmos-Reason: Architecture https://arxiv.org/abs/2503.15558v1

Slide 13

Slide 13 text

Cosmos-Reason: 判断をtext出力 https://arxiv.org/abs/2503.15558v1 ◀ 落下物があった際に　どう対応する？

Slide 14

Slide 14 text

Slide 15

Slide 15 text

VLMのtext出力で運転できるわけではない -> trajectory出力への拡張 https://arxiv.org/abs/2503.15558v1 Cosmos-Reason ● multimodal large language models specialized in Physical AI reasoning ● Physical AIにおける意味理解に特化したVLM ● 出力形式はtext Alpamayo-R1 ● vision–language–action model (VLA) ● 出力形式はtrajectory(waypoints) https://developer.nvidia.com/blog/building-autonomous-vehicles-that-re ason-with-nvidia-alpamayo/

Slide 16

Slide 16 text

Alpamayo-R1

Slide 17

Slide 17 text

Alpamayo-R1 ● 自動運転用VLA ● Cosmos-ReasonをVLM Backboneに使用 ● 10B ○ 7B Cosmos-Reason backbone ○ 2B Diffusion-based trajectory decoder ▲ Mercedes CLAへ搭載 https://www.youtube.com/watch?v=ukKHKuVab-g

Slide 18

Slide 18 text

Alpamayo-R1 Input ● 画像(2-second historical video) ● Text Encoder(User Command, Navigation) ● Ego History Output ● Reasoning ● Meta Actions ● Trajectory Decoder

Slide 19

Slide 19 text

Architecture navigation 400フィート先右折

Slide 20

Slide 20 text

Output: Reasoning ボールが転がってきたので、子供やペットが追いかけてくる可能性あり

Slide 21

Slide 21 text

Chain of Causation Reasoning 「どんな理由でこの行動を取るのか」 ● Driving Decisionと強く結びつく記述のみをアノテーションして学習 ● 運転行動に影響を与える Critical Components(e.g. cut-in motorcycle)を運転行動の原因として触れている ● ReasoningとTrajectoryが矛盾しないように学習

Slide 22

Slide 22 text

Output: Meta Action 減速し、ボールや歩行者が危険をもたらす可能性がある場合には停止

Slide 23

Slide 23 text

Output: Trajectory 64個のwaypoints ● 各pointは(a, κ)を持つ ○ a: acceleration ○ κ: curvature ● 10 Hz, 6.4 sec ● unicycle dynamicsにより(a,κ)_iと(x,y,θ,v)_iから (x,y,θ,v)_i+1を取得

Slide 24

Slide 24 text

Alpamayo-R1: Evaluation

Slide 25

Slide 25 text

Simulatorでの評価 ◀ Stop signで一時停止して右折 ◀ 工事現場で減速基本的な運転行動 →できている

Slide 26

Slide 26 text

ChallengingなScenarioでの性能評価 CoC Reasoningあり/なしの modelを比較特にChallengingな scenarioでの性能向上を確認

Slide 27

Slide 27 text

AlpaSim metrics ● Close Encounter Rate all, at-fault (%) ↓ ○ 自車が他車両や歩行者などのエージェントと危険な距離まで接近したscenarioの割合 ○ at-fault: 後方からの追突(rear-end close encounter)などを除外し、モデルの判断ミスによる危険状況のみを考慮 ● Off-Road Rate (%) ↓ ○ 自車がdrivable areaをはみ出して走行したscenarioの割合 ● AlpaSim Score all, at-fault ↑ ○ close encounterやoff-roadが発生するまでに走行できた平均走行距離(km)

Slide 28

Slide 28 text

AlpaSim metrics

Slide 29

Slide 29 text

評価: 実機実験赤信号での停止, 信号が緑になるまで待つ, 交差点左折といった動作を実機検証 ● RTX6000を使用。推論時間99 ms edge caseというわけではない。edge caseでどこまでやれるのか気になる

Slide 30

Slide 30 text

評価: 実機実験 https://github.com/NVlabs/alpamayo/issues/9#issuecomment-3814398671 https://github.com/NVlabs/alpamayo/issues/31#issuecomment-3814378557 ● RTX6000で99msを達成しているのは0.5B model(not released) ● 10B modelはRTX6000で1sec(PyTorch inference, 量子化・TensorRT optimisationなし)

Slide 31

Slide 31 text

まとめ Cosmos-Reasonを実機のtrajectory生成に応用するとどれくらい強いのか？ ● Reasoningを導入することで、特にChallengingなscenarioで性能向上 ● Cosmos-Reason Backboneで実機実験までできている実機で走る段階まで来ているか？ ● 0.5B model(not released)をRTX6000を用いて99 msで動かしている ○ 実験車両なら可能。現状では量産車両では厳しそう...? ○ 10B modelとの性能差はどの程度あるのか ● 別のセンサ構成でも動くのか？については記載なし