Alpamayo-R1
Bridging Reasoning and Action Prediction for Generalizable
Autonomous Driving in the Long Tail
arxiv: https://arxiv.org/abs/2511.00088
code: https://github.com/NVlabs/alpamayo
tech blog: https://developer.nvidia.com/blog/building-autonomous-vehicles-that-reason-with-nvidia-alpamayo
※資料中の図表は断りのない限り上記論文から引用
can be viewed as implicit world models?
VLAはsemantic spaceで動作するimplicit world
modelだと主張。
(個人的には) World Modelの厳密な定義には
当てはまらないと考えていますが
(s_t+1=f(s_t | a_t)という構造ではないので)
「暗黙的に次frameの遷移を予測し判断する」
という意味で上記のように述べられているのだと理
解しています。
https://developer.nvidia.com/blog/building-autonomous-ve
hicles-that-reason-with-nvidia-alpamayo/
VLMのtext出力で運転できるわけではない -> trajectory出力への拡張
https://arxiv.org/abs/2503.15558v1
Cosmos-Reason
● multimodal large language models specialized
in Physical AI reasoning
● Physical AIにおける意味理解に特化したVLM
● 出力形式はtext
Slide 15
Slide 15 text
VLMのtext出力で運転できるわけではない -> trajectory出力への拡張
https://arxiv.org/abs/2503.15558v1
Cosmos-Reason
● multimodal large language models specialized
in Physical AI reasoning
● Physical AIにおける意味理解に特化したVLM
● 出力形式はtext
Alpamayo-R1
● vision–language–action model (VLA)
● 出力形式はtrajectory(waypoints)
https://developer.nvidia.com/blog/building-autonomous-vehicles-that-re
ason-with-nvidia-alpamayo/