RSJ2025「基盤モデルの実ロボット応用」チュートリアル2025-1（河原塚）

基盤モデルの実ロボット応用チュートリアル2025 (1) 河原塚健人1, 松嶋達也1, 宮澤和貴2 (1東京大学,
2大阪大学) 1 2025.09.03 (9:00-9:15) RSJ2025, OS18, 1M1-01

本オーガナイズドセッションの目的 • 基盤モデルによりロボットのシステム構築が圧倒的に簡単に. • 海外の研究に置いて行かれないように最新情報をキャッチアップ • みなで情報を共有して立ち向かう・追い越す 2

基盤モデルの実ロボット応用OS 3 RSJ2023 • 3セッション / 21件の発表 RSJ2024 • 4セッション
/ 27件の発表 RSJ2025 • 6セッション / 29件の発表 / 1件の招待講演基盤モデルの利用はロボティクスにとってより一般的に (そろそろこのOSを続けるかも考え時？)

招待講演 4 実験自動化における基盤モデルの活用事例吉川成輝先生 (東京科学大学)

本チュートリアルの構成チュートリアル1 (河原塚) • 基盤モデルの周辺ソフトウェア・ハードウェアチュートリアル2 (松嶋) • ロボット基盤モデルを作る取り組みチュートリアル3
(宮澤) • 基盤モデルのヒューマノイド・AIエージェントへの活用 5

基盤モデル×ロボットの二種類の方向性 6 LLMやVLMの活用ロボット基盤モデル(VLA) SayCan [M. Ahn+, CoRL2022] RT-X [Open
X-Embodiment, ICRA2024] 今回これらの話はほとんどしません

以下を参照してください 7 チュートリアル1 @日本ロボット学会2023 チュートリアル講演@MIRU2025

VLA Survey Paperを書きました！ Vision-Language-Action Models for Robotics: A Review Towards
Real-World Applications 8 Kento Kawaharazuka (UTokyo) Jihoon Oh (UTokyo) Jun Yamada (Oxford) Ingmar Posner (Oxford) Yuke Zhu (UT Austin) https://vla-survey.github.io/

基盤モデルの周辺技術 9 シミュレーション動画生成ハードウェア

シミュレーション技術の発展 10

シミュレーション技術の発展 – Isaac Sim 11 [NVIDIA]

SIMPLER • 実世界のデータで学習されたポリシーを, 再現性のある形で評価するためのシミュレーションベースのベンチマーク • 実世界でのタスク成功率とシミュレーションでの成功率が相関 • 制御ギャップの最適化と視覚ギャップの最適化 •
SAPIEN/Isaac Sim がベース • Google Robotと WidowX-250で合計12タスク 12 [X. Li+, CoRL2024]

動画生成技術の発展 – Veo 3 13 [Google, 2025]

動画生成技術の発展 – Veo 3 14 [Google, 2025]

UniPi • Video Diffusion Modelベースの, 現在画像とテキストから将来画像列を出す世界モデル構築 • 生成された画像列を満たすアクションを生成するInverse
Dynamics Model (IDM)を構築 • これにより画像と言語指示からアクションが生成できる • このWorld Model + IDMの組み合わせは非常に多くみられる • 他にはHiP, Dreamitate, LUMOS 15 [Y. Du+, NeurIPS2023]

動画生成技術の発展 – NVIDIA COSMOS 16 COSMOS-Transfer COSMOS-Reason COSMOS-Predict Data curation
vide & text  text Data generation text, image, video  video Data augmentation RGB, Depth, etc.  Video

ハードウェアの発展 • SO-101 • オープンハードウェアの台頭 • 誰もが作れる共通プラットフォーム • Leader/Followerで4万円程度 •
ベンチマークとしての利用 • LeRobot • SO-101を利用してデータ収集・学習・推論までを簡単に実行可能 • Action Chunking Transformer (ACT) • Diffusion Policy • SmolVLAなど 17

ハードウェアの発展 – UMI • カメラがついたハンド型デバイスでデータ収集 • Visual SLAMから手の軌道を取得, これをもとにポリシーを学習 •
ロボットが同じデバイスを持ち, そのポリシーをもとにタスク実行 18 [C. Chi+, RSS2024]

ハードウェアの発展 – DexUMI • UMIの考え方を五指ハンドに拡張 • 指の接触覚まで取得し再現 19 [M. Xu,
CoRL2025]

ハードウェアの発展 – Project Aria 20 [Meta, arXiv, 2023] • コンパクトなスマートグラスにより,
人間の一人称視点からの行動を記録, これをVLAの事前学習に利用する • Ego-Exo4D, HOT3D, HD EPIC, Aria Everyday Activitiesなど, 多様なデータセットが公開されている

LAPA • アクションラベルなしの人間のデモンストレーション動画から Latent Actionを抽出, これをVLAの事前学習に利用する • 𝒙𝑡 と𝒙𝑡+𝐻 の特徴量差分を計算しVQ-VAEで𝒛𝑡
にトークン化, 𝒙𝑡 と𝒛𝑡 から 𝒙𝑡+𝐻 を復元するような学習を行い, 𝒛𝑡 を形作る • VLAのreadout tokenからMLPを通して𝑧𝑡 を出力できるように学習 • 事後学習ではMLPだけ挿げ替えてロボットのアクション出力を学習 • 人間の大量のデモンストレーション動画をデータとして利用可能に 21 [S. Ye+, ICLR2025]

まとめと結論 • チュートリアル2025 (1) • 基盤モデルの周辺技術の進化 • シミュレーション・動画生成・ハードウェア • シミュレーション
• さらに精巧で高速なシミュレーション環境. VLAの評価. • 動画生成 • 動画生成に関する基盤モデルを活用したVLAの構築 • ハードウェア • オープンハードウェアとロボット操作デバイス, スマートグラス 22

RTシリーズについて •Data-centric AI本で！ • 第5章ロボットデータ • はじめに • RTシリーズの概要
• 多様なロボット • ロボットにおけるデータ収集 • データセット • データ拡張 • おわりに 23

基盤モデル全般について • ロボットと基盤モデルがどう融合するのか, その全体像を理解いただけます • 8/29に発売しました！買ってね！ 24

RSJ2025「基盤モデルの実ロボット応用」チュートリアル2025-1（河原塚）

RSJ2025「基盤モデルの実ロボット応用」チュートリアル2025-1（河原塚）

Kento Kawaharazuka

More Decks by Kento Kawaharazuka

Featured

Transcript

基盤モデルの実ロボット応用チュートリアル2025 (1) 河原塚健人1, 松嶋達也1, 宮澤和貴2 (1東京大学,

本オーガナイズドセッションの目的 • 基盤モデルによりロボットのシステム構築が圧倒的に簡単に. • 海外の研究に置いて行かれないように最新情報をキャッチアップ • みなで情報を共有して立ち向かう・追い越す 2

基盤モデルの実ロボット応用OS 3 RSJ2023 • 3セッション / 21件の発表 RSJ2024 • 4セッション

招待講演 4 実験自動化における基盤モデルの活用事例吉川成輝先生 (東京科学大学)

本チュートリアルの構成チュートリアル1 (河原塚) • 基盤モデルの周辺ソフトウェア・ハードウェアチュートリアル2 (松嶋) • ロボット基盤モデルを作る取り組みチュートリアル3

基盤モデル×ロボットの二種類の方向性 6 LLMやVLMの活用ロボット基盤モデル(VLA) SayCan [M. Ahn+, CoRL2022] RT-X [Open

以下を参照してください 7 チュートリアル1 @日本ロボット学会2023 チュートリアル講演@MIRU2025

VLA Survey Paperを書きました！ Vision-Language-Action Models for Robotics: A Review Towards

基盤モデルの周辺技術 9 シミュレーション動画生成ハードウェア

シミュレーション技術の発展 10

シミュレーション技術の発展 – Isaac Sim 11 [NVIDIA]

動画生成技術の発展 – Veo 3 13 [Google, 2025]

動画生成技術の発展 – Veo 3 14 [Google, 2025]

UniPi • Video Diffusion Modelベースの, 現在画像とテキストから将来画像列を出す世界モデル構築 • 生成された画像列を満たすアクションを生成するInverse

動画生成技術の発展 – NVIDIA COSMOS 16 COSMOS-Transfer COSMOS-Reason COSMOS-Predict Data curation

ハードウェアの発展 • SO-101 • オープンハードウェアの台頭 • 誰もが作れる共通プラットフォーム • Leader/Followerで4万円程度 •

ハードウェアの発展 – UMI • カメラがついたハンド型デバイスでデータ収集 • Visual SLAMから手の軌道を取得, これをもとにポリシーを学習 •

ハードウェアの発展 – DexUMI • UMIの考え方を五指ハンドに拡張 • 指の接触覚まで取得し再現 19 [M. Xu,

ハードウェアの発展 – Project Aria 20 [Meta, arXiv, 2023] • コンパクトなスマートグラスにより,

LAPA • アクションラベルなしの人間のデモンストレーション動画から Latent Actionを抽出, これをVLAの事前学習に利用する • 𝒙𝑡 と𝒙𝑡+𝐻 の特徴量差分を計算しVQ-VAEで𝒛𝑡

まとめと結論 • チュートリアル2025 (1) • 基盤モデルの周辺技術の進化 • シミュレーション・動画生成・ハードウェア • シミュレーション

RTシリーズについて •Data-centric AI本で！ • 第5章ロボットデータ • はじめに • RTシリーズの概要

基盤モデル全般について • ロボットと基盤モデルがどう融合するのか, その全体像を理解いただけます • 8/29に発売しました！買ってね！ 24