Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RSJ2025「基盤モデルの実ロボット応用」チュートリアル2025-1(河原塚)
Search
Kento Kawaharazuka
September 02, 2025
2
450
RSJ2025「基盤モデルの実ロボット応用」チュートリアル2025-1(河原塚)
Kento Kawaharazuka
September 02, 2025
Tweet
Share
More Decks by Kento Kawaharazuka
See All by Kento Kawaharazuka
RSJ2025「オープンハードウェアと学習制御」チュートリアル2025(河原塚)
haraduka
1
340
MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」
haraduka
15
7.7k
Data-centric AI勉強会 「ロボットにおけるData-centric AI」
haraduka
0
880
RSJ2024学術ランチョンセミナー「若手・中堅による国際化リーダーシップに向けて」資料 (河原塚)
haraduka
0
480
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
3
1.2k
RSJ2023「基盤モデルの実ロボット応用」チュートリアル1(既存の基盤モデルを実ロボットに応用する方法)
haraduka
5
2.2k
Featured
See All Featured
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
For a Future-Friendly Web
brad_frost
179
9.9k
GitHub's CSS Performance
jonrohan
1032
460k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
6k
Music & Morning Musume
bryan
46
6.8k
Writing Fast Ruby
sferik
628
62k
Statistics for Hackers
jakevdp
799
220k
Become a Pro
speakerdeck
PRO
29
5.5k
Being A Developer After 40
akosma
90
590k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
BBQ
matthewcrist
89
9.8k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.4k
Transcript
基盤モデルの実ロボット応用 チュートリアル2025 (1) 河原塚 健人1, 松嶋 達也1, 宮澤 和貴2 (1東京大学,
2大阪大学) 1 2025.09.03 (9:00-9:15) RSJ2025, OS18, 1M1-01
本オーガナイズドセッションの目的 • 基盤モデルによりロボットのシステム構築が圧倒的に簡単に. • 海外の研究に置いて行かれないように最新情報をキャッチアップ • みなで情報を共有して立ち向かう・追い越す 2
基盤モデルの実ロボット応用OS 3 RSJ2023 • 3セッション / 21件の発表 RSJ2024 • 4セッション
/ 27件の発表 RSJ2025 • 6セッション / 29件の発表 / 1件の招待講演 基盤モデルの利用はロボティクスにとってより一般的に (そろそろこのOSを続けるかも考え時?)
招待講演 4 実験自動化における 基盤モデルの活用事例 吉川 成輝先生 (東京科学大学)
本チュートリアルの構成 チュートリアル1 (河原塚) • 基盤モデルの周辺ソフトウェア・ハードウェア チュートリアル2 (松嶋) • ロボット基盤モデルを作る取り組み チュートリアル3
(宮澤) • 基盤モデルのヒューマノイド・AIエージェントへの活用 5
基盤モデル×ロボットの二種類の方向性 6 LLMやVLMの活用 ロボット基盤モデル(VLA) SayCan [M. Ahn+, CoRL2022] RT-X [Open
X-Embodiment, ICRA2024] 今回これらの話はほとんどしません
以下を参照してください 7 チュートリアル1 @日本ロボット学会2023 チュートリアル講演@MIRU2025
VLA Survey Paperを書きました! Vision-Language-Action Models for Robotics: A Review Towards
Real-World Applications 8 Kento Kawaharazuka (UTokyo) Jihoon Oh (UTokyo) Jun Yamada (Oxford) Ingmar Posner (Oxford) Yuke Zhu (UT Austin) https://vla-survey.github.io/
基盤モデルの周辺技術 9 シミュレーション 動画生成 ハードウェア
シミュレーション技術の発展 10
シミュレーション技術の発展 – Isaac Sim 11 [NVIDIA]
SIMPLER • 実世界のデータで学習されたポリシーを, 再現性のある形で評価 するためのシミュレーションベースのベンチマーク • 実世界でのタスク成功率とシミュレーションでの成功率が相関 • 制御ギャップの最適化と視覚ギャップの最適化 •
SAPIEN/Isaac Sim がベース • Google Robotと WidowX-250で 合計12タスク 12 [X. Li+, CoRL2024]
動画生成技術の発展 – Veo 3 13 [Google, 2025]
動画生成技術の発展 – Veo 3 14 [Google, 2025]
UniPi • Video Diffusion Modelベースの, 現在画像とテキストから将来画 像列を出す世界モデル構築 • 生成された画像列を満たすアク ションを生成するInverse
Dynamics Model (IDM)を構築 • これにより画像と言語指示から アクションが生成できる • このWorld Model + IDMの組み合 わせは非常に多くみられる • 他にはHiP, Dreamitate, LUMOS 15 [Y. Du+, NeurIPS2023]
動画生成技術の発展 – NVIDIA COSMOS 16 COSMOS-Transfer COSMOS-Reason COSMOS-Predict Data curation
vide & text text Data generation text, image, video video Data augmentation RGB, Depth, etc. Video
ハードウェアの発展 • SO-101 • オープンハードウェアの台頭 • 誰もが作れる共通プラットフォーム • Leader/Followerで4万円程度 •
ベンチマークとしての利用 • LeRobot • SO-101を利用してデータ収集・ 学習・推論までを簡単に実行可能 • Action Chunking Transformer (ACT) • Diffusion Policy • SmolVLAなど 17
ハードウェアの発展 – UMI • カメラがついたハンド型デバイスでデータ収集 • Visual SLAMから手の軌道を取得, これをもとにポリシーを学習 •
ロボットが同じデバイスを持ち, そのポリシーをもとにタスク実行 18 [C. Chi+, RSS2024]
ハードウェアの発展 – DexUMI • UMIの考え方を五指ハンドに拡張 • 指の接触覚まで取得し再現 19 [M. Xu,
CoRL2025]
ハードウェアの発展 – Project Aria 20 [Meta, arXiv, 2023] • コンパクトなスマートグラスにより,
人間の一人称視点からの行動 を記録, これをVLAの事前学習に利用する • Ego-Exo4D, HOT3D, HD EPIC, Aria Everyday Activitiesなど, 多様なデータセットが公開されている
LAPA • アクションラベルなしの人間のデモンストレーション動画から Latent Actionを抽出, これをVLAの事前学習に利用する • 𝒙𝑡 と𝒙𝑡+𝐻 の特徴量差分を計算しVQ-VAEで𝒛𝑡
にトークン化, 𝒙𝑡 と𝒛𝑡 から 𝒙𝑡+𝐻 を復元するような学習を行い, 𝒛𝑡 を形作る • VLAのreadout tokenからMLPを通して𝑧𝑡 を出力できるように学習 • 事後学習ではMLPだけ挿げ替えてロボットのアクション出力を学習 • 人間の大量のデモンストレーション動画をデータとして利用可能に 21 [S. Ye+, ICLR2025]
まとめと結論 • チュートリアル2025 (1) • 基盤モデルの周辺技術の進化 • シミュレーション・動画生成・ハードウェア • シミュレーション
• さらに精巧で高速なシミュレーション環境. VLAの評価. • 動画生成 • 動画生成に関する基盤モデルを活用したVLAの構築 • ハードウェア • オープンハードウェアとロボット操作デバイス, スマートグラス 22
RTシリーズについて •Data-centric AI本で! • 第5章 ロボットデータ • はじめに • RTシリーズの概要
• 多様なロボット • ロボットにおけるデータ収集 • データセット • データ拡張 • おわりに 23
基盤モデル全般について • ロボットと基盤モデルがどう融合する のか, その全体像を理解いただけます • 8/29に発売しました!買ってね! 24