MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」
by
Kento Kawaharazuka
×
Copy
Open
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
1 ロボット基盤モデル研究の最前線 河原塚 健人 東京大学 1 2025.7.29 (13:10-14:40) MIRU2025 チュートリアル講演
Slide 2
Slide 2 text
自己紹介 • 名前 – 河原塚 健人 (かわはらづか けんと) • 所属 – 東京大学AIセンター/情報システム工学研究室(JSK) • 経歴 – 2022.03 博士取得 / 2025.02 講師になりました! • Twitter – @KKawaharazuka • Website – https://haraduka.github.io/ 2 Humanoid Design Biomimetic Control Foundation Models Predictive Model Learning Open Hardware
Slide 3
Slide 3 text
3 Kengoro [Y. Asano+, Humanoids2016] [K. Kozuki+, IROS2016]
Slide 4
Slide 4 text
4 Kengoro [Y. Asano+, IROS2016] [T. Makabe, K. Kawaharazuka+, Humanoids2018] [S. Makino, K. Kawaharazuka+, IROS2018] [K. Kawaharazuka+, IROS2017]
Slide 5
Slide 5 text
5 Musashi [K. Kawaharazuka+, RA-Magazine/ICRA2021]
Slide 6
Slide 6 text
6 CubiXGo1 [S. Inoue, K. Kawaharazuka+, Advanced Robotics Research, 2025]
Slide 7
Slide 7 text
7 MEVIUS
Slide 8
Slide 8 text
なぜ基盤モデルの世界へ? • 2022.07.06 – JSAI2022で話した縁で, 松尾研にお邪魔しCLIPの話を聞く • 2022.08.15 – 頭の片隅にあったCLIPやVQAが可能なモデルの面白さに気付き, 学生とご飯を食べながらブレスト • 2022.09.15 – ICRA2023に, ロボットのための言語による状態認識に関する研究 を2本投稿 • 2022.10.17 – ロボティクスシンポジア2023に料理/パトロール/ナビゲーション の観点から3本の論文を投稿 • 2023.02.20 – 日本ロボット学会でオーガナイズドセッションを企画 • 2023.03.18 – 認知ロボティクス作戦会議で特集号の話が持ち上がる 8 …
Slide 9
Slide 9 text
これまでの活動 • OS「基盤モデルの実ロボット応用」@日本ロボット学会2023-2025 • 特集号「Real-World Robot Applications of Foundation Models」 @国際論文誌Advanced Robotics 9 RSJ2025は9/2-5 @東京科学大!
Slide 10
Slide 10 text
Survey Paperを執筆しました! 10
Slide 11
Slide 11 text
さらに異分野へ 11 NLP2024併設ワークショップ: 大規模言語モデルの実世界応用 MIRU2025チュートリアル ロボット基盤モデルの最前線
Slide 12
Slide 12 text
基盤モデル×ロボットの二種類の方向性 12 LLMやVLMの活用 ロボット基盤モデル(VLA) SayCan [M. Ahn+, CoRL2022] RT-X [Open X-Embodiment, ICRA2024]
Slide 13
Slide 13 text
以下を参照してください 13 チュートリアル1 @日本ロボット学会2023 IEICE先端セミナー 「生成AIの応用」 PRMU研究会 でも招待講演 しました
Slide 14
Slide 14 text
ですが今回は… 14 LLMやVLMの活用 ロボット基盤モデル(VLA) SayCan [M. Ahn+, CoRL2022] RT-X [Open X-Embodiment, ICRA2024]
Slide 15
Slide 15 text
ロボット基盤モデルは何ができているのか 15 RT-1 [Google Research, 2022] https://www.youtube.com/watch?v=UuKAp9a6wMs
Slide 16
Slide 16 text
ロボット基盤モデルは何ができているのか 16 AutoRT [Google DeepMind, 2024] https://auto-rt.github.io/
Slide 17
Slide 17 text
ロボット基盤モデルは何ができているのか 17 [Physical Intelligence (π), 2024] https://www.physicalintelligence.company/blog/pi0
Slide 18
Slide 18 text
ロボット基盤モデルは何ができているのか 18 GR00T N1 [NVIDIA, 2025] https://www.youtube.com/watch?v=m1CH-mgpdYg
Slide 19
Slide 19 text
ロボット基盤モデルは何ができているのか 19 Helix [Figure, 2025] https://www.figure.ai/news/helix
Slide 20
Slide 20 text
そもそも、なんでロボット基盤モデル? • これまでは, 各モダリティに 関する大規模モデルを用いて 個別に情報抽出を行っていた • うわべだけの画像・言語の 認識になりがち & アクション にうまく結びつかない • 画像・言語・アクションを すべてひっくるめて学習する べきだよね 20 VLA Survey [R. Sapkota, arXiv, 2025]
Slide 21
Slide 21 text
そもそも、なんでロボット基盤モデル? 21 SayCan [M. Ahn+, CoRL2022] https://say-can.github.io/
Slide 22
Slide 22 text
そもそも、なんでロボット基盤モデル? • もし汎用的なロボット基盤モデル(VLA)ができたら • カスタムデータセットを最小化, またはゼロへ • ロボット導入の障壁をゼロへ 22
Slide 23
Slide 23 text
日本のプレゼンスは? • めっちゃ低いです(ど真ん中の論文はほぼ0) • 基盤モデルのロボット応用はまだ良かった • ロボット基盤モデル(VLA)はGoogleやNVIDIAみたいな 体力のある企業とその周辺が牛耳っている • (私も含め, みな素人です) • なので, ぜひ追いつきましょう! 23
Slide 24
Slide 24 text
ロボット基盤モデルを学習するには? 24 データ収集 モデルの学習 • どんなロボットを扱う? • どんなデータ収集方法? • どんなデータセットがある? • どんな拡張をする? • どんなアーキテクチャ? • どうモダリティを扱う? • どう学習する?
Slide 25
Slide 25 text
今日のチュートリアルの流れ Vision-Language-Actionモデルの • 歴史 • アーキテクチャ • ロボット • データ収集 • データセット • データ拡張 • ベンチマーク 25
Slide 26
Slide 26 text
今日のチュートリアルの流れ Vision-Language-Actionモデルの • 歴史 • アーキテクチャ • ロボット • データ収集 • データセット • データ拡張 • ベンチマーク 26
Slide 27
Slide 27 text
まずは歴史から • 2022年のCLIPortあたりが最初 • 2024から突如, 数が増えてきた • 2025には毎週新しいVLAが登場 • arXivのみで怪しいやつも多い 27 VLA Survey [R. Sapkota, arXiv, 2025]
Slide 28
Slide 28 text
主要なVLAの流れ Transformer Robotics Transformer Hierarchy Diffusion Policy / Open Source Diffusion Transformer Latent Action Extraction Flow Matching という流れ 28
Slide 29
Slide 29 text
CLIPort 29 [M. Shridhar, CoRL2021] • End-to-EndなVLAとしては最も原始的なモデル • CLIPによる言語情報と視覚情報の抽出 • Pick and Placeに特化したTransporter Networkとの結合 • RGB-D画像と言語情報からどの物体をどこに置くべきかを生成 • CNN/MLP構成では多様なモダリティの扱い/スケーラビリティに限界
Slide 30
Slide 30 text
Gato • 単一のTransformerモデルでText Chat・VQA・Image Captioning・ GamePlay・ロボット制御など様々なタスクを実行可能 • 言語指示をSentencePieceで, 画像をViTでトークン化し, Decoder-only Transformerで自己回帰的にアクショントークンを生成 • ロボットについては簡単なブロック積みタスクのみ 30 [DeepMind, TMLR2022]
Slide 31
Slide 31 text
VIMA 31 [Y. Jiang+, ICML2023] • ゴール画像やテキストを含む多様なタスク指示が可能な Encoder-Decoder型のTransformer • Mask R-CNNで物体検出, 各物体画像をViTで, 言語指示はT5エンコーダ でトークン化, バウンディングボックス情報もトークン化 • 多様なロボットタスクが可能だがシミュレーションのみでの試行
Slide 32
Slide 32 text
Robotics Transformer-1 (RT-1) • ロボットに特化してリアルタイムに実世界タスクを実行可能 • 画像系列をEfficientNetに入れ, USEで変換された言語特徴量でFiLM Conditioningし, TokenLearnerでトークン圧縮, アクションを出力 • 17か月間13台のロボットで130k軌道/700タスクを収集し学習 32 [Google Research, RSS2023]
Slide 33
Slide 33 text
RT-2 • 大規模なウェブデータで学習されたVLMであるPaLM-E/PaLI-Xを バックボーンとすることで未知環境への汎化性能を向上 • RT-1由来のデータとインターネットスケールの視覚言語タスクの 両者を用いてVLMをFine Tuning • VLMをバックボーンとしたVLAという考え方が一般的に 33 [Google DeepMind, CoRL2023]
Slide 34
Slide 34 text
RT-X • 単一の身体だけでなく, 多様な身体性を持つロボットデータを同時 に使い学習することでRT-1/RT-2の性能を向上可能 • 21機関/173人の著者による22ロボットの60データセットの整備 34 [Open X-Embodiment, ICRA2024]
Slide 35
Slide 35 text
RT-Sketch • Robotics Transformerには様々な派生形が存在 • 目標画像指定よりも緩く, 言語指示よりも 厳格な, 目標スケッチ画像指定に基づく アクション生成 35 [P. Sundaresan+, CoRL2024]
Slide 36
Slide 36 text
RT-Trajectory • 手先の軌道を入力としたアクション生成を行う • この他にも自動データ収集のAutoRTや速度向上に向けたSARA-RTなど 36 [J. Gu+, ICLR2024]
Slide 37
Slide 37 text
RT-H • 中間表現であるlanguage motionを予測する高レベルポリシーと language motionからactionを予測する低レベルポリシーの階層構造 • プロンプトの変化により単一モデルで両ポリシーを学習させる • 学習が容易かつ人間の介入に対応可能. その後階層構造が人気に 37 [S. Belkhale, RSS2024]
Slide 38
Slide 38 text
Octo • Diffusion Policyを取り入れた最初のVLA • 全トークンを一列に並べてTransformerに入力, readout tokenで条件づ けたDiffusion Action Headを接続 • 離散トークンではなく連続値としてアクションを生成できるように • 全ソースコードをオープンにしたことで大きな注目を浴びた 38 [D. Ghosh+, RSS2024]
Slide 39
Slide 39 text
OpenVLA • Octoと同様にオープンソースとして公開 • 画像入力をDINOv2とSigLIPにより変換して入力する, LLaMA 2を ベースとしたPrismatic VLMをバックボーンとして使用 • RT-Xのデータセットを用いてfull fine-tuningし, RT-2やOctoより高い性能 • OpenVLA/Prismatic VLMがベースのモデルとして頻繁に用いられる 39 [M. J. Kim+, CoRL2024]
Slide 40
Slide 40 text
RDT-1B • 大規模なロボット用のDiffusion Transformer • Action HeadとしてDiffusion Policyを用いるのではなく, Transformer を直接使って, 画像とテキストを条件とした拡散過程を表現 • より密に画像と言語をアクションに結び付けられる 40 [S. Liu+, ICLR2025]
Slide 41
Slide 41 text
LAPA • アクションラベルなしの人間のデモンストレーション動画から Latent Actionを抽出, これをVLAの事前学習に利用する • 𝒙𝑡 と𝒙𝑡+𝐻 の特徴量差分を計算しVQ-VAEで𝒛𝑡 にトークン化, 𝒙𝑡 と𝒛𝑡 から 𝒙𝑡+𝐻 を復元するような学習を行い, 𝒛𝑡 を形作る • VLAのreadout tokenからMLPを通して𝑧𝑡 を出力できるように学習 • 事後学習ではMLPだけ挿げ替えてロボットのアクション出力を学習 • 人間の大量のデモンストレーション動画をデータとして利用可能に 41 [S. Ye+, ICLR2025]
Slide 42
Slide 42 text
𝜋0 • 拡散過程の代わりにFlow Matchingを利用し50Hzの動作生成が可能に • ベースモデルはGemmaとSigLIPを使ったPaliGemma • ProprioceptionとTransformerのreadout tokenを条件として ベクトル場を出力, 理想的なアクションへと復元 42 [Physical Intelligence, 2024]
Slide 43
Slide 43 text
𝜋0 43 [Physical Intelligence (π), 2024] https://www.physicalintelligence.company/blog/pi0
Slide 44
Slide 44 text
𝜋0.5 • 事前学習ではsubtask promptや離散アクショントークンを学習 • 事後学習ではsubtask promptを入力しFlow Matchingで学習 • 離散アクションの方が言語と統一的に扱いやすいが, 最終的には滑 らかな連続的なアクションを出力したいという2つの階層を統合 44 [Physical Intelligence, 2025] post-training & inference
Slide 45
Slide 45 text
GR00T N1 • これまで見た階層構造・Flow Matching・Diffusion Transformer・ LAPAによるデータ活用のすべてを取り入れたモデル • VLMから出力されたトークンを条件としたCross AttentionをDiffusion Transformerに適用, Flow Matchingにより連続的アクションを出力 45 [NVIDIA, 2025]
Slide 46
Slide 46 text
今日のチュートリアルの流れ Vision-Language-Actionモデルの • 歴史 • アーキテクチャ • ロボット • データ収集 • データセット • データ拡張 • ベンチマーク 46
Slide 47
Slide 47 text
VLAアーキテクチャの分類 • 主な形は3つあります • ほとんどのVLAはSensorimotor型ですが, 他の形も使われます. 47 Sensorimotor Model World Model Affordance Model
Slide 48
Slide 48 text
Sensorimotor Model型VLAの分類 代表的な例 (1) RT-1, Gato (2) Octo, NoMAD (3) RDT-1B, LBMs (4) RT-2, GR-1 (5) 𝜋0 , GO-1 (6) GR00T N1 48
Slide 49
Slide 49 text
World Model型VLAの分類 49
Slide 50
Slide 50 text
World Model型VLAの分類 50
Slide 51
Slide 51 text
UniPi • Video Diffusion Modelベースの, 現在画像とテキストから将来画 像列を出す世界モデル構築 • 生成された画像列を満たすアク ションを生成するInverse Dynamics Model (IDM)を構築 • これにより画像と言語指示から アクションが生成できる • このWorld Model + IDMの組み合 わせは非常に多くみられる • 他にはHiP, Dreamitate, LUMOS 51 [Y. Du+, NeurIPS2023]
Slide 52
Slide 52 text
World Model型VLAの分類 52
Slide 53
Slide 53 text
LAPA • 𝒙𝑡 と𝒙𝑡+𝐻 の特徴量差分を計算しVQ-VAEで𝒛𝑡 にトークン化 (Inverse Dynamics Model, IDM), 𝒙𝑡 と𝒛𝑡 から𝒙𝑡+𝐻 を復元(World Model)する学習を行い, 𝒛𝑡 を形作る • VLAのreadout tokenからMLPを通して𝑧𝑡 を出力できるように学習 • 事後学習ではMLPだけ挿げ替えてロボットのアクション出力を学習 53 [S. Ye+, ICLR2025]
Slide 54
Slide 54 text
World Model型VLAの分類 54
Slide 55
Slide 55 text
GR-1 • Ego4Dデータセットを使って, 将来の画像列を予測できるように VLMを事前学習する (世界モデルの構築) • その後, 画像と言語, proprioceptionからアクションと将来画像を 予測できるように 事後学習を行う • 通常のVLAに世界モデル の考え方を組み込むこと で, 性能の向上が可能 • 他にはGR-MG, 3D-VLA 55 [ByteDance, ICLR2024]
Slide 56
Slide 56 text
Affordance Model型VLAの分類 56
Slide 57
Slide 57 text
Affordance Model型VLAの分類 57
Slide 58
Slide 58 text
VoxPoser • 既存のVLMとLLMにより, どこに手を伸ばすべきか(Affordance Map), どこに気を付けるべきか (Constraint Map)を構築し, この情報をも とにモデル予測制御を実行してマニピュレーション • 既存のVLM/LLMに含まれる常識/アフォーダンスを利用できる 58 [W. Huang+, CoRL2023]
Slide 59
Slide 59 text
Affordance Model型VLAの分類 59
Slide 60
Slide 60 text
VRB • 人間のデモンストレーション動画から, 環境や物体への接触点と 接触後の手の軌道を学習し, これをロボットの行動生成に利用 • EPIC-KITCHENSデータセットからHand-Object Detectorを使い検知 • アフォーダンスの形であれば人間からロボットへ容易に知識転移可能 60 [S. Bahl+, CVPR2023]
Slide 61
Slide 61 text
Affordance Model型VLAの分類 61
Slide 62
Slide 62 text
Chain-of-Affordance • VLAにおいて, 対象物の位置や掴む部位, 置く位置などのアフォーダ ンスを自己回帰的に予測していき, その後にアクションを生成する ことで性能が向上 • 世界モデルでは将来 画像を予測すること で性能が向上した ように, アフォーダ ンスの予測も 性能向上に寄与する 62 [J. Li+, ICCV2025]
Slide 63
Slide 63 text
今日のチュートリアルの流れ Vision-Language-Actionモデルの • 歴史 • アーキテクチャ • ロボット • データ収集 • データセット • データ拡張 • ベンチマーク 63
Slide 64
Slide 64 text
どんなロボットが使われている? 主なロボットは? • マニピュレータ • ハンド/グリッパ • 台車型ロボット • 四脚ロボット • ヒューマノイドロボット 64
Slide 65
Slide 65 text
マニピュレータ 65 Franka Emika Panda WidowX-250 KUKA LBR iiwa 14 SO-101 特徴的なVLA – Shake-VLA / RoboNurse-VLA
Slide 66
Slide 66 text
ハンド・グリッパ 66 Robotiq 2F-85 Shadow Hand Inspire Robots RH65 LEAP Hand 特徴的なVLA – GraspVLA / DexGraspVLA
Slide 67
Slide 67 text
モバイルロボット 67 Google Robot Hello Stretch AgiBot G1 DJI Tello 特徴的なVLA – MobilityVLA / UAV-VLA
Slide 68
Slide 68 text
四脚ロボット 68 Boston Dynamics Spot Unitree Go2 ANYMAL 特徴的なVLA – NaVILA / CrossFormer
Slide 69
Slide 69 text
ヒューマノイドロボット 69 Unitree G1 Unitree H1 Booster T1 Fourier GR-1 特徴的なVLA – Humanoid-VLA / LeVERB
Slide 70
Slide 70 text
今日のチュートリアルの流れ Vision-Language-Actionモデルの • 歴史 • アーキテクチャ • ロボット • データ収集 • データセット • データ拡張 • ベンチマーク 70
Slide 71
Slide 71 text
データ収集方法 データ収集には3種類の方法がある • ロボットのテレオペレーション デバイスによりロボットを人間が操作する • 代理デバイスによるデモンストレーション収集 ロボットの一部や専用デバイスで収集(ロボットは必要ない) • 人間の動作データ収集 カメラで人間の動作を収集する 71
Slide 72
Slide 72 text
ALOHA • 言わずと知れたデータ収集プラットフォームのスタンダード • リーダ (2×WidowX-250)とフォロワ(2×ViperX-300)による4腕構成 • ユニラテラル制御により人間のデモンストレーションを収集 • ALOHAと同時にAction Chunking Transformer (ACT)が提案された 72 [T. Z. Zhao, RSS2023]
Slide 73
Slide 73 text
Mobile ALOHA 73 [Z. Fu+, CoRL2024] • ALOHAと台車型ロボットが合体し, マニピュレーションだけでなく, ナビゲーションのデータ収集・学習ができるように • ALOHAのデータとco-trainingすることで性能アップ
Slide 74
Slide 74 text
Open-Television 74 [X. Cheng+, CoRL2024] • Apple Vision Proを使った手首・指・頭の姿勢推定をヒューマノイド に反映しテレオペレーション • Active Visionの有効性検証
Slide 75
Slide 75 text
UMI • カメラがついたハンド型デバイスでデータ収集 • Visual SLAMから手の軌道を取得, これをもとにポリシーを学習 • ロボットが同じデバイスを持ち, そのポリシーをもとにタスク実行 75 [C. Chi+, RSS2024]
Slide 76
Slide 76 text
Project Aria 76 [Meta, arXiv, 2023] • コンパクトなスマートグラスにより, 人間の一人称視点からの行動 を記録, これをVLAの事前学習に利用する • Ego-Exo4D, HOT3D, HD EPIC, Aria Everyday Activitiesなど, 多様なデータセットが公開されている
Slide 77
Slide 77 text
今日のチュートリアルの流れ Vision-Language-Actionモデルの • 歴史 • アーキテクチャ • ロボット • データ収集 • データセット • データ拡張 • ベンチマーク 77
Slide 78
Slide 78 text
データセット データセットには主に3種類のカテゴリがある • Human Egocentric Data • Simulation Data • Real Robot Data 78 ここだけ話します
Slide 79
Slide 79 text
QT-Opt • 実ロボットによる580,000の物体把持試行データセット • RGB画像入力に基づくスケーラブルなオフポリシー深層強化学習 • 4か月にわたり7台のKUKA LBR iiwaアームを800時間稼働させた 79 [J. Li+, CoRL2018]
Slide 80
Slide 80 text
BridgeData V2 80 [H. Walke+, CoRL2023] • 実世界の大規模・多様なタスクのデータセット • WidowX-250/24種類の環境/13のスキルの60,000軌道データ • クラウドソーシングで全軌道に自然言語アノテーション
Slide 81
Slide 81 text
RT-X • 21の研究機関, 34の研究室, 173人の著者による超大規模データセット • 22種類のロボットにより527のスキルを含む60のデータセット, 1.4M 軌道のデータをRLDSフォーマットにより公開(QT-OPTやBridgeも含む) • 多様な身体性の学習により単一の身体学習よりVLAの精度が向上 81 [Open X-Embodiment, ICRA2024]
Slide 82
Slide 82 text
DROID 82 • 13機関・18台の共通プラットフォームにより564環境・86タスク・ 350時間の76,000軌道データを収集し公開 • Franka Emika Panda + Robotiq 2F-85 Gripper + 2×ZED2 + ZED Mini • Oculus Quest 2による6DOFマニピュレーション [A. Khazatsky+, RSS2024]
Slide 83
Slide 83 text
今日のチュートリアルの流れ Vision-Language-Actionモデルの • 歴史 • アーキテクチャ • ロボット • データ収集 • データセット • データ拡張 • ベンチマーク 83
Slide 84
Slide 84 text
データ拡張 • ロボットにおけるデータ拡張は かなり難しい • 通常の画像処理であれば, 画像の 拡大縮小・クロップ・平行移動な どが可能だが, ロボットには身体性 があり, 身体とカメラの位置関係に は意味がある • 拡散モデルを用いたテクスチャな どの変化が行われる 84 Imgaug, A. Jung+
Slide 85
Slide 85 text
GenAug 85 • 画像を拡散モデルで大量に拡張して学習に利用 • 背景の変化, distractorの追加, 現在物体のテクスチャ変化, 別物体の配置によりロバスト性を大きく向上 [Z. Chen+, RSS2023]
Slide 86
Slide 86 text
ROSIE • LLM, OWL-ViTによる物体認識, Imagen Editorによる画像編集を 駆使して, 自動的にマスクする箇所を決め, テクスチャ・背景・ 妨害物体に関する適切なデータ拡張を行う 86 [T. Yu+, RSS2023]
Slide 87
Slide 87 text
ROSIE 87 [T. Yu+, RSS2023]
Slide 88
Slide 88 text
DIAL 88 • 少量のアノテーションから軌道と言語の間のCLIPをFine-Tuning • CLIPを用いて, LLMで増やした大量の言語指示例のうち, 類似度の 高い言語指示top-Kを得て, データを増やしてVLAの学習に利用 [T. Xiao+, RSS2023]
Slide 89
Slide 89 text
データ拡張ってどうなの? • 最近は研究自体かなり少ない • 拡張するよりも現実世界のデータの方が綺麗 • 非常にリッチな実世界のデータセットが公開されるようになった • CLIP, SigLIP, DINOv2のような優秀な特徴量抽出モジュールが増えた 89
Slide 90
Slide 90 text
今日のチュートリアルの流れ Vision-Language-Actionモデルの • 歴史 • アーキテクチャ • ロボット • データ収集 • データセット • データ拡張 • ベンチマーク 90
Slide 91
Slide 91 text
VLAのベンチマーク • VLAの評価指標は与えられたタスクの成功率の場合がほとんど • これを各機関のロボット実機で評価・比較することはほぼ不可能 • ほとんどのベンチマークはシミュレーション上で構築されています 91 AI2-THOR RLBench COLOSSEUM CALVIN SIMPLER RoboArena ManiSkill ManiSkill 2 ManiSkill 3 ManiSkill-HAB robosuite robomimic RoboCasa LIBERO Habitat Habitat 2.0 Habitat 3.0 Meta-World
Slide 92
Slide 92 text
CALVIN 92 [O. Mees+, RA-L, 2022] • 自然言語に従った長期的なロボット操作タスクの公開ベンチマーク • 7自由度ロボットアーム(Franka Emika Panda)による34の基本タスク • 見た目や配置の異なるA/B/C/D 4つの環境をPyBulletで構築 • 固定と手首のRGB-D画像, 触覚画像が得られる
Slide 93
Slide 93 text
LIBERO • CALVINと同様に頻繁に用いられる言語操作タスクのベンチマーク • MuJoCoを使ったRobosuiteがベース + Franka Emika Panda • 130のタスクを含む4つのカテゴリを備え, それぞれ問う知識が異なる • LIBERO-SPATIAL: 空間知識 • 同一物体の異なる配置 • LIBERO-OBJECT: 物体知識 • 異なる物体を扱う • LIBERO-GOAL: 動作知識 • 同じ状況/ゴールのみ異なる • LIBERO-100: 複合タスク 93 [B. Liu+, NeurIPS2023]
Slide 94
Slide 94 text
SIMPLER • 実世界のデータで学習されたポリシーを, 再現性のある形で評価 するためのシミュレーションベースのベンチマーク • 実世界でのタスク成功率とシミュレーションでの成功率が相関 • 制御ギャップの最適化と視覚ギャップの最適化 • SAPIEN/Isaac Sim がベース • Google Robotと WidowX-250で 合計12タスク 94 [X. Li+, CoRL2024]
Slide 95
Slide 95 text
RoboArena • VLAの現実世界での性能評価を, 大規模かつ公平・信頼性を持って 行うための分散評価フレームワーク • 各拠点(7大学)でDROIDプラットフォームを用意, 任意のタスク・ 環境でA/Bテストを実施し, グローバルなランキングを生成 95 [P. Atreya+, arXiv, 2025]
Slide 96
Slide 96 text
まとめ • なぜロボット基盤モデル(VLA)なのか? • VLAの歴史 •VLAのアーキテクチャ • VLAで扱うロボット • VLAのためのデータ収集 • VLAにおけるデータセット • VLAのデータ拡張 •VLAの評価 96
Slide 97
Slide 97 text
RTシリーズについて •Data-centric AI本で! • 第5章 ロボットデータ • はじめに • RTシリーズの概要 • 多様なロボット • ロボットにおけるデータ収集 • データセット • データ拡張 • おわりに 97
Slide 98
Slide 98 text
基盤モデル全般について • ロボットと基盤モデルがどう融合する のか, その全体像を理解いただけます • 8/29発売予定!予約してね! 98
Slide 99
Slide 99 text
99 Thank You!