Upgrade to Pro — share decks privately, control downloads, hide ads and more …

RSJ2025「基盤モデルの実ロボット応用」チュートリアル2025-1(河原塚)

Avatar for Kento Kawaharazuka Kento Kawaharazuka
September 02, 2025
450

 RSJ2025「基盤モデルの実ロボット応用」チュートリアル2025-1(河原塚)

Avatar for Kento Kawaharazuka

Kento Kawaharazuka

September 02, 2025
Tweet

Transcript

  1. 基盤モデルの実ロボット応用OS 3 RSJ2023 • 3セッション / 21件の発表 RSJ2024 • 4セッション

    / 27件の発表 RSJ2025 • 6セッション / 29件の発表 / 1件の招待講演 基盤モデルの利用はロボティクスにとってより一般的に (そろそろこのOSを続けるかも考え時?)
  2. VLA Survey Paperを書きました! Vision-Language-Action Models for Robotics: A Review Towards

    Real-World Applications 8 Kento Kawaharazuka (UTokyo) Jihoon Oh (UTokyo) Jun Yamada (Oxford) Ingmar Posner (Oxford) Yuke Zhu (UT Austin) https://vla-survey.github.io/
  3. UniPi • Video Diffusion Modelベースの, 現在画像とテキストから将来画 像列を出す世界モデル構築 • 生成された画像列を満たすアク ションを生成するInverse

    Dynamics Model (IDM)を構築 • これにより画像と言語指示から アクションが生成できる • このWorld Model + IDMの組み合 わせは非常に多くみられる • 他にはHiP, Dreamitate, LUMOS 15 [Y. Du+, NeurIPS2023]
  4. 動画生成技術の発展 – NVIDIA COSMOS 16 COSMOS-Transfer COSMOS-Reason COSMOS-Predict Data curation

    vide & text  text Data generation text, image, video  video Data augmentation RGB, Depth, etc.  Video
  5. ハードウェアの発展 • SO-101 • オープンハードウェアの台頭 • 誰もが作れる共通プラットフォーム • Leader/Followerで4万円程度 •

    ベンチマークとしての利用 • LeRobot • SO-101を利用してデータ収集・ 学習・推論までを簡単に実行可能 • Action Chunking Transformer (ACT) • Diffusion Policy • SmolVLAなど 17
  6. ハードウェアの発展 – Project Aria 20 [Meta, arXiv, 2023] • コンパクトなスマートグラスにより,

    人間の一人称視点からの行動 を記録, これをVLAの事前学習に利用する • Ego-Exo4D, HOT3D, HD EPIC, Aria Everyday Activitiesなど, 多様なデータセットが公開されている
  7. LAPA • アクションラベルなしの人間のデモンストレーション動画から Latent Actionを抽出, これをVLAの事前学習に利用する • 𝒙𝑡 と𝒙𝑡+𝐻 の特徴量差分を計算しVQ-VAEで𝒛𝑡

    にトークン化, 𝒙𝑡 と𝒛𝑡 から 𝒙𝑡+𝐻 を復元するような学習を行い, 𝒛𝑡 を形作る • VLAのreadout tokenからMLPを通して𝑧𝑡 を出力できるように学習 • 事後学習ではMLPだけ挿げ替えてロボットのアクション出力を学習 • 人間の大量のデモンストレーション動画をデータとして利用可能に 21 [S. Ye+, ICLR2025]
  8. まとめと結論 • チュートリアル2025 (1) • 基盤モデルの周辺技術の進化 • シミュレーション・動画生成・ハードウェア • シミュレーション

    • さらに精巧で高速なシミュレーション環境. VLAの評価. • 動画生成 • 動画生成に関する基盤モデルを活用したVLAの構築 • ハードウェア • オープンハードウェアとロボット操作デバイス, スマートグラス 22
  9. RTシリーズについて •Data-centric AI本で! • 第5章 ロボットデータ • はじめに • RTシリーズの概要

    • 多様なロボット • ロボットにおけるデータ収集 • データセット • データ拡張 • おわりに 23