Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CoRL 2025 Survey

Avatar for Haruki Abe Haruki Abe
October 15, 2025

CoRL 2025 Survey

CoRL 2025の最新動向や注目ポイントを整理し、特に興味深い研究成果をまとめたサーベイ資料です。

Avatar for Haruki Abe

Haruki Abe

October 15, 2025
Tweet

Other Decks in Technology

Transcript

  1. Table of Contents 2
 1. Overview — p. 3 2.

    CoRL 2025 Overview — p. 4-8 What is CoRL / Participation scale & acceptance / Industry exhibitions 3. Awards Summary — p. 9-10 Best Paper / Best Student Paper 4. Research Trends — p. 11-13 VLA / Real2Sim2Real / Tactile sensing & Manipulation 5. Conclusion & Acknowledgements — p. 14-15 6. Paper Survey (Highlights) — p. 16-107 VLA / Real2Sim2Real / Dexterous Manipulation / Locomotion / Evaluation, Reward, and Reasoning
  2. Overview 3
 • Purpose & Motivation ◦ Share key insights

    and research trends from CoRL 2025. ◦ Provide an overview of selected papers — highlighting and summarizing notable works in robot learning. • Author ◦ Haruki Abe – M2, Harada-Kurose-Mukuta Lab. ◦ Research Focus: Reinforcement Learning • Notes ◦ Unless otherwise noted, figures and images were used based on materials from the papers, posters, or publicly available videos discussed in this slide deck.
  3. What is CoRL? 
 4
 • CoRL (Conference on Robot

    Learning) is one of the top-tier international conferences in the field of robot learning. • The 9th edition was held in Seoul, South Korea. • Like many other machine learning conferences, CoRL also includes a rebuttal phase.
  4. Biggest CoRL Ever 5
 • 102% increase in in-person attendance

    compared to 2024. ◦ 2,441 total in-person participants. • Japan ranked 4th in number of attendees, with about 100 participants. JP
 CoRL2025 (https://www.youtube.com/watch?v=Use5M-nfFlI)
  5. Papers & Acceptance 6
 • The acceptance rate is around

    35–40%. • Papers must focus on both robotics and machine learning. • Real-world robot experiments are strongly encouraged. CoRL2025 (https://www.youtube.com/watch?v=Use5M-nfFlI)
  6. Industry Exhibitions & Demos (1/2) 7
 • 145 exhibitors showcased

    their work at CoRL. • Companies often announce new models for CoRL. ◦ Last year: Physical Intelligence — π0 ◦ This year: Google DeepMind — Gemini Robotics 1.5 This Gemini Robotics 1.5 is controlled by the operator through natural language instructions. Gemini Robotics π0: A Vision-Language-Action Flow Model for General Robot Control (Kevin et al. 2025) Gemini Robotics 1.5 (https://deepmind.google/models/gemini-robotics/gemini-robotics/)
  7. Industry Exhibitions & Demos (2/2) 
 8
 Significant advances in

    robot locomotion were presented. Sideflip Kick Unitree R1 Unitree R1 & Unitree G1
  8. Best Paper Awards 
 9
 Learning a Unified Policy for

    Position and Force Control in Legged Loco-Manipulation [Zhi et al.]スライド 19: 論文まとめ(1/36) Fabrica: Dual-Arm Assembly of General Multi-Part Objects via Integrated Planning and Learning [Tian et al.] スライド 42: 論文まとめ(10/36) • Learning a single integrated policy for both force and position control — without using force sensors. • Developed Fabrica, a dual-arm robotic system that enables autonomous assembly of general objects composed of multiple parts.
  9. Best Student Paper Award 
 10
 Visual Imitation Enables Contextual

    Humanoid Control [Allshire et al.] スライド 22: 論文まとめ(2/36) • Learning a single control policy that enables a humanoid robot to perceive environmental context and execute appropriate whole-body skills from human demonstration videos.
  10. Highlighted Research Trends (1/3) 
 11
 VLA (Vision-Language-Action) models •

    Robot foundation model — learning diverse skills with a single policy. • example: π0.5 [Black et al.], GraspVLA [Deng et al.], DexVLA [Wen et al.], ControlVLA [Li et al.], Long-VLA [Fan et al.], TrackVLA [Wang et al.], 3DS-VLA [Li et al.], Endo-VLA [Ng et al.], RICL [Sridhar et al.], RoboMonkey [Kwok et al.], RoboArena [Atreya et al.] etc. pi0.5 RoboArena GraspVLA
  11. Highlighted Research Trends (2/3) 12
 Real2Sim2Real pipelines • Building simulation

    environments from video and other data, training models in these environments, and then deploying them back to the real world. • example: X-Sim [Dan et al.], Real2Render2Real [Yu et al.], VIDEOMIMIC [Allshire et al.], ImMimic [Liu et al.] etc. X-Sim Real2Render2Real
  12. Highlighted Research Trends (3/3) 13
 Tactile sensing and manipulation techniques

    • Many studies focus on tactile, highlighting what current vision-language models cannot achieve. • example: DexUMI [Xu et al.], KineDex [Zhang et al.], Tactile Beyond Pixels [Higuera et al.] etc. Tactile Beyond Pixels DexUMI KineDex
  13. Key Takeaways from CoRL 2025 14
 📈 Rapid community growth

    & growing influence — CoRL is expanding quickly in both size and impact. 🧪 Strong research standards — robotics + machine learning required, real-world experiments emphasized. 🏭 Industry involvement — 145 exhibitors, frequent release of new foundation models. 🔥 Emerging trends • Vision-Language-Action (VLA) models • Real2Sim2Real pipelines • Tactile sensing & manipulation
  14. Acknowlegement 15
 • This work was partially supported by JST

    Moonshot R&D (Grant No. JPMJPS2011), JST CREST (Grant No. JPMJCR2015), and the Basic Research Grant (“Super AI”) of the Institute for AI and Beyond, The University of Tokyo. • I am especially grateful to Specially Appointed Assistant Professor Yasuhiro Kato and Project Researcher Yusuke Mori for their advice on slide. • I also thank Prof. Tatsuya Harada and all members of our laboratory.
  15. Survey of CoRL paper  17
 • This is a summary

    of some of the research that attracted attention at CoRL. • This deck provides a broad summary — if a paper interests you, I encourage you to read the original work yourself for details. • (Currently, the slides are written in Japanese🙇)
  16. Purpose & Selection Criteria 
 18
 1. Purpose: Quick digest

    to grasp CoRL 2025 trends. 2. Selection① (Impact): Prioritize high-impact papers within the program. 3. Selection② (Trends): Cover representative themes (VLA, Real2Sim2Real, Data/Eval). 4. Selection③ (Lab Relevance): Consider relevance to parts of our lab’s research; examples include RL, VLA, and real-robot experiments.
  17. 19
 Learning Unified Force and Position Control for Legged Loco-Manipulation

    著者名: Peiyuan Zhi, Peiyang Li, Jianqin Yin, Baoxiong Jia, Siyuan Huang キーワード:Loco-Manipulation, Unified Force and Position Control, Force-aware Imitation Learning, RL 力覚センサーを使わずに、力と位置の制御を単一のポリシーで統合的に 学習する • 強化学習で、位置や速度、力の指令に従うポリシーを訓練 • 同時に、外力の推定器を訓練 • 強化学習により訓練したポリシーと推定器を使って、テレオペし収集したデータ で模倣学習もできる 論文まとめ(1/36) 

  18. 論文まとめ(1/36) 
 20
 研究の手法 1. 強化学習による「力と位置の統合制御ポリシー(低レベルポリシー)」の学習 • 力と位置の関係をインピーダンス制御則に基づいてモデル化する • この式に従うような報酬で、シミュレーション上で強化学習をする

    ◦ 結果として、位置や速度、力の指令値に従った動きを獲得できる • 同時に、外力推定器(エンコーダからの特徴量を受け取り、外部からの力 (Fext + Freactを推定))を学習
  19. 論文まとめ(2/36) 
 22
 Visual Imitation Enables Contextual Humanoid Control 著者名:

    Arthur Allshire, Hongsuk Choi, Junyi Zhang, David McAllister, Anthony Zhang, Chung Min Kim, Trevor Darrell, Pieter Abbeel, Jitendra Malik, Angjoo Kanazawa キーワード:Real2Sim2Real, RL, 4D reconstruction 単眼ビデオ映像から、ヒューマノイドロボットが周囲の環境コンテクストを認識し、 それに応じた適切な全身スキルを実行できる単一の制御ポリシーを学習
  20. 論文まとめ(2/36) 
 23
 1. Real-to-Sim:ビデオ映像からシミュレーション用データを生成 a. 単眼RGBビデオから、人間の動作軌道と環境の3Dメッシュを生成 i. 人物の検出と姿勢推定(VIMO, ViTPose,

    BSTRO) ii. シーンの再構成: 同時に、ビデオからシーンの3次元点群データを 再構成(MegaSaMまたはMonST3R) iii. 動作のリターゲティング: 人間の動作を、ロボットの身体構造(関節 の可動域や手足の長さなど)に合わせて変換
  21. 論文まとめ(2/36) 
 24
 2. Sim-to-Real:シミュレーションでのポリシー学習と実機展開 1. ステージ1: モーションキャプチャデータによる事前学習( MPT) まず、比較的ノイズが少なく高品質なモーションキャプチャデータを用いて、

    基本的な動作スキルをポリシーに学 習。このときは、まだ目的の運動を学習しない。 2. ステージ2: シーンを考慮した動作追跡 次に、事前学習で得たポリシーに環境情報を入力として追加し、 環境に応じた目的の関節ターゲットを追跡する ようにポリシーをファインチューニング 。 3. ステージ3: 蒸留(Distillation) 具体的には、DAggerを用いて、参照動作を観測しない新しいポリシーに蒸留 4. ステージ4: 強化学習によるファインチューニング 蒸留後のポリシーは、参照動作なしで動けるようになるが、最適な行動ではない場合があり、 強化学習で直接 ファインチューニング し、最後に実機で推論する
  22. 論文まとめ(3/36) 
 25
 X-SIM: Cross-Embodiment Learning via Real-to-Sim-to-Real 著者名: Prithwish

    Dan∗ Kushal Kedia∗ Angela Chao Edward W. Duan Maximus A. Pace Wei-Chiu Ma SanjibanChoudhuryキーワード :Real-to-Sim-to-Real, 人間の動作データから、ロボットの動作を獲得する • Real-to-Sim: 人間が作業する様子を収録したRGBDビデオから、フォトリアルな 3Dシミュレーション環境を再構築 • Simでの学習: シミュレーション内で、RLを用いて物体の動きを再現するロボット のポリシーを学習し、多様な条件下(視点、照明など)で大量の画像とアクション のペアか らなる合成データを生成 • Sim-to-Real: 学習したポリ シーで実世界で動かして、 Sim to real gapを減らす ようにオンラインで モデルを学習
  23. 論文まとめ(3/36) 
 26
 1. Real-to-Sim:人間のビデオからシミュレーション環境と報酬を構築 • フォトリアルな環境の再構築: 2D Gaussian Splattingを用いて、複数の視点か

    ら撮影した環境の画像から、リアルな3D環境メッシュを構築 • 物体の3Dメッシュと姿勢追跡: 操作対象となる物体の3Dメッシュを、スマート フォンアプリなどを使ってスキャン • FoundationPoseを用いて、人間のビデオ映像から各物体の6次元姿勢をフ レームごとに追跡 • 物体の軌跡データを「目標状態」として、ロボットがシミュレーション内で学習 するための報酬関数 を定義 ◦ 推定した物体の軌道を基に報酬関数を設計するため、ロボットを用い たデータ収集が不要 FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [Wen et al., 2024]
  24. 論文まとめ(3/36) 
 27
 2. Simでの学習:シミュレーション内でのロボットアクション生成 • シミュレーション内で強化学習( RL)を用いてロボットの操作データ生成用のポリシーを学習 • 得られたポリシーで多様な条件下での合成データを作成し、

    Diffusion policyを学習 3. Sim to Real: 実世界での実行 • 学習したDiffusionポリシーを実世界で実行し、失敗と成功を含む実世界の画像とアクションの軌跡を保存 • 記録したアクション軌跡をシミュレーション内で再生し、実世界と全く同じ状況の合成画像を生成。 「実世界の画 像」と「シミュレーションの画像」のペア ができる • InfoNCEを用いた対照学習をする。このキャリブレーションにより、ポリシーの画像エンコーダは、シミュレーショ ン特有の見た目に過剰適合することしなくなる。
  25. 論文まとめ(3/36) 
 28
 この研究の課題 • 剛体操作に限定 : 物体の状態を6次元の姿勢で追跡している ため、関節を持つ物体(引き出しなど)や変形する物体(布な ど)の操作は扱えない

    • 物理パラメータの推定: シミュレーション内の物体の質量や摩 擦といった物理パラメータはデフォルト値 を用いており、ビデオ から正確に推定していない
  26. 論文まとめ(4/36) 
 29
 Real2Render2Real: Scaling Robot Data Without Dynamics Simulation

    or Robot Hardware 著者名: Justin Yu, Max Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg キーワード:Real2Sim2Real, Imitation learning 実世界の人間の動きから動作を学ぶ。動作動画からSimulationでデータにして学 習、Sim2Realする
  27. 論文まとめ(4/36) 
 30
 手法 1. Real-to-Sim: スマホ動画から物体の3D形状(3DGS)と動きの軌道を抽出。 2. Data Augmentation:

    抽出した軌道を基に、物体の初期位置などをランダム化 し、微分逆運動学で多様なロボット動作を生成。 a. 把持対象物の特定: 軌道全体を通して最も手に近かった部品を「掴む対象」 b. 掴み方の生成: 物理的に妥当な掴み方を生成するため、解析的なantipodal graspサンプラーを用いて、平行グリッパーに適した掴み候補を複数サンプリ ング c. PyRoki ソルバーを用いて、微分逆運動学の問題を解く。これは、ロボットの エンドエフェクターが目標とする物体の動きを追従するために必要な、滑らか な関節空間の軌道を算出し生成する 3. 高速レンダリング: 物理シミュレーションは行わず、フォトリアルなレンダリングエン ジン(IsaacLab)で画像と行動のペアを大量並列生成
  28. 論文まとめ(5/36) 
 31
 Gen2Act: Human Video Generation in Novel Scenarios

    enables Generalizable Robot Manipulation 著者名: Homanga Bharadhwaj, Debidatta Dwibedi, Abhinav Gupta, Shubham Tulsiani, Carl Doersch, Ted Xiao, Dhruv Shah, Fei Xia, Dorsa Sadigh, Sean Kirmani キーワード:Imitation Learning, Manipulation, Video Generation Model 言語指示で与えられた新しいタスクに対し、ロボットがどのように行動すべきかと いう動きの情報を、人間の動画を生成し予測・活用
  29. 論文まとめ(5/36) 
 32
 1. 人間動画のゼロショット生成: a. タスクの言語指示と現在のシーン画像に基づき、事前学習 済みの動画生成モデルを用いて、人間がそのタスクを実行 する動画をゼロショットで生成。 2.

    生成動画に基づくロボット制御: a. 生成された人間動画(Vg)と、ロボットの観測履歴 (I_t-k:k)の各フレームから、ViTエンコーダを用いて視覚特 徴を抽出 b. 動画からポイントトラックも抽出 c. 学習時には、Behavior cloningに加えて、生成動画からポ イントトラックを予測する補助タスク を学習。
  30. 論文まとめ(6/36) 
 33
 ImMimic: Cross-Domain Imitation from Human Videos via

    Mapping and Interpolation 著者名:Yangcen Liu, Woo Chul Shin, Yunhai Han, Zhenyang Chen, Harish Ravichandar, Danfei Xu キーワード: Learning from Human, Imitation learning, Dexterous Manipulation 大規模な人間のビデオと少量の遠隔操作によるロボットのデモンストレーション データを組み合わせ、ドメインギャップを効果的に埋めることで、多様なロボットが 頑健なマニピュレーションスキルを獲得できるような、 embodiment-agnostic共 同学習フレームワーク「 ImMimic」を提案
  31. 論文まとめ(6/36) 
 34
 人間(100デモ)とロボット(5デモ)が同じタスクをしているデータを用意する。 1. 人間の手の動きのリターゲティング (Hand Pose Retargeting) a.

    姿勢推定: MediaPipeやFrankMocapといったツールを用いて、ビデオの各フレームか ら人間の手の3次元関節位置を推定。 b. ロボットへのマッピング: 推定された人間の手のキーポイントを、ロボットのフォワードキ ネマティクス(順運動学)を用いて ロボットの関節角度に変換 2. マッピング (Mapping) a. 次に、リターゲティングされた人間の行動データと、実際にロボットを遠隔操作して収集 したロボットの行動データをDynamic Time Warping(DTW)で対応付ける。DTWを用 いることで、同じタスクを行っていても速度が異なる人間とロボットの時系列データを 時間的に整合させ、対応する時点のペアを見つけ出すことができる。 b. 行動ベースのマッピング: 人間のリターゲティングされた軌道とロボットの軌道の類似 度(位置、姿勢、向きの差など)を計算し、行動が最も近いデータ同士を対応付ける。
  32. 論文まとめ(7/36) 
 36
 UniSkill: Imitating Human Videos via Cross-Embodiment Skill

    Representations 著者名: Hanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee キーワード:Cross-Embodiment, Imitation Learning, Skill Representation Learning 何をしたか 人間の動作動画データからロボットに同じタスクをできるようにする • 人間の動作データから、何をしているかに 関しての情報(スキル)を獲得できる モデルを作る • スキルに条件付けられた汎用的な Policyを学習 • 人間の動画データからスキルの抽出 ー>スキル条件付ポリシーでの推論
  33. 論文まとめ(7/36) 
 37
 研究のアプローチ 1. 普遍的スキル表現の学習 a. Inverse Skill Dynamics

    Model (ISD):ビデオ内の2つのフレーム(I_tとI_t+k)を入力とし、その間の 動的な変化を捉えるスキル表現 ztを出力。単眼深度推定器を用いて深度情報を内部的に利用 b. Forward Skill Dynamics: 現在のフレームItとISDが抽出したスキル表現 z_tを入力とし、未来のフ レームI_t+kを予測。 InstructPix2Pixを利用 c. この2つを同時に訓練することで ISDは2つのフレームの間のスキルを学習できる 2. 普遍的スキル条件付きポリシーの学習 a. ロボットのデモンストレーションデータセットから 2つの観測o_tとo_t+kをサンプリングし、 凍結されたISDモデルを用いてスキル表現 ztを抽出。 b. 抽出したスキル表現 z_tと現在の観測o_tを条件として、ロボットの行動を予測する スキル条件付きポ リシー( π(a_t:t+h | o_t, z_t))を学習 3. 普遍的スキル表現を用いたクロスエンボディメント 模倣による推論 a. 人間のデモンストレーションビデオを入力とし、 凍結されたISDを用いて一連のスキル表現 {z_i}を抽出 b. スキル条件付きポリシーは、抽出された スキル表現z_iを順番に条件として受け取り、 対応するロボットの行動を予測・実行
  34. 論文まとめ(8/36) 
 38
 Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation

    on Humanoids 著者名: Toru Lin,, Kartik Sachdev, Linxi “Jim” Fan, Jitendra Malik, Yuke Zhu キーワード:Dexterous Manipulation, Sim-to-Real 視覚ベースで、接触が多く、両手操作を含むタスクに対して、いかにして Sim-to-Real RLを効果的に拡張する かという未解決の問いに取り組む
  35. 論文まとめ(8/36) 
 39
 1. Real-to-Sim モデリング a. 自動チューニングされたロボットモデリング: 4分未満の実世界データを用いて、シミュレーターの物理パラメータ(摩擦、 減衰など)とURDF定数を自動的に最適化し、実機のロボットの振る舞いに一致させる。

    b. 近似オブジェクトモデリング: オブジェクトのモデリングには、物理パラメータをランダム化した単純な幾何学的プリミティ ブ(円柱など)を使用し、トレーニング効率と実世界への転送可能性のバランスを取る。 2. 汎用化可能な報酬設計 a. 操作の分解: 操作タスクを、Contact GoalsとObject Goals の2つの主要な構成要素に分解して報酬を設計 。 b. コンタクトマーカーの導入: 接触目標を指定しやすくするために、シミュレーションオブジェクトの表面にコンタクトマーカー を導入。 3. サンプル効率の高いポリシー学習 a. タスクアウェアなハンドポーズ初期化: 人間のテレオペレーションからタスク関連のハンド・オブジェクト構成をシミュレー ションで収集し、エピソードの初期条件としてランダムにサンプリングすることで、早期の探索を加速 b. 分割統治型ポリシー蒸留: マルチオブジェクトタスクを複数のシングルオブジェクトタスクに分解 し、訓練された専門家 ポリシーの質の高いロールアウトを一般化ポリシーに蒸留。 4. 視覚ベースのSim-to-Real転送 a. ハイブリッドなオブジェクト表現: コンパクトな低次元特徴(第三者視点からの3Dオブジェクト位置)と、表現力の高い高 次元特徴(一人称視点カメラからのセグメント化された奥行き画像)を組み合わせて使用。 b. 広範なドメインランダム化: トレーニング中にオブジェクトパラメータ、カメラパラメータ、ロボットの物理特性、観測ノイズ、 行動ノイズなど、広範なドメインランダム化 を適用し、ロバスト性を向上
  36. 論文まとめ(9/36) 
 40
 ClutterDexGrasp: A Sim-to-Real System for General Dexterous

    Grasping in Cluttered Scenes 著者名: Zeyuan Chen, Qiyang Yan, Yuanpei Chen, Tianhao Wu, Jiyao Zhang, Zihan Ding, Jinzhou Li, Yaodong Yang, Hao Dong キーワード:Dexterous Grasping, Sim-to-Real シミュレーション環境で訓練され、実世界のデモンストレーションを一切使用せずに実世界へ Zero-Shotで転 移可能な、散らかったシーンにおけるターゲット指向の器用把持ポリシーを開発
  37. 論文まとめ(9/36) 
 41
 1. 教師ポリシーの学習: privilege information(物体の正確な位置や形状など)を利用できる シミュレーション環境で、PPOを用いて「教師ポリシー」 を訓練。 2.

    生徒ポリシーへの蒸留: 教師ポリシーが生成した成功軌跡のデータセットを用いて、模倣 学習により「生徒ポリシー」を訓練 。この生徒ポリシーは、単一カメラからの部分的なポイン トクラウド情報のみで動作するように設計されており、実世界への応用が可能。 手法の特徴や新規性: ◦ カリキュラム学習の導入 ▪ Clutter-Density Curriculum: まず単一物体の把持を学習させ、その後、物体の 密度が高い散らかったシーンでファインチューニングすることで、複雑な戦略(障 害物を移動してから掴むなど)を学習。 ▪ Interaction Safety Curriculum: 過度な力を加えるといった危険な振る舞いを罰 則によって抑制し、安全で人間らしい緩やかなインタラクションを学習。 • Geometry and Spatial Representation: ハンドの各指のリンクからターゲット物体および障 害物までの距離ベクトルを計算し、観測情報として利用。これにより、衝突を回避しつつ、効 率的に複雑な幾何学的特徴を学習できる。
  38. 論文まとめ(10/36) 
 42
 Fabrica: Dual-Arm Assembly of General Multi-Part Objects

    via Integrated Planning and Learning 著者名: Tian Yunsheng, Jacob Joshua, Huang Yijiang, Zhao Jialiang, Gu Edward, Ma Pingchuan, Zhang Annan, Javid Farhad, Romero Branden, Chitta Sachin, Sueda Shinjiro, Li Hui, Matusik Wojciech キーワード:Imitation Learning, Manipulation, Demonstration Acceleration 複数部品からなる一般物体の自律的な組立を可能にする、双腕ロボットシステム 「Fabrica」を開発
  39. 論文まとめ(10/36) 
 43
 手法 1. 組立優先順位計画 a. 物理シミュレーションを用いて、どの部品をどの順番で組み立てるべきか、その優先順 位を決定。 b.

    具体的には、完成状態からどの部品が干渉なく取り外せるかを繰り返し計算し、 部品 間の組立順序の制約(優先順位グラフ )を構築。 2. 双腕の把持フィルタリング a. 各部品に対して、多数の把持候補をサンプリング。 b. シミュレーション上で、組立作業を行うアーム( Assembling arm)と、部品を支えるアー ム(Holding arm)のそれぞれについて、他の部品やロボット同士で衝突しない 有効な 把持方法を事前に計算し、絞り込む。 3. 組立順序と把持の最適化 a. ステップ1と2の結果に基づき、最適な「組立・保持の順序」と「把持方法」の組み合わせ を探索。 b. この問題を状態空間探索として定式化し、 動的計画法(DP)を用いて、把持の安定性 やアームの切り替え頻度などを評価し、最も効率的で安定した計画 を見つけ出す
  40. 論文まとめ(10/36) 
 44
 1. ピックアップ用固定具の自動生成 (Fixture Generation) a. 計画された把持方法に基づき、各部品をロボットが掴みや すいように配置・固定するための専用の固定具(治具)を自

    動で設計。 2. 動作計画 (Motion Planning) a. 最後に、部品を掴んでから所定の位置へ運ぶまでの一連 のロボットアームの具体的な動作経路を計算。 b. ローカルな制御:強化学習による精密なはめ込み i. 計画に誘導された残差行動 ii. 強化学習ポリシーがゼロから動きを学習するのではな く、プランニングで計算された理想的な動作からの「補 正量(ずれ)」のみを学習
  41. 論文まとめ(11/36) 
 45
 Poke and Strike: Learning Task-Informed Exploration Policies

    著者名: Marina Y. Aoyama, João Moura, Juan Del Aguila Ferrandis, Sethu Vijayakumar キーワード:Interactive Perception, RL, System Identification タスクに関連する物理特性を特定するための有益な探索動作を、どのようにして 自動的に発見するか?探索からタスク実行へ移行するタイミングを、どのようにし て決定するかの方法を提案
  42. 46
 1. 特権的情報を用いた探索報酬の自動生成 a. まず、シミュレーション内で物体の真の物理特性(質量、摩擦、 重心など)を知っている特権的なタスク方策 を強化学習で訓練。 b. 次に、このタスク方策の成功率が、各物理特性の推定誤差に対 してどれだけ敏感に変化するかをモデル化。

    c. この感度に基づいて、タスクの成否に大きく寄与する特性に対し て、より高い精度を達成するよう誘導する探索方策の報酬。 2. 探索方策とオンライン推定器の同時学習(シミュレーション) a. 上記の報酬を使い、強化学習によって探索方策を訓練。 b. 同時に、探索中の観測データから物理特性をリアルタイムで推 定するオンライン推定器 も学習。 論文まとめ(11/36) 

  43. 47
 3. 不確実性に基づく探索からタスク実行への切り替え(実機) a. 不確実性の定量化:アンサンブル学習で物理特性の推定値 の不確かさを数値で表現 b. 閾値の事前計算:シミュレーション上でタスク成功の指標と なる「不確実性の閾値」を算出 c.

    探索の自動終了: 実機で探索し、不確実性をリアルタイム で監視 d. タスク方策の実行:学習済みの最適な方策でタスクを遂行し 効率的にタスクを達成 論文まとめ(11/36) 

  44. 論文まとめ(12/36) 
 48
 LocoFormer: Generalist Locomotion via Long-Context Adaptation 著者名:

    Min Liu, Deepak Pathak, Ananye Agarwal, Skild AI キーワード:Locomotion, Cross-embodiment, RL 訓練データにない新しいEmbodimentをゼロショットで制御できる単一の 汎用方策の獲得
  45. 論文まとめ(12/36) 
 49
 手法 1. 手続き的に生成する多様なロボット群 a. 二足歩行、四足歩行、そしてそれらに車輪がついたものなど、膨大な種類の ロボットをプログラムで自動生成。物理パラメータを極端にランダム化してい る(100Kロボット生成)

    2. Zero padding的にObservation, Actionを揃える 3. 長い履歴情報を入れられる Transformer-XLをアーキテクチャとして採用 a. 入力される時系列データを「セグメント」という固定長のブロックに分割。そし て、現在のセグメントを処理する際に、直前のセグメントの隠れ状態を記憶し ておき、再利用。これにより、勾配計算のコストを抑えつつ、複数のセグメント にわたる情報の流れを維持 b. エピソードをまたぐ適応(Cross-trial Adaptation): この長期記憶能力の最も 重要な帰結が、失敗からの学習 。ある試行で転倒してしまっても、その失敗 経験を含む履歴がTXLのキャッシュに残る。 次の試行では、その失敗情報を参照して行動を改善
  46. 論文まとめ(12/36) 
 50
 大規模なRL 1. 訓練の全体的な枠組み:大規模な並列強化学習 LocoFormerの訓練は、物理シミュレーション環境においてPPO • 適応時間バジェット( Adaptation

    Time Budget): 通常のRLのように試行回数を固定するのではなく、 訓練中に「適応時間(u秒)」をランダムに設定。ポリシーは、この時間内であれば、最終的な評価を受ける 前に何度でも試行錯誤(trial)を繰り返すことが許される。 これにより、数秒で適応する短期的な能力から、失敗を繰り返して改善する長期的な能力まで、様々な時 間スケールでの適応戦略を自律的に学習することができる 3. 訓練の2段階プロセス 訓練は、効率的に適応能力を学習させるため、以下の2つのフェーズに分かれている。 1. フェーズ1(初期段階): 比較的短い試行時間と短い適応時間バジェットで訓練。これにより、まず基本的 な適応行動の獲得。 2. フェーズ2(後期段階): 試行時間と適応時間を長く設定し、より実世界での展開に近い、長期的なタスク に対応できるようにポリシーを仕上げる。
  47. 論文まとめ(13/36) 
 51
 Towards Embodiment Scaling Laws in Robot Locomotion

    著者名: Bo Ai, Liu Dai, Nico Bohlinger, Dichen Li, Tongzhou Mu, Zhanxin Wu, K. Fay, Henrik I. Christensen, Jan Peters, Hao Su キーワード:Cross embodiment learning, RL, Distillation 訓練に用いるロボットのエンボディメントの数を増やすと、未知の身体に対する汎 化性能が向上する」というエンボディメント・スケーリング則を実証的に検証
  48. 論文まとめ(13/36) 
 52
 1. 多様なロボットの生成: まず、ヒューマノイド、四足歩行、六足歩行ロボットを含む 約1000種類の多様なロボットのデータセット「 GENBOT-1K」を自動生成 。これ らのロボットは、トポロジー(関節の数や接続)、ジオメトリ(リンクの形状やサイ

    ズ)、キネマティクス(関節の可動域)が異なる 2. 二段階のポリシー学習: a. ステージ1(専門家ポリシーの訓練): まず、生成した各ロボットに対して、RL を用いて最適な専門家ポリシーを個別に訓練。 b. ステージ2(学生ポリシーへの蒸留): 次に、全ての専門家ポリシーの動作 データを集め、それを教師データとして単一の汎用ポリシー(学生ポリシー) をBehavior cloningで訓練。 3. スケーリング則の検証: 訓練に用いるロボットの数を段階的に増やしながらポリ シーを学習し、未知のロボット群(テストセット)に対する性能を評価することで、エ ンボディメント数と汎化性能の関係を定量的に分析
  49. 論文まとめ(14/36) 
 53
 Multi-Loco: Unifying Multi-Embodiment Legged Locomotion via Reinforcement

    Learning Augmented Diffusion 著者名: Shunpeng Yang, Zhen Fu, Zhefeng Cao, Junde Guo, Patrick Wensing, Wei Zhang, Hua Chen キーワード:Cross-embodiment, RL 形態の異なる多様な脚式ロボットに対して、単一の統一された制御ポリシーを学 習する新しいフレームワーク「 Multi-Loco」を提案
  50. 論文まとめ(14/36) 
 54
 1. 次元の整合: ゼロパディングにより、ロボットごとに異なる観測・行動 空間の次元を統一。 2. 拡散モデルによる事前学習(オフライン): 複数のロボットのデータ

    セットを用いて、形態に依存しない共通の歩行パターンを学習する 拡散モデル を訓練。 この際、ゼロパディングした部分を無視する「マスク化スコアマッチン グ」という手法を用いる。 3. 残差ポリシーによる強化学習(オンライン): 拡散モデルが生成した 行動(Action Prior)を、全てのロボットで共有される軽量な「残差ポ リシー」で微調整 。この残差ポリシーは、PPOとMulti-Criticアーキテ クチャを用いてオンラインで最適化され、実環境への適応やタスク固 有の性能を向上
  51. 論文まとめ(14/36) 
 55
 Diffusion policy用のデータセットの作り方 • それぞれのロボットでPPOで学習する • 4種類のロボットに対してロボット1体あたり最大で2,048,000 サンプルのデータを集める

    データセットの構成比 • データセットの構成比を変えた実験 ◦ 2足歩行のデータを減らすと、車輪付き2足歩行の ロボットの性能も下がる
  52. 論文まとめ(15/36) 
 56
 π_0.5: a Vision-Language-Action Model with Open-World Generalization

    著者名: Kevin Black et. al. (Physical Intelligence) キーワード:VLA, Open-World, モバイルマニピュレータが訓練データに含まれていない全く新しい家でも、ベッドメイ キングやキッチンの片付けといった家庭内の様々なタスクを実行できるようにする VLAモデル「π_0.5」を開発
  53. 論文まとめ(15/36) 
 57
 手法 1. 事前学習: 様々な種類のロボットデータ、高レベルのサブタスク予測デー タ、ウェブデータなど、全ての異種データを組み合わせて初期のVLAモデ ルを構築。この段階では、行動を離散的なトークンとして表現。 2.

    事後学習: 事前学習済みモデルを、家庭でのモバイルマニピュレーション に特化させる。この段階で、リアルタイム制御のために効率的な推論を可 能にする連続的な行動を生成する「アクションエキスパート」を追加。また、 人間による言語指示のデータも活用 3. 推論:まず高レベルのサブタスクを予測し、そのサブタスクに基づいて低レ ベルの具体的なロボットの行動を生成するという階層的な推論をする
  54. 論文まとめ(15/36) 
 58
 事前学習 (Pre-training) 目的: 多様なロボットタスクに適応させるための初期モデルを構 築。 データ: モバイルマニピュレータのデータだけでなく、他の非モバイ

    ルロボットのデータ、実験室環境での多様なタスクデータ、高レベ ルのサブタスク予測データ、ウェブデータなど、利用可能なすべて の異種データを統合して使用。 手法: すべての行動を離散的 なFASTトークンとして扱い、 自己回帰的なTransformerと して次のトークンを予測する ように学習
  55. 論文まとめ(16/36) 
 60
 GraspVLA: a Grasping Foundation Model Pre-trained on

    Billion-scale Synthetic Action Data 著者名: Shengliang Deng, Mi Yan, Songlin Wei, Haixin Ma, Yuxin Yang, Jiayi Chen, Zhiqi Zhang, Taoyu Yang, Xuheng Zhang, Heming Cui, Zhizheng Zhang, He Wang キーワード:VLA, Grasping 大規模な合成アクションデータのみを用いて VLAモデルをトレーニングする実現 可能性を探求
  56. 論文まとめ(16/36) 
 61
 1. SynGrasp-1B データセットの生成 a. Objaverseデータセット のLVISサブセットから、把持に適した 240カテゴリー、10,680イ

    ンスタンスのユニークなオブジェクトを使用しこれらをランダムにスケールし、さまざまな ポーズでテーブル上に落下させることで、多様で物理的に妥当なシーンを生成。 b. 安定した対蹠把持の姿勢を計算し生成するために 把持合成アルゴリズム を使用。 c. 生成されたオープンループの把持姿勢に到達し、オブジェクトを持ち上げるための衝突 のない軌道を計画するために、 モーションプランニングアルゴリズム CuRobo を使 用。 d. 高性能なフォトリアリスティックレイトレースレンダリングを提供する Isaac Sim を使用し て、RGB画像をレンダリング 。
  57. 論文まとめ(16/36) 
 62
 1. Progressive Action Generation (PAG) メカニズム: PAGは、視覚グラウンディングと把持姿勢予測を

    アクション生成の中間ステップとして扱うChain-of-Thought (CoT) プロセスを形成。 a. 2Dバウンディングボックス予測 (PAG-2D): VLMは、インターネットデータセットと合成アクションデータセットの両方に対して、統一された形 式でターゲットオブジェクトの2Dバウンディングボックスを生成 するように学習。 b. 把持姿勢予測 (PAG-3D): 合成データセットに対してのみ、VLMはさらにロボットのベースフレームにおけるターゲット把持 姿勢を予測 c. アクション生成: 最終的に、アクションエキスパートが、VLMの入力および中間推論トークン(バウンディングボッ クス、把持姿勢)のキーバリューキャッシュを条件として、アクションチャンクを生成。
  58. 論文まとめ(17/36) 
 63
 Training Strategies for Efficient Embodied Reasoning 著者名:

    William Chen, Suneel Belkhale, Suvir Mirchandani, Oier Mees, Danny Driess, Karl Pertsch, Sergey Levine キーワード:VLA, ロボットの行動予測の前に中間的な思考ステップ(推論)を生成させる Embodied Chain-of-Thought(ECoT)の推論速度を高速化できる ECoT-Liteを開発
  59. 論文まとめ(17/36) 
 64
 この論文ではまず「テスト時に推論を行う」以外に ECoTがもたらすであろう良い効果について、以 下の3つの仮説を立てる 1. 表現学習の向上 ECoTの学習プロセス、つまり「推論を予測する」というタスクをモデルに課すこと自体が、 ロボットの行動予測に役立つようなより優れた内部表現

    (representation)をモデルに学習させるのではないか? 2. 学習カリキュラムの提供 ECoTはモデルに一種の暗黙的な学習カリキュラムを提供しているのではないか。つまり、 いきなり複雑な「観測→行動」のマッピングを学習させるのではなく、まず「物体の位置特定」 や「サブタスクの計画」といった比較的簡単な推論タスクを学習させることで、段階的に難し いタスクに進むことができ、より効率的で汎化性能の高い学習が促される? 3. モデル表現力の増強 ECoTは推論テキストを生成するため、モデルが処理するトークンの系列が長くななる。これ により、推論時・学習時の両方で実質的な計算量が増え、モデルの表現力(思考能力)が高 まるのではないか?
  60. 論文まとめ(17/36) 
 65
 結論 実験の比較の結果:推論ステップを学習データとして組み、学習することで、モデル の内部表現が改善 される そこから導かれる手法(2つあるがどっちもいい感じ) 1. Reasoning

    Pre-training a. ステップ1 (事前学習): まず、ロボットの観測データ(画像など)から推論テキ ストのみを予測するようにモデルを学習。この段階で、モデルはタスクを理解 し、ロバストな行動予測に役立つ内部表現を獲得。 b. ステップ2 (ファインチューニング): 次に、ステップ1で学習したモデルを、行動 データのみを使ってファインチューニング。 2. Reasoning Dropout a. これは、学習中に推論ステップをランダムにドロップアウトさせる方法 b. 学習時: 推論テキストと行動トークンを連結してモデルに予測、 その際、推論部分をランダムな確率で省略。
  61. 論文まとめ(18/36) 
 66
 ReWiND: Language-Guided Rewards Teach Robot Policies without

    New Demonstrations 著者名: Jiahui Zhang, Jiahui_Zhang, Yusen Luo, Abrar Anwar, Sumedh Anand Sontakke, Joseph J Lim, Jesse Thomason, Erdem Biyik, Jesse Zhang キーワード:Reward function, offline RL, RL 未知のタスクにも汎化可能な言語条件付き報酬関数を学習 多様なロボットデータの動画から言語条件付き報酬関数 R_ψを学習する方法を 考案。それを用いて Offline RL -> Online RLする
  62. 論文まとめ(18/36) 
 67
 報酬関数の学習 1. 多様なデータの活用 Open-Xデータセットの活用: 少数のターゲット環境のデモデータに加えて、大規模なロボット データセット「Open-X」のサブセットを報酬モデルの学習に利用。 2.

    データ拡張 Video Rewind: 成功したデモンストレーションビデオの一部を 意図的に逆再生することで、 失敗したように見える軌道を自動生成 。失敗軌道に対して適切に低い報酬を出力できるよ うに学習 3. Instruction Generation: LLMを用いて、1つのタスクに対して5〜10通りの異なる言語指示 を自動生成 Offline RL: 学習した報酬関数 Rψ を用いてデモンストレーションデータに報酬をラベリングし、そのデータで オフライン強化学習(IQL)により言語条件付きポリシー π_θ を事前学習 Online RL: 事前学習したポリシーを実環境で実行し、その軌道に対して報酬関数 R_ψ が報酬を付与。この 報酬を用いてポリシーをオンラインで微調整
  63. 論文まとめ(19/36) 
 68
 RoboArena: Distributed Real-World Evaluation of Generalist Robot

    Policies 著者名: Pranav Atreya, Karl Pertsch … キーワード:VLA, Evaluation 固定されたタスクや環境に依存せず、多数の評価者による分散型のクラウドソー シング評価を通じて、多様な Generalポリシーの性能を正確に順位付けする 「RoboArena」を提案
  64. 論文まとめ(19/36) 
 69
 1. 評価者が自由にタスクを設定: a. 評価者は、自分のロボットがいる環境で、好きなようにタス ク(例:「引き出しを閉めて」「ケチャップをボウルに入れて」 など)を設定。これにより、評価されるタスクや環境の多様 性が大幅に向上。

    2. 2つのポリシーをA/B比較: a. 評価者は中央サーバーからランダムに2つのポリシー(Aと B)を受け取りどっちが優れていたか評価 3. データの集約とランキング計算: a. 中央サーバーは、世界中の評価者から集めた多数のペア ワイズ比較データを集約しスコアとランキング化
  65. 論文まとめ(20/36) 
 70
 Steering Your Diffusion Policy with Latent Space

    Reinforcement Learning 著者名: Andrew Wagenmaker, Mitsuhiko Nakamoto, Yunchu Zhang, Seohong Park, Waleed Yagoub, Anusha Nagabandi, Abhishek Gupta, Sergey Levin キーワード:Diffusion policy, Reinforcement leraning, online finetuning, VLA 何をしたか ロボット基盤モデルをオンラインで効率的にRLでFinetuning • 事前に学習されたBCポリシー(特に拡散ポリシー)を、実世界で効率的かつ自 律的に改善・適応させることを目的 • 拡散モデルのサンプリングプロセスを変更することで、既存の方策の重みを変 更することなく、安定かつサンプル効率の高い強化学習による ファインチューニング手法を確立
  66. 論文まとめ(20/36) 
 71
 研究のアプローチ: • 拡散ポリシーの「潜在ノイズ 空間」でRLを実行するという アプローチを取る。これ をDiffusion Steering

    via Reinforcement Learning と名付けている。 • 通常、拡散ポリシーは標準的なガウス分布からサンプリングされたノイズ w を入力 とし、それをデノイズ(ノイズ除去)することで行動 a を生成。DSRLでは、この初期ノ イズ w をランダムに選ぶのではなく、RLで学習した「潜在ノイズ空間ポリシー (π_W)」によって、より良い結果を生むように意図的に選択(操作)。 • これにより、元の拡散ポリシー π_dp を一種の「行動空間変換器」とみなし、RLエー ジェントは潜在ノイズ空間 W で行動を選択する問題として学習
  67. 論文まとめ(20/36) 
 72
 エイリアシングを利用 • Q^AはAction spaceでTD Errorで学習 • Q^wはQ^Aを蒸留。このときにwをガウス分布から

    サンプリングして学習できるのでいろんなwで効率よく学習できる • 拡散ポリシーのエイリアシング特性:異なる潜在ノイズ 𝑤がほぼ同じアクショ ン 𝑎にマップされる性質を利用
  68. 論文まとめ(21/36) 
 73
 Streaming Flow Policy: Simplifying diffusion/flow-matching policies by

    treating action trajectories as flow trajectories 著者名: Sunshine Jiang, Xiaolin Fang, Nicholas Roy, Tomás Lozano-Pérez, Leslie Kaelbling, Siddharth Ancha キーワード:Imitation Learning, Flow matching 行動軌道をフロー軌道として扱うという新しいアプローチにより、フローのサンプリン グ中にロボットへ行動を逐次的にストリーミング(送信)できる
  69. 論文まとめ(21/36) 
 74
 学習方法 1. ターゲット速度場の構築: ◦ 訓練データセットからデモンストレーション軌道 ξ を一つサンプリング。

    ◦ この軌道 ξ に基づいて、解析的に計算できる「条件付き速度場 v_ξ(a, t)」を構築。この速度 場は、軌道 ξ の周囲に安定して留まるようなフローを生成。具体的には、軌道に沿って進む「軌道 速度項」と、軌道からのズレを補正する「安定化項」から構成。 2. サンプリング: ◦ フローの時間 t を一様分布でサンプリング (t ∼ U)。 ◦ その時刻 t における行動 a を、軌道 ξ の周りのガウス分布 p_ξ(a | t) からサンプリング。こ の分布は、中心が ξ(t) で、標準偏差が時間とともに指数関数的に減衰。 3. 学習
  70. 論文まとめ(22/36) 
 75
 Fast Flow-based Visuomotor Policies via Conditional Optimal

    Transport Couplings 著者名: Andreas Sochopoulos, Nikolay Malkin, Nikolaos Tsagkas, João Moura, Michael Gienger, Sethu Vijayakumar キーワード:Flow matching policy, Imitation learning 追加の学習フェーズを必要とせずに、高品質かつ多様な動作を少ないステップで 高速に生成できる、新しいフローマッチング手法を開発する
  71. 論文まとめ(22/36) 
 76
 1. 「条件」を考慮したペアリング: 従来の最適輸送 (OT-CFM) は、観測情報を無視して ペアリングするため、偏った学習を引き起こしていた。COT Policyは、観測情報が似

    ているサンプル同士がペアになるようにコスト関数を設計し、この問題を解決 。 2. 直線的なフローの学習: この「条件付き」ペアリングにより、ノイズから目標動作への フローがより直線的 になり、1〜2回といった非常に少ないステップの数値積分で正 確に再現できるため、推論が劇的に高速化できる。 3. 高次元データへの対応: ロボットの観測情報は高次元なため、PCAによる次元削減 とK-meansによるクラスタリングを行ってからペアリングに利用する
  72. 論文まとめ(23/36) 
 77
 Learning Long-Context Diffusion Policies via Past-Token Prediction

    著者名: Marcel Torne Villasevil, Marcel_Torne_Villasevil, Andy Tang, Yuejiang Liu, Chelsea Finn キーワード: 模倣学習で扱うコンテキストが長くなると、 spurious correlations (見せかけの相関)によって性能が低下したり、高次元の画像シーケンスを扱うこ とによるメモリや計算コストの増大 長期コンテキストを扱うロボットポリシーの性能と学習効率を向上させる、 シンプルで効果的なアプローチを提案
  73. 論文まとめ(23/36) 
 79
 1. Past-Token Prediction (PTP): 未来の行動だけでなく過去の行動も予測 対象とする ことで、失われがちな過去と未来の行動間の時間的依存性を

    強化学習。 2. 多段階のメモリ効率の良い学習法: a. エンコーダ学習: まず短いコンテキストで視覚エンコーダを事前学習。 b. 特徴キャッシング: 事前学習したエンコーダを固定し、訓練データセット 内の全画像の埋め込み表現を事前に計算して保存。 c. ポリシー学習: キャッシュされた埋め込み表現を用いて、長いコンテキ ストでポリシーヘッドのみをファインチューニング。 3. Test-Time Verification: 推論時に複数の行動候補を生成し、実際に実行 された過去の行動シーケンスと最も一致する(再構成誤差が最も小さい) 候補を選択する自己検証メカニズムとしてPTPを活用
  74. 論文まとめ(24/36) 
 80
 RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action

    Models 著者名: Kaustubh Sridhar, Souradeep Dutta, Dinesh Jayaraman, Insup Lee キーワード:VLA, In-Context Learning, RAG どのようにして事前学習済み VLAモデルにインコンテクスト学習能力を注入できる か?
  75. 論文まとめ(24/36) 
 81
 1. プライミング学習(Post-training): 既存のVLAモデルに対し、少数の「プライミング」用デモンストレーショ ンデータを用いて追加学習を行う。 具体的には、検索して得られたデータをコンテキストとして含めて与えら れた条件で正確に推論できるように学習。 この学習により、モデルはコンテキスト情報を効果的に利用

    する能力を 獲得する。 2. 実行時の適応(RAG + ICL): 新しいタスクを実行する際、ユーザーが 提供した少数のタスク固有のデモンストレーション(10〜20件)の中か ら、現在の状況に最も関連性の高い部分を Retrievalする。そして、検 索されたデモンストレーション情報をVLAのコンテキストに入力し、インコ ンテクスト学習 によって、パラメータを更新することなく新しいタスクに適 応
  76. 論文まとめ(25/36) 
 82
 DemoSpeedup: Accelerating Visuomotor Policies via Entropy-Guided Demonstration

    Acceleration 著者名: Lingxiao Guo, Zhengrong Xue, Zijing Xu, Huazhe Xu キーワード:Imitation Learning, Manipulation, Demonstration Acceleration 模倣学習はロボットの操作タスクで高い成功率を達成しているが、ポリシーの実行速 度が不十分 タスクの成功率を損なうことなく、視覚運動ポリシーの実行効率を向上させる自己 教師あり学習手法「 DemoSpeedup」を提案
  77. 論文まとめ(25/36) 
 83
 手法の概要 デモンストレーションデータをエントロピーに基づいてどこを高速化できるか 特定し、それを用いて高速でタスクを遂行できるポリシーを学習 1. 元の速度のデータで「プロキシポリシー(模倣学習を使用した仮 モデル)」を学習。このポリシーを使い、デモ内の各動作にどれくらいの選 択肢があるかをアクションエントロピーとして計算

    2. 軌道を分割: エントロピーが低い部分は「高精度な操作(例:物を掴む)」、 高い部分は「カジュアルな操作(例:空中で接近する)」と判断し、軌道を自 動で分割 3. 可変速度で高速化: 高精度な部分はあまり変えず、カジュアルな部分だ けを重点的に間引 いて高速化 方策の高速化だけではなく、データのHorizonが短くなるのでスコアも少し良く なった。
  78. 84
 SAIL: Faster-than-Demonstration Execution of Imitation Learning Policies 著者名: Nadun

    Ranawaka Arachchige, Zhenyang Chen, Wonsuhk Jung, Woo Chul Shin, Rohan Bansal, Pierre Barroso, Yu Hang He, Yingyan Celine Lin, Benjamin Joffe, Shreyas Kousik, Danfei Xu キーワード:Visuomotor Imitation, Robot Learning Systems, Manipulation 学習済みの視覚運動ポリシーを、デモンストレーションよりも速い速度で実行するにはどうすればよいか 分布シフト、実行忠実度、システム遅延という相互に関連する課題を克服し、タスクの成功率を維持しながら スループットを大幅に向上 論文まとめ(26/36) 

  79. 85
 1. 問題:デモンストレーションより速く動けない模倣学習の限界 a. デモンストレーションの遅い速度のデータで学習したポリシーもこの 「遅い動き」をそのまま受け継いでしまう b. 学習したポリシーを単純に速く実行したときの問題 i. 分布シフト:

    実行速度を上げるとロボットの動力学的な挙動が変化し、コントローラーの 追従 エラーが増加。これにより、OODにはいりうまく推論できない。 ii. 実行忠実度: コントローラーの限界: 低レベルのロボットコントローラーは、速い目標軌道に正 確に追従できない場合がある。 物を掴むなどの精密な動作が必要な場面では、 速度を落とす必要があり、すべての動作を一様に高速化することはできない 。 iii. システム遅延: 物理的な制約: センサー情報の取得やポリシーの計算には、避 けられないレイテ ンシが存在し、この遅延は、ロボットを制御できるループの周波数に物理的な上 限を課す。 論文まとめ(26/36) 

  80. 論文まとめ(26/36) 
 86
 手法 1. エラー適応型ガイダンス a. 前提 i. Diffusion

    policyのClassifier-Free Guidanceは直前の予測の 終わり部分をガイダンスとして次の予測を行うことで、予測と予測 の間の食い違いをなくし、時間的に一貫性のある滑らかな動作を 生成 b. エラー適応型ガイダンス i. ガイダンスの動的調整: ロボットの追従エラーを監視 し、エラーが 小さい場合は、直前の行動予測の続きを条件として次の行動を生 成することで、時間的に一貫性のある滑らかな動作を促す。 ii. エラー発生時の対処: 逆に、追従エラーが大きい場合は、条件と なる情報が信頼できないと判断し、ガイダンスを無効に
  81. 論文まとめ(26/36) 
 87
 2. コントローラー不変な行動ターゲットと高忠実度制御 コントローラー不変なターゲット : SAILはポリシーの予測ターゲットを、 指令されたポーズではな く、実際にロボットが到達したポーズ(

    reached pose)に変更 高忠実度コントローラー: さらに、実行時にはデモ収集時とは別の、高速・高精度な追従に最適化 された専用の高忠実度コントローラーを使用 3. 適応的な速度調整 デモンストレーションデータをオフラインで分析し、動作の複雑性が高い領域や、グリッパーの開 閉イベントが発生する箇所を「クリティカルな動作」として特定。 ポリシーは行動予測と同時に、現在の 動作がクリティカルかどうかのフラグも予測 。 そして、実行時にはそのフラグに応じて速度を動的に調整 4. システム遅延を考慮した行動スケジューリング 連続動作の維持: 高速実行時にロボットが停止するのを防ぐため、 SAILは、新しい行動が計算さ れている間も、直前に計画された行動シーケンスの残りを実行し続ける。新しい行動シーケンス が届き次第、古いプランからシームレスに移行
  82. 論文まとめ(27/36) 
 88
 Imitation Learning Based on Disentangled Representation Learning

    of Behavioral Characteristics 著者名: Ryoga Oishi, Sho Sakaino, Toshiaki Tsuji キーワード:Imitation Learning, Disentangled representation learning 何をしたか 人間からの修飾語による指示に応じて、ロボットがリアルタイムで行動を変化させ ることができる動作生成モデルを提案
  83. 論文まとめ(27/36) 
 89
 1. CVAEによる動作生成 人間の実演データを短い動作シーケンスに分割し、CVAEを用いて、現在のロ ボットの状態から次の動作を予測するモデルを学習 。 2. Disentangled

    Representation Learningによる指示と動作の関連付け CVAEが学習する潜在変数の一部に制約をかけ、特定の修飾語指示(例:速 度、力加減)と対応付ける Disentangled Representation Learningを導入。 学習時には、実演データに付与された「速い/遅い」といった弱い教師ラベルを潜 在変数から予測させ、その誤差を最小化。 3. Action Chunkingによるオンラインでの滑らかな動作生成 タスク実行中に指示が変更された際、動作が急激に変化して不安定になるのを 防ぐため、モデルが予測した未来の動作シーケンスと過去の予測結果を重み付 きで平均する ことで、滑らかな動作遷移を実現する
  84. 論文まとめ(28/36) 
 90
 Data Retrieval with Importance Weights for Few-Shot

    Imitation Learning 著者名: Amber Xie, Rahul Chand, Dorsa Sadigh, Joey Hejna キーワード:Imitation Learning, Data retrieval, Few shot learning 何をしたか Few shot Imitation learningにおけるDatasetのRetrievalを確率的な視点(重要度 サンプリング)から再解釈し、従来のヒューリスティックなアプローチの欠点を克服
  85. 論文まとめ(28/36) 
 91
 手法 1. Representation Learning: まず、状態・行動のペア(またはそのシーケンス)を低潜在表現 zに変換するためのモデル f_ϕ

    を学習。この部分は既存の手法( Behavior Retrieval, Flow Retrieval, SAILORなど)がそれぞれ独自の方法で行っており、 IWRはこれらの既存の表現 学習手法と組み合わせることが可能 2. 重要度重みの推定 : 学習した潜在空間上で、目標タスクのデータセット (D_t) と事前データ セット (Dprior) のそれぞれのデータ分布 (p_t, p_prior) をガウスカーネル密度推を用いてモ デル化。 複数のターゲットデータ点が密集している領域にある事前データ点は、高く評価されるように データのバイアスを考慮できる。そして、事前データセット内の各データ点 z に対して、その 重要度重み p_t(z)/p_prior(z) を計算。 3. データ検索 (Data Retrieval): 推定した重要度重みをスコアとして用い、スコアが高いデータ を事前データセットから選択。 4. 方策学習: 最後に、元の目標タスクのデータ (D_t) と検索してきたデータ (D_ret) を合わせ て、模倣学習の方策を学習
  86. 論文まとめ(29/36) 
 92
 DexUMI: Using Human Hand as the Universal

    Manipulation Interface for Dexterous Manipulation 著者名: Mengda Xu, Han Zhang, Yifan Hou, Zhenjia Xu, Linxi Fan, Manuela Veloso, Shuran Song キーワード:Dexterous Manipulation, Imitation Learning • テレオペレーションの進化 • 人間に外骨格装置を取り付けて、動作データを得る ◦ 動作データを集めやすい ◦ 映像などのギャップはあとから補正する • そのデータを用いて模倣学習
  87. • 「DexUMI」というフレームワークを提案 ◦ ハードウェア適応 :ロボットハンドごとに最適化されたウェアラブル外骨 格を作成し装着、人間の動きをロボットの実現可能な動作に制約しつ つ、直接的な触覚フィードバックを得つつタスクを行う。関節角度や触覚 情報も同時に収集 ◦ ソフトウェア適応

    :収集した映像から人間の手を消し、高忠実度なロ ボットハンドの映像を合成(Inpainting)することで、きれいな視覚データ を手に入れる ◦ 模倣学習:得られたデータで模倣学習を行う 方法: 論文まとめ(29/36) 

  88. 論文まとめ(30/36) 
 94
 Versatile Loco-Manipulation through Flexible Interlimb Coordination 著者名:

    Xinghao Zhu, Yuxin Chen, Lingfeng Sun, Farzad Niroui, Simon Le Cleac’h, Jiuguang Wang, Kuan Fang キーワード:Locomanipulation, Whole-Body Control, RL 強化学習を用いて、タスクの要求に応じて柔軟に手足の役割を割り当て、協調させ ることで、多才なロコ・マニピュレーションを実現する
  89. 95
 1. 1. タスクレベル: a. ユーザーからの多様な指示(直接的な目標軌道、接触点の指定、自然言語など)を受け取る。 b. これらの指示を、ロボットが実行可能な統一された形式、すなわち「各時刻における、操作担当 の四肢の目標姿勢( τ)と、各四肢の役割を示すバイナリマスク(

    m)」の時系列データに変 換。 c. マスク(m)は、各四肢がmanipulationに使われるか、locomotionに使われるかを指定する。 2. コマンドレベル: a. タスクレベルから受け取った目標姿勢(τ)とマスク(m)に基づき、ロボットの各関節を動かすた めの具体的なモーターコマンドを生成。 3. 操作モジュール (Manipulation Module) a. モデルベース( MB)のコントローラー 、具体的には逆運動学(IK)ソルバーなどが用いられ。こ れにより、指定された目標姿勢を正確に追従する関節の動きを計算 4. 移動モジュール (Locomotion Module) a. 強化学習によって訓練されたニューラルネットワークポリシー が用いる 5. これら2つのモジュールは、ただ独立して動くわけではなく、ロボットの状態と、タスクレベルから送られ てくるマスク情報を共有し計算する。 a = m ◦ a_MB + (1 - m) ◦ a_RL 論文まとめ(30/36) 

  90. 96
 Unsupervised Skill Discovery as Exploration for Learning Agile Locomotion

    著者名: Seungeun Rho, Kartik Garg, Morgan Byrd, Sehoon Ha キーワード:Unsupervised Skill Discovery, Exploration, Locomotion, RL Unsupervised skill discoveryを通してロボットが自律的に多様なスキルを発見・獲 得して、人手によるエンジニアリング(報酬設計、デモデータ、カリキュラム)を大幅に 削減し、移動能力を学習できる新しいフレームワーク を提案 論文まとめ(31/36) 

  91. 論文まとめ(31/36) 
 97
 手法 1. タスク報酬 (r_task)と多様性報酬 (r_div)の最大化 a. 多様性報酬は教師なしスキル発見アルゴリズムから得られる報酬

    2. Bi-level Optimizationによる自動バランス調整 a. 方策 (π_θ) の学習: 方策は、r_task + λ * r_divを最大化するように学 習し。これにより、タスクをこなしつつ、多様な行動もとる。 b. λ の学習: バランシングパラメータ λ は、「タスク報酬のみ」を最大化す るように学習。 i. もし多様な行動を探査すること(多様性報酬)が、最終的にタスク の成功に役立つのであれば、λ の値は大きくなる 3. Unsupervised skill discovery a. 特定のスキル発見手法に依存しない汎用的なフレームワーク。この研 究では、代表的な2つの アルゴリズム(DIAYNとMETRA) を用いてその有効性を検証
  92. 論文まとめ(32/36) 
 98
 From Tabula Rasa to Emergent Abilities: Discovering

    Robot Skills via Real-World Unsupervised Quality-Diversity 著者名: Luca Grillotti, Lisa Coiffard, Oscar Pang, Maxence Faldor, Antoine Cully キーワード:RL, Unsupervised Skill discovery 物理的なロボットが人間の介入を最小限に抑え、シミュレーションに頼らず実世界 で直接、多様かつ高性能なスキルを自律的に発見し習得する
  93. 論文まとめ(32/36) 
 99
 1. Quality-Diversity (QD) とモデルベース強化学習の融合: a. 多様で高性能なスキル群を発見する「Quality-Diversity Actor-Critic

    (QDAC)」アルゴリズムを拡張。 b. 実世界でのデータ収集効率を高めるため、収集したデータから環境のモデル を学習し、そのモデル内でのシミュレーションを通じて方策を訓練する 「DayDreamer」を基盤として採用 2. 安全性を考慮した効率的なスキル探索: a. ロボットの転倒などを防ぐため、安全な状態を維持する制約付き強化学習 の枠組みを導入。 b. 安全に実行できたスキルを「レパートリー」として保存し、カーネル密度推定 (KDE) を用いて次に試すべきスキルをサンプリング。 3. 教師なしでのスキル表現学習: a. 人間がスキルの特徴(例:足の接地パターン)を事前に定義しなくてもよいよ うに、変分オートエンコーダ(VAE) を用いて、ロボットの関節角度などの生の 観測データからスキルを表現するための潜在空間を自動で学習
  94. 論文まとめ(33/36) 
 100
 Search-TTA: A Multimodal Test-Time Adaptation Framework for

    Visual Search in the Wild 著者名: Derek Ming Siang Tan, Shailesh, Boyang Liu, Alok Raj, Qi Xuan Ang, Weiheng Dai, Tanishq Duhan, Jimmy Chiun, Yuhong Cao, Florian Shkurti, Guillaume Sartoretti キーワード:Imitation Learning, Manipulation, Demonstration Acceleration VLMのナビゲーションをする。マルチモーダルなテスト時適応フレームワーク 「Search-TTA」を提案する
  95. 101
 動物の写真などのQueryを受け取ってそれがいそうな場所を探索 するような問題設定 1. 事前準備: 探索を始める前に、衛星画像と、テキストや画像、 音声などの様々な情報から、目標物がいそうな場所の確率を 示した地図(スコアマップ)を作成。 2. 探索中のリアルタイム修正:

    探索中にロボットが集めた「発見し た」「見つからなかった」という現場の情報を使って、AIモデルの 予測を動的に修正し、スコアマップを賢く更新。テスト時適応に より、最初の予測が不正確でも探索性能が向上 論文まとめ(33/36) 

  96. 論文まとめ(34/36) 
 102
 JaxRobotarium: Training and Deploying Multi-Robot Policies in

    10 Minutes 著者名: Shalin Anand Jain, Jiazhen Liu, Siva Kailas, Harish Ravichandar キーワード:Unsupervised Skill Discovery, Exploration, Locomotion, RL マルチエージェント強化学習ポリシーの学習と実機展開を大幅に高速化する、Jax ベースのエンドツーエンドプラットフォーム「JaxRobotarium」を開発
  97. 論文まとめ(34/36) 
 103
 背景 MARLの統一した実機のベンチマークやあってもシミュレーションでの学習速度が非常に遅い 研究内容 1. 高速シミュレータの開発: 既存のマルチロボットテスト「Robotarium」のための新しいシミュレータ「JaxRobotarium」をJAXで新 たに開発することでGPUでの並列実行などを可能に

    2. JaxMARLとの統合: 最先端のMARLライブラリJaxMARL との連携させ、研究者は既存の強化学習アルゴリズム(QMIX, MAPPOなど)を最小限の労力で利用し、マルチロボットの学習を開始できる 3. 標準化された8つのベンチマークシナリオ:  マルチロボット協調行動の学習と評価のために、標準化されたタスクセットを提供 4. 実機への直接展開パイプライン: シミュレーションで学習したポリシーを、遠隔で無償利用できる実世界のマルチロボットテストベッド 「Robotarium」に直接アップロードして実行できるパイプラインを提供
  98. 論文まとめ(35/36) 
 104
 Non-conflicting Energy Minimization in Reinforcement Learning based

    Robot Control 著者名: Skand Peri, Akhil Perincherry, Bikram Pandit, Stefan Lee キーワード:Energy-efficient Locomotion, Reinforcement Learning タスクのパフォーマンスと競合することなくエネルギー消費を最小化する、ハイ パーパラメータ不要の勾配最適化手法「 PEGrad」を提案
  99. 論文まとめ(36/36) 
 106
 Off Policy Lyapunov Stability in Reinforcement Learning

    著者名: Sarvan Gill, Daniela Constantiescu キーワード:RL, Control, Lyapunov function Deep RLではリアプノフ関数を用いた安定的な学習法が存在 オフポリシー RLで初めてリアプノフ関数を直接学習する新しい手法を提案 リアプノフ関数とは システムの安定性を証明 以下の2つの主要な条件を満たす。 1. 正の値を持つ: 目標点で値がゼロになり、 それ以外の全ての点で正の値を取る。 2. 時間とともに減少し続ける: システムの 動きに沿って、関数の値は減少し続ける (または増加しない) https://www.ishikawa-nct.ac.jp/lab/E/y_kawai/www/data/course/CSD/24CSD/handouts/24CSD_lect10/24CSD_lect10_slide.pdf
  100. 論文まとめ(36/36) 
 107
 研究のアプローチ: 1. オフポリシー・リアプノフ関数の学習: 状態だけでなく行動にも依存する ニューラル・リアプノフ関数 L_η(s, a)

    を学習。その期待値 L_η(s) = E_a∼πL_η(s, a) を用いることで、リアプノフの安定性条件を検証。 2. 既存アルゴリズムへの統合: 学習したオフポリシー・リアプノフ関数を、 SACとPPOに統合 手法の特徴や新規性: • リアプノフ関数のリー微分の再定義: オフポリシーデータに対応するため、 リー微分を現在の方策に明示的に依存する形で再定義。 • ハイパーパラメータによる調整: リアプノフ関数の最小減少率を制御する ハイパーパラメータ µ と、方策更新におけるリアプノフ関数の影響度を調 整するハイパーパラメータ β を導入し、学習を柔軟に調整できる