CoRL 2025 Survey

CoRL 2025 Survey 1 October 6, 2025 Harada-Kurose-Mukuta Lab. Haruki
Abe, The University of Tokyo

Table of Contents 2  1. Overview — p. 3 2.
CoRL 2025 Overview — p. 4-8 What is CoRL / Participation scale & acceptance / Industry exhibitions 3. Awards Summary — p. 9-10 Best Paper / Best Student Paper 4. Research Trends — p. 11-13 VLA / Real2Sim2Real / Tactile sensing & Manipulation 5. Conclusion & Acknowledgements — p. 14-15 6. Paper Survey (Highlights) — p. 16-107 VLA / Real2Sim2Real / Dexterous Manipulation / Locomotion / Evaluation, Reward, and Reasoning

Overview 3  • Purpose & Motivation ◦ Share key insights
and research trends from CoRL 2025. ◦ Provide an overview of selected papers — highlighting and summarizing notable works in robot learning. • Author ◦ Haruki Abe – M2, Harada-Kurose-Mukuta Lab. ◦ Research Focus: Reinforcement Learning • Notes ◦ Unless otherwise noted, figures and images were used based on materials from the papers, posters, or publicly available videos discussed in this slide deck.

What is CoRL?   4  • CoRL (Conference on Robot
Learning) is one of the top-tier international conferences in the field of robot learning. • The 9th edition was held in Seoul, South Korea. • Like many other machine learning conferences, CoRL also includes a rebuttal phase.

Biggest CoRL Ever 5  • 102% increase in in-person attendance
compared to 2024. ◦ 2,441 total in-person participants. • Japan ranked 4th in number of attendees, with about 100 participants. JP  CoRL2025 (https://www.youtube.com/watch?v=Use5M-nfFlI)

Papers & Acceptance 6  • The acceptance rate is around
35–40%. • Papers must focus on both robotics and machine learning. • Real-world robot experiments are strongly encouraged. CoRL2025 (https://www.youtube.com/watch?v=Use5M-nfFlI)

Industry Exhibitions & Demos (1/2) 7  • 145 exhibitors showcased
their work at CoRL. • Companies often announce new models for CoRL. ◦ Last year: Physical Intelligence — π0 ◦ This year: Google DeepMind — Gemini Robotics 1.5 This Gemini Robotics 1.5 is controlled by the operator through natural language instructions. Gemini Robotics π0: A Vision-Language-Action Flow Model for General Robot Control (Kevin et al. 2025) Gemini Robotics 1.5 (https://deepmind.google/models/gemini-robotics/gemini-robotics/)

Industry Exhibitions & Demos (2/2)   8  Significant advances in
robot locomotion were presented. Sideflip Kick Unitree R1 Unitree R1 & Unitree G1

Best Paper Awards   9  Learning a Unified Policy for
Position and Force Control in Legged Loco-Manipulation [Zhi et al.]スライド 19: 論文まとめ（1/36） Fabrica: Dual-Arm Assembly of General Multi-Part Objects via Integrated Planning and Learning [Tian et al.] スライド 42: 論文まとめ（10/36） • Learning a single integrated policy for both force and position control — without using force sensors. • Developed Fabrica, a dual-arm robotic system that enables autonomous assembly of general objects composed of multiple parts.

Best Student Paper Award   10  Visual Imitation Enables Contextual
Humanoid Control [Allshire et al.] スライド 22: 論文まとめ（2/36） • Learning a single control policy that enables a humanoid robot to perceive environmental context and execute appropriate whole-body skills from human demonstration videos.

Highlighted Research Trends (1/3)   11  VLA (Vision-Language-Action) models •
Robot foundation model — learning diverse skills with a single policy. • example: π0.5 [Black et al.], GraspVLA [Deng et al.], DexVLA [Wen et al.], ControlVLA [Li et al.], Long-VLA [Fan et al.], TrackVLA [Wang et al.], 3DS-VLA [Li et al.], Endo-VLA [Ng et al.], RICL [Sridhar et al.], RoboMonkey [Kwok et al.], RoboArena [Atreya et al.] etc. pi0.5 RoboArena GraspVLA

Highlighted Research Trends (2/3) 12  Real2Sim2Real pipelines • Building simulation
environments from video and other data, training models in these environments, and then deploying them back to the real world. • example: X-Sim [Dan et al.], Real2Render2Real [Yu et al.], VIDEOMIMIC [Allshire et al.], ImMimic [Liu et al.] etc. X-Sim Real2Render2Real

Highlighted Research Trends (3/3) 13  Tactile sensing and manipulation techniques
• Many studies focus on tactile, highlighting what current vision-language models cannot achieve. • example: DexUMI [Xu et al.], KineDex [Zhang et al.], Tactile Beyond Pixels [Higuera et al.] etc. Tactile Beyond Pixels DexUMI KineDex

Key Takeaways from CoRL 2025 14  📈 Rapid community growth
& growing influence — CoRL is expanding quickly in both size and impact. 🧪 Strong research standards — robotics + machine learning required, real-world experiments emphasized. 🏭 Industry involvement — 145 exhibitors, frequent release of new foundation models. 🔥 Emerging trends • Vision-Language-Action (VLA) models • Real2Sim2Real pipelines • Tactile sensing & manipulation

Acknowlegement 15  • This work was partially supported by JST
Moonshot R&D (Grant No. JPMJPS2011), JST CREST (Grant No. JPMJCR2015), and the Basic Research Grant (“Super AI”) of the Institute for AI and Beyond, The University of Tokyo. • I am especially grateful to Specially Appointed Assistant Professor Yasuhiro Kato and Project Researcher Yusuke Mori for their advice on slide. • I also thank Prof. Tatsuya Harada and all members of our laboratory.

Paper Survey  16 

Survey of CoRL paper　 17  • This is a summary
of some of the research that attracted attention at CoRL. • This deck provides a broad summary — if a paper interests you, I encourage you to read the original work yourself for details. • (Currently, the slides are written in Japanese🙇)

Purpose & Selection Criteria   18  1. Purpose: Quick digest
to grasp CoRL 2025 trends. 2. Selection① (Impact): Prioritize high-impact papers within the program. 3. Selection② (Trends): Cover representative themes (VLA, Real2Sim2Real, Data/Eval). 4. Selection③ (Lab Relevance): Consider relevance to parts of our lab’s research; examples include RL, VLA, and real-robot experiments.

19  Learning Unified Force and Position Control for Legged Loco-Manipulation
著者名： Peiyuan Zhi, Peiyang Li, Jianqin Yin, Baoxiong Jia, Siyuan Huang キーワード：Loco-Manipulation, Unified Force and Position Control, Force-aware Imitation Learning, RL 力覚センサーを使わずに、力と位置の制御を単一のポリシーで統合的に学習する • 強化学習で、位置や速度、力の指令に従うポリシーを訓練 • 同時に、外力の推定器を訓練 • 強化学習により訓練したポリシーと推定器を使って、テレオペし収集したデータで模倣学習もできる論文まとめ（1/36）  

論文まとめ（1/36）   20  研究の手法 1. 強化学習による「力と位置の統合制御ポリシー（低レベルポリシー）」の学習 • 力と位置の関係をインピーダンス制御則に基づいてモデル化する • この式に従うような報酬で、シミュレーション上で強化学習をする
◦ 結果として、位置や速度、力の指令値に従った動きを獲得できる • 同時に、外力推定器（エンコーダからの特徴量を受け取り、外部からの力（Fext + Freactを推定））を学習

論文まとめ（1/36）   21  2. 力情報を活用した模倣学習 • １で得られた低レベルの制御ポリシーに送るコマンドを出力するポリシー（高レベルコントローラ）を学習 • 状態推定器を使って得られた力の情報も加えたデータセットを作成し、それをDiffusion
policyで模倣学習

論文まとめ（2/36）   22  Visual Imitation Enables Contextual Humanoid Control 著者名：
Arthur Allshire, Hongsuk Choi, Junyi Zhang, David McAllister, Anthony Zhang, Chung Min Kim, Trevor Darrell, Pieter Abbeel, Jitendra Malik, Angjoo Kanazawa キーワード：Real2Sim2Real, RL, 4D reconstruction 単眼ビデオ映像から、ヒューマノイドロボットが周囲の環境コンテクストを認識し、それに応じた適切な全身スキルを実行できる単一の制御ポリシーを学習

論文まとめ（2/36）   23  1. Real-to-Sim：ビデオ映像からシミュレーション用データを生成 a. 単眼RGBビデオから、人間の動作軌道と環境の3Dメッシュを生成 i. 人物の検出と姿勢推定（VIMO, ViTPose,
BSTRO） ii. シーンの再構成: 同時に、ビデオからシーンの3次元点群データを再構成（MegaSaMまたはMonST3R） iii. 動作のリターゲティング: 人間の動作を、ロボットの身体構造（関節の可動域や手足の長さなど）に合わせて変換

論文まとめ（2/36）   24  2. Sim-to-Real：シミュレーションでのポリシー学習と実機展開 1. ステージ1: モーションキャプチャデータによる事前学習（ MPT）まず、比較的ノイズが少なく高品質なモーションキャプチャデータを用いて、
基本的な動作スキルをポリシーに学習。このときは、まだ目的の運動を学習しない。 2. ステージ2: シーンを考慮した動作追跡次に、事前学習で得たポリシーに環境情報を入力として追加し、環境に応じた目的の関節ターゲットを追跡するようにポリシーをファインチューニング。 3. ステージ3: 蒸留（Distillation）具体的には、DAggerを用いて、参照動作を観測しない新しいポリシーに蒸留 4. ステージ4: 強化学習によるファインチューニング蒸留後のポリシーは、参照動作なしで動けるようになるが、最適な行動ではない場合があり、強化学習で直接ファインチューニングし、最後に実機で推論する

論文まとめ（3/36）   25  X-SIM: Cross-Embodiment Learning via Real-to-Sim-to-Real 著者名： Prithwish
Dan∗ Kushal Kedia∗ Angela Chao Edward W. Duan Maximus A. Pace Wei-Chiu Ma SanjibanChoudhuryキーワード：Real-to-Sim-to-Real, 人間の動作データから、ロボットの動作を獲得する • Real-to-Sim: 人間が作業する様子を収録したRGBDビデオから、フォトリアルな 3Dシミュレーション環境を再構築 • Simでの学習: シミュレーション内で、RLを用いて物体の動きを再現するロボットのポリシーを学習し、多様な条件下（視点、照明など）で大量の画像とアクションのペアからなる合成データを生成 • Sim-to-Real: 学習したポリシーで実世界で動かして、 Sim to real gapを減らすようにオンラインでモデルを学習

論文まとめ（3/36）   26  1. Real-to-Sim：人間のビデオからシミュレーション環境と報酬を構築 • フォトリアルな環境の再構築: 2D Gaussian Splattingを用いて、複数の視点か
ら撮影した環境の画像から、リアルな3D環境メッシュを構築 • 物体の3Dメッシュと姿勢追跡: 操作対象となる物体の3Dメッシュを、スマートフォンアプリなどを使ってスキャン • FoundationPoseを用いて、人間のビデオ映像から各物体の6次元姿勢をフレームごとに追跡 • 物体の軌跡データを「目標状態」として、ロボットがシミュレーション内で学習するための報酬関数を定義 ◦ 推定した物体の軌道を基に報酬関数を設計するため、ロボットを用いたデータ収集が不要 FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [Wen et al., 2024]

論文まとめ（3/36）   27  2. Simでの学習：シミュレーション内でのロボットアクション生成 • シミュレーション内で強化学習（ RL）を用いてロボットの操作データ生成用のポリシーを学習 • 得られたポリシーで多様な条件下での合成データを作成し、
Diffusion policyを学習 3. Sim to Real: 実世界での実行 • 学習したDiffusionポリシーを実世界で実行し、失敗と成功を含む実世界の画像とアクションの軌跡を保存 • 記録したアクション軌跡をシミュレーション内で再生し、実世界と全く同じ状況の合成画像を生成。「実世界の画像」と「シミュレーションの画像」のペアができる • InfoNCEを用いた対照学習をする。このキャリブレーションにより、ポリシーの画像エンコーダは、シミュレーション特有の見た目に過剰適合することしなくなる。

論文まとめ（3/36）   28  この研究の課題 • 剛体操作に限定 : 物体の状態を6次元の姿勢で追跡しているため、関節を持つ物体（引き出しなど）や変形する物体（布など）の操作は扱えない
• 物理パラメータの推定: シミュレーション内の物体の質量や摩擦といった物理パラメータはデフォルト値を用いており、ビデオから正確に推定していない

論文まとめ（4/36）   29  Real2Render2Real: Scaling Robot Data Without Dynamics Simulation
or Robot Hardware 著者名： Justin Yu, Max Letian Fu, Huang Huang, Karim El-Refai, Rares Andrei Ambrus, Richard Cheng, Muhammad Zubair Irshad, Ken Goldberg キーワード：Real2Sim2Real, Imitation learning 実世界の人間の動きから動作を学ぶ。動作動画からSimulationでデータにして学習、Sim2Realする

論文まとめ（4/36）   30  手法 1. Real-to-Sim: スマホ動画から物体の3D形状(3DGS)と動きの軌道を抽出。 2. Data Augmentation:
抽出した軌道を基に、物体の初期位置などをランダム化し、微分逆運動学で多様なロボット動作を生成。 a. 把持対象物の特定: 軌道全体を通して最も手に近かった部品を「掴む対象」 b. 掴み方の生成: 物理的に妥当な掴み方を生成するため、解析的なantipodal graspサンプラーを用いて、平行グリッパーに適した掴み候補を複数サンプリング c. PyRoki ソルバーを用いて、微分逆運動学の問題を解く。これは、ロボットのエンドエフェクターが目標とする物体の動きを追従するために必要な、滑らかな関節空間の軌道を算出し生成する 3. 高速レンダリング: 物理シミュレーションは行わず、フォトリアルなレンダリングエンジン（IsaacLab）で画像と行動のペアを大量並列生成

論文まとめ（5/36）   31  Gen2Act: Human Video Generation in Novel Scenarios
enables Generalizable Robot Manipulation 著者名： Homanga Bharadhwaj, Debidatta Dwibedi, Abhinav Gupta, Shubham Tulsiani, Carl Doersch, Ted Xiao, Dhruv Shah, Fei Xia, Dorsa Sadigh, Sean Kirmani キーワード：Imitation Learning, Manipulation, Video Generation Model 言語指示で与えられた新しいタスクに対し、ロボットがどのように行動すべきかという動きの情報を、人間の動画を生成し予測・活用

論文まとめ（5/36）   32  1. 人間動画のゼロショット生成: a. タスクの言語指示と現在のシーン画像に基づき、事前学習済みの動画生成モデルを用いて、人間がそのタスクを実行する動画をゼロショットで生成。 2.
生成動画に基づくロボット制御: a. 生成された人間動画（Vg）と、ロボットの観測履歴（I_t-k:k）の各フレームから、ViTエンコーダを用いて視覚特徴を抽出 b. 動画からポイントトラックも抽出 c. 学習時には、Behavior cloningに加えて、生成動画からポイントトラックを予測する補助タスクを学習。

論文まとめ（6/36）   33  ImMimic: Cross-Domain Imitation from Human Videos via
Mapping and Interpolation 著者名：Yangcen Liu, Woo Chul Shin, Yunhai Han, Zhenyang Chen, Harish Ravichandar, Danfei Xu キーワード: Learning from Human, Imitation learning, Dexterous Manipulation 大規模な人間のビデオと少量の遠隔操作によるロボットのデモンストレーションデータを組み合わせ、ドメインギャップを効果的に埋めることで、多様なロボットが頑健なマニピュレーションスキルを獲得できるような、 embodiment-agnostic共同学習フレームワーク「 ImMimic」を提案

論文まとめ（6/36）   34  人間（100デモ）とロボット（５デモ）が同じタスクをしているデータを用意する。 1. 人間の手の動きのリターゲティング (Hand Pose Retargeting) a.
姿勢推定: MediaPipeやFrankMocapといったツールを用いて、ビデオの各フレームから人間の手の3次元関節位置を推定。 b. ロボットへのマッピング: 推定された人間の手のキーポイントを、ロボットのフォワードキネマティクス（順運動学）を用いてロボットの関節角度に変換 2. マッピング (Mapping) a. 次に、リターゲティングされた人間の行動データと、実際にロボットを遠隔操作して収集したロボットの行動データをDynamic Time Warping（DTW）で対応付ける。DTWを用いることで、同じタスクを行っていても速度が異なる人間とロボットの時系列データを時間的に整合させ、対応する時点のペアを見つけ出すことができる。 b. 行動ベースのマッピング：人間のリターゲティングされた軌道とロボットの軌道の類似度（位置、姿勢、向きの差など）を計算し、行動が最も近いデータ同士を対応付ける。

論文まとめ（7/36）   35  3. MixUpによる補間 (Interpolation) マッピングによって対応付けられた人間とロボットのデータペアを用いて、MixUpという手法で両者を補間（内挿）し、「中間ドメイン」のデータを生成 4.学習
Diffusion Policyを、生成された補間データと元のロボットデータを同時に使って学習

論文まとめ（7/36）   36  UniSkill: Imitating Human Videos via Cross-Embodiment Skill
Representations 著者名： Hanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee キーワード：Cross-Embodiment, Imitation Learning, Skill Representation Learning 何をしたか人間の動作動画データからロボットに同じタスクをできるようにする • 人間の動作データから、何をしているかに関しての情報（スキル）を獲得できるモデルを作る • スキルに条件付けられた汎用的な Policyを学習 • 人間の動画データからスキルの抽出ー＞スキル条件付ポリシーでの推論

論文まとめ（7/36）   37  研究のアプローチ 1. 普遍的スキル表現の学習 a. Inverse Skill Dynamics
Model (ISD):ビデオ内の2つのフレーム（I_tとI_t+k）を入力とし、その間の動的な変化を捉えるスキル表現 ztを出力。単眼深度推定器を用いて深度情報を内部的に利用 b. Forward Skill Dynamics: 現在のフレームItとISDが抽出したスキル表現 z_tを入力とし、未来のフレームI_t+kを予測。 InstructPix2Pixを利用 c. この2つを同時に訓練することで ISDは2つのフレームの間のスキルを学習できる 2. 普遍的スキル条件付きポリシーの学習 a. ロボットのデモンストレーションデータセットから 2つの観測o_tとo_t+kをサンプリングし、凍結されたISDモデルを用いてスキル表現 ztを抽出。 b. 抽出したスキル表現 z_tと現在の観測o_tを条件として、ロボットの行動を予測するスキル条件付きポリシー（ π(a_t:t+h | o_t, z_t)）を学習 3. 普遍的スキル表現を用いたクロスエンボディメント模倣による推論 a. 人間のデモンストレーションビデオを入力とし、凍結されたISDを用いて一連のスキル表現 {z_i}を抽出 b. スキル条件付きポリシーは、抽出されたスキル表現z_iを順番に条件として受け取り、対応するロボットの行動を予測・実行

論文まとめ（8/36）   38  Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation
on Humanoids 著者名： Toru Lin,, Kartik Sachdev, Linxi “Jim” Fan, Jitendra Malik, Yuke Zhu キーワード：Dexterous Manipulation, Sim-to-Real 視覚ベースで、接触が多く、両手操作を含むタスクに対して、いかにして Sim-to-Real RLを効果的に拡張するかという未解決の問いに取り組む

論文まとめ（8/36）   39  1. Real-to-Sim モデリング a. 自動チューニングされたロボットモデリング: 4分未満の実世界データを用いて、シミュレーターの物理パラメータ（摩擦、減衰など）とURDF定数を自動的に最適化し、実機のロボットの振る舞いに一致させる。
b. 近似オブジェクトモデリング: オブジェクトのモデリングには、物理パラメータをランダム化した単純な幾何学的プリミティブ（円柱など）を使用し、トレーニング効率と実世界への転送可能性のバランスを取る。 2. 汎用化可能な報酬設計 a. 操作の分解: 操作タスクを、Contact GoalsとObject Goals の2つの主要な構成要素に分解して報酬を設計。 b. コンタクトマーカーの導入: 接触目標を指定しやすくするために、シミュレーションオブジェクトの表面にコンタクトマーカーを導入。 3. サンプル効率の高いポリシー学習 a. タスクアウェアなハンドポーズ初期化: 人間のテレオペレーションからタスク関連のハンド・オブジェクト構成をシミュレーションで収集し、エピソードの初期条件としてランダムにサンプリングすることで、早期の探索を加速 b. 分割統治型ポリシー蒸留: マルチオブジェクトタスクを複数のシングルオブジェクトタスクに分解し、訓練された専門家ポリシーの質の高いロールアウトを一般化ポリシーに蒸留。 4. 視覚ベースのSim-to-Real転送 a. ハイブリッドなオブジェクト表現: コンパクトな低次元特徴（第三者視点からの3Dオブジェクト位置）と、表現力の高い高次元特徴（一人称視点カメラからのセグメント化された奥行き画像）を組み合わせて使用。 b. 広範なドメインランダム化: トレーニング中にオブジェクトパラメータ、カメラパラメータ、ロボットの物理特性、観測ノイズ、行動ノイズなど、広範なドメインランダム化を適用し、ロバスト性を向上

論文まとめ（9/36）   40  ClutterDexGrasp: A Sim-to-Real System for General Dexterous
Grasping in Cluttered Scenes 著者名： Zeyuan Chen, Qiyang Yan, Yuanpei Chen, Tianhao Wu, Jiyao Zhang, Zihan Ding, Jinzhou Li, Yaodong Yang, Hao Dong キーワード：Dexterous Grasping, Sim-to-Real シミュレーション環境で訓練され、実世界のデモンストレーションを一切使用せずに実世界へ Zero-Shotで転移可能な、散らかったシーンにおけるターゲット指向の器用把持ポリシーを開発

論文まとめ（9/36）   41  1. 教師ポリシーの学習: privilege information（物体の正確な位置や形状など）を利用できるシミュレーション環境で、PPOを用いて「教師ポリシー」を訓練。 2.
生徒ポリシーへの蒸留: 教師ポリシーが生成した成功軌跡のデータセットを用いて、模倣学習により「生徒ポリシー」を訓練。この生徒ポリシーは、単一カメラからの部分的なポイントクラウド情報のみで動作するように設計されており、実世界への応用が可能。手法の特徴や新規性: ◦ カリキュラム学習の導入 ▪ Clutter-Density Curriculum: まず単一物体の把持を学習させ、その後、物体の密度が高い散らかったシーンでファインチューニングすることで、複雑な戦略（障害物を移動してから掴むなど）を学習。 ▪ Interaction Safety Curriculum: 過度な力を加えるといった危険な振る舞いを罰則によって抑制し、安全で人間らしい緩やかなインタラクションを学習。 • Geometry and Spatial Representation: ハンドの各指のリンクからターゲット物体および障害物までの距離ベクトルを計算し、観測情報として利用。これにより、衝突を回避しつつ、効率的に複雑な幾何学的特徴を学習できる。

論文まとめ（10/36）   42  Fabrica: Dual-Arm Assembly of General Multi-Part Objects
via Integrated Planning and Learning 著者名： Tian Yunsheng, Jacob Joshua, Huang Yijiang, Zhao Jialiang, Gu Edward, Ma Pingchuan, Zhang Annan, Javid Farhad, Romero Branden, Chitta Sachin, Sueda Shinjiro, Li Hui, Matusik Wojciech キーワード：Imitation Learning, Manipulation, Demonstration Acceleration 複数部品からなる一般物体の自律的な組立を可能にする、双腕ロボットシステム「Fabrica」を開発

論文まとめ（10/36）   43  手法 1. 組立優先順位計画 a. 物理シミュレーションを用いて、どの部品をどの順番で組み立てるべきか、その優先順位を決定。 b.
具体的には、完成状態からどの部品が干渉なく取り外せるかを繰り返し計算し、部品間の組立順序の制約（優先順位グラフ）を構築。 2. 双腕の把持フィルタリング a. 各部品に対して、多数の把持候補をサンプリング。 b. シミュレーション上で、組立作業を行うアーム（ Assembling arm）と、部品を支えるアーム（Holding arm）のそれぞれについて、他の部品やロボット同士で衝突しない有効な把持方法を事前に計算し、絞り込む。 3. 組立順序と把持の最適化 a. ステップ1と2の結果に基づき、最適な「組立・保持の順序」と「把持方法」の組み合わせを探索。 b. この問題を状態空間探索として定式化し、動的計画法（DP）を用いて、把持の安定性やアームの切り替え頻度などを評価し、最も効率的で安定した計画を見つけ出す

論文まとめ（10/36）   44  1. ピックアップ用固定具の自動生成 (Fixture Generation) a. 計画された把持方法に基づき、各部品をロボットが掴みやすいように配置・固定するための専用の固定具（治具）を自
動で設計。 2. 動作計画 (Motion Planning) a. 最後に、部品を掴んでから所定の位置へ運ぶまでの一連のロボットアームの具体的な動作経路を計算。 b. ローカルな制御：強化学習による精密なはめ込み i. 計画に誘導された残差行動 ii. 強化学習ポリシーがゼロから動きを学習するのではなく、プランニングで計算された理想的な動作からの「補正量（ずれ）」のみを学習

論文まとめ（11/36）   45  Poke and Strike: Learning Task-Informed Exploration Policies
著者名： Marina Y. Aoyama, João Moura, Juan Del Aguila Ferrandis, Sethu Vijayakumar キーワード：Interactive Perception, RL, System Identification タスクに関連する物理特性を特定するための有益な探索動作を、どのようにして自動的に発見するか？探索からタスク実行へ移行するタイミングを、どのようにして決定するかの方法を提案

46  1. 特権的情報を用いた探索報酬の自動生成 a. まず、シミュレーション内で物体の真の物理特性（質量、摩擦、重心など）を知っている特権的なタスク方策を強化学習で訓練。 b. 次に、このタスク方策の成功率が、各物理特性の推定誤差に対してどれだけ敏感に変化するかをモデル化。
c. この感度に基づいて、タスクの成否に大きく寄与する特性に対して、より高い精度を達成するよう誘導する探索方策の報酬。 2. 探索方策とオンライン推定器の同時学習（シミュレーション） a. 上記の報酬を使い、強化学習によって探索方策を訓練。 b. 同時に、探索中の観測データから物理特性をリアルタイムで推定するオンライン推定器も学習。論文まとめ（11/36）  

47  3. 不確実性に基づく探索からタスク実行への切り替え（実機） a. 不確実性の定量化:アンサンブル学習で物理特性の推定値の不確かさを数値で表現 b. 閾値の事前計算:シミュレーション上でタスク成功の指標となる「不確実性の閾値」を算出 c.
探索の自動終了: 実機で探索し、不確実性をリアルタイムで監視 d. タスク方策の実行:学習済みの最適な方策でタスクを遂行し効率的にタスクを達成論文まとめ（11/36）  

論文まとめ（12/36）   48  LocoFormer: Generalist Locomotion via Long-Context Adaptation 著者名：
Min Liu, Deepak Pathak, Ananye Agarwal, Skild AI キーワード：Locomotion, Cross-embodiment, RL 訓練データにない新しいEmbodimentをゼロショットで制御できる単一の汎用方策の獲得

論文まとめ（12/36）   49  手法 1. 手続き的に生成する多様なロボット群 a. 二足歩行、四足歩行、そしてそれらに車輪がついたものなど、膨大な種類のロボットをプログラムで自動生成。物理パラメータを極端にランダム化している（100Kロボット生成）
2. Zero padding的にObservation, Actionを揃える 3. 長い履歴情報を入れられる Transformer-XLをアーキテクチャとして採用 a. 入力される時系列データを「セグメント」という固定長のブロックに分割。そして、現在のセグメントを処理する際に、直前のセグメントの隠れ状態を記憶しておき、再利用。これにより、勾配計算のコストを抑えつつ、複数のセグメントにわたる情報の流れを維持 b. エピソードをまたぐ適応（Cross-trial Adaptation）: この長期記憶能力の最も重要な帰結が、失敗からの学習。ある試行で転倒してしまっても、その失敗経験を含む履歴がTXLのキャッシュに残る。次の試行では、その失敗情報を参照して行動を改善

論文まとめ（12/36）   50  大規模なRL 1. 訓練の全体的な枠組み：大規模な並列強化学習 LocoFormerの訓練は、物理シミュレーション環境においてPPO • 適応時間バジェット（ Adaptation
Time Budget）: 通常のRLのように試行回数を固定するのではなく、訓練中に「適応時間（u秒）」をランダムに設定。ポリシーは、この時間内であれば、最終的な評価を受ける前に何度でも試行錯誤（trial）を繰り返すことが許される。これにより、数秒で適応する短期的な能力から、失敗を繰り返して改善する長期的な能力まで、様々な時間スケールでの適応戦略を自律的に学習することができる 3. 訓練の2段階プロセス訓練は、効率的に適応能力を学習させるため、以下の2つのフェーズに分かれている。 1. フェーズ1（初期段階）: 比較的短い試行時間と短い適応時間バジェットで訓練。これにより、まず基本的な適応行動の獲得。 2. フェーズ2（後期段階）: 試行時間と適応時間を長く設定し、より実世界での展開に近い、長期的なタスクに対応できるようにポリシーを仕上げる。

論文まとめ（13/36）   51  Towards Embodiment Scaling Laws in Robot Locomotion
著者名： Bo Ai, Liu Dai, Nico Bohlinger, Dichen Li, Tongzhou Mu, Zhanxin Wu, K. Fay, Henrik I. Christensen, Jan Peters, Hao Su キーワード：Cross embodiment learning, RL, Distillation 訓練に用いるロボットのエンボディメントの数を増やすと、未知の身体に対する汎化性能が向上する」というエンボディメント・スケーリング則を実証的に検証

論文まとめ（13/36）   52  1. 多様なロボットの生成: まず、ヒューマノイド、四足歩行、六足歩行ロボットを含む約1000種類の多様なロボットのデータセット「 GENBOT-1K」を自動生成。これらのロボットは、トポロジー（関節の数や接続）、ジオメトリ（リンクの形状やサイ
ズ）、キネマティクス（関節の可動域）が異なる 2. 二段階のポリシー学習: a. ステージ1（専門家ポリシーの訓練）: まず、生成した各ロボットに対して、RL を用いて最適な専門家ポリシーを個別に訓練。 b. ステージ2（学生ポリシーへの蒸留）: 次に、全ての専門家ポリシーの動作データを集め、それを教師データとして単一の汎用ポリシー（学生ポリシー）をBehavior cloningで訓練。 3. スケーリング則の検証: 訓練に用いるロボットの数を段階的に増やしながらポリシーを学習し、未知のロボット群（テストセット）に対する性能を評価することで、エンボディメント数と汎化性能の関係を定量的に分析

論文まとめ（14/36）   53  Multi-Loco: Unifying Multi-Embodiment Legged Locomotion via Reinforcement
Learning Augmented Diffusion 著者名： Shunpeng Yang, Zhen Fu, Zhefeng Cao, Junde Guo, Patrick Wensing, Wei Zhang, Hua Chen キーワード：Cross-embodiment, RL 形態の異なる多様な脚式ロボットに対して、単一の統一された制御ポリシーを学習する新しいフレームワーク「 Multi-Loco」を提案

論文まとめ（14/36）   54  1. 次元の整合: ゼロパディングにより、ロボットごとに異なる観測・行動空間の次元を統一。 2. 拡散モデルによる事前学習（オフライン）: 複数のロボットのデータ
セットを用いて、形態に依存しない共通の歩行パターンを学習する拡散モデルを訓練。この際、ゼロパディングした部分を無視する「マスク化スコアマッチング」という手法を用いる。 3. 残差ポリシーによる強化学習（オンライン）: 拡散モデルが生成した行動（Action Prior）を、全てのロボットで共有される軽量な「残差ポリシー」で微調整。この残差ポリシーは、PPOとMulti-Criticアーキテクチャを用いてオンラインで最適化され、実環境への適応やタスク固有の性能を向上

論文まとめ（14/36）   55  Diffusion policy用のデータセットの作り方 • それぞれのロボットでPPOで学習する • ４種類のロボットに対してロボット１体あたり最大で2,048,000 サンプルのデータを集める
データセットの構成比 • データセットの構成比を変えた実験 ◦ ２足歩行のデータを減らすと、車輪付き２足歩行のロボットの性能も下がる

論文まとめ（15/36）   56  π_0.5: a Vision-Language-Action Model with Open-World Generalization
著者名： Kevin Black et. al. (Physical Intelligence) キーワード：VLA, Open-World, モバイルマニピュレータが訓練データに含まれていない全く新しい家でも、ベッドメイキングやキッチンの片付けといった家庭内の様々なタスクを実行できるようにする VLAモデル「π_0.5」を開発

論文まとめ（15/36）   57  手法 1. 事前学習: 様々な種類のロボットデータ、高レベルのサブタスク予測データ、ウェブデータなど、全ての異種データを組み合わせて初期のVLAモデルを構築。この段階では、行動を離散的なトークンとして表現。 2.
事後学習: 事前学習済みモデルを、家庭でのモバイルマニピュレーションに特化させる。この段階で、リアルタイム制御のために効率的な推論を可能にする連続的な行動を生成する「アクションエキスパート」を追加。また、人間による言語指示のデータも活用 3. 推論：まず高レベルのサブタスクを予測し、そのサブタスクに基づいて低レベルの具体的なロボットの行動を生成するという階層的な推論をする

論文まとめ（15/36）   58  事前学習 (Pre-training) 目的: 多様なロボットタスクに適応させるための初期モデルを構築。データ: モバイルマニピュレータのデータだけでなく、他の非モバイ
ルロボットのデータ、実験室環境での多様なタスクデータ、高レベルのサブタスク予測データ、ウェブデータなど、利用可能なすべての異種データを統合して使用。手法: すべての行動を離散的なFASTトークンとして扱い、自己回帰的なTransformerとして次のトークンを予測するように学習

論文まとめ（15/36）   59  アクションエキスパート： • VLMバックボーンよりも小さいTransformerモデルで、ロボットの具体的な行動生成に特化。 • VLMからの情報を受け取り、高速かつ効率的に連続的な行動
を生成。 • VLMからのアテンションはアクションエキスパートへ一方的にとられ、逆方向はない。

論文まとめ（16/36）   60  GraspVLA: a Grasping Foundation Model Pre-trained on
Billion-scale Synthetic Action Data 著者名： Shengliang Deng, Mi Yan, Songlin Wei, Haixin Ma, Yuxin Yang, Jiayi Chen, Zhiqi Zhang, Taoyu Yang, Xuheng Zhang, Heming Cui, Zhizheng Zhang, He Wang キーワード：VLA, Grasping 大規模な合成アクションデータのみを用いて VLAモデルをトレーニングする実現可能性を探求

論文まとめ（16/36）   61  1. SynGrasp-1B データセットの生成 a. ObjaverseデータセットのLVISサブセットから、把持に適した 240カテゴリー、10,680イ
ンスタンスのユニークなオブジェクトを使用しこれらをランダムにスケールし、さまざまなポーズでテーブル上に落下させることで、多様で物理的に妥当なシーンを生成。 b. 安定した対蹠把持の姿勢を計算し生成するために把持合成アルゴリズムを使用。 c. 生成されたオープンループの把持姿勢に到達し、オブジェクトを持ち上げるための衝突のない軌道を計画するために、モーションプランニングアルゴリズム CuRobo を使用。 d. 高性能なフォトリアリスティックレイトレースレンダリングを提供する Isaac Sim を使用して、RGB画像をレンダリング。

論文まとめ（16/36）   62  1. Progressive Action Generation (PAG) メカニズム: PAGは、視覚グラウンディングと把持姿勢予測を
アクション生成の中間ステップとして扱うChain-of-Thought (CoT) プロセスを形成。 a. 2Dバウンディングボックス予測 (PAG-2D): VLMは、インターネットデータセットと合成アクションデータセットの両方に対して、統一された形式でターゲットオブジェクトの2Dバウンディングボックスを生成するように学習。 b. 把持姿勢予測 (PAG-3D): 合成データセットに対してのみ、VLMはさらにロボットのベースフレームにおけるターゲット把持姿勢を予測 c. アクション生成: 最終的に、アクションエキスパートが、VLMの入力および中間推論トークン（バウンディングボックス、把持姿勢）のキーバリューキャッシュを条件として、アクションチャンクを生成。

論文まとめ（17/36）   63  Training Strategies for Efficient Embodied Reasoning 著者名：
William Chen, Suneel Belkhale, Suvir Mirchandani, Oier Mees, Danny Driess, Karl Pertsch, Sergey Levine キーワード：VLA, ロボットの行動予測の前に中間的な思考ステップ（推論）を生成させる Embodied Chain-of-Thought（ECoT）の推論速度を高速化できる ECoT-Liteを開発

論文まとめ（17/36）   64  この論文ではまず「テスト時に推論を行う」以外に ECoTがもたらすであろう良い効果について、以下の3つの仮説を立てる 1. 表現学習の向上 ECoTの学習プロセス、つまり「推論を予測する」というタスクをモデルに課すこと自体が、ロボットの行動予測に役立つようなより優れた内部表現
（representation）をモデルに学習させるのではないか？ 2. 学習カリキュラムの提供 ECoTはモデルに一種の暗黙的な学習カリキュラムを提供しているのではないか。つまり、いきなり複雑な「観測→行動」のマッピングを学習させるのではなく、まず「物体の位置特定」や「サブタスクの計画」といった比較的簡単な推論タスクを学習させることで、段階的に難しいタスクに進むことができ、より効率的で汎化性能の高い学習が促される？ 3. モデル表現力の増強 ECoTは推論テキストを生成するため、モデルが処理するトークンの系列が長くななる。これにより、推論時・学習時の両方で実質的な計算量が増え、モデルの表現力（思考能力）が高まるのではないか？

論文まとめ（17/36）   65  結論実験の比較の結果：推論ステップを学習データとして組み、学習することで、モデルの内部表現が改善されるそこから導かれる手法(2つあるがどっちもいい感じ) 1. Reasoning
Pre-training a. ステップ1 (事前学習): まず、ロボットの観測データ（画像など）から推論テキストのみを予測するようにモデルを学習。この段階で、モデルはタスクを理解し、ロバストな行動予測に役立つ内部表現を獲得。 b. ステップ2 (ファインチューニング): 次に、ステップ1で学習したモデルを、行動データのみを使ってファインチューニング。 2. Reasoning Dropout a. これは、学習中に推論ステップをランダムにドロップアウトさせる方法 b. 学習時: 推論テキストと行動トークンを連結してモデルに予測、その際、推論部分をランダムな確率で省略。

論文まとめ（18/36）   66  ReWiND: Language-Guided Rewards Teach Robot Policies without
New Demonstrations 著者名： Jiahui Zhang, Jiahui_Zhang, Yusen Luo, Abrar Anwar, Sumedh Anand Sontakke, Joseph J Lim, Jesse Thomason, Erdem Biyik, Jesse Zhang キーワード：Reward function, offline RL, RL 未知のタスクにも汎化可能な言語条件付き報酬関数を学習多様なロボットデータの動画から言語条件付き報酬関数 R_ψを学習する方法を考案。それを用いて Offline RL -> Online RLする

論文まとめ（18/36）   67  報酬関数の学習 1. 多様なデータの活用 Open-Xデータセットの活用: 少数のターゲット環境のデモデータに加えて、大規模なロボットデータセット「Open-X」のサブセットを報酬モデルの学習に利用。 2.
データ拡張 Video Rewind: 成功したデモンストレーションビデオの一部を意図的に逆再生することで、失敗したように見える軌道を自動生成。失敗軌道に対して適切に低い報酬を出力できるように学習 3. Instruction Generation: LLMを用いて、1つのタスクに対して5〜10通りの異なる言語指示を自動生成 Offline RL: 学習した報酬関数 Rψ を用いてデモンストレーションデータに報酬をラベリングし、そのデータでオフライン強化学習（IQL）により言語条件付きポリシー π_θ を事前学習 Online RL: 事前学習したポリシーを実環境で実行し、その軌道に対して報酬関数 R_ψ が報酬を付与。この報酬を用いてポリシーをオンラインで微調整

論文まとめ（19/36）   68  RoboArena: Distributed Real-World Evaluation of Generalist Robot
Policies 著者名： Pranav Atreya, Karl Pertsch … キーワード：VLA, Evaluation 固定されたタスクや環境に依存せず、多数の評価者による分散型のクラウドソーシング評価を通じて、多様な Generalポリシーの性能を正確に順位付けする「RoboArena」を提案

論文まとめ（19/36）   69  1. 評価者が自由にタスクを設定: a. 評価者は、自分のロボットがいる環境で、好きなようにタスク（例：「引き出しを閉めて」「ケチャップをボウルに入れて」など）を設定。これにより、評価されるタスクや環境の多様性が大幅に向上。
2. 2つのポリシーをA/B比較: a. 評価者は中央サーバーからランダムに2つのポリシー（Aと B）を受け取りどっちが優れていたか評価 3. データの集約とランキング計算: a. 中央サーバーは、世界中の評価者から集めた多数のペアワイズ比較データを集約しスコアとランキング化

論文まとめ（20/36）   70  Steering Your Diffusion Policy with Latent Space
Reinforcement Learning 著者名： Andrew Wagenmaker, Mitsuhiko Nakamoto, Yunchu Zhang, Seohong Park, Waleed Yagoub, Anusha Nagabandi, Abhishek Gupta, Sergey Levin キーワード：Diffusion policy, Reinforcement leraning, online finetuning, VLA 何をしたかロボット基盤モデルをオンラインで効率的にRLでFinetuning • 事前に学習されたBCポリシー（特に拡散ポリシー）を、実世界で効率的かつ自律的に改善・適応させることを目的 • 拡散モデルのサンプリングプロセスを変更することで、既存の方策の重みを変更することなく、安定かつサンプル効率の高い強化学習によるファインチューニング手法を確立

論文まとめ（20/36）   71  研究のアプローチ： • 拡散ポリシーの「潜在ノイズ空間」でRLを実行するというアプローチを取る。これをDiffusion Steering
via Reinforcement Learning と名付けている。 • 通常、拡散ポリシーは標準的なガウス分布からサンプリングされたノイズ w を入力とし、それをデノイズ（ノイズ除去）することで行動 a を生成。DSRLでは、この初期ノイズ w をランダムに選ぶのではなく、RLで学習した「潜在ノイズ空間ポリシー (π_W)」によって、より良い結果を生むように意図的に選択（操作）。 • これにより、元の拡散ポリシー π_dp を一種の「行動空間変換器」とみなし、RLエージェントは潜在ノイズ空間 W で行動を選択する問題として学習

論文まとめ（20/36）   72  エイリアシングを利用 • Q^AはAction spaceでTD Errorで学習 • Q^wはQ^Aを蒸留。このときにwをガウス分布から
サンプリングして学習できるのでいろんなwで効率よく学習できる • 拡散ポリシーのエイリアシング特性：異なる潜在ノイズ 𝑤がほぼ同じアクション 𝑎にマップされる性質を利用

論文まとめ（21/36）   73  Streaming Flow Policy: Simplifying diffusion/flow-matching policies by
treating action trajectories as flow trajectories 著者名： Sunshine Jiang, Xiaolin Fang, Nicholas Roy, Tomás Lozano-Pérez, Leslie Kaelbling, Siddharth Ancha キーワード：Imitation Learning, Flow matching 行動軌道をフロー軌道として扱うという新しいアプローチにより、フローのサンプリング中にロボットへ行動を逐次的にストリーミング（送信）できる

論文まとめ（21/36）   74  学習方法 1. ターゲット速度場の構築: ◦ 訓練データセットからデモンストレーション軌道 ξ を一つサンプリング。
◦ この軌道 ξ に基づいて、解析的に計算できる「条件付き速度場 v_ξ(a, t)」を構築。この速度場は、軌道 ξ の周囲に安定して留まるようなフローを生成。具体的には、軌道に沿って進む「軌道速度項」と、軌道からのズレを補正する「安定化項」から構成。 2. サンプリング: ◦ フローの時間 t を一様分布でサンプリング (t ∼ U)。 ◦ その時刻 t における行動 a を、軌道 ξ の周りのガウス分布 p_ξ(a | t) からサンプリング。この分布は、中心が ξ(t) で、標準偏差が時間とともに指数関数的に減衰。 3. 学習

論文まとめ（22/36）   75  Fast Flow-based Visuomotor Policies via Conditional Optimal
Transport Couplings 著者名： Andreas Sochopoulos, Nikolay Malkin, Nikolaos Tsagkas, João Moura, Michael Gienger, Sethu Vijayakumar キーワード：Flow matching policy, Imitation learning 追加の学習フェーズを必要とせずに、高品質かつ多様な動作を少ないステップで高速に生成できる、新しいフローマッチング手法を開発する

論文まとめ（22/36）   76  1. 「条件」を考慮したペアリング: 従来の最適輸送 (OT-CFM) は、観測情報を無視してペアリングするため、偏った学習を引き起こしていた。COT Policyは、観測情報が似
ているサンプル同士がペアになるようにコスト関数を設計し、この問題を解決。 2. 直線的なフローの学習: この「条件付き」ペアリングにより、ノイズから目標動作へのフローがより直線的になり、1〜2回といった非常に少ないステップの数値積分で正確に再現できるため、推論が劇的に高速化できる。 3. 高次元データへの対応: ロボットの観測情報は高次元なため、PCAによる次元削減とK-meansによるクラスタリングを行ってからペアリングに利用する

論文まとめ（23/36）   77  Learning Long-Context Diffusion Policies via Past-Token Prediction
著者名： Marcel Torne Villasevil, Marcel_Torne_Villasevil, Andy Tang, Yuejiang Liu, Chelsea Finn キーワード：模倣学習で扱うコンテキストが長くなると、 spurious correlations （見せかけの相関）によって性能が低下したり、高次元の画像シーケンスを扱うことによるメモリや計算コストの増大長期コンテキストを扱うロボットポリシーの性能と学習効率を向上させる、シンプルで効果的なアプローチを提案

論文まとめ（23/36）   78  模倣学習で扱うコンテキスト（観測履歴）が長くなると spurious correlations（見せかけの相関）によって性能が低下したり、高次元の画像シーケンスを扱うことによるメモリや計算コストの増大という問題が生じる特に、近年の拡散モデルベースのポリシーは、従来の回帰ベース
のポリシーが過去の行動を過度に模倣する「コピーキャット問題」とは逆に、過去の行動情報を十分に活用できていない

論文まとめ（23/36）   79  1. Past-Token Prediction (PTP): 未来の行動だけでなく過去の行動も予測対象とすることで、失われがちな過去と未来の行動間の時間的依存性を
強化学習。 2. 多段階のメモリ効率の良い学習法: a. エンコーダ学習: まず短いコンテキストで視覚エンコーダを事前学習。 b. 特徴キャッシング: 事前学習したエンコーダを固定し、訓練データセット内の全画像の埋め込み表現を事前に計算して保存。 c. ポリシー学習: キャッシュされた埋め込み表現を用いて、長いコンテキストでポリシーヘッドのみをファインチューニング。 3. Test-Time Verification: 推論時に複数の行動候補を生成し、実際に実行された過去の行動シーケンスと最も一致する（再構成誤差が最も小さい）候補を選択する自己検証メカニズムとしてPTPを活用

論文まとめ（24/36）   80  RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action
Models 著者名： Kaustubh Sridhar, Souradeep Dutta, Dinesh Jayaraman, Insup Lee キーワード：VLA, In-Context Learning, RAG どのようにして事前学習済み VLAモデルにインコンテクスト学習能力を注入できるか？

論文まとめ（24/36）   81  1. プライミング学習（Post-training）: 既存のVLAモデルに対し、少数の「プライミング」用デモンストレーションデータを用いて追加学習を行う。具体的には、検索して得られたデータをコンテキストとして含めて与えられた条件で正確に推論できるように学習。この学習により、モデルはコンテキスト情報を効果的に利用
する能力を獲得する。 2. 実行時の適応（RAG + ICL）: 新しいタスクを実行する際、ユーザーが提供した少数のタスク固有のデモンストレーション（10〜20件）の中から、現在の状況に最も関連性の高い部分を Retrievalする。そして、検索されたデモンストレーション情報をVLAのコンテキストに入力し、インコンテクスト学習によって、パラメータを更新することなく新しいタスクに適応

論文まとめ（25/36）   82  DemoSpeedup: Accelerating Visuomotor Policies via Entropy-Guided Demonstration
Acceleration 著者名： Lingxiao Guo, Zhengrong Xue, Zijing Xu, Huazhe Xu キーワード：Imitation Learning, Manipulation, Demonstration Acceleration 模倣学習はロボットの操作タスクで高い成功率を達成しているが、ポリシーの実行速度が不十分タスクの成功率を損なうことなく、視覚運動ポリシーの実行効率を向上させる自己教師あり学習手法「 DemoSpeedup」を提案

論文まとめ（25/36）   83  手法の概要デモンストレーションデータをエントロピーに基づいてどこを高速化できるか特定し、それを用いて高速でタスクを遂行できるポリシーを学習 1. 元の速度のデータで「プロキシポリシー（模倣学習を使用した仮モデル）」を学習。このポリシーを使い、デモ内の各動作にどれくらいの選択肢があるかをアクションエントロピーとして計算
2. 軌道を分割: エントロピーが低い部分は「高精度な操作（例：物を掴む）」、高い部分は「カジュアルな操作（例：空中で接近する）」と判断し、軌道を自動で分割 3. 可変速度で高速化: 高精度な部分はあまり変えず、カジュアルな部分だけを重点的に間引いて高速化方策の高速化だけではなく、データのHorizonが短くなるのでスコアも少し良くなった。

84  SAIL: Faster-than-Demonstration Execution of Imitation Learning Policies 著者名： Nadun
Ranawaka Arachchige, Zhenyang Chen, Wonsuhk Jung, Woo Chul Shin, Rohan Bansal, Pierre Barroso, Yu Hang He, Yingyan Celine Lin, Benjamin Joffe, Shreyas Kousik, Danfei Xu キーワード：Visuomotor Imitation, Robot Learning Systems, Manipulation 学習済みの視覚運動ポリシーを、デモンストレーションよりも速い速度で実行するにはどうすればよいか分布シフト、実行忠実度、システム遅延という相互に関連する課題を克服し、タスクの成功率を維持しながらスループットを大幅に向上論文まとめ（26/36）  

85  1. 問題：デモンストレーションより速く動けない模倣学習の限界 a. デモンストレーションの遅い速度のデータで学習したポリシーもこの「遅い動き」をそのまま受け継いでしまう b. 学習したポリシーを単純に速く実行したときの問題 i. 分布シフト：
実行速度を上げるとロボットの動力学的な挙動が変化し、コントローラーの追従エラーが増加。これにより、OODにはいりうまく推論できない。 ii. 実行忠実度：コントローラーの限界: 低レベルのロボットコントローラーは、速い目標軌道に正確に追従できない場合がある。物を掴むなどの精密な動作が必要な場面では、速度を落とす必要があり、すべての動作を一様に高速化することはできない。 iii. システム遅延：物理的な制約: センサー情報の取得やポリシーの計算には、避けられないレイテンシが存在し、この遅延は、ロボットを制御できるループの周波数に物理的な上限を課す。論文まとめ（26/36）  

論文まとめ（26/36）   86  手法 1. エラー適応型ガイダンス a. 前提 i. Diffusion
policyのClassifier-Free Guidanceは直前の予測の終わり部分をガイダンスとして次の予測を行うことで、予測と予測の間の食い違いをなくし、時間的に一貫性のある滑らかな動作を生成 b. エラー適応型ガイダンス i. ガイダンスの動的調整: ロボットの追従エラーを監視し、エラーが小さい場合は、直前の行動予測の続きを条件として次の行動を生成することで、時間的に一貫性のある滑らかな動作を促す。 ii. エラー発生時の対処: 逆に、追従エラーが大きい場合は、条件となる情報が信頼できないと判断し、ガイダンスを無効に

論文まとめ（26/36）   87  2. コントローラー不変な行動ターゲットと高忠実度制御コントローラー不変なターゲット : SAILはポリシーの予測ターゲットを、指令されたポーズではなく、実際にロボットが到達したポーズ（
reached pose）に変更高忠実度コントローラー: さらに、実行時にはデモ収集時とは別の、高速・高精度な追従に最適化された専用の高忠実度コントローラーを使用 3. 適応的な速度調整デモンストレーションデータをオフラインで分析し、動作の複雑性が高い領域や、グリッパーの開閉イベントが発生する箇所を「クリティカルな動作」として特定。ポリシーは行動予測と同時に、現在の動作がクリティカルかどうかのフラグも予測。そして、実行時にはそのフラグに応じて速度を動的に調整 4. システム遅延を考慮した行動スケジューリング連続動作の維持: 高速実行時にロボットが停止するのを防ぐため、 SAILは、新しい行動が計算されている間も、直前に計画された行動シーケンスの残りを実行し続ける。新しい行動シーケンスが届き次第、古いプランからシームレスに移行

論文まとめ（27/36）   88  Imitation Learning Based on Disentangled Representation Learning
of Behavioral Characteristics 著者名： Ryoga Oishi, Sho Sakaino, Toshiaki Tsuji キーワード：Imitation Learning, Disentangled representation learning 何をしたか人間からの修飾語による指示に応じて、ロボットがリアルタイムで行動を変化させることができる動作生成モデルを提案

論文まとめ（27/36）   89  1. CVAEによる動作生成人間の実演データを短い動作シーケンスに分割し、CVAEを用いて、現在のロボットの状態から次の動作を予測するモデルを学習。 2. Disentangled
Representation Learningによる指示と動作の関連付け CVAEが学習する潜在変数の一部に制約をかけ、特定の修飾語指示（例：速度、力加減）と対応付ける Disentangled Representation Learningを導入。学習時には、実演データに付与された「速い/遅い」といった弱い教師ラベルを潜在変数から予測させ、その誤差を最小化。 3. Action Chunkingによるオンラインでの滑らかな動作生成タスク実行中に指示が変更された際、動作が急激に変化して不安定になるのを防ぐため、モデルが予測した未来の動作シーケンスと過去の予測結果を重み付きで平均することで、滑らかな動作遷移を実現する

論文まとめ（28/36）   90  Data Retrieval with Importance Weights for Few-Shot
Imitation Learning 著者名： Amber Xie, Rahul Chand, Dorsa Sadigh, Joey Hejna キーワード：Imitation Learning, Data retrieval, Few shot learning 何をしたか Few shot Imitation learningにおけるDatasetのRetrievalを確率的な視点（重要度サンプリング）から再解釈し、従来のヒューリスティックなアプローチの欠点を克服

論文まとめ（28/36）   91  手法 1. Representation Learning: まず、状態・行動のペア（またはそのシーケンス）を低潜在表現 zに変換するためのモデル f_ϕ
を学習。この部分は既存の手法（ Behavior Retrieval, Flow Retrieval, SAILORなど）がそれぞれ独自の方法で行っており、 IWRはこれらの既存の表現学習手法と組み合わせることが可能 2. 重要度重みの推定 : 学習した潜在空間上で、目標タスクのデータセット (D_t) と事前データセット (Dprior) のそれぞれのデータ分布 (p_t, p_prior) をガウスカーネル密度推を用いてモデル化。複数のターゲットデータ点が密集している領域にある事前データ点は、高く評価されるようにデータのバイアスを考慮できる。そして、事前データセット内の各データ点 z に対して、その重要度重み p_t(z)/p_prior(z) を計算。 3. データ検索 (Data Retrieval): 推定した重要度重みをスコアとして用い、スコアが高いデータを事前データセットから選択。 4. 方策学習: 最後に、元の目標タスクのデータ (D_t) と検索してきたデータ (D_ret) を合わせて、模倣学習の方策を学習

論文まとめ（29/36）   92  DexUMI: Using Human Hand as the Universal
Manipulation Interface for Dexterous Manipulation 著者名： Mengda Xu, Han Zhang, Yifan Hou, Zhenjia Xu, Linxi Fan, Manuela Veloso, Shuran Song キーワード：Dexterous Manipulation, Imitation Learning • テレオペレーションの進化 • 人間に外骨格装置を取り付けて、動作データを得る ◦ 動作データを集めやすい ◦ 映像などのギャップはあとから補正する • そのデータを用いて模倣学習

• 「DexUMI」というフレームワークを提案 ◦ ハードウェア適応：ロボットハンドごとに最適化されたウェアラブル外骨格を作成し装着、人間の動きをロボットの実現可能な動作に制約しつつ、直接的な触覚フィードバックを得つつタスクを行う。関節角度や触覚情報も同時に収集 ◦ ソフトウェア適応
：収集した映像から人間の手を消し、高忠実度なロボットハンドの映像を合成（Inpainting）することで、きれいな視覚データを手に入れる ◦ 模倣学習：得られたデータで模倣学習を行う方法：論文まとめ（29/36）  

論文まとめ（30/36）   94  Versatile Loco-Manipulation through Flexible Interlimb Coordination 著者名：
Xinghao Zhu, Yuxin Chen, Lingfeng Sun, Farzad Niroui, Simon Le Cleac’h, Jiuguang Wang, Kuan Fang キーワード：Locomanipulation, Whole-Body Control, RL 強化学習を用いて、タスクの要求に応じて柔軟に手足の役割を割り当て、協調させることで、多才なロコ・マニピュレーションを実現する

95  1. 1. タスクレベル: a. ユーザーからの多様な指示（直接的な目標軌道、接触点の指定、自然言語など）を受け取る。 b. これらの指示を、ロボットが実行可能な統一された形式、すなわち「各時刻における、操作担当の四肢の目標姿勢（ τ）と、各四肢の役割を示すバイナリマスク（
m）」の時系列データに変換。 c. マスク（m）は、各四肢がmanipulationに使われるか、locomotionに使われるかを指定する。 2. コマンドレベル: a. タスクレベルから受け取った目標姿勢（τ）とマスク（m）に基づき、ロボットの各関節を動かすための具体的なモーターコマンドを生成。 3. 操作モジュール (Manipulation Module) a. モデルベース（ MB）のコントローラー、具体的には逆運動学（IK）ソルバーなどが用いられ。これにより、指定された目標姿勢を正確に追従する関節の動きを計算 4. 移動モジュール (Locomotion Module) a. 強化学習によって訓練されたニューラルネットワークポリシーが用いる 5. これら2つのモジュールは、ただ独立して動くわけではなく、ロボットの状態と、タスクレベルから送られてくるマスク情報を共有し計算する。 a = m ◦ a_MB + (1 - m) ◦ a_RL 論文まとめ（30/36）  

96  Unsupervised Skill Discovery as Exploration for Learning Agile Locomotion
著者名： Seungeun Rho, Kartik Garg, Morgan Byrd, Sehoon Ha キーワード：Unsupervised Skill Discovery, Exploration, Locomotion, RL Unsupervised skill discoveryを通してロボットが自律的に多様なスキルを発見・獲得して、人手によるエンジニアリング（報酬設計、デモデータ、カリキュラム）を大幅に削減し、移動能力を学習できる新しいフレームワークを提案論文まとめ（31/36）  

論文まとめ（31/36）   97  手法 1. タスク報酬 (r_task)と多様性報酬 (r_div)の最大化 a. 多様性報酬は教師なしスキル発見アルゴリズムから得られる報酬
2. Bi-level Optimizationによる自動バランス調整 a. 方策 (π_θ) の学習: 方策は、r_task + λ * r_divを最大化するように学習し。これにより、タスクをこなしつつ、多様な行動もとる。 b. λ の学習: バランシングパラメータ λ は、「タスク報酬のみ」を最大化するように学習。 i. もし多様な行動を探査すること（多様性報酬）が、最終的にタスクの成功に役立つのであれば、λ の値は大きくなる 3. Unsupervised skill discovery a. 特定のスキル発見手法に依存しない汎用的なフレームワーク。この研究では、代表的な2つのアルゴリズム（DIAYNとMETRA）を用いてその有効性を検証

論文まとめ（32/36）   98  From Tabula Rasa to Emergent Abilities: Discovering
Robot Skills via Real-World Unsupervised Quality-Diversity 著者名： Luca Grillotti, Lisa Coiffard, Oscar Pang, Maxence Faldor, Antoine Cully キーワード：RL, Unsupervised Skill discovery 物理的なロボットが人間の介入を最小限に抑え、シミュレーションに頼らず実世界で直接、多様かつ高性能なスキルを自律的に発見し習得する

論文まとめ（32/36）   99  1. Quality-Diversity (QD) とモデルベース強化学習の融合: a. 多様で高性能なスキル群を発見する「Quality-Diversity Actor-Critic
(QDAC)」アルゴリズムを拡張。 b. 実世界でのデータ収集効率を高めるため、収集したデータから環境のモデルを学習し、そのモデル内でのシミュレーションを通じて方策を訓練する「DayDreamer」を基盤として採用 2. 安全性を考慮した効率的なスキル探索: a. ロボットの転倒などを防ぐため、安全な状態を維持する制約付き強化学習の枠組みを導入。 b. 安全に実行できたスキルを「レパートリー」として保存し、カーネル密度推定（KDE）を用いて次に試すべきスキルをサンプリング。 3. 教師なしでのスキル表現学習: a. 人間がスキルの特徴（例：足の接地パターン）を事前に定義しなくてもよいように、変分オートエンコーダ（VAE）を用いて、ロボットの関節角度などの生の観測データからスキルを表現するための潜在空間を自動で学習

論文まとめ（33/36）   100  Search-TTA: A Multimodal Test-Time Adaptation Framework for
Visual Search in the Wild 著者名： Derek Ming Siang Tan, Shailesh, Boyang Liu, Alok Raj, Qi Xuan Ang, Weiheng Dai, Tanishq Duhan, Jimmy Chiun, Yuhong Cao, Florian Shkurti, Guillaume Sartoretti キーワード：Imitation Learning, Manipulation, Demonstration Acceleration VLMのナビゲーションをする。マルチモーダルなテスト時適応フレームワーク「Search-TTA」を提案する

101  動物の写真などのQueryを受け取ってそれがいそうな場所を探索するような問題設定 1. 事前準備: 探索を始める前に、衛星画像と、テキストや画像、音声などの様々な情報から、目標物がいそうな場所の確率を示した地図（スコアマップ）を作成。 2. 探索中のリアルタイム修正:
探索中にロボットが集めた「発見した」「見つからなかった」という現場の情報を使って、AIモデルの予測を動的に修正し、スコアマップを賢く更新。テスト時適応により、最初の予測が不正確でも探索性能が向上論文まとめ（33/36）  

論文まとめ（34/36）   102  JaxRobotarium: Training and Deploying Multi-Robot Policies in
10 Minutes 著者名： Shalin Anand Jain, Jiazhen Liu, Siva Kailas, Harish Ravichandar キーワード：Unsupervised Skill Discovery, Exploration, Locomotion, RL マルチエージェント強化学習ポリシーの学習と実機展開を大幅に高速化する、Jax ベースのエンドツーエンドプラットフォーム「JaxRobotarium」を開発

論文まとめ（34/36）   103  背景 MARLの統一した実機のベンチマークやあってもシミュレーションでの学習速度が非常に遅い研究内容 1. 高速シミュレータの開発：既存のマルチロボットテスト「Robotarium」のための新しいシミュレータ「JaxRobotarium」をJAXで新たに開発することでGPUでの並列実行などを可能に
2. JaxMARLとの統合: 最先端のMARLライブラリJaxMARL との連携させ、研究者は既存の強化学習アルゴリズム（QMIX, MAPPOなど）を最小限の労力で利用し、マルチロボットの学習を開始できる 3. 標準化された8つのベンチマークシナリオ:　マルチロボット協調行動の学習と評価のために、標準化されたタスクセットを提供 4. 実機への直接展開パイプライン: シミュレーションで学習したポリシーを、遠隔で無償利用できる実世界のマルチロボットテストベッド「Robotarium」に直接アップロードして実行できるパイプラインを提供

論文まとめ（35/36）   104  Non-conflicting Energy Minimization in Reinforcement Learning based
Robot Control 著者名： Skand Peri, Akhil Perincherry, Bikram Pandit, Stefan Lee キーワード：Energy-efficient Locomotion, Reinforcement Learning タスクのパフォーマンスと競合することなくエネルギー消費を最小化する、ハイパーパラメータ不要の勾配最適化手法「 PEGrad」を提案

論文まとめ（35/36）   105  1. まず、タスクの性能を向上させるための勾配を計算。 2. 次に、エネルギー消費を削減するための勾配を計算。 3. そして、エネルギー削減のための勾配から、タスク性能に影響を与える成分を完全に取り除く。これは、エネルギー勾配をタス
ク勾配に対して「直交射影」するという数学的な処理によって実現。

論文まとめ（36/36）   106  Off Policy Lyapunov Stability in Reinforcement Learning
著者名： Sarvan Gill, Daniela Constantiescu キーワード：RL, Control, Lyapunov function Deep RLではリアプノフ関数を用いた安定的な学習法が存在オフポリシー RLで初めてリアプノフ関数を直接学習する新しい手法を提案リアプノフ関数とはシステムの安定性を証明以下の2つの主要な条件を満たす。 1. 正の値を持つ: 目標点で値がゼロになり、それ以外の全ての点で正の値を取る。 2. 時間とともに減少し続ける: システムの動きに沿って、関数の値は減少し続ける（または増加しない） https://www.ishikawa-nct.ac.jp/lab/E/y_kawai/www/data/course/CSD/24CSD/handouts/24CSD_lect10/24CSD_lect10_slide.pdf

論文まとめ（36/36）   107  研究のアプローチ: 1. オフポリシー・リアプノフ関数の学習: 状態だけでなく行動にも依存するニューラル・リアプノフ関数 L_η(s, a)
を学習。その期待値 L_η(s) = E_a∼πL_η(s, a) を用いることで、リアプノフの安定性条件を検証。 2. 既存アルゴリズムへの統合: 学習したオフポリシー・リアプノフ関数を、 SACとPPOに統合手法の特徴や新規性: • リアプノフ関数のリー微分の再定義: オフポリシーデータに対応するため、リー微分を現在の方策に明示的に依存する形で再定義。 • ハイパーパラメータによる調整: リアプノフ関数の最小減少率を制御するハイパーパラメータ µ と、方策更新におけるリアプノフ関数の影響度を調整するハイパーパラメータ β を導入し、学習を柔軟に調整できる

CoRL 2025 Survey

CoRL 2025 Survey

Other Decks in Technology

Featured

Transcript