Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CoRL2024サーベイ

 CoRL2024サーベイ

11/6-9にドイツで開催されたCoRL2024のサーベイ資料です.昨年に引き続き,動向や気づきに加えて特に興味深い論文を調査しました.

robotpaper.challenge

November 25, 2024
Tweet

More Decks by robotpaper.challenge

Other Decks in Research

Transcript

  1. CoRL2024の動向,気づき( 2/19) 投稿数/採択数 • CoRL 2024 ◦ 採択率: 38.1%(264 /

    693) 4 引用:Conference on Robot Learning (@corl_conf) / X ※速報値のため誤差あり
  2. CoRL2024の動向,気づき( 3/19) 査読について • 採用されるために必要な要件: ◦ ロボット学習との関連性を示すこと。 ◦ ロボットに対する学習課題を明示的に取り扱うこと。 ◦

    物理的ロボットを用いて手法がテストされていること。 • 却下(Reject)される場合: ✖学習が含まれない ✖ロボットが含まれない ✖ロボットに無関係な箇所で性能 UPがある場合 ▲ シミュレーションのみの場合( Rejectされる可能性が高い) • 評価に対して反論( rebuttal)の機会がある ◦ 学術誌の査読のように改善する機会が設けられており、 Reject相当であった投稿論文が改善後に採択に至ったケースもある。 ◦ このプロセスは OpenReviewを通じて公開される。 5
  3. CoRL2024の動向,気づき( 4/19) 注目された論文 : Outstanding Paper Award* 🎉PoliFormer: Scaling On-Policy

    RL with Transformers Results in Masterful Navigators ▪ Kuo-Hao Zeng, Kiana Ehsani, Rose Hendrix, Jodi Salvador, Zichen Zhang, Alvaro Herrasti, Ross Girshick, Aniruddha Kembhavi, Luca Weihs 🎉One Model to Drift Them All ▪ Franck Djeumou, Thomas Jonathan Lew, NAN DING, Michael Thompson, Makoto Suminaka, Marcus Greiff, John Subostis 6 *https://www.corl.org/program/awards PoliFormer (Policy Transformer) One Model to Drift Them All
  4. CoRL2024の動向,気づき( 5/19) 注目された論文 : Outstanding Paper Award Finalists* 👍ReMiX: Optimizing

    Data Mixtures for Large Scale Imitation Learning ▪ Joey Hejna, Chethan Anand Bhateja, Yichen Jiang, Karl Pertsch, Dorsa Sadigh 👍Equivariant Diffusion Policy ▪ Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt 👍HumanPlus: Humanoid Shadowing and Imitation from Humans ▪ Zipeng Fu, Qingqing Zhao, Qi Wu, Gordon Wetzstein, Chelsea Finn 👍OpenVLA: An Open-Source Vision-Language-Action Model ▪ Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan P. Foster, Pannag R. Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn 7 *https://www.corl.org/program/awards
  5. CoRL2024の動向,気づき( 6/19) 8 Simulationへの回帰路線 環境生成モデル • DigitalCousin [Dai at al.,

    2024] • GENIMA [Shridhar et al., 2024] • ClutterGen [Jia and Chen, 2024] • GenSim2 [Hua et al., 2024] その他,スケールアップ系手法  RoVi-Aug [Chen et al., 2024]など • 実環境のデータを集め続けることは困難, シミュレーションのデータを活用に回帰している? • 意味的に一致する中間表現を使うことや,ロボットの身 体だけ入れ替えたデータを生成するなど • スケールアップに関してはこれから? ClutterGen [link],Jia et al., 2024 RoVi-Aug [link],Chen et al., 2024
  6. CoRL2024の動向,気づき( 7/19) LLM, VLM (MLLMs) の利用 • 言語や視覚情報がロボットの意思決定を支援 ◦ スキル分割

    , ターゲットの分類 : ▪ EXTRACT [Zhang et al., 2024] ▪ GenSim2 [Hua et al., 2024] ▪ A3VLM [Huang et al., 2024] ◦ Grasping: ▪ Deligrasp [Xie et al., 2024] ▪ OWG [Tziafas et al., 2024] ◦ 異常検知 : ▪ Contrastive λ-Repformer [Goko et al., 2024] ◦ Visual Grounding ▪ VLM-Grounder [Xu et al., 2024] ▪ Towards Open-World Grasping [Tziafas et al., 2024] ◦ Human Interaction ▪ Vocal Sandbox [Grannen et al., 2024] 9 * MLLMs = Multimodal Large Language Models EXTRACT (抜粋) [Zhang et al., 2024] Towards Open-World Grasping [Tziafas et al., 2024]
  7. CoRL2024の動向,気づき( 8/19) Embodiment • 学習モデル ◦ CrossFormer [Doshi et al.,

    2024] ◦ One Policy to Run Them All [Bohlinger et al.] • 新しい身体性に対するモデル開拓 ◦ UMI on Legs[Ha et al.], HumanPlus[Fu et al.], ◦ One model to Drift Them All [Djeumou et al.,] • データ拡張 ◦ SHADOW [Lepert et al., 2024] ◦ RoVi-Aug [Chen et al., 2024] 10 • Cross Embodiment Transferが多く見られるようになった印象 • Simulationに基づく学習や別のハードウェアを用いたデータ収集にも対 応することでEmbodimentの課題を解消する動きが多数。 • Robot以外のドメインデータを用いて環境に適用可能にする取り組み • 視点の違いで性能に不足する課題にも着実に焦点 CrossFormer 🦾[Doshi et al., 2024] One Policy to Run Them All [Bohlinder et al., 2024]
  8. CoRL2024の動向,気づき( 9/19) Diffusion Model/ Diffusion Policy (DP) の利用事例多数 • 拡散モデルをタイトルに有するモデル

    ◦ GenDP [Wang e al., 2024] , 3D Diffussor Actor, Equivariant DP, Sparse Diffusion Policy • その他のAction Headとして使っているものが多数( EquiBotなど) • データセットやハードウェアの基本的な事例として利用 ※査読者らが「 DP, ACTで検証せよ」と指示する事例も 11 • CVPR2024等の画像に関する学会と傾向は非常に近く,拡散モデルベースが研究が多い • 状態表現や入力に関する工夫 + Low-level (ロボットの動作を出力する部分 ) への適用 • 主に課題はデータ効率の方にあるため、アーキテクチャや学習過程を DPに譲り、データの運用が主 • CoRL2023, ICRA2024の傾向ではAction Chunking with Transformers (ACT)をlow-levelのモデルとして 利用した事例が多かったが、今回はほぼ DPであったように思う。 ◦ ACT = 時系列的なデータに対する利点がある( Chunkを用いた推論) ◦ DP = 入力がマルチモーダルである場合に利点,一方でコマ送りされる困る?
  9. CoRL2024の動向,気づき( 10/19) スキル獲得を目指した提案 • OpenVLA [Kim et al., 2024] ◦

    汎用的な大規模言語モデル( VLM)からActionを獲得。 • SkillMimicGen [Garret et al., 2024] ◦ 人間の少ない作業からデータを拡張。 • EXTRACT [Zhang et al., 2024] ◦ 視覚・言語モデル( VandL)からスキルを探索 12 • “OpenVLA [Kim+, 2024]” ,LLMを用いたアーキテクチャ を有するアクションモデルが登場. ◦ RT-X, Octoに続く流れ.オープンなコミュニティが発展 ◦ 視覚・言語モデルについで、ロボットの分野でも、パラメータの規模が10億(B)の単位に。 cf. ACT のパラメータは80M程度 • マルチタスクの発展のためには昨年から同様に十分なデータ量が必要である、という背景から… ①テレオペレーション用のシステム ②データトランスファー(Cross-Domain)③サンプル効率の向上 OpenVLA (抜粋)
  10. CoRL2024の動向,気づき( 11/19) 入力としての 3D表現とアーキテクチャの提案 • 3D Diffuser Actor • Gaussian-Particle

    • Event3DGS • Neural Attention Fields • GraspSplats • VoxAct-B • Cloth-Splatting 13 • 3D Gaussian Splatting [Kerbl et al, SIGGRAPH2023]の利用多数. ◦ NeRFより疎な点,高速,比較的高精度である点が評価 ◦ 出力にロボットの動作etc. になるように改良 • NeRFを改良したものも一部ある • 特徴量表現に昨年同様活用するものもある(3D DA) • 対象物にフォーカスを当てるVoxel,PointCloudはデータ効率 参考:3D Gaussian Splatting [Kerbl et al, SIGGRAPH2023] Cloth-Splatting [Longhini et al., 2024]
  11. CoRL2024の動向,気づき( 12/19) World Model*関連 • General Flow [Yuan et al.,

    2024] • Let Occ Flow [Liu et al., 2024] • Im2Flow2Act [Xu et al., 2024] • SIRIUS-FLEET [Liu et al., 2024] • Gaussian splatting ◦ Dynamic 3D Gaussian Tracking 14 • 画像から3DのTrajectoryを予測する手法がいくつか • ダイナミクスの推論 • Gaussian Splattingも利用 • 人間のデータからRobotの動きに変換可能なため, スケールアップが期待 General Flow [Yuan et al., 2024] Im2Flow2Act [Xu et al., 2024] *World Model=https://worldmodels.github.io/
  12. CoRL2024の動向,気づき( 13/19) データのサンプル効率 / 品質 • 幾何学的な表現を明示的に捉えるように学習する仕組み • そもそもどんなデータが必要かを議論するものもある データのサンプル効率に着目した研究

    • Equivariant Diffusion Policy [Wang et al., 2024] ◦ 対称性のある姿勢表現に着目 • Neural Attention Field 器用さに特徴がある関連研究 • ALOHA Unleashed [Zhao et al., 2024] • HumanPlus • OmniH2O 15 Equivariant Diffusion Policy [Wang et al., 2024] ALOHA Unleashed [Zhao et al., 2024]
  13. CoRL2024の動向,気づき( 14/19) ハードウェア CoRL2024の事例: • Wococo • HumanPLus • OpenTelevision

    • BiDex • TidyBot++ • UMI-on-Legs • 3D-ViTac 16 BiDex Wococo OpenTelevision HumanPlus 単腕のみ~双腕,多指, Mobile化へ • 遠隔操作ツール • 学習プロセスを工夫 • オープンなコミュニティ OpenSource x Low-cost x User-friend
  14. CoRL2024の動向,気づき( 15/19) Tactile • 物体の形をみる ◦ AnyRotate [Yang et al.,2024]

    • 人間の触覚の模倣学習 ◦ MimicTouch [Yu et al., 2024] • 触覚の特徴表現 ◦ T3 [Zhao et al., 2024] 17 • 視触覚センサを使う例が多い. • 人間によるデータ収集など用途の幅が広がりつつある • 表現学習に活用されるなど,データ量も大規模になりつつあ る.画像で触覚を表現するため, CVのモデルと相性がいい • MetaのSponsor talk同様,器用な操作やスケールアップにつ いて今後の発展が期待 T3 [Zhao et al., 2024] Mimictouch [Zhao et al., 2024] AnyRotate [Yang et al., 2024]
  15. CoRL2024の動向,気づき( 16/19) Google • RT-Trajectory ◦ VLMとActionをつなぐインターフェース • Demostart ◦

    少量のデモを利用し, Simulation上で物体操 作をカリキュラムベースで学習 • PIVOT ◦ VLMの知識をそのまま Actionに転用する • SpatialVLM ◦ VLMにActionに必要な物理的知識を学習さ せる 18 • ロボティクスや視覚と言語の融合による新 しいインターフェースや操作の可能性を示 唆。 • それぞれが異なる応用分野におけるロボッ トのパフォーマンスやユーザーの利便性を 向上を検討。 https://www.corl.org/program/sponsor-events
  16. CoRL2024の動向,気づき( 17/19) Meta • 触覚を利用した器用な操作,人間とのインタラクショ ンを実現する • Sparsh ◦ 触覚の大規模表現学習.いろんな視触覚センサや下流タス

    クに適応できる • Digit 360 https://ai.meta.com/blog/fair-robotics-open-source/ ◦ 平面のみセンシングの DIGITを改良し振動や音,匂い,熱を 感知できる • Digit Plexus https://digit.ml/plexus ◦ DIGIT 360を搭載した多指ハンド • PARTNR ◦ シミュレーションでの Human robot interactionに関するベン チマーク 19 Digit 360
  17. CoRL2024の動向,気づき( 18/19) Early carrier: Geogia Chalvatzaki • On the Quest

    for Robotic Embodied Intelligence: the Role of Structure in Robot Learning ◦ ロボットが環境に適応するために,認識と行動 を適切なフレームワークを設計する ◦ 実時間で Reactiveに認識して行動をしないとい けない. ◦ Active Perceptionをセンサとモータを連携して 行うことや,そのための特徴表現の設計や環境 ,ロボットのモデリングが重要である. 20
  18. CoRL2024の動向,気づき( 19/19) Keynote: Cordelia Schumid • Multimodal video understanding &

    vision-language guided robotics ◦ ロボットがどう環境と Interactionするかを教示するた めにVideoの理解は重要.その中で言語の理解と環 境モデリングが必要 ◦ DenseVideoCaptioninigでVid2Seq.Videoとスピー チの文字起こしを入力にする ◦ MoReVQAでモジュール分割の利用. JCEFではVLM でキャプション出した後に QをLLMに入れる.プロンプ トとそれぞれに役割を与えた複数の LLMとDetection モジュールを組み合わせる ◦ 3D LOTUS++でLLMとSAMを使って入力を 3Dセグメン トにする ◦ 3D表現を使った Manipulation(3D Diffusor actor, RVT2など)やベンチマーク( Gembench)を提案 21
  19. 論文まとめ( 1/78) Bimanual Dexterity for Complex Task • Kenneth Shaw,

    Yulong Li, Jiahui Yang Mohan Kumar Srirama Ray Liu Haoyu Xiong, Russell Mendonca, Deepak Pathak  ◦ 双腕 x 指(4~5本) x モバイル x 遠隔操作、に関するハードウェアの提案 ◦ 手先の動作計測用のグローブを利用した指先の操作と、従来法( LEAPHAND, GELLO, ALOHA) のアイディアを複数採用して、扱いやすさ実現。 ◦ 検証において、 Apple Vision ProなどのVRデバイスを用いたポピュラーな遠隔操縦法に対して 成功率・タクトタイムの観点から利点があることを示した。 23 参考:https://bidex-teleop.github.io/  
  20. 論文まとめ( 2/78) RP1M: A Large-Scale Motion Dataset for Piano Playing

    with Bimanual Dexterous Robot Hands • Yi Zhao, Le Chen, Jan Schneider, Quankai Gao, Juho Kannala, Bernhard Scholkopf, Joni Pajarinen, Dieter Buchler (MPI-IS etc.) ◦ 2000曲(著作権を考慮しなくてよい古典的な楽曲)に 500回分のエキスパートの演奏を利用。 合 計で100万の両手での操作情報に関するデータセットを構築 し、両手演奏を目指す。 ◦ MIDI(演奏データのための共通規格)から運指を RLをベースに獲得。 ◦ Cost Matrixについて鍵盤と指先の距離によって報酬を設 定し、Sim上での演奏を実現。 24 参考:https://rp1m.github.io/
  21. 論文まとめ( 3/78) Generative Image as Action Models • Mohit Shridhar,

    Yat Long Lo , Stephen James (Dyson Robot Learning Lab.) ◦ Stable Diffusion のFine-tuneを行う過程から関節の動きをより明確に理解する。この処理を含 む模倣学習に関する手法。 ◦ 画像中のロボットの関節を陽に理解する(=画像中に関節を描く)ことは、 ”身体性”は勿論のこ と”物理的属性の表現 ”を獲得する可能性を示唆。 ◦ 現実のロボットの動作も実現 していることで。 ”見え”の問題の回避策 の一つ。 25 https://genima-robot.github.io/
  22. 論文まとめ( 4/78) Event3DGS: Event-Based 3D Gaussian Splatting for High-Speed Robot

    Egomotion • Tianyi Xiong*, Jiayi Wu*, Botao He, Cornelia Fermuller, Yiannis Aloimonos, Heng Huang, Christopher A. Metzler (University of Maryland, College Park) ◦ 3D Gaussian Splatting(3DGS)の弱点は移動視点の場合の ブラー(ブレ)。 ドローンに搭載され るカメラなどだと課題。 → 高FPSかつ低遅延が特徴の イベントカメラによる 3DGS。 ◦ イベントカメラを用いて 3DGSを拡張:入力に対する処理に対して、サンプリングされたイベントに 対してレンダリングの差分を考慮して最適化を行う。これによってブラーによる曖昧さを解消し一 貫性のあるシーン復元を試みる。 ◦ 従来のイベントベースの手法に対してクオリティが向上。 計算のコストが 95%削減。 26 https://tyxiong23.github.io/event3dgs
  23. 論文まとめ( 5/78) General Flow as Foundation Affordance for Scalable Robot

    Learning • Chengbo Yuan, Chuan Wen, Tong Zhang, Yang Gao (Tsinghua University) ◦ 3Dフロー(物体上の 3Dポイントの未来の軌跡)を予測ターゲットとして用い、 人の動作から現実 世界の操作スキルを獲得する こと目指す。シーンに対して、スケーラブルならラベル付けを含む 汎用的なロボット学習の枠組みを想定している。 ◦ 言語に基づいた 3Dフロー予測モデル を提案。事前学習のなしにタスクを実行を想定。 ◦ ロボット実験から 81%でzero-shotタスク を実現 27 参考:https://general-flow.github.io/   
  24. 論文まとめ( 6/78) ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data

    • Zeyi Liu, Cheng Chi, Eric Cousineau, Naveen Kuppuswamy, Benjamin Burchfiel, Shuran Song (Stanford University ect.) ◦ Contact rich (≒繊細な接触 )な把持のために音声信号を利用。 ◦ Universal Manipulation Interface (UMI)に小型のマイクロフォンを搭載し微細な振動を取得。 ◦ 視覚情報、音声情報 (Mel-Spectrogram)、行動の関連性から動作の成功率の向上を実現 28 https://maniwav.github.io/
  25. 論文まとめ( 7/78) Learning Robot Soccer from Egocentric Vision with Deep

    Reinforcement Learning • Dhruva Tirumala et al. (Google DeepMind etc.) ◦ マルチエージェント(複数ロボット)による深層強化学習。シミュレーションによるロボットがサッ カーをするデータを収集: Neural Radiance Fields (NeRFs)の技術を用いて視覚情報を現実味の ある画像に補正 している。 ◦ ロボット視点のデータのみで複数体かつ長期的な動作計画。特にエージェント(ロボット)、物体 (ボール)をトラッキングを含めることで探索する行動を得ている。 29 https://sites.google.com/view/vision-soccer
  26. 論文まとめ( 8/78) Implicit Grasp Diffusion: Bridging the Gap between Dense

    Prediction and Sampling-based Grasping • Pinhao Song, Pengteng Li, Renaud Detry (KU Leuven etc.) ◦ 三次元の暗黙的( Implicit)なニューラル表現 に対する把持評価・検出モデル ▪ 疎なサンプルに適当な表現を用いて、良質な特徴(掴み方・形状)を見出すことに焦点 ◦ 把持点特徴に特化した局所特徴の検出のためのアーキテクチャを提案 ◦ 拡散過程による把持検出の不安定さに対し、 アフォーダンス評価・把持分類の二段階の手続き を用いることで把持評価を安定化 30 https://gitlab.kuleuven.be/detry-lab/public/implicit-grasp-diffusion 単なるサンプリングでなく局所の特徴を抽出する為のDeformableなアーキテクチャが採用→ Deformable DERTをベース [link]
  27. 論文まとめ( 9/78) RiEMann: Near Real-Time SE(3)-Equivariant Robot Manipulation without Point

    Cloud Segmentation • Chongkai Gao et al. (National University of Singapore etc.) ◦ 物体の姿勢推定を含む方策学習のフレームワークを提案。点群のセグメンテーションをせずに 物体の位置と姿勢を推定することでリアルタイムに近い速度で推論可能。 ◦ Saliency Net (顕著さ推定モデル )から①物体の位置(≃セグメンテーション)の識別、②点群の方 向を推論してベクトル空間を構成、これは姿勢の不変性の獲得に寄与している。 ◦ ロボットマニピュレーションタスクによる検証を実施して、精度・高速性を確認。 31
  28. 論文まとめ( 10/78) Shelf-Supervised Cross-Modal Pre-Training for 3D Object Detection •

    Mehar Khurana, Neehar Peri, James Hays, Deva Ramanan (IIIT Delhi, etc. ) ◦ RGBとLiDARデータからゼロショットの 3Dバウンディングボックス (BB)を生成するための「自己教 師あり」アプローチ ◦ 視覚モデル( Detic, SAM)を物体の検出に活用 →2Dのマスクを 3D-BBに変換するシステム。 32 https://github.com/meharkhurana03/cm3d
  29. 論文まとめ( 11/78) Automated Creation of Digital Cousins for Robust Policy

    Learning • Tianyuan Dai, Josiah Wong, Yunfan Jiang, Chen Wang, Cem Gokmen, Ruohan Zhang, Jiajun Wu, Li Fei-Fei ◦ 提案:Digital Cousins=現実世界から類似した幾何学的 , 意味的な特性を持つ仮想的なシーン ◦ “Digital Cousins”を自動生成する手法を提案し、学習時のドメイン間のギャップの解消。 ◦ 方策学習を通じて、 Zero-shotの性能に大きな改善が見られた。 33 https://digital-cousins.github.io/
  30. 論文まとめ( 12/78) RoVi-Aug: Robot and Viewpoint Augmentation for Cross-Embodiment Robot

    Learning • Lawrence Yunliang Chen, Chenfeng Xu, Karthik Dharmarajan, Muhammad Zubair Irshad, Richard Cheng, Kurt Keutzer, Masayoshi Tomizuka, Quan Vuong, Ken Goldberg ◦ ロボットやカメラの違いを画像生成モデルを用いて「別のロボットモデル、別の視点」などを入れ 込み、汎用性を拡張。 ◦ 未知の環境に対する Zero-shot性能が向上し、最大で 30%の成功率の向上が見られた。 34 https://rovi-aug.github.io/
  31. 論文まとめ( 13/78) Dynamics-Guided Diffusion Model for Sensor-less Robot Manipulator Design

    • Xiaomeng Xu, Huy Ha, Shuran Song ◦ タスクに特化したマニピュレータのデザインを生成するデータ駆動型モデル ◦ 物体の形状に対して、任意の姿勢に修正する為の指の形状デザインを拡散モデルを通じて生 成。任意の言語の姿勢から物体の姿勢・移動等に対応した動作の要求を含めている。 ◦ 0.8秒以内と高速に新デザインの生成が可能。今後のデータドリブンなメカデザインの可能性 35 https://dgdmcorl.github.io/
  32. 論文まとめ( 14/78) Differentiable Robot Rendering • Ruoshi Liu, Alper Canberk,

    Shuran Song, Carl Vondrick ◦ 視覚データとアクションデータの間のギャップの課題に対してロボットの外観をその制御パラメー タに対して直接微分可能にする。 ◦ Kinematicsに基づく可変なモデルと Gaussion Splattingを組み合わせてロボットの違いに汎化。 ピクセルから直接ロボット制御のための効果的な勾配を提供。 36 https://drrobot.cs.columbia.edu/
  33. 論文まとめ( 15/78) Play to the Score: Stage-Guided Dynamic Multi-Sensory Fusion

    for Robotic Manipulation • Ruoxuan Feng, Di Hu, Wenke Ma, Xuelong Li ◦ 複数種類の観測情報(音声、画像、触覚)を動作の段階ごと(サブゴール)に切り替えて利用。 細かい動きと粗い動きの分類を行うモデルが特徴的 ◦ Peg-in-Holeタスクや飲料を注ぐタスクなどの難しいタスクを実現。 37 https://gewu-lab.github.io/MS-Bot/
  34. 論文まとめ( 16/78) TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot

    Learning • Jimmy Wu et al. (Princeton Univ, etc. ) ◦ 安価で頑丈で柔軟なモバイルマニピュレータのオープンソース設計(下図)を提案。 ◦ データ収集のプラットフォームをして利用を拡大することを目指している。 ◦ テレオペデータの収集ならびに模倣学習( Diffusion policy)によって動作を確認。 38 https://tidybot2.github.io/
  35. 論文まとめ( 17/78) SonicSense: Object Perception from In-Hand Acoustic Vibration •

    Jiaxun Liu and Boyuan Chen (Duke University) ◦ 指先のコンタクトマイクから微細な振動を取得し、材質の分類や形状の理解を実現 ◦ ハンドのデザインと接触情報から MLP等を用いた推論のプロセスが主な貢献点。 ◦ ノイズへのロバスト性、形状の再構成、材質分類の性能に 対して手法の有効性を評価。 39 http://www.generalroboticslab.com/blogs/blog/2024-06-26-sonicsense/index.html
  36. 論文まとめ( 18/78) GenSim2: Scaling Robot Data Generation with Multi-modal and

    Reasoning LLMs • Pu Hua, Minghuan Liu, Annabella Macaluso, Yunfeng Lin, Weinan Zhang, Huazhe Xu, Lirui Wang ◦ 複雑で現実的なシミュレーションタスク作成のためのマルチモーダルおよび推論機能を備えた LLMの活用・スケーラブルなフレームワーク ◦ LLMをベースにしたシミュレーションシーン・ タスクの Simを生成。 MLLMsから動作生成。 ◦ 動作データに対して Sim2Real等を考慮して動作実現 40 https://gensim2.github.io/
  37. 論文まとめ( 19/78) Text2Interaction: Establishing Safe and Preferable Human-Robot Interaction •

    Jakob Thumm, Christopher Agia, Marco Pavone, Matthias Althoff ◦ LLMでTask, Motion, Controlの3レベルでユーザに適応する協調モデル ◦ タスク成功率とユーザ満足度を最大化する動作計画を探索する手法で、報酬による軌道修正な しにzero-shotでユーザの好みを満足可能に ◦ 18名の被験者実験で 83%がText2Interactionの計画した動作が好みに合致すると、 94%がベースラインと比較して良好な動作であると回答 41 https://sites.google.com/view/text2interaction
  38. 論文まとめ( 20/78) Fleet Supervisor Allocation: A Submodular Maximization Approach •

    Oguzhan Akcin, Ahmet Ege Tanriverdi, Kaan Kale, Sandeep P. Chinchali ◦ 複数のロボットを人間が遠隔監視して効率よくデータ収集するための方策の提案.遠隔地での ネットワークの接続不確実性を考慮し、データの多様性や有益性を最適化する. ◦ より少数の集合にデータを足した場合が多数の集合にデータを足した場合よりも利益を得られ るsubmodularityを考慮し、データの多様性を担保 ◦ 100台のロボットを稼働したシミュレーションで監督者の労力を最大で 3.37倍まで向上 42 https://utaustin-swarmlab.github.io/2024/09/19/FleetSupervisorAllocation.html
  39. 論文まとめ( 21/78) Lifelong Autonomous Fine-Tuning of Navigation Foundation Models in

    the Wild • Kyle Stachowicz, Lydia Ignatova, Sergey Levine ◦ オフライン事前学習+オンライン fine-tuningの強化学習によるナビゲーションの継続学習 ◦ 実環境で得たフィードバックを基にオンタイムにモデルを学習,現在のシナリオに応対する ◦ 実際のオフィスビル内で継続学習により 40%→75%まで目標到達率を向上 43 https://kylesta.ch/lifelong-nav-rl/
  40. 論文まとめ( 22/78) Vocal Sandbox: Continual Learning and Adaptation for Situated

    Human-Robot Collaboration • Jennifer Grannen, Siddharth Karamcheti, Suvir Mirchandani, Percy Liang, Dorsa Sadigh ◦ 対話や動作教示のフィードバックを学習し反映する 人ロボット協働フレームワーク ◦ 主に対話で高次のプランニング、直接教示やキー ポイント教示で低次のプランニングに適応 ◦ 教示によって新規の対象物や動作(既存の動作の 組や直接教示)を APIに組み込み可能とした ◦ 2つの協働タスクで平均 17の高次スキル、 16の 低次スキルを追加し、 22.1%の監視労力を削減 44 https://vocal-sandbox.github.io/
  41. 論文まとめ( 23/78) Surgical Robot Transformer (SRT): Imitation Learning for Surgical

    Tasks • Ji Woong Kim, Tony Z. Zhao, Samuel Schmidgall, Anton Deguet, Marin Kobilarov, Chelsea Finn, Axel Krieger ◦ 手術ロボット da Vinciの順運動学精度が低い問題に対して、ツール・カメラを基準にした 相対動作を定義して模倣学習する ◦ 3つの手術動作で絶対位置と比較して高精度な動作生成を実現 ◦ これまでの低精度な臨床データでも修正なしに利用できる可能性に期待 45 https://surgical-robot-transformer.github.io/
  42. 論文まとめ( 24/78) Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation,

    Locomotion and Aviation • Ria Doshi, Homer Rich Walke, Oier Mees, Sudeep Dasari, Sergey Levine ◦ 多種ロボットのデータを活用できる Transformerベースの方策を提案 ◦ Seq2seqの模倣学習問題として各モダリティをトークン化、共通の Transformerデコーダを 経た後ロボットごとの動作に変換される ◦ 20種のロボットで 900Kに及ぶ系列データを学習し、全体でベースラインより高いパフォーマンス を記録 46 https://crossformer-model.github.io/
  43. 論文まとめ( 25/78) ReMix: Optimizing Data Mixtures for Large Scale Imitation

    Learning • Joey Hejna, Chethan Anand Bhateja, Yichen Jiang, Karl Pertsch, Dorsa Sadigh ◦ 大規模データセットの学習におけるドメイン毎の重み付けを最適化する ReMix手法を提案 ◦ Distributionally robust optimizationにより困難なドメインほど重視して訓練されるような 重み付けパラメータを導入する ◦ 均等な重み付けと比べて 38%、人手による重み付けと比べて 32%タスク成功率が向上 https://github.com/jhejna/remix 47
  44. 論文まとめ( 26/78) ACE: A Cross-platform and visual-Exoskeletons System for Low-Cost

    Dexterous Teleoperation • Shiqi Yang, Minghuan Liu, Yuzhe Qin, Runyu Ding, Jialong Li, Xuxin Cheng, Ruihan Yang, Sha Yi, Xiaolong Wang ◦ 低コストに作成できる外骨格型遠隔操作デバイスの提案 ◦ 3Dプリントの外骨格と手の姿勢を捉えるカメラで構成しヒューマノイドやハンドも操縦可能 48 https://ace-teleop.github.io/
  45. 論文まとめ( 27/78) JointMotion: Joint Self-Supervision for Joint Motion Prediction •

    Royden Wagner, Omer Sahin Tas, Marvin Klemp, Carlos Fernandez ◦ 自動運転における動作予測のための自己教師あり (SSL) 事前学習手法 JointMotionの提案 ◦ 運転系列データと環境情報を結びつけるシーンレベルの SSLと交通エージェントの位置を復元 するインスタンスレベルの SSLで構成 ◦ 最終的な変位誤差を 3~12%削減、Waymo Open MotionとArgoverse 2 Motion Forecasting間 の転移学習を可能にした 49 https://github.com/kit-mrt/future-motion
  46. 論文まとめ( 28/78) Adaptive Language-Guided Abstraction from Contrastive Explanations • Andi

    Peng, Belinda Z. Li, Ilia Sucholutsky, Nishanth Kumar, Julie Shah, Jacob Andreas, Andreea Bobu ◦ 言語モデルにより実演を説明する過程で見つけた特徴を逆強化学習の報酬推定に組み込む ◦ 特徴の発見 (feature specification) と報酬の更新 (reward validation) を反復的に繰り返す ◦ 特徴記述が欠けたシーンで不足した特徴を補い報酬関数の学習に加える機能が実現 50 https://sites.google.com/view/stabilizetoact
  47. 論文まとめ( 29/78) RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic

    Manipulation • Yuxuan Kuang, Junjie Ye, Haoran Geng, Jiageng Mao, Congyue Deng, Leonidas Guibas, He Wang, Yue Wang ◦ 多様なドメイン外データソースから学習した 2Dアフォーダンスを 3Dアフォーダンスに変換して Zero-shotにマニピュレーションするフレームワークの提案 ◦ 2Dアフォーダンスの検索 →3Dアフォーダンスのサンプリングにより動作を決定 ◦ 未知の環境・物体に対してベースラインより平均 10~30%程度高い精度を記録 51 https://yuxuank.com/RAM/
  48. 論文まとめ( 30/78) MILES: Making Imitation Learning Easy with Self-Supervision •

    Georgios Papagiannis, Edward Johns ◦ 1回のデモンストレーションと環境リセットのみで政策学習を完全に自律的に行う ◦ 経由点を複数とって,それぞれをランダムに変化させて元の経由点に復帰するように行動する. 手先の到達可能性と環境の外乱を許容できるならば新たなデモとして学習する ◦ 接触を含む複雑なタスクにおいて強化学習,模倣学習のいくつかの手法よりも高い成功率 ◦ ccc 52 https://www.robot-learning.uk/miles
  49. 論文まとめ( 31/78) RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches •

    Priya Sundaresan, Quan Vuong, Jiayuan Gu, Peng Xu, Ted Xiao, Sean Kirmani, Tianhe Yu, Michael Stark, Ajinkya Jain, Karol Hausman, Dorsa Sadigh, Jeannette Bohg, Stefan Schaal ◦ ゴール記述でスケッチ入力を可能にしたフレームワーク.スケッチデータは手書きで生成したも のとロボットに関係ないデータを混ぜて Pix2Pixを学習し, Image2Sketchしたデータを使って Policyを学習する.色入力や Sobelfilterでの画像もデータに加える ◦ 言語の曖昧さや視覚の外乱に対して頑健な操作ができる 53
  50. 論文まとめ( 32/78) OpenVLA: An Open-Source Vision-Language-Action Model • Moo Jin

    Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan P Foster, Pannag R Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn ◦ PrismaticVLMをFine-tuningしたAction生成モデル ◦ マルチタスク学習では VLAのなかでは最も性能がよく, LoRA-FTやFull-FTが効果的.シングルタ スク学習でもタスクによっては Diffusionpolicyを超える ◦ 見た目や物理的特性の違いに対して特に性能が高い 54
  51. 論文まとめ( 33/78) Open-TeleVision: Teleoperation with Immersive Active Visual Feedback •

    Xuxin Cheng, Jialong Li, Shiqi Yang, Ge Yang, Xiaolong Wang ◦ 双腕多指,視点の遠隔操作を可能にしつつ,模倣学習まで実行する ◦ Vuerで手と頭の動きを収集する. Unitree H1とGR-1に頭部カメラを取り付けたものを使う.カメラ は3自由度の姿勢変化を可能にしている. ◦ ステレオ視を入れることや視点変化がタスク成功に寄与している 55
  52. 論文まとめ( 34/78) Autonomous Interactive Correction MLLM for Robust Robotic Manipulation

    • Chuyan Xiong, Chengyu Shen, Xiaoqi Li, Kaichen Zhou, Jiaming Liu, Ruiping Wang, Hao Dong ◦ MLLMを使って失敗からのリカバリーを計画する. ◦ 失敗するエリアと操作位置,方向を入力として,失敗しないエリア内で適切な操作位置と方向を 推定する. ◦ 実際の行動結果の再学習によって試行の成功をもとに実際のシーンに適応する 56
  53. 論文まとめ( 35/78) FetchBench: A Simulation Benchmark for Robot Fetching •

    Beining Han, Meenal Parakh, Derek Geng, Jack A Defay, Gan Luyang, Jia Deng ◦ 物体の探索やアプローチ,把持を含めたシミュレーションでのベンチマーク ◦ 手続き的にシーンを生成するため制限がなく,物体数がこれまでより最も多い ◦ Imitation Learningを行うための軌道データセット生成も可能で, sense-plan-act pipelineで自動 生成している. ◦ PointCloudを入力とした手法において最大20%という低い成功率となっており高難度 57
  54. 論文まとめ( 36/78) DexGraspNet 2.0: Learning Generative Dexterous Grasping in Large-scale

    Synthetic Cluttered Scenes • Jialiang Zhang, Haoran Liu, Danshi Li, XinQiang Yu, Haoran Geng, Yufei Ding, Jiayi Chen, He Wang ◦ シミュレーションでのバラ積みシーンからの多指ハンド把持の学習 ◦ PointCloudを入力として,把持の性能と物体かテーブルかのセグメントを MLPで,把持姿勢を Diffusion modelで推定する. ◦ GraspNet-1BやShapeNetでのバラ積みシーンに高い成功率,実環境でも追加学習なしでいい 58
  55. 論文まとめ( 37/78) OrbitGrasp: SE(3)-Equivariant Grasp Learning • Boce Hu, Xupeng

    Zhu, Dian Wang, Zihao Dong, Haojie Huang, Chenghao Wang, Robin Walters, Robert Platt ◦ Orbit pose(位置と法線方向,アプローチ方向を持った姿勢の表現)で把持を実現する ◦ 連続値空間での最適化となっているため,サンプリングベースの手法に比べて精度が高い ◦ シミュレーション,実環境において高い把持成功率 59
  56. 論文まとめ( 38/78) Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving

    • Kairui Ding, Boyuan Chen, Yuchen Su, Huan-ang Gao, Bu Jin, Chonghao Sima, Xiaohui Li, Wuqiang Zhang, Paul Barsch, Hongyang Li, Hao Zhao ◦ 自動運転の認識,予測,行動と言語の Alignmentを行う.タスクの中間出力を Mixingして言語モ デルに入力することでリッチな情報を与える. ◦ VQAや動作コマンド予測などの言語ベースの自動運転タスクの中で高い性能を出している. 60
  57. 論文まとめ( 39/78) Manipulate-Anything: Automating Real-World Robots using Vision-Language Models •

    Jiafei Duan, Wentao Yuan, Wilbert Pumacay, Yi Ru Wang, Kiana Ehsani, Dieter Fox, Ranjay Krishna ◦ VLMを使って, Privilegedな情報とマニュアル設計のスキルを必要とせずに実環境で動作可能 にする ◦ サブタスク分割の後に,別モジュールでの把持生成結果と軌道を VLMから生成する.成功判定 も兼ねることで全自動化し,容易なスケールアップと質の向上を可能にしている. 61
  58. 論文まとめ( 40/78) Pre-emptive Action Revision by Environmental Feedback for Embodied

    Instruction Following Agents • Jinyeon Kim, Cheolhong Min, Byeonghwi Kim, Jonghyun Choi ◦ タスクに対して環境の状態のフィードバックによって Actionを切り替える ◦ 失敗する前に認識の情報を加えることで予定した動作を修正する ◦ 環境内の物体の場所や他の物体やロボットとの位置関係,物理的な状態を利用する ◦ TEAChやALFREDベンチマークで高い成功率 62
  59. 論文まとめ( 41/78) Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction

    • Yili Liu, Linzhan Mou, Xuan Yu, Chenrui Han, Sitong Mao, Rong Xiong, Yue Wang ◦ 複数フレームの画像から 3DでのOccupancy Flowを推定する ◦ 3Dのアノテーションを必要とせず, tenporal fusionによって, 3DのOccupancy, Flowを推定す る.この推定結果を 2DのOptical flowに変換したものや warpingしたフレーム画像との Lossをと ることで SSLを可能にしている. 63
  60. 論文まとめ( 42/78) Q-SLAM: Quadric Representations for Monocular SLAM • Chensheng

    Peng, Chenfeng Xu, Yue Wang, Mingyu Ding, Heng Yang, Masayoshi Tomizuka, Kurt Keutzer, Marco Pavone, Wei Zhan ◦ 2次曲線で物体を表現する SLAM.Depthを2次曲線にフィッティングするように修正した後に ,3DSceneを構成する ◦ この表現を学習にも反映させるために Attention構造に同じ 2次曲線に属するものは同じような 特徴となる仕組み取り入れている 64
  61. 論文まとめ( 43/78) TRANSIC: Sim-to-Real Policy Transfer by Learning from Online

    Correction • Yunfan Jiang, Chen Wang, Ruohan Zhang, Jiajun Wu, Li Fei-Fei ◦ Priorを人間から取り入れて Sim2realのギャップを埋める ◦ 動作途中の介入とオンラインでの動作修正を行い,この結果とシミュレーションで学習したポリ シーを統合するように Residual policyを学習する. ◦ 組み立てなどの Contact-richなタスクにおいて特に高い効果を発揮 65
  62. 論文まとめ( 44/78) Learning Visual Parkour from Generated Images • Alan

    Yu, Ge Yang, Ran Choi, Yajvan Ravan, John Leonard, Phillip Isola ◦ 生成画像のみで学習した Policyで四足歩行をおこなう ◦ Height mapを基地としているエキスパートからのラベルをベースに, LucidSimから出力された 生成画像に対して Actionを出力する Transformerを学習する ◦ Domain Randomizationを凌駕し, Depthのみに匹敵する性能を出している. 66
  63. 論文まとめ( 45/78) Dreamitate: Real-World Visuomotor Policy Learning via Video Generation

    • Junbang Liang, Ruoshi Liu, Ege Ozguroglu, Sruthi Sudhakar, Achal Dave, Pavel Tokmakov, Shuran Song, Carl Vondrick ◦ 画像とToolの3Dモデルと接触点を入力として生成した動画を利用し Policyを実行する ◦ 人間が造作し, Stereoでツールをトラッキングした動画と最初のフレームを入力として Stable Video Diffusionで生成する ◦ Diffusion policyなどより性能が高く,データの質が良い 67
  64. 論文まとめ( 46/78) Visual Manipulation with Legs • Xialin He, Chengjing

    Yuan, Wenxuan Zhou, Ruihan Yang, David Held, Xiaolong Wang ◦ 四足歩行ロボットの足を使った Pushing操作 ◦ 操作モードを Stateで用意しておいて,操作する前足の左右を判断して,足を上げた時の重心移 動を考慮しつつ,操作が終了すると歩行モードに切り替える ◦ 変換された PointCloudを入力として, HeatmapのQ値が最も高い動作パターンで左右を選択し Low-levelにMPCとインピーダンス制御でトルクコマンドを出力する. 68
  65. 論文まとめ( 47/78) Neural Attention Field: Emerging Point Relevance in 3D

    Scenes for One-Shot Dexterous Grasping • Qianxu Wang, Congyue Deng, Tyler Ga Wei Lum, Yuanpei Chen, Yaodong Yang, Jeannette Bohg, Yixin Zhu, Leonidas Guibas ◦ 点と点の関係に注目した特徴量空間を設計することでタスクに関係ある空間に焦点を当て ,One-shotのDemonstrationからGeneralな把持を実現する ◦ SourceとTargetで同じ物体があった時に,それらの特徴量を近づけるように SSLをおこなう ◦ Sourceで与えた把持位置を Targetに転移するように SourceとTarget特徴量の差分の最小を採 用して把持を行う 69
  66. 論文まとめ( 48/78) LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning •

    Dantong Niu, Yuvan Sharma, Giscard Biamby, Jerome Quenum, Yutong Bai, Baifeng Shi, Trevor Darrell, Roei Herzig ◦ プロンプト設計と画像内での中間軌道の参照によるロボット操作の Instruction Tuning ◦ ロボット名と制御コマンドの種類,タスクと中間軌道を入力して次のステップのアクションと同時 に画像ないでの軌道を生成する. ◦ 入力にロボット名を加えることでハードウェアの違いに対応できるらしい 70
  67. 論文まとめ( 49/78) Real-to-Sim Grasp: Rethinking the Gap between Simulation and

    Real World in Grasp Detection • Jia-Feng Cai, Zibo Chen, Xiao-Ming Wu, Jian-Jian Jiang, Yi-Lin Wei, Wei-Shi Zheng ◦ 実環境に近いノイズを Depthに与え,特徴量レベルで Primitive Shapeの当てはめで一致するよ うに学習することで,歪みや位置ずれを Simulationで再現する ◦ R2SRepairerでDepth mapの修正量を示した Residual mapを出力するように学習する. GTは Realのシーンで Pose推定結果などから計算して Simに再構成する 71
  68. 論文まとめ( 50/78) GraspSplats: Efficient Manipulation with 3D Feature Splatting •

    Mazeyu Ji, Ri-Zhao Qiu, Xueyan Zou, Xiaolong Wang ◦ 60秒以内に高精度なシーン表現を生成し,リアルタイムな把持や動作の生成を可能にする ◦ BBox, Mask,CLIP特徴を生成し,パーツごと,物体ごとの特徴量を Depth imageを利用して mappingして3D gaussianを生成する ◦ 物体に対応する 2Dmaskを特徴量を利用して Trackingし3Dにおこしたうえで,物体移動後の 3D gaussianを変換し,対象の物体の領域に把持を生成する. ◦ シーン生成の時間と Tracking, 静的なシーンでの把持生成の時間が短く,ダイナミックなシーン でも高い成功率となっている. 72
  69. 論文まとめ( 51/78) Visual Whole-Body Control for Legged Loco-Manipulation • Minghuan

    Liu, Zixuan Chen, Xuxin Cheng, Yandong Ji, Ri-Zhao Qiu, Ruihan Yang, Xiaolong Wang ◦ 画像入力から動作コマンドを出力する Policyと,それを利用してアームと歩行固有の動作(関節 角やトルクなど)に変換する Policyを学習する手法 ◦ High-levelはSim上でPointcloudや物体姿勢などリッチな情報を学習した Teacherとして多視点 画像を入力する Studentを学習する ◦ Domain Randomizationを行うことで Sim2Realを可能にしており環境の変動などに対してロバス ト性が高い 73
  70. 論文まとめ( 52/78) Evaluating Real-World Robot Manipulation Policies in Simulation •

    Xuanlin Li, Kyle Hsu, Jiayuan Gu, Oier Mees, Karl Pertsch, Homer Rich Walke, Chuyuan Fu, Ishikaa Lunawat, Isabel Sieh, Sean Kirmani, Sergey Levine, Jiajun Wu, Chelsea Finn, Hao Su, Quan Vuong, Ted Xiao ◦ 拡張性と再現性,信頼性を確保した Simulation上でのPolicy評価手法 ◦ 制御に関して, 20の実環境デモを使用して PD制御のシステムパラメータの範囲を同定する. ◦ 見た目に関して,実環境と同じ位置に物体を重畳することや,背景のみを InpaintしてRealに合 わせる. Textureも一部揃えるなどのマッチングを行う 74
  71. 論文まとめ( 53/78) Learning to Manipulate Anywhere: A Visual Generalizable Framework

    For Reinforcement Learning • Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, Huazhe Xu ◦ 見た目の変化に頑健な PolicyをSimulationで学習する ◦ 多視点の画像を入力として Spatial Transformer Networkで特徴量を獲得して RLを行う.ランダ ム化するパラメータをカリキュラムベースで変動しながら学習する. ◦ 視点変化に強く,異なるロボットでもある程度成功する 75
  72. 論文まとめ( 54/78) One Model to Drift Them All: Physics-Informed Conditional

    Diffusion Model for Driving at the Limits • Franck Djeumou, Thomas Jonathan Lew, NAN DING, Michael Thompson, Makoto Suminaka, Marcus Greiff, John Subosits ◦ 車両の軌道のデータセットからドリフトのコマンドを出力する Diffusion model ◦ 複雑なシステムダイナミクスをモデリングする NeuralSDEを学習し,最適化されたパラメータを元 にMPCを行う ◦ 異なるタイヤや車両,道路状況であっても単一のモデルで信頼性の高い走行が可能 76
  73. 論文まとめ( 55/78) EXTRACT: Efficient Policy Learning by Extracting Transferable Robot

    Skills from Offline Data • Jesse Zhang, Minho Heo, Zuxin Liu, Erdem Biyik, Joseph J Lim, Yao Liu, Rasool Fakoor ◦ スキルを VLMで分割して学習し,スキルに応じた動作を生成できるようにする ◦ 事前学習済みの VLMからスキルを特徴量の違いをベースにクラスタリングしてそれぞれの IDを 選択する Policyと動作を生成する Decorderを学習する ◦ スキルを選択する Online RLによって新たなスキルに対して高速に学習できる 77
  74. 論文まとめ( 56/78) Equivariant Diffusion Policy • Dian Wang, Stephen Hart,

    David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Jiuguang Wang, Robin Walters, Robert Platt ◦ Denoise時のサンプル効率と汎化性能を高めた Diffusion Policy.視点が変化したとしても動作 が可能になるような表現を取り入れる ◦ 2次元での回転した場合( =SO(2))においても同じような表現になるような座標変換を行う. ◦ 姿勢が異なるタスクに対して Diffusion policyに対して 21.9%性能が向上した 78
  75. 論文まとめ( 57/78) Get a Grip: Multi-Finger Grasp Evaluation at Scale

    Enables Robust Sim-to-Real Transfer • Tyler Ga Wei Lum, Albert H. Li, Preston Culbertson, Krishnan Srinivasan, Aaron Ames, Mac Schwager, Jeannette Bohg ◦ 多指把持アルゴリズムのシミュレーションから実環境への転移 ◦ 4,300個の物体に対する 350万回の把持動作を記録した新しい大規模データセットを生成 ◦ DIffusionなど様々な把持生成モデルよりもこのデータセット学習したモデルでの評価を活用した 手法が実環境において高い成功率になる 79
  76. 論文まとめ( 58/78) OmniH2O: Universal and Dexterous Human-to-Humanoid Whole-Body Teleoperation and

    Learning • Tairan He, Zhengyi Luo, Xialin He, Wenli Xiao, Chong Zhang, Weinan Zhang, Kris Kitani, Changliu Liu, Guanya Shi ◦ 目標の人間全身ポーズを操作インターフェースとし,ヒューマノイド でのテレオペや模倣学習を実現するシステム OmniH2Oを提案. ◦ ヒューマノイドの全身制御はシミュレーション上で強化学習し実機転移. 大規模な MoCapデータの多様な動きをリアルタイム模倣するよう訓練. ◦ テレオペでデータ収集した模倣学習, TextToMotionモデル連携, GPT-4o連携なども報告. 80 https://omni.human2humanoid.com
  77. 論文まとめ( 59/78) HumanPlus: Humanoid Shadowing and Imitation from Humans •

    Zipeng Fu, Qingqing Zhao, Gordon Wetzstein, Chelsea Finn ◦ RGBカメラのみでのヒューマノイドの全身操作システムと,模倣学習までのフルスタックシステム であるHumanPlusを提案. ◦ リアルタイムの人間動作模倣ポリシー( HST: Humanoid Shadowing Transformer)は,シミュ レーション上で強化学習しゼロショット実機転移. HSTとRGBカメラ画像からの人間ポーズ推定 モデルを組み合わせ,多様な環境での全身テレオペを実現. ◦ 頭部の両眼カメラ画像を観測と高 DoF動作のための模倣学習手法も提案し,最大 40のデモンス トレーションから靴を履く,服をたたむなどの自律動作を獲得できたことを報告. 81 https://humanoid-ai.github.io/
  78. 論文まとめ( 60/78) D3Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable

    Rearrangement • Yixuan Wang, Mingtong Zhang, Zhuoran Li, Tarik Kelestemur, Katherine Driggs-Campbell, Jiajun Wu, Li Fei-Fei, Yunzhu Li ◦ 視覚基盤モデルによる汎用な意味特徴を埋め込んだ 3次元表現である D3Fieldsを提案し,ゴー ル画像による物体操作・再配置タスクに応用. ◦ D3Fieldsは入力の 3D点の,Signed Distance(Depth値から),意味的特徴 (DINOv2から),インス タンス(Grounded-SAMから)を少数視点の RGB-D画像情報を融合して出力する陰関数. ◦ 意味的特徴の汎化を利用し,未知シーンのゴール画像を用いた物体再配置などを実現. 82 https://robopil.github.io/d3fields/
  79. 論文まとめ( 61/78) 3D Diffuser Actor: Policy Diffusion with 3D Scene

    Representations • Tsung-Wei Ke, Nikolaos Gkanatsios, Katerina Fragkiadaki ◦ 3Dシーン表現を活用した拡散モデル方策である 3D Diffuser Actorを提案. ◦ シーン点群のトークン列化と 3Dの相対位置 Attentionを採用した Transformerにより, 言語指示条件をもとにエンドエフェクタ (EE)軌道をデノイズすることが特徴. ◦ RLBench,CALVINタスクにおいて,既存の SOTA手法から大きく更新. ◦ 3D Diffuser ActorによるEEキーポーズ生成とモーションプランナの組み合わせによる実機実験 結果も報告. 12の物体操作タスクについて各 15回のデモのみで学習. 83 https://3d-diffuser-actor.github.io/
  80. 論文まとめ( 62/78) Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics

    Modeling • Mingtong Zhang, Kaifeng Zhang, Yunzhu Li ◦ Gaussian Splattingを利用した物体の Dense Trackingと,それを利用した物体のダイナミクスモ デル学習の手法を提案. ◦ Dyn3DGS(動的シーンの 3DGS手法)を修正し, Dense Trackingの性能を向上. 3D Gaussianから 疎に粒子点を抽出し, GNNでダイナミクスを学習. ▪ GNNによる予測結果と 3D Gaussianの移動の対応を取ることで,動画予測が可能※. ▪ 提案手法で学習したモデルを使ったモデル予測制御についても報告されている. 84 https://gs-dynamics.github.io/ ※物体のみをマスクして 3DGS・学習するため,動画予測についても物体領域のみになっており, 結果の図はそれを CG背景に重畳したものと思われる.
  81. 論文まとめ( 63/78) Physically Embodied Gaussian Splatting: A Visually Learnt and

    Physically Grounded 3D Representation for Robotics • Jad Abou-Chakra, Krishan Rana, Feras Dayoub, Niko Suenderhauf ◦ Position-Based Dynamics(PBD)による物理シミュレーションと, Gaussian Splatting(GS)を組み 合わせることで,将来状態予測と画像観測による状態修正を実現する表現を提案. ◦ GSによる初期シーン(約 1万Gaussian)と約1000個の粒子を対応させ,粒子の動きを PBDによっ て予測する.粒子に対応した Gaussianを連動させることで,将来の画像も予測可能.実際の画 像観測との誤差から粒子に対する修正力を逆算することで,状態の予測誤差を修正. 85 https://embodied-gaussians.github.io/
  82. 論文まとめ( 64/78) D3RoMa: Disparity Diffusion-based Depth Sensing for Material-Agnostic Robotic

    Manipulation • Songlin Wei, Haoran Geng, Jiayi Chen, Congyue Deng, Cui Wenbo, Chengyang Zhao, Xiaomeng Fang, Leonidas Guibas, He Wang ◦ ステレオ視の Disparity Mapを拡散モデルによって生成することで,特に透明物体や鏡面物体の シーンでの高精度な深度情報を推定する手法 D3RoMaを提案. ◦ Disparity Mapの生成問題にすることで,ステレオ視の幾何的制約を組み込むことができる. ◦ DREADSやClearPoseなどの透明・鏡面物体の深度推定ベンチマーク,実ロボットによる物体把 持実験で高い性能を示している. 86 https://pku-epic.github.io/D3RoMa/
  83. 論文まとめ( 65/78) RoboPoint: A Vision-Language Model for Spatial Affordance Prediction

    in Robotics • Wentao Yuan, Jiafei Duan, Valts Blukis, Wilbert Pumacay, Ranjay Krishna, Adithyavairavan Murali, Arsalan Mousavian, Dieter Fox ◦ 空間的な推論と画像上のポイント予測に特化させた VLMであるROBOPOINTを提案. ◦ シミュレーションで生成した,空間的アフォーダンス(オブジェクト間の位置関係やフリースペース など)の予測に関するデータセットを用いて LLMをファインチューニングする. ◦ 実ロボットでは,画像と「カップの中」などの指示を与え,予測されたポイントの深度から求まる 3 次元位置に基づいて物体操作するタスクを実験. 87 https://robo-point.github.io/
  84. 論文まとめ( 66/78) ALOHA Unleashed: A Simple Recipe for Robot Dexterity

    • Tony Z. Zhao, Jonathan Tompson, Danny Driess, Pete Florence, Seyed Kamyar Seyed Ghasemipour, Chelsea Finn, Ayzaan Wahid ◦ ALOHA2と大量のデータ収集により,シャツのハンガーかけや靴紐結びなどの高難易度なマニ ピュレーションタスクを実現した報告. ◦ シンプルに大規模にデモンストレーションデータを集めることで,高難易度タスクでも模倣学習に よって達成可能であることを示した. ◦ 3000~8000オーダーの数のデモを使用し,拡散モデルのポリシーを学習. 88
  85. 論文まとめ( 67/78) Learning to Open and Traverse Doors with a

    Legged Manipulator • Mike Zhang, Yuntao Ma, Takahiro Miki, Marco Hutter ◦ 4脚+アームロボットによる,押し引きのタイプや形状・摩擦といった事前知識なしのドア開けと 通過を実現. ◦ ポリシーはシミュレーション上で強化学習. Privilegedな情報を観測できる Teacherポリシーを学 習した後,実センサ情報のみを観測する Studentポリシーを学習し実機転移する. ◦ 実ロボット( ANYMAL)において,外乱下でもロバストなドア開けを達成した. 89
  86. 論文まとめ( 68/78) Body Transformer: Leveraging Robot Embodiment for Policy Learning

    • Carmelo Sferrazza, Dun-Ming Huang, Fangchen Liu, Jongmin Lee, Pieter Abbeel ◦ 模倣学習や強化学習のための,ロボットの身体構造知識を埋め込んだ Transformerである BoT(Body Transformer)を提案. ◦ ロボットのアクチュエータとセンサをノードとしたグラフに基づくマスクを Self-Attentionに適用す ることで,表現力を落とさずに帰納バイアスを導入する. ◦ MoCapAct・Adroit Handでの模倣学習実験と Locomotionタスクの強化学習実験を通して, MLP や通常の Transformer表現よりもポリシー性能やスケーリング特性で優れることを報告. 90 https://sferrazza.cc/bot_site/
  87. 論文まとめ( 69/78) Theia: Distilling Diverse Vision Foundation Models for Robot

    Learning • Jinghuan Shang, Karl Schmeckpeper, Brandon B. May, Maria Vittoria Minniti, Tarik Kelestemur, David Watkins, Laura Herlant ◦ ロボットの汎用視覚表現を提供する基盤モデル Theiaを提案. ◦ CLIP,ViT,DINOv2,SAM,Depth-Anythingの各種モデル出力を教師とし, ImageNetで各モデ ルのタスク共通の潜在表現を蒸留学習する.比較的小さい計算リソース( H100, 150GPU hours)で学習可能. ◦ CortexBench(MuJoCoサブセット)と実機模倣学習において, R3MやRADIOなどの既存の視覚 表現基盤モデルを下流タスクでの性能で凌駕した. 91 https://theia.theaiinstitute.com/
  88. 論文まとめ( 70/78) GenDP: 3D Semantic Fields for Category-Level Generalizable Diffusion

    Policy • Yixuan Wang, Guang Yin, Binghao Huang, Tarik Kelestemur, Jiuguang Wang, Yunzhu Li ◦ セマンティックな情報を持つ 3次元表現を観測とした Diffusion Policyを提案. ◦ 複数視点の RGB-D画像から, DINOv2特徴を付与した点群を抽出し, PointNet++を経由して DiffusionPolicyへ入力する. ◦ DINOv2特徴により,物体の部位の意味的特徴(ナイフの持ち手や缶の上下など)が捉えられる だけでなく,初見の物体についてもカテゴリレベルの汎化が得られる. 92 https://robopil.github.io/GenDP/
  89. 論文まとめ( 71/78) OPEN TEACH: A Versatile Teleoperation System for Robotic

    Manipulation • Aadhithya Iyer, Zhuoran Peng, Yinlong Dai, Irmak Guzey, Siddhant Haldar, Soumith Chintala, Lerrel Pinto ◦ 市販のVRヘッドセットとハンドトラッキングを用いてロボットを操作するオープンソースなフレーム ワーク ◦ ユーザーから見るパススルー映像と、外部の2 Dカメラ映像を同時に見ながら操作 ◦ 色々コマンドが設定されていて、モバイルなども操作可能。 93
  90. 論文まとめ( 72/78) Humanoid Parkour Learning • Ziwen Zhuang, Shenzhe Yao,

    Hang Zhao ◦ ヒューマノイドロボットが階段,ステップ,スロープのある環境をパルクールのように走破するた めの強化学習手法を提案している ◦ シミュレーションの地面形状にフラクタルノイズを加えることと,平面走破 policyと複雑環境走破 policyの2段階の強化学習を行うことが工夫のポイント ◦ Unitree H1実機により様々なロコモーション動作を実現している 94
  91. 論文まとめ( 73/78) SkillMimicGen: Automated Demonstration Generation for Efficient Skill Learning

    and Deployment • Caelan Reed Garrett, Ajay Mandlekar, Bowen Wen, Dieter Fox ◦ 物体操作の模倣学習において少ない人間の操縦デモデータからの学習を可能にするために, 操縦デモデータをもとに自動的に他のデモデータを生成する手法を提案している ◦ 操縦デモデータにおける物体相対のグリッパ軌道が保持されるように,新たな物体位置に対し てロボットのグリッパ軌道を生成しデモを実行することでデータを生成する ◦ 60の操縦デモデータから 24Kのデモデータを自動生成し模倣学習で有用であることを検証 95
  92. 論文まとめ( 74/78) Object-Centric Dexterous Manipulation from Human Motion Data •

    Yuanpei Chen, Chen Wang, Yaodong Yang, Karen Liu ◦ 双腕の多指ハンドで器用に物体を操作するスキルを獲得するために 2階層のモデルを提案 ◦ 高階層では人間のハンドモーションキャプチャをリファレンスとして物体相対の手首位置の軌道 をTransformerで生成.低階層ではシミュレーション内の強化学習で指関節角度を決定する policyを獲得 96
  93. 論文まとめ( 75/78) MimicTouch: Leveraging Multi-modal Human Tactile Demonstrations for Contact-rich

    Manipulation • Kelin Yu, Yunhai Han, Vaibhav Saxena, Danfei Xu, Ye Zhao ◦ contact-richなタスクを実現するために,人間が指に触覚センサを付けてタスクを実演したデー タから,模倣学習・強化学習する手法を提案 ◦ 模倣学習としてはマルチモーダル特徴量の最近傍探索に基づくノンパラメトリック手法を利用し ,身体ギャップによる誤差をオンラインの強化学習で補償している 97
  94. 論文まとめ( 76/78) EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data

    Efficient Learning • Jingyun Yang, Ziang Cao, Congyue Deng, Rika Antonova, Shuran Song, Jeannette Bohg ◦ 模倣学習により対象物体の並進・回転・スケールが変化しても対応可能( SIM(3)-equivariant)な policyを獲得する手法を提案 ◦ 物体ポイントクラウドとロボット関節角を入力として SIM(3)-equivariantな特徴量に基づいて diffusion modelでロボットエンドエフェクタ軌道を生成 98
  95. 論文まとめ( 77/78) Generalized Animal Imitator: Agile Locomotion with Versatile Motion

    Prior • Ruihan Yang, Zhuoqun Chen, Jianhan Ma, Chongyi Zheng, Yiyu Chen, Quan Nguyen, Xiaolong Wang ◦ 動物の運動等の参照軌道から強化学習で四脚ロボットの policyを獲得する手法を提案している ◦ ロボットの現在状態と,参照軌道から潜在空間を抽出した motion priorに基づいて,タスクに関 するrewardと参照軌道との類似性に関する rewardを最適化する強化学習によりロボットの目標 関節角を計算する 99
  96. 論文まとめ( 78/78) WoCoCo: Learning Whole-Body Humanoid Control with Sequential Contacts

    • Chong Zhang, Wenli Xiao, Tairan He, Guanya Shi ◦ タスクを接触レベルまで細かく分割した上で,そのタスクを解くように学習した Policyを繰り返し 利用することで全身動作を生成する ◦ 接触状態を達成する,接触のステージを複数経由する,探索を行うことに対して報酬を設計しつ つ,Domain Randomizationを行うことで実環境でも動作する 100