Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CoRL2023速報

 CoRL2023速報

11/6-11/9にアトランタで開催されたCoRL2023の速報です.今回は動向や気づきの他に,全論文199本を完全読破したサマリを載せています.

robotpaper.challenge

November 13, 2023
Tweet

More Decks by robotpaper.challenge

Other Decks in Research

Transcript

  1. 概要:CoRL2023 動向,気 き ロボティクストップ国際会議CoRL2023 サーベイ報告 • 今回 ん 研究が流行 いた?

    • 海外研究者 何をし いる? • 「動向」や「気付き」をま めました +全論文199本を完全読破した論文サマリも公開! 2
  2. CoRL2023 動向,気 き(1/29) 査読プロセス 完全公開! • OpenReview 査読 一連 流れが完全

    公開 ◦ Official Review ▪ Review ▪ Questions for Rebuttal ▪ Originality ▪ Technical Quality ▪ Clarity ▪ Impact ▪ … 3 作成者:元田 例: https://openreview.net/forum?id=JkFeyEC6VXV Check Points: • 査読者 視点を伺うこ が きる貴重 情報 • 透明性が高い 論文 評価 期待( ←査読者 負担 大?) • そ 時代 流行(≒採択されやすい)を知る指標 も る 近年 OpenAccess主流 トレンド 合致した学会 戦略
  3. CoRL2023 動向,気 き(2/29) 学会 概要 • 正式名称:Conference on Robot Learning

    (CoRL) ◦ 「ロボット 機械学習 融合」をテーマ する. ◦ IFRR(International Foundation of Robotics Research)* シンポジウム 一 し 2017年から毎年開催. ◦ す ICRA, IROS, CoRL… よう 並び称される発展著しい国際会議. • 今年度 ◦ 開催地:Atlanta, Georgia USA / 日程: November 6 to 9, 2023 4 作成者:元田 2017 (初開催): Mountain View, CA, USA 2018 : Zurich, Switzerland 2019 : Osaka, Japan 2020 : Virtual 2021 : London, UK and Virtual 2022 : Auckland, NZ *他 RSS も運営 IEEE 別 組織 ある http://www.ifrr.org/about-ifrr https://www.corl2023.org/ 参考: 補足: 短期間 趨勢 変化を知るべし!
  4. CoRL2023 動向,気 き(3/29) 関わる企業 着目 • BigTechや有力企業がスポンサー ◦ Google DeepMind

    ◦ Amazon robotics ◦ Nvidia etc. ◦ ロボット 取り組む米国 企業 ≒ 世界 もトップ企業. それらが一流 研究成果を発表し、 論文投稿し いる事実を認識すべき。 → CoRL 立ち位置が推し量られる。 • Hello robot, Unitree サービスロボット系企業も… ◦ 安価 質 高いハードウェア(サーボ 発展 も着目)が登場し企業 勢いが ... ◦ 例え 、近年Unitree 多く 国際学会 4足や2足 ロボット デモを展開. ◦ URやFranka よう 標準的 研究・教育向けロボット 定着を狙 いる … 思われる 5 引用:https://www.corl2023.org/ 作成者:元田
  5. CoRL2023 動向,気 き(4/29) 「CALL FOR PAPERS」を見る • 投稿が推奨される分野: 6 作成者:元田

    「ロボティクス 無関係 研究 エディターキックする!」 旨が記載され いる → CoRL 採択されるため 特 ロボット工学へ 貢献 必要 ある 強く主張し いる →全 Learningが含まれる
  6. CoRL2023 動向,気 き(5/29) 著者向け 情報 • 論文 発表 ◦ 1段組8ページ(参考文献リスト

    カウントし い) ◦ 補足資料を添付するこ が許可され いる ◦ 全 採択論文 ポスターセッションを実施し、こ うち選 れた論文が口頭発表 。 • 査読規定 ◦ 理論的or結果を伴う重要性 新規性があるか ◦ ロボット工学 関連性を示され いるか →Desk kick 可能性あり ◦ Discussion 機会(Rebuttal)があり、論文 修正が可能。 • 投稿規定 ◦ 採択論文 OpenReview オープン 公開される 7 作成者:元田
  7. CoRL2023 動向,気 き(6/29) 2023年度採択 い • 採択率 39.9% (199 /

    498) ◦ 口頭発表選出:33件 ※6.63% ◦ ポスター発表:166件 • 投稿者情報 ◦ 25か国から参加 ◦ 873名がリストアップ 8 作成者:Erich、元田 参考:https://www.corl2023.org/explore-papers 2023 2022 2021 投稿数 498 504 408 口頭発表 33 34 26 ポスター発表 166 163 130 採択 39.9% 39.5% 38.2% 参考: ←採択、投稿数 横倍
  8. CoRL2023 動向,気 き(7/29) Finalists - Best Systems Paper Award •

    🎉RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools ◦ Haochen Shi, Huazhe Xu, Samuel Clarke, Yunzhu Li, Jiajun Wu • MimicPlay: Long-Horizon Imitation Learning by Watching Human Play ◦ Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, Anima Anandkumar • Robot Parkour Learning ◦ Ziwen Zhuang, Zipeng Fu, Jianren Wang, Christopher G Atkeson, Sören Schwertfeger, Chelsea Finn, Hang Zhao 9 作成者:元田 https://www.corl2023.org/awards WIN!
  9. CoRL2023 動向,気 き(8/29) Finalists - Best Student Paper Awards •

    MimicPlay: Long-Horizon Imitation Learning by Watching Human Play ◦ Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, Anima Anandkumar • 🎉Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners ◦ Allen Z. Ren, Anushri Dixit, Alexandra Bodrova, Sumeet Singh, Stephen Tu, Noah Brown, Peng Xu, Leila Takayama, Fei Xia, Jake Varley, Zhenjia Xu, Dorsa Sadigh, Andy Zeng, Anirudha Majumdar • Predicting Object Interactions with Behavior Primitives: An Application in Stowing Tasks ◦ Haonan Chen, Yilong Niu, Kaiwen Hong, Shuijing Liu, Yixuan Wang, Yunzhu Li, Katherine Rose Driggs-Campbell • Distilled Feature Fields Enable Few-Shot Manipulation ◦ William Shen, Ge Yang, Alan Yu, Jensen Wong, Leslie Pack Kaelbling, Phillip Isola • Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping ◦ Satvik Sharma, Adam Rashid, Chung Min Kim, Justin Kerr, Lawrence Yunliang Chen, Angjoo Kanazawa, Ken Goldberg 10 作成者:元田 https://www.corl2023.org/awards WIN!
  10. Finalists - Best Paper Awards • MimicPlay: Long-Horizon Imitation Learning

    by Watching Human Play ◦ Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, Anima Anandkumar • Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners ◦ Allen Z. Ren, Anushri Dixit, Alexandra Bodrova, Sumeet Singh, Stephen Tu, Noah Brown, Peng Xu, Leila Takayama, Fei Xia, Jake Varley, Zhenjia Xu, Dorsa Sadigh, Andy Zeng, Anirudha Majumdar • Predicting Object Interactions with Behavior Primitives: An Application in Stowing Tasks ◦ Haonan Chen, Yilong Niu, Kaiwen Hong, Shuijing Liu, Yixuan Wang, Yunzhu Li, Katherine Rose Driggs-Campbell • 🎉Distilled Feature Fields Enable Few-Shot Manipulation ◦ William Shen, Ge Yang, Alan Yu, Jensen Wong, Leslie Pack Kaelbling, Phillip Isola • Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping ◦ Satvik Sharma, Adam Rashid, Chung Min Kim, Justin Kerr, Lawrence Yunliang Chen, Angjoo Kanazawa, Ken Goldberg CoRL2023 動向,気 き(9/29) 11 作成者:元田 https://www.corl2023.org/awards WIN!
  11. Computer Vision(CV)分野若手研究者 台頭 • Awards, Award Finalists CV分野 先端技術を導入し いる例も多い

    ◦ 先端技術:3D Vision もちろん,NeRFやCLIP(Vision-Language Pre-training)もす ロボット 実装され いる ◦ CV研究者:Jiajun Wu(Stanford Univ.), Phillip Isola(MIT), Angjoo Kanazawa(UC Berkeley)あ たり CVPR 常連 名前も売れ いる ◦ CV/Robotics研究者: Yuke Zhu(UTAustin/NVIDIA) CV・Robotics両方 分野 活躍 ◦ もちろん,そ 他多数 気鋭研究者が Finalist 名前を連 いる CoRL2023 動向,気 き(10/29) 12 作成者:片岡
  12. Oral以上 論文 大規模チーム よる論文が多い? • 採択率 約40% 一方 ,強い研究チーム い

    か か高評価 得られ い か ◦ Robotics x Machine Learning いうクロスポイント 時点 研究者 限られるか,連携 より技術 融合し い 投稿すら き い印象 ◦ Award Finalists Stanford, MIT, UC Berkeley, Google, NVIDIA, UIUC も やRoboticsや ML もほぼ常連チームが共著入り ◦ 大規模連携 より上記 常連チーム 牙城を崩せるか?? CoRL2023 動向,気 き(11/29) 13 作成者:片岡
  13. マルチタスク学習:スキルを分割し 学習 • 基礎スキルご 学習し ,一貫したPolicy(方策) 蒸留 • 大規模言語モデル(LLM)を使い がら,スキル組み合わせを考える

    • モデル Fine-tuning(微調整) よ オリジナル 分布を遷移させる • 最初から一貫するよりも,動作 特徴を捉え 学習した方がいい CoRL2023 動向,気 き(12/29) 14 作成者:元田,牧原
  14. 未知 タスク,状況へ 適応 • 大規模 オフラインデータをさら 増やすより,事前学習 後 自前 少量

    デー タを用い 適応させる ◦ 一般 研究機関が大規模データを作成するこ 非現実的 ◦ 少量データから対応するスキルや状況を過去 経験 マッチングする ◦ 人間が目的かゴールを簡単 与える ロボット自身がデータを作る ~LLMを用い 作る「敵対的」 データ etc. • 軌道 対処 きる場合 解決 き いる例がある • インタラクションを含む場合 これから? CoRL2023 動向,気 き(13/29) 15 作成者:元田,牧原
  15. 3D 特徴表現がアツい • 3Dだ 解きやすいマニピュレーション問題(=6DOF把持)が扱えるよう • PointCloudよりもVoxel, NeRF 表現を使う研究が評価される傾向 ◦

    NeRF 2Dや言語 特徴量自体を埋め込ん 3D 拡張(Oral 2件) ◦ 三次元 Neural Descriptionがロボティクス 常識 る日も近い …? • 多視点 画像をそ まま入力し 3D 情報を得る方法も ◦ 既存 Vision Transformer 適用やデータセット 充実度を考える 最も妥当 ◦ 3Dデータセットが拡充する 、状況が変わる可能性あり CoRL2023 動向,気 き(14/29) 16 作成者:元田,牧原
  16. 3D ダイナミクス予測 • これま も柔軟物 変形予測 も多く提案され きた • ほぼ静的

    1物体 場合 GNN 解い いる • 2物体以上も剛体 あれ ある程度 可能.しかし,単純形状・パラメータ化 きる 限られる • 今後 一般物体,シーンへ う拡張し いくかが鍵? CoRL2023 動向,気 き(15/29) 17 作成者:元田,牧原
  17. Robotics Transformer (RT)シリーズ 今後 ? • 2022/12 RT-1 始まり,後続 研究もインパクト

    大きい ◦ RT-1:大規模データ収集 Millionパラメータ モデル ◦ RT-2:VQA事前学習 Billionモデル ◦ RT-X:異 るロボットデータ スケールアップ ◦ こ 間 も,データ拡張 (ROSIE)や対話(KNOWNO) も登場 ◦ 今後 方向性 人 強調し いか そ 場 改善し いくか,そ インターフェース (RT-Sketch, RT-Trajectory)や学習方法が必要?また 大規模データを収集し続ける? CoRL2023 動向,気 き(16/29) 18 作成者:牧原
  18. Early Career Keynote • Shuran Song: What I Wish I

    Had for Robot Learning ◦ 柔軟物(紐,布,袋) 操作 か り高難度. Primitive 動き 組み合わせ 解くこ が最もシンプ ル あるが,限界もある ◦ Diffusion policy 模倣学習 方法 し 高難度タスク 対し 効果的.そ ため ,正しい データが必要 ◦ ロボット学習 ほしいも 3 .データ(スケール可能) データ(再利用可能) データ(ロボット 使える)! CoRL2023 動向,気 き(17/29) 19 作成者:牧原
  19. Early Career Keynote • Shuran Song: What I Wish I

    Had for Robot Learning ◦ シミュレーション LLM 組み合わせ よ データをスケールアップさせ,必要 応じ 使用 するデータを選択する( https://www.cs.columbia.edu/~huy/scalingup/) ◦ 実環境 人間 ロボットハンド み 構成されるインターフェースを使 ,一人称視点 デモン ストレーションを取得する( https://arxiv.org/pdf/1912.04344.pdf) ◦ それぞれ 利点がある ,両方 手段 データを作 いきたい CoRL2023 動向,気 き(18/29) 20 作成者:牧原
  20. Early Career Keynote • Karol Hausman: Bitter Lessons & Sweet

    Future in Robot Learning ◦ 70年 わたるロボティクス研究 最終的 Foundation modelを使 た方法が最も効果的 ある いう教訓を得た ◦ LLM よう デジタルエージェントから CoRL よう ロボットへ う進むこ が きるかを考え ,PaLM-SayCan を発表. ◦ 次 ユーザ エージェント インターフェースを考え いく時代.人 情報をいか オンライン ロボット 与え いくか (RT-Trajectory, RT-Sketch) CoRL2023 動向,気 き(19/29) 21 作成者:牧原
  21. Workshop: Language and Robot Learning Language as Grounding • FeiXia:

    Low-level Embodied Intelligence with Foundation Models ◦ LLM, VLMを使 ロボット制御を実現する ◦ 手順生成,軌道 High-level 関し きるよう いるが, Low-level 関し デー タが少 いし取得コストも高い いう難しさがある.また LLM 知識不足 ◦ 1 モデル High-level, low-levelを一括考慮(PaLM-E)や言語 視覚 事前知識を利用し 転 移学習(RT-2) Vision-and-Language Action model ◦ Chain-of-thought Low-level 行動を拡張 きる CoRL2023 動向,気 き(20/29) 22 作成者:牧原
  22. Workshop: Language and Robot Learning Language as Grounding • FeiXia:

    Low-level Embodied Intelligence with Foundation Models ◦ LLM, VLMを使 ロボット制御を実現する ◦ 手順生成,軌道 High-level 関し きるよう いるが, Low-level 関し デー タが少 いし取得コストも高い いう難しさがある.また LLM 知識不足 ◦ 1 モデル High-level, low-levelを一括考慮(PaLM-E)や言語 視覚 事前知識を利用し 転 移学習(RT-2) Vision-and-Language Action model ◦ Chain-of-thought Low-level 行動を拡張 きる CoRL2023 動向,気 き(21/29) 23 作成者:牧原
  23. Workshop: Language and Robot Learning Language as Grounding • FeiXia:

    Low-level Embodied Intelligence with Foundation Models ◦ LLMを新た インターフェース し 利用 ◦ 報酬モデル し High-level(LLM) Low-level(Mujoco MPC)を繋ぐ役割を持たせる (Learning to Rewards) ◦ 環境 タスク 説明から報酬設計,シミュレーション 結果から報酬設計をフィードバックする (Eureka) CoRL2023 動向,気 き(22/29) 24 作成者:牧原
  24. Workshop: 2nd Pre-Training for Robot Learning • Chelsea Finn: Can

    Robots Fine-Tune Autonomously? ◦ 事前学習されたロボット学習モデルを使 ,実環境 ロボット自身が う適応させるか? ◦ 未知 タスク,状況 それぞれ継続学習 アプローチを使 適応する手法を紹介 ◦ 未知 タスク→Reset-free RL:少量 デモ 対し , VLMや人間 よる評価を使 学習 ◦ 未知 状況→Single-life RL:状況を見 それ あ た振る舞い 行動を選択し がら学習 CoRL2023 動向,気 き(23/29) 25 作成者:牧原
  25. Workshop: 2nd Pre-Training for Robot Learning • Kristen Grauman: Learning

    About Action from People in Video ◦ 人間 デモンストレーションからいか 行動 認識やロボット 行動 移し いくか( Ego4Dプロ ジェクト 統括) ◦ 行動 階層構 を言語を組み合わせた対照学習 獲得( HierVL) ◦ 1人称視点 他 視点 特徴表現をコンテキストから一致させる( Ego-exo allignment) ◦ 身体を含めた環境認識を加える( EgoEnv) ◦ 人間 手 動きを模倣し 多指ハンド 把持を実現する CoRL2023 動向,気 き(24/29) 26 作成者:牧原
  26. Workshop: Towards Generalist Robots: Learning Paradigms for Scalable Skill Acquisition

    • Dieter Fox: Scaling Data Generation for Imitation Learning in Sim:  Demonstrations and Assets ◦ シミュレーションデータを使 た模倣学習 アプローチ ◦ RT-X 実環境データ 多いも ,スケールアップ 関し Simulationが有効 ◦ Task and Motion Planning(TAMP)から詳細 状態を含め収集する.人間 テレオペも含め シ ミュレーション 表現が難しい Contact-rich データも収集可能 する CoRL2023 動向,気 き(25/29) 27 作成者:牧原
  27. Workshop: Towards Generalist Robots: Learning Paradigms for Scalable Skill Acquisition

    • Dieter Fox: Scaling Data Generation for Imitation Learning in Sim:  Demonstrations and Assets ◦ 自動データ生成:高 ,スケーリング可能,リアリスティック も カスタマイズ性が低いも ,シ ミュレーションだけ 完結し い例がある ◦ 実環境 幾何構 を把握し シーンを生成 (URDFormer) ◦ AR 実演データからロボット 変換,シーン内 人間 手 ロボットを入れかえる (AR2-D2) CoRL2023 動向,気 き(26/29) 28 作成者:牧原
  28. Sponsor talk: Google DeepMind • Open X-Embodiment: Robotic Learning Datasets

    and RT-X Models ◦ 10/17, 2023 arXiv 公開された論文(https://robotics-transformer-x.github.io/) 解説 ◦ 世界中 研究機関(34)からロボットデータ(現在 60)をあ め スケーリング等 効果を検証. RT-1,2をこ 大規模データ 学習 (RT-1-X, RT-2-X) ◦ 全 データを一貫した形式( RLDS from tensorflow_datasets) 管理 ◦ 移動台車やマニピュレーションを含め様々 シーン,ロボット,物体が存在 ◦ Workshop 至る所 引用,解説がされ いた CoRL2023 動向,気 き(27/29) 29 作成者:牧原
  29. Sponsor talk: Google DeepMind • Open X-Embodiment: Robotic Learning Datasets

    and RT-X Models ◦ バリエーションや量も含め,や りまだまだデータ 足り い い!他 機関からもデータ 提供 を求め いる. ◦ google groups 参加する形式 打ち合わせも行 いる(138人くらいメンバーがいるらしい) ◦ RT-2-X 関し APIを公開し いる模様.多く 人 試し もらいたい こ ◦ LLM いうGPTシリーズ よう 立ち位置 る可能性がある? CoRL2023 動向,気 き(28/29) 30 作成者:牧原
  30. 以下 論文ま め:全論文199本 完全読破 https://openreview.net/group?id=robot-learning.org/CoRL/2023/Conference • Oral:33本 ◦ Oral 1:

    Manipulation ◦ Oral 2: RL ◦ Oral 3: Mobility (driving / navigation / locomotion) ◦ Oral 4: LLM ◦ Oral 5: Manipulation 2 ◦ Oral 6: Pre-training, surrogate model, and representation learning • Poster:166本 ◦ Poster 1: Manipulation 1 ◦ Poster 2: RL/IL ◦ Poster 3: Mobility ◦ Poster 4: LLM/VLM/HRI ◦ Poster 5: Manipulation 2 ◦ Poster 6: Perception, representation, adaptation 32
  31. 論文ま め(1/199) Stabilize to Act: Learning to Coordinate for Bimanual

    Manipulation • Jennifer Grannen, Yilin Wu, Brandon Vu, Dorsa Sadigh ◦ 安定 ため 物体を保持+もう一方 腕 タスクを実行、双方 役を割り当 る手法 ◦ サンプル効率・双腕操作 一般化するこ 、両手分 高次元 空間 制御を可能 。 ◦ 検証:4 双腕タスク 対し 20回 デモデータ み 76.9% タスク成功率 34 https://sites.google.com/view/stabilizetoact 作成者:元田
  32. 論文ま め(2/199) HANDLOOM: Learned Tracing of One-Dimensional Objects for Inspection

    and Manipulation • Vainavi Viswanath, Kaushik Shivakumar, Mallika Parulekar, Jainil Ajmera, Justin Kerr, Jeffrey Ichnowski, Richard Cheng, Thomas Kollar, Ken Goldberg ◦ 紐状(一次元)物体をスプライン曲線 フィッティングし、上下や絡まりを識別。 ◦ ニューラルネットワーク より、結び目を検出する。 ◦ 検証:80% 結び目を追跡可能。双腕ロボット より、 64% 紐をほぐすこ 成功。 35 https://sites.google.com/view/cable-tracing 作成者:元田
  33. 論文ま め(3/199) RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools

    • Haochen Shi, Huazhe Xu1, Samuel Clarke, Yunzhu Li, Jiajun Wu ◦ いろん 道具を使 フィードバックを行い がら調理を行う ◦ PointCloudから物体 形状を抽出し,目標状態 形状ま 操作を行う Policyを選択し,GNNを 元 実行する ◦ 計画時間や完成度 関し 大きく向上し いる 36 作成者:牧原 🎉Best Systems Paper Award
  34. 論文ま め(4/199) On the Utility of Koopman Operator Theory in

    Learning Dexterous Manipulation Skills • Yunhai Han, Madie Xie, Ye Zhao, Harish Ravichandar ◦ クープマン作用素を用い 複雑 非線形ダイナミクスを表現し,模倣学習 用いる ◦ デモンストレーションから物体 ロボット 状態を利用し ,それぞれ 関係を考慮し 線形 ダ イナミクス 近似するよう ダイナミクスモデルを学習する. ◦ 予測されたダイナミクス おうじ 目標 制御を出力する ◦ 計算時間が短く,サンプル効率が高い 37 作成者:牧原
  35. 論文ま め(5/199) Diff-LfD: Contact-aware Model-based Learning from Visual Demonstration for

    Robotic Manipulation via Differentiable Physics-based Simulation and Rendering • Xinghao Zhu, Jinghan Ke, Zhixuan Xu, Zhixin Sun, Bizhe Bai, Jun Lv, Qingtao Liu, Yuwei Zeng, Qi Ye, Cewu Lu, Masayoshi Tomizuka, Lin Shao ◦ 人間 デモからIn-hand manipulationを模倣する ◦ デモからDifferentiable renderingをベース した姿勢推定 物体 軌道を取得 ◦ ロボット 軌道を再現する き ,力を加え 物体を動かすか,指を配置し直すかを選択し がら目 標状態へ操作する 38 作成者:牧原
  36. 論文ま め(6/199) Predicting Object Interactions with Behavior Primitives: An Application

    in Stowing Tasks • Haonan Chen, Yilong Niu, Kaiwen Hong, Shuijing Liu, Yixuan Wang, Yunzhu Li, Katherine Rose Driggs-Campbell ◦ 棚 も を収納するタスク ◦ 挿入するaction 対し ,並ん いるも 配置が よう 変化するか いう Forward DynamicsをGraph Neural Network (GNN) 学習し,目標状態 近い actionを選ぶ ▪ 物体 一様 サンプルした particles 表現,実世界 物体姿勢 SIFT 推定 ◦ 図 6 シーン 対し 95%以上 成功率.box shapes 学習したが,deformables もある程 度汎化した 39 作成者:花井
  37. 論文ま め(7/199) How to Learn and Generalize From Three Minutes

    of Data: Physics-Constrained and Uncertainty-Aware Neural Stochastic Differential Equations • Franck Djeumou, Cyrus Neary, ufuk topcu ◦ 提案法Neural SDEs ダイナミクスを推論するため確率微分方程式 パラメータを NN よ 獲 得.パラメータ ①物理的 情報や②モデル 不確かさ、 関連。これらが評価対象 ◦ MPC(モデル予測制御) 転用可能。 ◦ 強化学習 中 もデータ効率性が高い。データセットがスパース も長期予測 対応可能。 41 作成者:元田 [Video]
  38. 論文ま め(8/199) Finetuning Offline World Models in the Real World

    • Yunhai Feng, Nicklas Hansen, Nicklas_Hansen, Ziyan Xiong, Chandramouli Rajagopalan, Xiaolong Wang ◦ off-line学習 より世界モデルを取得 →こ モデル 則 た Fine-Tune学習 効果を証明. ◦ off-line学習 得た情報をon-line学習 転用させるこ ,タスク 分布を適切 調整する. off-/on-line 両方 利点を活かし,学習効率 向上を実現した. ◦ 本手法 より,22%だ た成功率を20回 試行 み 67% 向上させた. 42 作成者:元田 https://www.yunhaifeng.com/FOWM/ 図:Off-line学習 より得た情報を Fine-Tune 指標 するこ ,タスク毎 別 分布 ら よう し いる.
  39. 論文ま め(9/199) Hijacking Robot Teams Through Adversarial Communication • Zixuan

    Wu, Sean Ye, Byeolyi Han, Matthew Gombolay ◦ マルチエージェント強化学習 おい ,敵対的攻撃を与える手法 ◦ バイナリ通信を例 挙げ,学習後 ポリシー 出力 対し ,模倣し 報酬を推測し ビットを 一部反転させルよう し 攻撃を与える ◦ 様々 設定 ランダム 方法よりも報酬 低下が大きく,少 い攻撃 おおき 影響をあたえるこ が きる 43 作成者:牧原
  40. 論文ま め(10/199) Expansive Latent Planning for Sparse Reward Offline Reinforcement

    Learning • Robert Gieselmann, Florian T. Pokorny ◦ 複雑 環境下 おける大域的 経路探索 ため 動的計画アルゴリズム ◦ 教師 し学習 X サンプリングベース 動作計画、 いうモデルベース RL ◦ 潜在的 空間内 サンプリング よ 探索木を拡張 → スパース 報酬から最先端 性能。 44 作成者:元田 https://krobg.github.io/ 図:潜在空間 拡張 よ 疎 問題 連続的、長期的 推論を可能 する 図:マニピュレーションタスク おい 検証
  41. 論文ま め(11/199) HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile

    Manipulation • Wenxuan Zhou, Bowen Jiang, Fan Yang, Chris Paxton, David Held ◦ 点群を観測データ する 6D非把持 タスクを実現する強化学習 ◦ Actor-Map: 点群毎 モーション、 Critic-Map: 点群毎 Q値を算出→接触点をmapから選ぶ ◦ Sim検証:未知物体 おい 80~90% 正しく機能 ◦ Real検証:未知物体 50%以上 成功率 指定した6次元 姿勢 移動可能。 45 作成者:元田
  42. 論文ま め(12/199) ViNT: A Foundation Model for Visual Navigation •

    Dhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black, Noriaki Hirose, Sergey Levine ◦ Navigation model trained on existing datasets and deployed to novel environments without fine-tuning ▪ Good performance, but existing dataset size is not huge (a few hundred hours) ▪ Transformer model for planning, diffusion model for generating subgoal states 47 作成者:Erich
  43. 論文ま め(13/199) Robot Parkour Learning • Ziwen Zhuang, Zipeng Fu,

    Jianren Wang, Christopher G Atkeson, Sören Schwertfeger, Chelsea Finn, Hang Zhao ◦ 個々 スキルをシミュレーション カリキュラム学習し、蒸留 全体 方策モデルを構築 ◦ 失敗し も物理的 障害が少 いソフトペナルティから、徐々 干渉が増え いくハード ペナル ティ るようカリキュラムを設計 ◦ 実環境 も動作可能、さら 失敗時 再挑戦する振る舞いが現れた 48 作成者:中條 https://robot-parkour.github.io/
  44. 論文ま め(14/199) DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control

    • Kevin Huang, Rwik Rana, Alexander Spitzer, Guanya Shi, Byron Boots ◦ 四軸飛行機(≒ドローン) 軌道トラッキング ため 学習ベース 手法 ◦ フィードフォワード/フィードバック適応制御機構を用いた RL(左図) ◦ 閉ループ よるL1適応制御 よ 外乱 対応 きるため、環境毎 微調整 不要 ◦ 3.2ms未満 推論時間(←従来法 1/4) 49 作成者:元田 https://sites.google.com/view/deep-adaptive-traj-tracking
  45. 論文ま め(15/199) Intent-Aware Planning in Heterogeneous Traffic via Distributed Multi-Agent

    Reinforcement Learning • Xiyang Wu, Rohan Chandra, Tianrui Guan, Amrit Bedi, Dinesh Manocha ◦ 自動走行 交通状況 対し安全か 効率的 交通整理(行動計画)する強化学習 手法。 ◦ 分散型 マルチエージェント RL よ 周囲 エージェント(=運転手) 意図 推測を実施し、こ 情報 意思決定(動作計画) 用いられる ◦ 検証:交通状況(穏やか、混雑)別 み も成功率が向上(右図) 50 作成者:元田 https://arxiv.org/abs/2306.06236
  46. 論文ま め(16/199) Language-Guided Traffic Simulation via Scene-Level Diffusion • Ziyuan

    Zhong, Davis Rempe, Yuxiao Chen, Boris Ivanovic, Yulong Cao, Danfei Xu, Marco Pavone, Baishakhi Ray ◦ 自動運転 発展 必須 交通シミュ ため シーン単位 条件付き拡散モデル( CTG++) ◦ 言語 指示 よ シーンを制御するこ が可能 。 ◦ マルチエージェント 対応した時空間相関 Transformer 51 作成者:元田
  47. 論文ま め(17/199) Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping

    • Satvik Sharma, Adam Rashid, Chung Min Kim, Justin Kerr, Lawrence Yunliang Chen, Angjoo Kanazawa, Ken Goldberg ◦ Grasp objects by specified parts ◦ NeRF for posed-2D to 3D and CLIP applied to image patches to generate dense embeddings (LERF) ◦ Select strongest keypoint for high level object query, grow the region using DINO, then select strongest keypoint for part query 53 作成者:Erich
  48. 論文ま め(18/199) Language to Rewards for Robotic Skill Synthesis •

    Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee,  Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard  Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia ◦ 低レベル ロボット制御を LLM 行うため 報酬パラメータを最適化する ◦ Mujoco MPCを組み合わせ 対話的 制御するこ も可能 いる ◦ 四足歩行やマニピュレーション 多様 動作を実現 54 作成者:牧原
  49. 論文ま め(19/199) Robots That Ask For Help: Uncertainty Alignment for

    Large Language Model Planners • Allen Z. Ren, Anushri Dixit, Alexandra Bodrova, Sumeet Singh, Stephen Tu, Noah Brown, Peng Xu, Leila Takayama, Fei Xia, Jake Varley, Zhenjia Xu, Dorsa Sadigh, Andy Zeng, Anirudha Majumdar ◦ KNOWNO: Conformal Prediction(ラベルを単一 く幅をも 返す予測法 ) 基 き、LLM 予 測 対する不確実さを定量化する提案法。まさ ”No”を知る、 いうこ 。 ◦ LLM ”幻覚”問題を最小限 人手(質疑) 、より保証 きるよう する考え 55 作成者:元田 https://robot-help.github.io/ 🎉Best Student Paper Award
  50. 論文ま め(20/199) Bootstrap Your Own Skills: Learning to Solve New

    Tasks with Large Language Model Guidance • Jesse Zhang, Jiahui Zhang, Karl Pertsch, Ziyi Liu, Xiang Ren, Minsuk Chang, Shao-Hua Sun, Joseph J. Lim ◦ 単純 スキル 構成からそれらを組み合わせ 実行するこ 新しいスキルを獲得する ◦ LLMをガイド し 行動系列 候補を生成し ,ここ 動き 強化学習 獲得する ◦ Practice 得られたPolicy スキル系列をあらた スキル し 辞書 追加する 56 作成者:牧原
  51. 論文ま め(21/199) SayPlan: Grounding Large Language Models using 3D Scene

    Graphs for Scalable Task Planning • Krishan Rana, Jad Abou-Chakra, Sourav Garg, Jesse Haviland, Ian Reid, Niko Suenderhauf ◦ Ground large-scale long-horizon tasks plans from abstract natural language instruction and execute on mobile robot with arm ◦ GPT 4 LLM for SOTA, some experiments with GPT 3.5 ◦ Assumes a known scene graph. SayPlan can explore the graph by collapsing/expanding nodes and returns a final path plan within the graph ◦ Simple idea, complex implementation, works reasonably well ▪ 73.3% success rate on “complex tasks”: “Abstract semantic search queries which require complex reasoning”, e.g. “Find the room where people are playing board games.” 57 作成者:Erich Iterative semantic search LLM Iterative replanning
  52. 論文ま め(22/199) VoxPoser: Composable 3D Value Maps for Robotic Manipulation

    with Language Models • Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li1, Jiajun Wu, Li Fei-Fei ◦ 3D空間上 言語指示 アフォーダンスを元 軌道計画を立 る ◦ LLM よ Voxel空間上 言語指示 対応する ValueをAffordance map 割り当 ,同時 避 ける 制約 対し ValueをConstraint map 割り当 る. ◦ 空間上 位置 関し VLMから情報を受け取り更新するため,動的 環境 計画可能 ◦ Affordance Constraintを考慮し ,タスクコストを最小化するよう 軌道を くる 58 作成者:牧原
  53. 論文ま め(23/199) MimicPlay: Long-Horizon Imitation Learning by Watching Human Play

    • Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, Anima Anandkumar ◦ 人間 Play dataをも ロボット自身 行動を修正する. ◦ タスク 完全 マッチし い人間 デモデータから潜在空間上 タスク計画を抽出し,それをベー ス し High-level タスクを計画する ◦ ロボット自身 デモンストレーション Low-level し 共 Policyを学習する. ◦ Long-horizon 14 タスク おい 高い成功率を出し いる. 60 作成者:牧原
  54. 論文ま め(24/199) Continual Vision-based Reinforcement Learning with Group Symmetries •

    Shiqi Liu1, Mengdi Xu1, Peide Huang, Xilun Zhang, Yongkang Liu, Kentaro Oguchi, Ding Zhao ◦ 継続学習 おい ,類似性 あるタスクをグループご 学習する. ◦ 視覚 ロボット 身体情報から,特徴量空間内 1-Wasserstein距離をベース グルーピングし, そ グループ内 ある PPOベース Policyを選択し 学習する. ◦ Plate Slide, Button Press, Drawer Close, Goal Reach 連続したタスク おい 効果的 学習が きる 61 作成者:牧原
  55. 論文ま め(25/199) Rearrangement Planning for General Part Assembly • Yulong

    Li, Andy Zeng, Shuran Song ◦ 左図:新タスクRearrangement Planning(再配置計画)を設定:目標形状( Novel Target)が与えら れた際 , よう 部品形状( Unseen Parts)を組み合わせるかを推論する ◦ 右図:同タスクを効果的 解くモデル し General Part Assembly Transformer(GPAT)も提案, 各部品形状が目標形状 よう 対応するかを推論 62 作成者:片岡
  56. 論文ま め(26/199) Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation https://f3rm.github.io/

    • William Shen∗, Ge Yang∗, Alan Yu, Jansen Wong, Leslie Pack Kaelbling, Phillip Isola ◦ 2D 3D 橋渡しを行う特徴フィールドを設計, 2D画像特徴 3D幾何を接続する空間 ◦ 実装上 言語入力→CLIP特徴 接続するこ Few-shot学習 より6DoF 把持を実現 ◦ 下図 通りスキャン →3D-to-2D特徴使用→言語操作,例 し 特性 異 る物体も 6割程度成功 (下表) 63 作成者:片岡 🎉Best Paper Award
  57. 論文ま め(27/199) GNFactor: Multi-Task Real Robot Learning with Generalizable Neural

    Feature Fields • Yanjie Ze, Ge Yan, Yueh-Hua Wu, Annabella Macaluso, Yuying Ge, Jianglong Ye, Nicklas Hansen, Li Erran Li, Xiaolong Wang ◦ 3D セマンティック表現を潜在空間上 構築し 行動生成をおこ う ◦ 少量 デモンストレーションから,多視点 情報を Voxelから特徴抽出を行い, Stable diffusion RGB画像 Diffusion feature(言語 関するも )を構成するよう 学習する. ◦ 言語 Voxel ボリューム特徴表現から Perciever Transformerをもちい Actionを生成する ◦ Voxel表現 みを直接扱う場合よりもマルチタスク 成功率が高い 64 作成者:牧原
  58. 論文ま め(28/199) RVT: Robotic View Transformer for 3D Object Manipulation

    • Ankit Goyal, Jie Xu, Yijie Guo, Valts Blukis, Yu-Wei Chao, Dieter Fox ◦ 3D物体を複数視点から観測し 特徴獲得する Transformerを提案 ◦ 図 処理工程を示し おり,点群獲得 仮想複数視点から 特徴獲得・把持位置推定 ◦ シミュレーション環境 学習 より,多数タスク 対し 成功し いる 述べられ いる 65 作成者:片岡
  59. 論文ま め(29/199) Measuring Interpretability of Neural Policies of Robots with

    Disentangled Representation • Tsun-Hsuan Wang, Wei Xiao, Tim Seyde, Ramin Hasani, Daniela Rus ◦ ロボット 動作学習 おける disentangle表現 解釈性 関係を分析 ◦ 学習した方策から決定木を構築,決定木から求める disentanglement度合い 指標を提案 ◦ 3 タスク おい disentangle度合いが高いほ ,人 よる解釈性も高いこ が伺える 67 作成者:花井
  60. 論文ま め(30/199) Task-Oriented Koopman-Based Control with Contrastive Encoder • Xubo

    Lyu, Hanyang Hu, Seth Siriya, Ye Pu, Mo Chen ◦ クープマン作用素 クープマン埋め込み,線形制御を同時 学習する. ◦ クープマン埋め込み 対照学習を使 獲得する.こ 埋め込みを か 線形ダイナミクス パ ラメータを予測する.線形ダイナミクス 埋め込みを用い Linear Quadratic Regulator制御を最 適化する ◦ タスクコストを優先的 考慮し 最適化するこ モデル 誤差 ロバスト る 68 作成者:牧原
  61. 論文ま め(31/199) Robot Learning with Sensorimotor Pre-training • Ilija Radosavovic,

    Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik ◦ ロボット 身体 多視点 情報を含めた事前学習手法. ◦ MAEをベース し 時系列 視覚,身体,運動データ 一部をマスクし 復元する自己教師あり 表現学習をおこ う ◦ 把持位置検出手法 を用いた動作計画をベース 実環境 データを収集 ◦ Picking,Stacking 関し 事前学習効果が現れ いる 69 作成者:牧原
  62. 論文ま め(32/199) PreCo: Enhancing Generalization in Co-Design of Modular Soft

    Robots via Brain-Body Pre-Training • Yuxing Wang, Shuang Wu, Tiantian Zhang, Yongzhe Chang, Haobo Fu, Qiang Fu, Xueqian Wang ◦ モジュールロボット 設計 制御 関する事前学習戦略.未知 モジュール構成や環境 対し 汎化性を上げる ◦ 身体 デザイン 制御を1 Policyから出力されるよう 構成 し ,共有されたパラメータ 元 関係を暗黙的 捉え ,効果的 サンプルを る. ◦ 環境やそれぞれ モジュール 相対位置,そ 形状を状態 し , PPOを使 設計 制御 Policy を学習 70 作成者:牧原
  63. 論文ま め(33/199) Surrogate Assisted Generation of Human-Robot Interaction Scenarios •

    Varun Bhatt, Heramb Nemlekar, Matthew C. Fontaine, Bryon Tjanaka, Hejia Zhang, Ya-Chuan Hsu, and Stefanos Nikolaidis ◦ HRIシステム評価 おい ,人間 ロボット 両方 行動を予測するモデルを か シナリオを自 動生成する ◦ 最初 人間 動き 環境を入力し ,人間 ロボット 占有マップ(軌跡 履歴) 予測結果から パフォーマンス を推定.こ シナリオを実現可能 も 修正し ,データセット 追加し いく. 71 作成者:牧原
  64. 論文ま め(34/199) Dynamic Handover: Throw and Catch with Bimanual Hands

    • Binghao Huang, Yuanpei Chen, Tianyu Wang, Yuzhe Qin, Yaodong Yang, Nikolay Atanasov, Xiaolong Wang ◦ マルチエージェント強化学習を用い 2台 多指ハンド付きマニピュレータ 物体 受け渡しを行う ◦ Issac Gym上 Multi-agent PPOを用い Throw,Catchを学習.そ 他 Throwされた軌道を予測 し,そこからCatchするPointを予測するモデルを用いるこ Sim2Real おける軌道 誤差をうめ るこ が きる ◦ PDコントローラ システム同定を加え 実環境 も動作する 73 作成者:牧原
  65. 論文ま め(35/199) Towards General Single-Utensil Food Acquisition with Human-Informed Actions

    • Ethan K. Gordon, Amal Nanavati, Ramya Challa, Bernie Hao Zhu, Taylor A. Kessler Faulkner, Siddhartha S. Srinivasa ◦ 人間から抽出した動作 組み合わせ よ 食品をピックアップする手法 ◦ 人間 デモから再現したロボット 物体 動きをトラッキングしたデータをスキル し 蓄積した ち ,触覚 視覚 コンテキストを元 報酬が大きく りそう 動作を選択し 実行し,成否を判定し がらPolicyを更新する. ◦ 11種類 動作セット 十分 80%以上成功する 74 作成者:牧原
  66. 論文ま め(36/199) Learning Reusable Manipulation Strategies • Jiayuan Mao, Joshua

    B. Tenenbaum, Tomas Lozano-Perez, Leslie Pack Kaelbling ◦ 操作 コツを1度み ,物体 大きさ,位置,種類が変わ も似たよう 動きを実現する ◦ 人間 デモからロボット 物体,物体 物体 関係を捉えた時系列 情報から,ロボット自身 動 きをシミュレーション上 探索し がら生成する ◦ 新しい状況 時 ,物体 関し PointNetベース 分類から動作をする対象を選択し,抽出さ れたシーケンスをベース し 動作を探索する 75 作成者:牧原
  67. 論文ま め(37/199) Affordance-Driven Next-Best-View Planning for Robotic Grasping • Xuechao

    Zhang, Dong Wang, Sun Han, Weichuang Li, Bin Zhao, Zhigang Wang, Xiaoming Duan, Chongrong Fang, Xuelong Li, Jianping He ◦ ら積み 環境 遮蔽 ある物体を把持するため Next Best Veiw 研究。 ◦ 従来 違い Implicit Neural Representation(≃NeRF) より把持可能性を予測した点。 ◦ Renderingする情報 把持評価が含まれ おり、 TSDF形式 把持可能性が算出される(右) 76 作成者:元田
  68. 論文ま め(38/199) FlowBot++: Learning Generalized Articulated Objects Manipulation via Articulation

    Projection • Harry Zhang, Ben Eisner, David Held ◦ 引き出し、開き戸を3Dビジョン(点群)ベース 理解しロボット 操作 転用する手法 ◦ 時間ご 点(連続写真 よう )よし 運動を表現するこ を提案。軌道がスムーズ 。 ◦ 汎用 (下流 )操作タスクをサポートし、未知 対象 も対応。 77 作成者:元田
  69. 論文ま め(39/199) Dexterity from Touch: Self-Supervised Pre-Training of Tactile Representations

    with Robotic Play • Irmak Guzey, Ben Evans, Soumith Chintala, Lerrel Pinto ◦ タクタイル(接触)センサ情報を多指ハンド 器用さ 情報 利用する手法( T-Dex) ◦ 情報抽出:2.5時間 デモデータ よる教師あり学習(高次元 情報 特徴抽出) ◦ 動作学習:(Embedded) 触覚情報 視覚情報からノンパラメトリック 方策学習、 ◦ 検証 視覚or力 基 くモデルよりも触覚情報 優位性を示した 78 作成者:元田 https://tactile-dexterity.github.io/
  70. 論文ま め(40/199) XSkill: Cross Embodiment Skill Discovery • Mengda Xu,

    Zhenjia Xu, Cheng Chi, Manuela Veloso, Shuran Song ◦ Robot learns to perform a task from a single demonstration video of a human performing the task 79 作成者:Erich
  71. 論文ま め(41/199) That Sounds Right: Auditory Self-Supervision for Dynamic Robot

    Manipulation • Abitha Thankaraj, Lerrel Pinto ◦ 従来誰も使 い か た「音」を利用し Contact-Rich 動作を生成するアプローチを提案 ◦ 5種類 25K 音源付き動作データを取得。音 類似度が指標 した自己教師あり学習 ◦ 検証:事前学習 重要性 確認 / 視覚 よる学習よりContact-rich 課題 高い性能を確認 ◦ 検証:UR10 動作 際、音響 類似度を評価 したオンライン学習を導入 効果を確認 80 作成者:元田 https://audio-robot-learning.github.io/
  72. 論文ま め(42/199) One-Shot Imitation Learning: A Pose Estimation Perspective •

    Pietro Vitiello, Kamil Dreczkowski, Edward Johns ◦ 追加データや事前知識が い場合 も、軌道 未知物体 姿勢推定を組み合わせ 定式化可 能。こ 仮定 検証 、定式化を基 した One- shot 模倣学習を提案。 ◦ 特 デモ動作(EEF 軌道データ)を基 ロボット EEF 姿勢変化 物体 姿勢変化を計測 → Test おける姿勢情報 、デモ 姿勢情報から変化 差分を表現する。 ◦ 検証 タスク 成功率 影響 ある情報(位置誤差、 calibration誤差 )を調査。 81 作成者:元田 https://www.robot-learning.uk/pose-estimation-perspective
  73. 論文ま め(43/199) UniFolding: Towards Sample-efficient, Scalable, and Generalizable Robotic Garment

    Folding • Han Xue, Yutong Li, Wenqiang Xu, Huanyu Li, Dongzhe Zheng, Cewu Lu ◦ 衣類 折り畳みタスク 関するロボットシステム UniFolodingを提案。 ◦ 点群情報 対し 掴む位置を推定 →End-to-End 動作決定を行う。衣服 状態 pick, Fling 動作を紐 けるよう 模倣学習可能 モデルを構築 ◦ 学習 Sim(VR) Real(ロボット) 両方 行う。 ◦ 検証:10種類 未知 Tシャツへ 対応 82 作成者:元田 https://unifolding.robotflow.ai/
  74. 論文ま め(44/199) MimicGen: A Data Generation System for Scalable Robot

    Learning using Human Demonstrations • Ajay Mandlekar, Soroush Nasiriany, Bowen Wen, Iretiayo Akinola, Yashraj Narang, Linxi Fan, Yuke Zhu, Dieter Fox ◦ If we learn how a robot interacts with an object from the perspective of the object, then we can move the object around freely and generate new demonstrations ◦ E.g. go from 200 human demonstrations to 50K demonstrations to train on ◦ It seems that after a certain number of human demonstrations, new generated demonstrations are just as easy to learn from as from extra human demonstrations! 83 作成者:Erich
  75. 論文ま め(45/199) Learning Robot Manipulation from Cross-Morphology Demonstration • Gautam

    Salhotra, I-Chun Arthur Liu, Gaurav S. Sukhatme ◦ LfD (デモ 基 く学習)研究 おい 、教師データ 行動空間が(学習モデル 想定 )異 る場 合(例:データ 両手向け、実際 片手 学習したい、 ※左図) 対応。 ◦ 学習対象 行動空間内 布 ダイナミクスを既存モデルから推定 →教師データ 比較 よ 学習すべき行動空間を探索する(※間接的 軌道 最適化法、を利用) 84 作成者:元田 https://uscresl.github.io/mail/
  76. 論文ま め(46/199) Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal

    Rearrangement • Anthony Simeonov, Ankit Goyal, Lucas Manuelli, Yen-Chen Lin, Alina Sarmiento, Alberto Rodriguez Garcia, Pulkit Agrawal, Dieter Fox ◦ 本棚 物体を挿入する、 配置を整列する研究。 ◦ 点群情報から 対し拡散モデル よ 正しい位置を評価する。配置が不適 あるこ を判断し、 目的 沿 た修正(SE(3) 変換)を出力するモデル。 85 作成者:元田
  77. 86 論文ま め(47/199) SCONE: A Food Scooping Robot Learning Framework

    with Active Perception • Yen-Ling Tai, Yu Chien Chiu, Yu-Wei Chao, Yi-Ting Chen ◦ 物理的 複雑 食品 掬い上げ ため、適切 そ 対象 特性を認識する手法。 ◦ 対話型 エンコーダ 状態(=事前学習済み)を認識するモデル(=連続する動き 情報から特性 を得る) よ 方策学習を補助する効果。 ◦ 未知 食品、異 るレベル タスク 71% 成功率。安定性 おい 他手法 優れる。 作成者:元田 https://sites.google.com/view/corlscone/home
  78. 論文ま め(48/199) Hierarchical Planning for Rope Manipulation using Knot Theory

    and a Learned Inverse Model • Matan Sudry, Tom Jurgenson, Aviv Tamar, Erez Karpas ◦ ロープ( 1D物体) 結び目を作るマニピュレーション 研究。 ◦ 階層型 動作計画法 おい 、結び目理論 考え(交差を代数学的 定義)を取り入れ、ロープ 位相情報を連続状態を定義。 ◦ 初期状態 終端状態が与えられた際、上流 トポロジカル 状態同士 遷移 基 く動作計画を 実施、下流 物理シミュレーションをベース した推定が行われる。 87 作成者:元田
  79. 論文ま め(49/199) An Unbiased Look at Datasets for Visuo-Motor Pre-Training

    • Sudeep Dasari, Mohan Kumar Srirama, Unnat Jain, Abhinav Gupta ◦ ロボティクス データセット不足する →従来法 「ドメイン転移」も結局内争的 … → 本研究 、事前学習 「データ」 着目した分析を実施。 ◦ ImageNet よう ビジョン 標準的 データセットこそ小規模 もロボット学習 重要 あ る、 いう知見を得た! ↔軌道データ ロボット的データより 学習 大切! ◦ 同じアルゴリズム 異 るデータ Fine-Tune→結果:ImageNetが実世界 実験 効果が! 88 作成者:元田 https://data4robotics.github.io/
  80. 論文ま め(50/199) HYDRA: Hybrid Robot Actions for Imitation Learning •

    Suneel Belkhale, Yuchen Cui, Dorsa Sadigh ◦ 模倣学習 テスト環境 分布 シフト(環境 差異)が課題。抽象化 一 解決策だが、器用 さを失う他、特定 分布 特化する ◦ そこ 、抽象的 waypoint アクション空間(ざ くり した点 点 移動) 厳密 軌道を動的 切 り替えるこ を提案。 ◦ 従来 模倣学習 比較し 30-40%を上回る性能を示し、長期的 作業 も耐えうる。 89 作成者:元田 https://sites.google.com/view/hydra-il-2023
  81. 論文ま め(51/199) Act3D: Infinite Resolution Action Detection Transformer for Robot

    Manipulation • Theophile Gervet, Zhou Xian, Nikolaos Gkanatsios, Katerina Fragkiadaki ◦ タスク 応じ 三次元特徴 解像度(細かさ)を変えるこ 大切 奥行情報を取り扱う。 ◦ センサ 基 く深度情報から 2D画像特徴を三次元 変換し 点群 特徴を算出 →3Dマップを軽量 算出。 ◦ 2D画像 CLIP ResNet50を用い マッピングし いる( LERF いう手法 近い?) ◦ 2D 複数視点より性能が上がり、直接 3Dデータを用いる場合より軽量! 90 作成者:元田 https://act3d.github.io/
  82. 論文ま め(52/199) Learning Lyapunov-Stable Polynomial Dynamical Systems Through Imitation •

    Amin Abyaneh, Hsiu-Chin Lin ◦ 模倣学習 おい 、リアプノフ 安定定理を組み合わせるこ 想定外 行動 エラーを防ぎ、安 定性を保証する。 ◦ 教師データから方策 リアプノフ 意味 安定 候補を取得 →大域的 安定 ため 、最適化計算 を行う。 91 作成者:元田 https://sites.google.com/view/stable-planning-policy/home
  83. 論文ま め(53/199) One-shot Imitation Learning via Interaction Warping • Ondrej

    Biza, Skye Thompson, Kishore Reddy Pagidi, Abhinav Kumar, Elise van der Pol, Robin Walters, Thomas Kipf, Jan-Willem van de Meent, Lawson L.S. Wong, Robert Platt ◦ SE(3) (特殊直交系) ロボット操作 方策を One-shot 得る手法。 ◦ Shape-warping いう方法 よ 各物体から 3Dメッシュを推論し、物体 動き キーポイントを 得る。 ◦ 物体 形状推論 効果が高いため、模倣学習 効率( One-shot)が実現される。 92 作成者:元田 https://shapewarping.github.io./
  84. 論文ま め(54/199) AdaptSim: Task-Driven Simulation Adaptation for Sim-to-Real Transfer •

    Allen Z. Ren, Hongkai Dai, Benjamin Burchfiel, Anirudha Majumdar ◦ ① Sim2Real ため シミュレーション内 、パフォーマンス 基 くパラメータ分布 よりメタ学習 を実施。適切 シミュレーション 設定を見出す。 ◦ ② 現実 データを用い 、 Sim 分布をReal 繰り返し 学習 近 ける。 ◦ PushingやScooping 検証し、右グラフ よう Realへ 適応を示す。 ◦ 例:きゅうりを切る、一片を掬う、 いう器用 作業を実現した。 93 作成者:元田 https://irom-lab.github.io/AdaptSim/
  85. 論文ま め(55/199) A Universal Semantic-Geometric Representation for Robotic Manipulation •

    Tong Zhang, Yingdong Hu, Hanchen Cui, Hang Zhao, Yang Gao ◦ RGB 深度カメラ 統合 着目. Semantic-Geometric Representation(SGR)がそ ため 汎用 的 ロボット知覚モジュールを提案. ◦ SGR 事前学習済み(CLIP) 意味情報 三次元 空間推論を合わせロボットタスクを格納 ◦ 検証 実世界 タスク おい も他 手法 比べ優位. 94 作成者:元田 https://semantic-geometric-representation.github.io/
  86. 論文ま め(56/199) General In-hand Object Rotation with Vision and Touch

    • Haozhi Qi, Brent Yi, Sudharshan Suresh, Mike Lambeta, Yi Ma, Roberto Calandra, Jitendra Malik ◦ マルチモーダル 入力 より複数 軸を中心 した In-hand 物体 回転 手法。 ◦ ①視覚、②触覚(Tactile image)、③深部感覚(自己受容性)等から内部 特性 関する知識を取 得、潜在的 空間上 正しい状態を得用 する。こ 状態 PPO 動作計画。 ◦ 右図 よう 視覚 触覚情報を用いるこ 重要性を検証した。 95 作成者:元田 https://haozhi.io/rotateit/
  87. 論文ま め(57/199) ChainedDiffuser: Unifying Trajectory Diffusion and Keypose Prediction for

    Robotic Manipulation • Zhou Xian, Nikolaos Gkanatsios, Theophile Gervet, Katerina Fragkiadaki ◦ 模倣学習 おい , Detection Transformer Diffusion Policyを上手く統合し long-horizon タ スクを解く. ◦ マルチモーダル 情報を統合し 大域的 状況判断が必要 keypose 生成 Detection Transformer 行い,Keyposeを繋ぐ滑らか 軌道生成 Diffusion modelを使う. ◦ 観測 RGBやdepthをそ まま使う く CLIP featureを使 3D feature cloud (2D appearance+3D position) し いる点も 興味深い. 96 作成者:花井
  88. 論文ま め(58/199) A Data-efficient Neural ODE Framework for Optimal Control

    of Soft Manipulators • Mohammadreza Kasaei, Keyhan Kouhkiloui Babarahmati, Zhibin Li, Mohsen Khadem ◦ 柔らかいロボット 前進運動 モデリング手法。 25データから運動を訓練する可能 ◦ Augmented Neural ODEを用い 柔軟 連続体をモデリング。モデル予測経路統合、 いう方法 より非凸性 目的関数 も効果的 対応 きる 97 作成者:元田
  89. 論文ま め(59/199) Generative Skill Chaining: Long-Horizon Skill Planning with Diffusion

    Models • Utkarsh Aashu Mishra, Shangjie Xue, Yongxin Chen, Danfei Xu ◦ スキル 着目した拡散モデル.並列し 学習された分布を組み合わせ、長期間計画を生成. ◦ 各作業 制約(事前 事後 状態 関連性)を確認する分類器 よ 動作を計画. ◦ スキル間 連続性が適切 モデル化されたこ ,汎用性や実現可能性を向上させた 98 作成者:元田 https://generative-skill-chaining.github.io/
  90. 論文ま め(60/199) Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation

    • Yuanpei Chen, Chen Wang, Li Fei-Fei, C. Karen Liu ◦ 複数 器用 サブポリシーを連鎖させ 長期間 操作タスクを実現する ◦ サブポリシー 連鎖成功率を高め,障害から 回復や不要 段階 バイパスを可能 する.シミュ レーション み 学習する. ◦ 前方初期化プロセス 後方微調整プロセス いう双方向最適化を行う.各サブポリシー間 初期状 態 実現可能性を評価し,連鎖を最適化する. ◦ 未知 オブジェクト形状 対し 実環境 おい も動作を可能 した. 99 作成者:牧原
  91. 論文ま め(61/199) FastRLAP: A System for Learning High-Speed Driving via

    Deep RL and Autonomous Practicing • Kyle Stachowicz, Dhruv Shah, Arjun Bhorkar, Ilya Kostrikov, Sergey Levine ◦ 実環境 一人称視点 視覚ベース 強化学習 1/10スケール 高 運転を行う ◦ ほか ロボット 大規模オフラインデータから視覚表現を獲得する. ◦ オンライン強化学習 衝突や失敗時 リセットする ◦ Off-policy RL おい 遅い周回データを一度集めるこ 失敗 数を削減し いる ◦ 20分未満 学習が完了し 動作が可能 る 101 作成者:牧原
  92. 論文ま め(62/199) Learning Realistic Traffic Agents in Closed-loop • Chris

    Zhang, James Tu, Lunjun Zhang, Kelvin Wong, Simon Suo, Raquel Urtasun ◦ 交通ルールを厳守し ,人間らしい運転を実現するよう Close-loop 学習する ◦ 人間 デモから得られたシナリオ( IL) ,ヒューリスティック 作成した長いシナリオ( RL)を交互 学習する ◦ こ モデルから作られる合成データも自動運転タスク 学習 おい 有効 あり,より現実 近い 走行データを生成するこ が き いる 102 作成者:牧原
  93. 論文ま め(63/199) Imitating Task and Motion Planning with Visuomotor Transformers

    • Murtaza Dalal, Ajay Mandlekar, Caelan Reed Garrett, Ankur Handa, Ruslan Salakhutdinov, Dieter Fox ◦ TAMPを教師 し 用い 収集したデータセット Transformerをアーキテクチャ する毛包学習 強力 組み合わせ るこ を示した. ◦ ①TAMP コストを最小化を考慮,②観測 時系列データを扱う Transformer(右図) ◦ 標準 BC 比べ も長期タスク 効果を確認. 103 作成者:元田 https://mihdalal.github.io/optimus/
  94. 論文ま め(64/199) A Bayesian Approach to Robust Inverse Reinforcement Learning

    • Ran Wei, Siliang Zeng, Chenliang Li, Alfredo Garcia, Anthony D McDonald, Mingyi Hong ◦ 未知 報酬関数 環境 ダイナミクスモデル(内部)を同時推定。ベイジアンネットワーク 基 く 逆強化学習(IRL) アプローチ。 ◦ 左図:環境モデル 重み 出力 精度関連し、大きく る エラーがすく い探索 。 ◦ 右図:ベンチマーク よるアルゴリズム 性能比較。ほぼ提案法( BM-IRL)が優位。 104 作成者:元田 https://github.com/rw422scarlet/bmirl_tf
  95. 論文ま め(65/199) Reinforcement Learning Enables Real-Time Planning and Control of

    Agile Maneuvers for Soft Robot Arms • Rianna Jitosho, Tyler Ga Wei Lum, Allison Okamura, Karen Liu ◦ リアルタイム ソフトロボット 制御 ため 強化学習へ Sim2Real アイディア。 ◦ fPAM(空気圧筋) いうを複数リンク(ヒンジ)を持 アーム し 定式化。 → ドメイン 乱択化 センサ等 モデリングがタスク 成功率 重要 ある いう知見。 105 作成者:元田 https://sites.google.com/view/rl-soft-robot
  96. 論文ま め(66/199) AR2-D2: Training a Robot Without a Robot •

    Jiafei Duan, Yi Ru Wang, Mohit Shridhar, Dieter Fox, Ranjay Krishna ◦ 人間 デモデータ 収集システム ある AR2-D2を提案. ◦ ①特殊 訓練を要さ い,②現実 ロボットを使わ い,③多様 物体をロボット 操作するよう デモ 収集 ◦ iOSアプリ(iPhoneやiPad アプリ)を用い ,作業者がロボットを操作する「様子」 ビデオ ◦ 上記 デモデータが現実 物体操作 も応用出来るこ を示した. ◦ 本手法 アプリ経由 収集した場合がタスク成功率が上が た (よいデータが集ま た!) 106 作成者:元田 https://ar2d2.site/
  97. 論文ま め(67/199) Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions

    • Yevgen Chebotar,..., Sergey Levine et al. ◦ 大規模 デモデータからマルチタスクへ拡張するため 強化学習手法 紹介。 ◦ 左図:Transformerを用い 各行動を個別 トークン し Q値を推定(MDP 問題 し 扱える形 式) ◦ 右図:他 行動計画モデルよりも各タスク 高い性能 107 作成者:元田 https://qtransformer.github.io/
  98. 論文ま め(68/199) Contrastive Value Learning: Implicit Models for Simple Offline

    RL • Bogdan Mazoure, Benjamin Eysenbach, Ofir Nachum, Jonathan Tompson ◦ 多段階 ダイナミクスモデルを提案し 、直接、行動価値を推定( ↔TD学習) ◦ Contrastive Value Learning (CVL) 、モデルフリー 制御法 あり、対照学習 よ 未来 状 態を潜在的 空間内 獲得する。 ◦ 図 よう 内部 遷移を含む状態(≒連続的) 表現 あるため、 高次元 観測が必要 し いこ も優位 点。 108 作成者:元田 左図:従来 未来 状態を保持し 、次 状態を考え いる 右図:Implicit モデルを用い 各情報 頻度(青い線)を推定しQ値 そ 重み 平均 表現
  99. 論文ま め(69/199) Sample-Efficient Preference-based Reinforcement Learning by Encoding Environment Dynamics

    in the Reward Function • Rin Metcalf, Miguel Sarabia, Natalie Mackraz, Barry-John Theobald ◦ 「選好」をベース する強化学習:人間 選好(選択) 合わせたロボット 行動獲得。 ◦ 人 フィードバックを適切 行うため、以下を仮定: ①「状態、行動、次 状態」 関係をモデル化         →遷移 「選好」 ため ②時間的 Consistency objective よ ダイナミクスを認識  →行動を一般し、比較可能 ◦ 109 作成者:元田
  100. 論文ま め(70/199) Few-Shot In-Context Imitation Learning via Implicit Graph Alignment

    • Vitalis Vosylius, Edward Johns ◦ 物体をグラフ表現 し、条件付き アライメント問題 し 模倣学習を定式化。 ◦ デモ よ 3D 動きを入力、局所特徴 よるグラフ表現 変換した上 、動きを学習 → 物体 形状 詳細 影響を受け くい。未知物体へ 対応が可能。 ◦ ICP 他 アライメント手法 比較(位置誤差) 他をし ぐ結果。 110 作成者:元田 https://www.robot-learning.uk/implicit-graph-alignment
  101. 論文ま め(71/199) Precise Robotic Needle-Threading with Tactile Perception and Reinforcement

    Learning • Zhenjun Yu, Wenqiang Xu, Jieji Ren, Tutian Tang, Yutong Li, Siqiong Yao, Guoying Gu, Cewu Lu ◦ 触覚を用いた糸通し(柔軟 線形物体 操作を含む)タスク ため 強化学習手法 ◦ 端(Tail-end) ①検出、および②挿入、 二段階: ▪ 実環境 、糸を挿入する(突き動かす)作業を繰り返し誤差を補正 (一発 決まら いが、触覚 よ 失敗したこ が分かる、右図) 111 作成者:元田 https://sites.google.com/view/tac-needlethreading/
  102. 論文ま め(72/199) What Went Wrong? Closing the Sim-to-Real Gap via

    Differentiable Causal Discovery • Peide Huang, Xilun Zhang, Ziang Cao, Shiqi Liu, Mengdi Xu, Wenhao Ding, Jonathan Francis, Bingqing Chen, Ding Zhao ◦ 環境パラメータ 実世界 ギャップ 関係性を見出す為 手法。 ◦ シミュレーション環境内 軌道を実機 軌道を違いを微分可能 モデルを学習。 ◦ パラメータを最適化し 更新する(ドメイン適応を明示的 行 いる 言える) ◦ 右図:収束性や適応が確認される。 112 作成者:元田 https://sites.google.com/view/sim2real-compass
  103. 論文ま め(73/199) Equivariant Reinforcement Learning under Partial Observability • Hai

    Huu Nguyen, Andrea Baisero, David Klee, Dian Wang, Robert Platt, Christopher Amato ◦ 特定 ドメイン 関する対称性を考慮するこ 、ロボット学習 サンプル効率よく解く。 ◦ 例え 、物体 位置が回転し いるだけ 基本的 動き 同じ →より最適 解がある ず ◦ 右図 よう 回転を対称群 し 定義。群をベース した POMDP よりActor-Critic型 強化学習 を実施→サンプル効率 観点から性能が評価された。 113 作成者:元田
  104. 論文ま め(74/199) Robust Reinforcement Learning in Continuous Control Tasks with

    Uncertainty Set Regularization • Yuan Zhang, Jianhong Wang, Joschka Boedecker ◦ 不確か 情報遷移 課題(特 連続空間 制御 い ) ため、新しい正則化項。 ◦ 遷移関数 パラメータ空間 不確実性を校正。未知 情報 い も価値関数 おい 対応 ◦ 著者ら 提案手法を Real-world Reinforcement Learning(RWRL)ベンチマークおよび Unitree A1 Robot 評価し、特 摂動テスト環境 シミュレーションから実機へ シナリオ 堅牢性が向上。 (standingおよびLocomotion 検証) 114 作成者:元田 図:一定 幅(不確かさ)をも 表現する いう意図がある
  105. 論文ま め(75/199) A Policy Optimization Method Towards Optimal-time Stability •

    Shengjie Wang, Fengbo Lan, Xiang Zheng, Yuxue Cao, Oluwatosin Oseni, Haotian Xu, Tao Zhang, Yang Gao ◦ サンプリング よるリアプノフ安定性を導入した方策安定化手法。 ◦ Actor-Critic型強化学習 リアプノフ最適制御 手法を統合。最適性を考慮した学習をし 、安 定 方策を獲得し いる。 ◦ 10 ロボットタスク 評価 おい 、提案法 従来法 優位。 115 作成者:元田 https://sites.google.com/view/adaptive-lyapunov-actor-critic
  106. 論文ま め(76/199) IIFL: Implicit Interactive Fleet Learning from Heterogeneous Human

    Supervisors • Gaurav Datta, Ryan Hoque, Anrui Gu, Eugen Solowjow, Ken Goldberg ◦ Edge case (限界) 模倣学習 弱点。リモート 人間がそれを修正する手法 改善案。 ◦ エネルギーベース モデル よ 対象が異 る教師データから デモ 対応。 ◦ 不確実性 定量化 ため Jeffreys Divergence(分布間 差異 定量。 Kullback-Leibler divergenceを対称 したも )を導入。学習 効果を主張。 ◦ Sim 従来法 2.8倍 成功率を示す。 Pushing blocks サンプル効率(教師 作業)が 4.5 倍 たこ が報告され いる。 116 作成者:元田 https://github.com/BerkeleyAutomation/IIFL
  107. 論文ま め(77/199) TraCo: Learning Virtual Traffic Coordinator for Cooperation with

    Multi-Agent Reinforcement Learning • Weiwei Liu, Wei Jing, lingping Gao, Ke Guo, Gang Xu, Yong Liu ◦ チーム全体(マルチエージェント) 求める寄与を表現する手法 ある TraCo ◦ クロスアテンション 事実 対する報酬を組み合わせ 、エージェント全体 特講を抽出。 全体(チーム)が各エージェント 求める寄与を正確 定量化 ◦ 交通フロー内 車両間 多様 動き 対応。既存手法 比較 よ 検証。 117 作成者:元田 対象エージェント 周囲 状況を評価するネット ワーク
  108. 論文ま め(78/199) DROID: Learning from Offline Heterogeneous  Demonstrations via Reward-Policy

    Distillation • Sravan Jayanthi, Letian Chen, Nadya Balabanska, Van Duong, Erik Scarlatescu, Ezra Ameperosa, Zulfiqar Haider Zaidi, Daniel Martin, Taylor Del Matto, Masahiro Ono, Matthew Gombolay ◦ オフライン LfD 研究 おい 、特異 デモデータ 対応するため 、報酬 方策 空間 おい 知識蒸留する。 ◦ 検証 、Mars Curiosity Rover(NASA) OpenAI Gym Cartpole環境 検証し性能を評価。 118 作成者:元田 図:異 る方針を持 エキスパート データを想 定し、共有する報酬を獲得。共通する方策を知 識蒸留する
  109. 論文ま め(79/199) Preference learning for guiding the tree search in

    continuous POMDPs • Jiyong Ahn, Sanghyeon Son, Dongryung Lee, Jisu Han, Dongwon Son, Beomjoon Kim ◦ 連続空間 POMDPを用いるため、成否 双方 軌道データを用いた Preference learning(選好 学習)を行う(↔回帰学習)。 ◦ 左図 よう 木探索から選好ラベルを付与。ノード間 優先順位が成否をベース 設定 ◦ 好ましい軌道 適切 報酬が設定されるため、少 いデータ 場合 も効率がよい。 ◦ 選好学習 、回帰学習 比べ ロバスト 結果を示した。 119 作成者:元田 https://sites.google.com/view/preference-guided-pomcpow?usp=sharing
  110. 論文ま め(80/199) Cold Diffusion on the Replay Buffer: Learning to

    Plan from Known Good States • Zidan Wang, Takuma Yoneda, Takeru Oba, Rui Shen, Matthew Walter, Bradly C. Stadie ◦ 生成された計画が実現可能 あるか 着目(左図)。最適化プロセスを Replay bufferを介し、事前 音連れた状態 誘導する「 COLD DIFFUSION」を提案。 ◦ 固定された始点 目標状態を有する拡散モデルを用い 、模倣し がら、最適化プロセスへ誘導す る。※簡単 言え 、 Replay Buffer Diffision Model 組み合わせ。 ◦ 本手法 、障害物を回避するタスク 有意 改善が見られた。 120 作成者:元田
  111. 論文ま め(81/199) BridgeData V2: A Dataset for Robot Learning at

    Scale • Homer Walke, Kevin Black, Abraham Lee, Moo Jin Kim, Max Du, Chongyi Zheng, Tony Zhao, Philippe Hansen-Estruch, Quan Vuong, Andre He, Vivek Myers, Kuan Fang, Chelsea Finn, Sergey Levine ◦ ロボット操作 大規模データ. 24 環境,60,096 データ ◦ WidowX 様々 シーン(キッチン か 家庭環境)や物体を扱い,言語指示を含ん おり,オープ ンボキャブラリー マルチタスク学習手法 使用可能 ◦ 模倣学習やオフライン強化学習 おい データ量 関するスケーリング 効果を確認 121 作成者:牧原
  112. 論文ま め(82/199) Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning •

    Archit Sharma, Ahmed M Ahmed, Rehaan Ahmad, Chelsea Finn ◦ 少量 エキスパートデモデータから学習し 、ロボットが Self-improving (自己改善)する。 ◦ 視覚エンコーダ よ End-to-End 方策および報酬関数を学習。タスク固有 事前トレーニング を必要 し い。効率性を考えたアンサンブル学習 エキスパート 利用を検証。 ◦ 視覚ベース 手法から 30% 性能向上 、ロボット実験 成功率向上がある。 122 作成者:元田 図:人間が環境をリセットし 繰り返しデータを 集める が今 強化学習。 ここ 、ロボット自身がそれを行う、 いうコ ンセプトがある。
  113. 論文ま め(83/199) Autonomous Robotic Reinforcement Learning with Asynchronous Human Feedback

    • Max Balsells I Pamies, Marcel Torne Villasevil, Zihan Wang, Samedh Desai, Pulkit Agrawal, Abhishek Gupta ◦ 手動 報酬関数 設定やリセット(繰り返し 設計)を行わ いため 手法。 ◦ 遠隔 非エキスパート フィードバックから、 goal-directed-policy learning (目標指向 方策学 習) 自己教師あり学習を導入(報酬 を学習) ◦ 検証:シミュレーションや実世界 い 、ロボットタスク システムを評価 → ウェブ インターフェースを介した遠隔フィードバック 学習 非常 効果的 123 作成者:元田 https://guided-exploration-autonomous-rl.github.io/GEAR/ 図:ロボット 自動的 探索を行うが、非常 簡単 UI よ 良し悪しを人 判断し もらう。
  114. 論文ま め(84/199) Fighting Uncertainty with Gradients: Offline Reinforcement Learning via

    Diffusion Score Matching • H.J. Terry Suh, Glen Chou, Hongkai Dai, Lujie Yang, Abhishek Gupta, Russ Tedrake ◦ 不確実性 推定が最適化手法 作用するかを検証。 ◦ Smoothed distanceを不確実性 評価 し 考える。以下 有用性が示され いる。 ▪ 不確実性を最小化しよう する勾配ベース 手法。 ▪ リプシッツ定数(リプシッツ連続 ある写像)を用い モデル バイアス 分析 ◦ 提案法 よるSGP アンサンブル学習等が苦手 局所的 最小値 問題を改善しオフライン強化 学習 おける効果を示した。 124 作成者:元田 https://sites.google.com/view/score-guided-planning/home
  115. 論文ま め(85/199) Enabling Efficient, Reliable Real-World Reinforcement Learning with Approximate

    Physics-Based Models • Tyler Westenbroek, Jake Levy, David Fridovich-Keil ◦ 実世界 データ 限られた情報から学習する方策 最適化手法 ◦ 近似モデルを用いたフレームワーク あり以下を構築した: ◦ ローレベル 安定化(追従)制御が導入され おり、学習や、平滑化特性を改善するこ が特徴。 サンプル効率 点からも他手法 優れ いるこ が示された。 125 作成者:元田
  116. 論文ま め(86/199) Learning to Discern: Imitating Heterogeneous Human Demonstrations with

    Preference and Representation Learning • Sachit Kuhar, Shuo Cheng, Shivang Chopra, Matthew Bronars, Danfei Xu ◦ デモデータ 品質を維持するため、特異データ い 対応。 ◦ 小さいデモバッチから時間系列 軌跡データを潜在的( latent) 表現し品質を評価。 ◦ 複数 異 るデータ(条件が様々)からも効果的 学習 き、 複数タスク 方策学習 おい 、パフォーマンスが向上した。 126 作成者:元田 図:軌道 データから潜在空間内 マッピングを考え る。そ 中 quality critic (品質評価)を行い、軌道 良 し悪しを決める。
  117. 論文ま め(87/199) RoboPianist: Dexterous Piano Playing with Deep Reinforcement Learning

    • Kevin Zakka, Philipp Wu, Laura Smith, Nimrod Gileadi, Taylor Howell, Xue Bin Peng, Sumeet Singh, Yuval Tassa, Pete Florence, Andy Zeng, Pieter Abbeel ◦ ピアノを弾く(≒精密動作)指 運動を深層強化学習 よる獲得を目指すため 環境を提供 ◦ シミュレーション環境やデータセット。モデル予測 比べ精度が向上し いる結果(右図) 127 作成者:元田 https://kzakka.com/robopianist/ 図:運指(指 配置)付き 楽譜を用い いる。
  118. 論文ま め(88/199) Deception Game: Closing the Safety-Learning Loop in Interactive

    Robot Autonomy • Haimin Hu, Zixu Zhang, Kensuke Nakamura, Andrea Bajcsy, Jaime Fernández Fisac ◦ 自律移動車 ロボット 人が対話するため 課題 焦点 あ 、閉ループ型 意思決定ゲー ム(交通シーン 安全か うかを判断するゲーム)を提案 ◦ 物理的 ダイナミクスおよび敵対的強化学習を用い 、安全性を分析し る。 ◦ 本研究 用いた手段 有用性をケーススタディ も 評価。 128 作成者:元田 https://saferoboticslab.github.io/Belief-Game/
  119. 論文ま め(89/199) Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning

    • Jianlan Luo, Perry Dong, Jeffrey Wu, Aviral Kumar, Xinyang Geng, Sergey Levine ◦ 条件付きVQ-VAEを訓練し 、状態 条件付けられたアクション 潜在表現を学習。 ◦ VQ-VAE 離散コード(Codebook)をアクション し オフライン RLを実行 ◦ 推論中 、ポリシーを使用し 最適 離散アクションを選択し、訓練されたデコーダ 連続 変換。 ◦ Robomimic環境 複雑 タスク 検証 おい 2-3倍 改善を示した。 129 作成者:元田 https://saqrl.github.io/
  120. 論文ま め(90/199) CLUE: Calibrated Latent Guidance for Offline Reinforcement Learning

    • Jinxin Liu, Lipeng Zu, Li He, Donglin Wang ◦ オフライン強化学習 おける報酬設定 い 、少数エキスパートから実施。 ◦ Calibrated Latent guidance より内部 報酬 エキスパート 整合性 確保。 ◦ 条件付きVAEを用い 潜在空間を学習し 、潜在空間内部 評価を行う。 ◦ スパース 報酬 RL おい パフォーマンス 向上 効果的 あるこ を示した。 130 作成者:元田 図:適切 潜在空間を学習させるこ 、尤もらしい報酬が選択 きる
  121. 論文ま め(91/199) MOTO: Offline Pre-training to Online Fine-tuning for Model-based

    Robot Learning • Rafael Rafailov, Kyle Beltran Hatch, Victor Kolev, John D Martin, Mariano Phielipp, Chelsea Finn ◦ オフライン学習からオンライン Fine-tuneを行う際 課題(ドメイン 違いやダイナミクス )を 改善するOn-Policy モデルベース手法。 ◦ オフライン 得た価値(評価)を拡張、不確かさを考慮した予測モデル、方策最適化。 131 作成者:元田 https://sites.google.com/view/mo2o/ ←データ 再利用 最適化 よ 分布 シフト 課題を改善。不確実 部分を制御するこ 、モデル 学習を調整。
  122. 論文ま め(92/199) Parting with Misconceptions about Learning-based Vehicle Motion Planning

    • Daniel Dauner, Marcel Hallgarten, Andreas Geiger, Kashyap Chitta ◦ 近年 自動車関連 データが充実し 、学習 よる動作計画が可能 。 ◦ 本研究 そうした最新 分析し、以下 調査結果。 ▪ 閉ループ型動作計画 い 学習ベース 手法 比べ ルールベース 事前知識が有益 ▪ ナイーブ 学習ベース 動作計画を実装したが、ルート 中心線を与え やれ 自己位置 が推定可能 133 作成者:元田
  123. 論文ま め(93/199) Towards Scalable Coverage-Based Testing of Autonomous Vehicles •

    James Tu, Simon Suo, Chris Zhang, Kelvin Wong, Raquel Urtasun ◦ 自律走行車(AV) ため (離散化を避けた)確率を安全 ため モデル化 、閾値をも したパ ラメータ空間 調整を行 た。 ◦ 提案法 GUARD ガウス分布 従う確率モデルを行い、 Levelset アルゴリズム(境界を設定し た段階的評価) よ パラメータ空間 効果的 学習を行う。 ◦ 134 作成者:元田 図:離散化を避けるこ 、本手法 連続的 正しいパラメータ空間を 構築するこ が可能。
  124. 論文ま め(94/199) Adv3D: Generating Safety-Critical 3D Objects through Closed-Loop Simulation

    • Jay Sarva, Jingkang Wang, James Tu, Yuwen Xiong, Sivabalan Manivasagam, Raquel Urtasun ◦ 自動走行車 安全 ため、幅広いシナリオ・厳格 テストが必要ある。 ◦ そこ 、閉ループ シミュレーション おける自律運転 性能 評価法を提案。 ◦ LiDARベース 考えた き、周囲 認識 おい 、形状 変化(認識した車 形)が与えるパフォー マンス 劣化を考える。 ◦ 検証:シーン 外観 変動が自律運転 パフォーマンス 与える影響を示した。 135 作成者:元田
  125. 論文ま め(95/199) SayTap: Language to Quadrupedal Locomotion • Yujin Tang,

    Wenhao Yu, Jie Tan, Heiga Zen, Aleksandra Faust, Tatsuya Harada ◦ LLMを用いた四足歩行ロボット 制御。自然言語 ローレベル 動作指令を関連付ける手法 ◦ 足 接触パターン より,運動パターン 分布を制御器 学習。 ◦ 論文 報酬関数や LLM プロンプト 設計を紹介し いる. ◦ 検証:30 タスク 内、10 追加タスクを解決可能。多様 運動パターン 対応。 136 作成者:元田 https://saytap.github.io/
  126. 論文ま め(96/199) ScalableMap: Scalable Map Learning for Online Long-Range Vectorized

    HD Map Construction • Jingyi Yu, Zizhao Zhang, Shengfu Xia, Jizhang Sang ◦ 車載カメラからオンライン 長距離ベクトル化された HDマップを構築する学習. ◦ 線形構 基 き,正確 BEV(俯瞰)特徴を抽出,スケーラビリティを活用し,階層的 マップ表 現を提案。 ◦ 最新モデル 比較し ,精度 計算処理 高い性能を示した。 137 作成者:元田 https://github.com/jingy1yu/ScalableMap
  127. 論文ま め(97/199) Stochastic Occupancy Grid Map Prediction in Dynamic Scenes

    • Zhanteng Xie, Philip Dames ◦ VAE より、モバイルロボットが複雑 動的シーン 未来 状態を予測 ◦ ロボット 動き、動的オブジェクト、静的オブジェクト 情報を組み合わせ予測精度を向上 ◦ 異 るロボットモデル 収集された 3 データセットを使用し 、提案手法が他 アルゴリズムよ りも正確 頑健 予測性能を達成. 138 作成者:元田 https://github.com/TempleRAIL/SOGMP
  128. 論文ま め(98/199) Learning Physically Grounded Robot Vision with Active Sensing

    Motor Policies • Gabriel B. Margolis, Xiang Fu, Yandong Ji, Pulkit Agrawal ◦ 色情報を用い 地形 物理情報を予測.視覚モデルを通じ 異 るタスク 適用可能 ロボット 効率的 移動計画. ◦ 環境 物理を正確 推定するため モータ 動作訓練.色情報から物理的 特性を推論. ◦ 検証結果: 地上 カメラ画像 みを使用し 訓練され がら、オーバーヘッド画像から 経路計画 おい 堅牢 汎化を実証. 139 作成者:元田 https://gmargo11.github.io/active-sensing-loco/ 図:視覚情報から地形 情報を分析(右)
  129. 論文ま め(99/199) CAT: Closed-loop Adversarial Training for Safe End-to-End Driving

    • Linrui Zhang, Zhenghao Peng, Quanyi Li, Bolei Zhou ◦ 自動運転 安全性向上 ため 環境を拡張する ◦ 環境・自車・対向車を時系列 動かすポリシーを最適化し 危険 場面からいか 避けるかを学習 する 140 作成者:片岡
  130. 論文ま め(100/199) Learning to Drive Anywhere via Regional Channel Attention

    • Ruizhao Zhu, Peng Huang, Eshed Ohn-Bar, Venkatesh Saligrama 141 作成者:片岡 ◦ 地理的・環境的 要因を考慮し 自動運転 学習を実施する GeCo いう条件付き模倣学習 枠組みを提供する ◦ 左・右通行や交差点・中央分離 帯 地理的 条件をモデル 内 入れ込むこ ,限られた 環境 み しか動作し い 今ま 制約を取り払うこ が きる
  131. 論文ま め(101/199) HomeRobot: Open-Vocabulary Mobile Manipulation • Sriram Yenamandra, Arun

    Ramachandran, Karmesh Yadav, Austin S Wang, Mukul Khanna, Theophile Gervet, Tsung-Yen Yang, Vidhi Jain, Alexander Clegg, John M Turner, Zsolt Kira, Manolis Savva, Angel X Chang, Devendra Singh Chaplot, Dhruv Batra, Roozbeh Mottaghi, Yonatan Bisk, Chris Paxton ◦ 家庭内 物体を汎用的 操作しタスクを完了させるロボット ’HomeRobot’ 提案 ◦ 認識・言語理解・ナビ・操作を同時 統合実装 ◦ さら ,汎用的 家庭内タスク ある HomeRobot OVMMベンチマークを導入 142 作成者:片岡
  132. 論文ま め(102/199) Synthesizing Navigation Abstractions for Planning with Portable Manipulation

    Skills • Eric Rosen, Steven James, Sergio Orozco, Vedant Gupta, Max Merlin, Stefanie Tellex, George Konidaris ◦ 高レベル 抽出化 一般化. ▪ 新しい環境下 移動や操作計画をサポートする ▪ 前提条件下 空間 そう い空間 い ▪ 双方 状態変数を用い ナビゲーションを用い , 計画可能 ナビゲーション 抽象化を生成 ◦ 提案方 わずか数分 操作 表現 が可能 るよう 生 ◦ AI2Thour シミュレーションデータ 実際 ハード 実験 高い性能を示した 143 作成者:元田 https://github.com/ericrosenbrown/aosm_experiments
  133. 論文ま め(103/199) Cross-Dataset Sensor Alignment: Making Visual 3D Object Detector

    Generalizable • Liangtao Zheng, Yicheng Liu, Yue Wang, Hang Zhao 144 作成者:片岡 ◦ 各交通データセットが単一 カメラ・ 3Dセンサ より構成 され いるこ を指摘した上 ,クロス 学習し 自動車 を操作するこ を想定した研究 ◦ カメラベース 3D物体検出 能力を評価,別データセッ トへ 検出器適応や複数データセット 学習を実施し 評価 ◦ 各交通データセット センサが異 る いう問題 対し ,センサー構成を効率的 調整する技術を導入
  134. 論文ま め(104/199) Energy-based Potential Games for Joint Motion Forecasting and

    Control • Christopher Diehl, Tobias Klosek, Martin Krueger, Nils Murzyn, Timo Osterburg, Torsten Bertram ◦ ゲーム理論を用い マルチエージェント 動作予測 制御 おける相互作用モデリング ◦ パラメータ推論 NNおよび微分可能 ゲーム理論 最適化層を合わせ帰納的 バイアス ◦ 解釈可能性 向上,予測性能 向上 145 作成者:元田
  135. 論文ま め(105/199) Multi-Predictor Fusion: Combining Learning-based and Rule-based Trajectory Predictors

    • Sushant Veer, Apoorva Sharma, Marco Pavone ◦ 学習ベース 軌道予測モジュールを改善するため、論理ベース ルールを組み込んだ手法 →自動運転車 動作計画 おい ,安全性 効率性を向上. ◦ 学習および論理 基 く予測 両方を確率的 統合.多様 振る舞い 適応する. ◦ 検証結果:それぞれ 予測モジュール単独 比べ ,本手法 統合したこ よる効果が評価され た. 146 作成者:元田
  136. 論文ま め(106/199) STERLING: Self-Supervised Terrain Representation Learning from Unconstrained Robot

    Experience • Haresh Karnan, Elvin Yang, Daniel Farkash, Garrett Warnell, Joydeep Biswas, Peter Stone ◦ 自律型オフロードナビゲーション い 非対照表現学習 よ ,ロボット 経験 みを用い , 地形を学習するため マルチモーダル 自己教師あり 学習. ◦ 実世界 オフロード条件 対し 堅牢 あり、 3マイル トレイルを2回 手動介入 み 完了する 大規模 実験を実施. 147 作成者:元田 https://hareshkarnan.github.io/sterling/
  137. 論文ま め(107/199) Generating Transferable Adversarial Simulation Scenarios for Self-Driving via

    Neural Rendering • Yasasa Abeysirigoonawardena, Kevin Xie, Chuhan Chen, Salar Hosseini Khorasgani, Ruiqi Wang, Florian Shkurti ◦ 自動運転 ため,敵対的 シナリオを生成するため最適制御問題を解決. ◦ ニューラルレンダリング表現 敵対的 物体を挿入(右図)し ,テクスチャを最適化するこ ,方 策 対する敵対的 センサー入力を生成可能. ◦ シミュレートおよび実環境 両方 、提案手法が有効 あるこ を実証。 148 作成者:元田 https://www.yasasa.me/advscenarios/
  138. 論文ま め(108/199) Curiosity-Driven Learning for Joint Locomotion and Manipulation Tasks

    • Clemens Schwarke, Victor Klemm, Matthijs van der Boon, Marko Bjelonic, Marco Hutter ◦ タスク 特化し 報酬を設計する作業を軽減するため 動機 基 く報酬 RL ◦ 望ましいタスク い スパース 報酬を用い Curiosity stateへエンコードされる. ◦ 実世界実験 、プッシュドア 開閉およびパッケージ 操作 失敗 く、安定し 成功。 149 作成者:元田 https://www.youtube.com/watch?v=Qob2k_ldLuw&feature=youtu.be
  139. 論文ま め(109/199) Dynamic Multi-Team Racing: Competitive Driving on 1/10-th Scale

    Vehicles via Learning in Simulation • Peter Werner, Tim Seyde, Paul Drews, Thomas Matrai Balch, Igor Gilitschenski, Wilko Schwarting, Guy Rosman, Sertac Karaman, Daniela Rus ◦ 自動車レース よう 複数エージェントがいるシーン 強化学習 関する提案 ◦ 競争的 制御 ため、長期的か 戦略的 意思決定が必要 →階層型 モデル(ローレベル 自 ら 制御、ハイレベル 周囲 エージェントを考慮した制御) ◦ レース競技 し 検証:最高 度やラップタイム を指標 性能を評価 ◦ `` 150 作成者:元田 https://sites.google.com/view/dynmutr/home Low-level (ステアリング) High-level
  140. 論文ま め(110/199) Tuning Legged Locomotion Controllers via Safe Bayesian Optimization

    • Daniel Widmer, Dongho Kang, Bhavya Sukhija, Jonas Hübotter, Andreas Krause, Stelian Coros ◦ データドリブン 制御ゲインを安全 領域 チューニングする ◦ Gait 呼 れる歩行 関するコンテキストを入力 し , MPCから 出力 実際 ロボット 状態 差分を小さくするよう ベイズ最適化を行 ゲインを出す. ◦ Local safe探索 これま 軌道 全 ポリシーを学習し おき,パラメータ空間を確保する. Global探索 安全圏 あ た場合 パラメータ空間 追加し, Local safe探索 戻る. 151 作成者:牧原
  141. 論文ま め(111/199) CAJun: Continuous Adaptive Jumping using a Learned Centroidal

    Controller • Yuxiang Yang, Guanya Shi, Xiangyun Meng, Wenhao Yu, Tingnan Zhang, Jie Tan, Byron Boots ◦ 一定距離 連続 ジャンプを階層型学習 フレームワーク 実現する ◦ 歩行タイミング, 度,スイングする足 位置を High-level 計画をおこ うCentroidal policyを学 習し,これ 追従するよう モータコマンドを最適化する Low-level 分割し 学習する. ◦ E2E フレームワークよりも実環境 適用性が高い 152 作成者:牧原
  142. 論文ま め(112/199) Transforming a Quadruped into a Guide Robot for

    the Visually Impaired: Formalizing Wayfinding, Interaction Modeling, and Safety Mechanism • J. Taery Kim, Wenhao Yu, Yash Kothari, Bruce Walker, Jie Tan, Greg Turk, Sehoon Ha ◦ 四足歩行ロボット よるユーザ 道案内を行う.ロボット 人間 ナビゲーション機構を形式化 基 いたインタラクション モデリング より,ユーザー 安全性を向上させる ◦ Delayed Harness Model よ ,人間 追従 遅れを含んだモデル よ ,一時的 オフセッ トを 徐々 補間し 修正するこ 安全性を高める ◦ 時間を考慮した衝突領域 関する Shelding Zoneを計算し,危険 行動を取ら いよう する 153 作成者:牧原
  143. 論文ま め(113/199) Seeing-Eye Quadruped Navigation with Force Responsive Locomotion Control

    • David DeFazio, Eisuke Hirota, Shiqi Zhang ◦ 人間 引 張り 反応し それ 適応し ,ユーザ 意図 沿 た歩行制御を実現する ◦ 引 張られた時 力 方向 推定をシミュレーションデータ 学習し ,これ 適応する歩行ポ リシーも同時 学習する. ◦ 力 ピークを検出し,左か右か 方向 意図 応じ ナビゲーション ゴール変更し 経路を計画 し直す.任意 リード ハードウェア 対応可能. 154 作成者:牧原
  144. 論文ま め(114/199) Scalable Deep Kernel Gaussian Process for Vehicle Dynamics

    in Autonomous Racing • Jingyun Ning, Madhur Behl ◦ SKIP-GPを か たカーネル関数 学習 高 走行車両 ダイナミクスを予測する. ◦ SKIP-GP:誘導点 間 カーネル関数を構築するこ 計算 複雑さを解消する構 化カーネル補 間 カーネルご 乗算する積カーネル よ カーネル関数を近似するこ よ ,ロバスト性 を表現力を維持する ◦ SKIP-GPやN4SID 対し 実環境 シミュレーション 予測精度が高い 155 作成者:牧原
  145. 論文ま め(115/199) Tell Me Where to Go: A Composable Framework

    for Context-Aware Embodied Robot Navigation • Harel Biggie, Ajay Narasimha Mopidevi, Dusty Woods, Chris Heckman ◦ 人間が見知ら 環境 おい もコンテキストから推論するこ ヒントを得 , LLM よりコンテキス トを導入し ロボットナビゲーションを実施する研究 ◦ 3D環境・RGB画像・ナビゲーションコマンドからナビゲーション 中間状態 し Pythonコードを生 成,以降 経路推定を行い環境内を移動する動線を推定 156 作成者:片岡
  146. 論文ま め(116/199) Online Learning for Obstacle Avoidance • David Snyder,

    Meghan Booker, Nathaniel Simon, Wenhan Xia, Daniel Suo, Elad Hazan, Anirudha Majumdar ◦ 4足歩行ロボットがいか 密 配置された障害物をオン ライン 学習し避け 目的地ま 到達するか ◦ 提案 オンライン学習 よる操作 4足歩行ロボットが 通りやすい経路を探索,推薦し いる 157 作成者:片岡
  147. 論文ま め(117/199) Context-Aware Deep Reinforcement Learning for Autonomous Robotic Navigation

    in Unknown Area • Jingsong Liang, Zhichen Wang, Yuhong Cao, Jimmy Chiun, Mengqi Zhang, Guillaume Adrien Sartoretti ◦ Mapless Navigation いう問題設定を解決: 3D空間が適宜更新される中 ロボットナビゲーション を実施 ◦ 3D空間中 文脈 応じた効率的 強化学習手法を提案,最短ルート 案内を行うポリシーネッ トワークを使用し 学習 158 作成者:片岡
  148. 論文ま め(118/199) Navigation with Large Language Models: Semantic Guesswork as

    a Heuristic for Planning • Dhruv Shah, Michael Robert Equi, Błażej Osiński, Fei Xia, brian ichter, Sergey Levine ◦ LLMを活用したロボットナビゲーション 提案 ◦ キッチン 隣 リビングルームがある, LLM より文脈を提供し ナビゲーションを実施 160 作成者:片岡
  149. 論文ま め(119/199) NOIR: Neural Signal Operated Intelligent Robots for Everyday

    Activities • Ruohan Zhang, Sharon Lee, Minjune Hwang, Ayano Hiranaka, Chen Wang, Wensi Ai, Jin Jie Ryan Tan, Shreya Gupta, Yilun Hao, Gabrael Levine, Ruohan Gao, Anthony Norcia, Li Fei-Fei, Jiajun Wu ◦ Neural Signal Operated Intelligent Robots(NOIR) 提案 ◦ 人間 脳波を入力,ロボットを操作し 日常行動を実行する研究 161 作成者:片岡
  150. 論文ま め(120/199) REFLECT: Summarizing Robot Experiences for Failure Explanation and

    Correction • Zeyi Liu, Arpit Bahety, Shuran Song ◦ ロボットタスク よる失敗を自動検知・解析する枠組みを提供(下図) ◦ マルチモーダル 認識を LLM 入力し ,失敗 要因を解析する 162 作成者:片岡
  151. Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition •

    Huy Ha, Pete Florence, Shuran Song ◦ LLMサポート より,ロボット操作 ため 言語付きデータセットを生成 ◦ 同データを視覚運動ポリシー( Visuo-motor Policy) 学習 使用する ◦ 上記 より,ロボットタスクを実行するスキルを効率的 獲得するこ が可能 論文ま め(121/199) 163 作成者:片岡
  152. 論文ま め(122/199) Human-in-the-Loop Task and Motion Planning for Imitation Learning

    • Ajay Mandlekar, Caelan Reed Garrett, Danfei Xu, Dieter Fox ◦ 模倣学習 TAMP 利点を組み合わせ、人 遠隔操作がデモ 部分的修正を想定 ◦ 適宜人 操作が入るこ 、デモ 効率が向上。 TAMP よる方策学習 利用 ◦ 通常 テレオペレーション 比べ、3倍 効率 ◦ 非専門 オペレータ あ も十分 学習 きるこ が示された 164 作成者:元田 https://hitltamp.github.io/
  153. 論文ま め(123/199) RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic

    Control • Anthony Brohan et al. ◦ E2E ロボット学習 おい , Internetスケール データ 学習した視覚 言語 知識を利用し 汎化性や意味的推論を可能 する ◦ 事前学習されたVQAモデル(PaLM-E, PaLI-X)をロボット データ( RT-1) Fine-tuningまた Co-finetuningするこ 大規模 知識をロボット操作 転移させる ◦ 新しいタスクやオブジェクト,言語指示 い RT-1 か たデータ 対応するこ が き,言語 裏 隠れ いる意味的 推論も可能 し いる 165 作成者:牧原
  154. 論文ま め(124/199) SLAP: Spatial-Language Attention Policies • Priyam Parashar, Chris

    Paxton, Vidhi Jain, Xiaohan Zhang, Jay Vakil, Sam Powers, Yonatan Bisk ◦ Separate long horizon task into multiple actions, predict interaction point in 3D and action taken (policy) at that interaction point 166 作成者:Erich Action: Gripper activation, position offset, orientation
  155. 論文ま め(125/199) Language Conditioned Traffic Generation • Shuhan Tan, Boris

    Ivanovic, Xinshuo Weng, Marco Pavone, Philipp Kraehenbuehl ◦ 動的 シーンを生成するため 教師データ し 言語を介し 制御。 ◦ LLM Trasformer型 Decoderを組み合わせ 地図データから適切 地点を選択し 、交通 様 子(車両 ダイナミクス)を生成する。 ◦ 検証:従来法 比べ 、現実 類似したシーンが構成され いる。 167 作成者:元田 https://ariostgx.github.io/lctgen/
  156. 論文ま め(126/199) A Data-Efficient Visual-Audio Representation with Intuitive Fine-tuning for

    Voice-Controlled Robots • Peixin Chang, Shuijing Liu, Tianchen Ji, Neeloy Chakraborty, Kaiwen Hong, Katherine Rose Driggs-Campbell ◦ 画像 音声指示を関連付けたモデルを構築。 新しい環境 導入する場合 音声 入力 よる微調整だけ 済むこ が注目点。 ◦ Contrastive Learningを基 した視覚 音 学習を行う。 ◦ 検証:シミュレーションや実世界 実験 、少数ラベル も人 音声指示 対応し 、継続的 自 己改善可能。 168 作成者:元田 https://sites.google.com/site/changpeixin/home/R esearch/a-data-efficient-visual-audio-representati on-with-intuitive-fine-tuning
  157. 論文ま め(127/199) PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation

    • Shizhe Chen, Ricardo Garcia Pinel, Cordelia Schmid, Ivan Laptev ◦ 自然言語 指示 基 く操作タスクを理解・実行するため、複数 カメラ情報 統合 よ 正確 3D位置 関係性を推論 ◦ 点群 ため エンコーダー よ Transformerを学習。言語指示 合わせ アクション予測 169 作成者:元田 https://www.di.ens.fr/willow/research/polarnet/ 補足:2D 入力 対する性能より も高い結果が示され いる。
  158. 論文ま め(128/199) Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in

    Clutter • Georgios Tziafas, Yucheng Xu, Arushi Goel, Mohammadreza Kasaei, Zhibin Li, Hamidreza Kasaei ◦ 乱雑 シーンからユーザ 指示された物体をピッキングする ◦ 言語 シーン画像から CLIP-base 特徴量表現を介し 直接把持を生成する ◦ Referring graspが難しい新た ベンチマーク( OCID-VLG)を作成し,CLIP 把持を分割した手法よ りもSegmentation Grounding 把持成功率が大幅 向上した 170 作成者:牧原
  159. 論文ま め(129/199) Open-World Object Manipulation using Pre-Trained Vision-Language Models •

    Austin Stone, Ted Xiao, Yao Lu, Keerthana Gopalakrishnan, Kuang-Huei Lee, Quan Vuong, Paul Wohlhart, Sean Kirmani, Brianna Zitkovich, Fei Xia, Chelsea Finn, Karol Hausman ◦ Manipulation of Open-World Obects (MOO) and combination with mobile robot using CLIP-on-Wheels: CoW-MOO 171 作成者:Erich
  160. 論文ま め(130/199) Predicting Routine Object Usage for Proactive Robot Assistance

    • Maithili Patel, Aswin Prakash, Sonia Chernova ◦ ユーザが過去 物体 使用した き 予測を条件付けるこ ,ユーザ 行動予測を改善 ◦ ユーザ 意図 物体 使用方法 関し 対話的 予測を改善する ◦ 予測モデル おい 矛盾した動作がい 発生し,ロボット 行動 不確実性が高く りそう 状態 を予測し ,こ 場合 対し ユーザ 指示を求めるよう する ◦ 特 長期予測 おい 対話形式を入れるこ 大幅 改善する 172 作成者:牧原
  161. 論文ま め(131/199) HOI4ABOT: Human-Object Interaction Anticipation for Human Intention Reading

    Assistive roBOTs • Esteve Valls Mascaro, Daniel Sliwowski, Dongheui Lee ◦ パッチ化したバウンディングボックスから重み けし、人・物体 埋め込み特徴量を推定 ◦ 埋め込み特徴 2 Transformer attention 統合し、インタラクション 行動認識 利用 ◦ 従来手法より高い認識率 15.4倍 度 人ロボット協調 行動検出を実現 173 作成者:中條
  162. 論文ま め(132/199) FindThis: Language-Driven Object Disambiguation in Indoor Environments •

    Arjun Majumdar, Fei Xia, brian ichter, Dhruv Batra, Leonidas Guibas ◦ 新しいタスク し ’FindThis’ を提案,実世界 物体検索を想定し ,ロボット 言語・画像 インタラクションをする ◦ 言語指示 曖昧性を,画像や追加 言語指示 より行 いく 174 作成者:片岡
  163. 論文ま め(133/199) Quantifying Assistive Robustness Via the Natural-Adversarial Frontier •

    Jerry Zhi-Yang He, Daniel S. Brown, Zackory Erickson, Anca Dragan ◦ 人 動き 自然さを考慮したアシストロボット ロバスト性 計測方法を提案。 ◦ 自然↔敵対的、 評価基準 し 、ロボット 報酬関数を最小化し がら、人間らしい行動 トレー ドオフを考えるため 用いる。 ◦ 手動的 実施する 難しい場合 も定量敵 モーションが評価 きる。 175 作成者:元田
  164. 論文ま め(134/199) Learning Human Contribution Preferences in Collaborative Human-Robot Tasks

    • Michelle D Zhao, Reid Simmons, Henny Admoni ◦ 人 ロボット 連携を行うため、 Contribution constraint(貢献制約)を学習する方法。 ◦ 強化学習 枠組み か 人間 関係する報酬項がある。 ◦ 個別 制約や選好を有する場合を想定。チーム全体 利益を最大化し がら、最適化。 ◦ 右図 よう UI シーン 選好や制約を設定誌 がら検証。 176 作成者:元田 https://www.youtube.com/watch?v=JM4cMHZSu2 0&feature=youtu.be
  165. 論文ま め(135/199) Multi-Resolution Sensing for Real-Time Control with Vision-Language Models

    • Saumya Saxena, Mohit Sharma, Oliver Kroemer ◦ 空間的・時間的 異 るスケール 情報を扱うアーキテクチャ 提案 ◦ VLM 高い汎化性能を有するが,推論が遅い( reactiveタスク 不適),task-specific fine-tuningをほ こす 汎化性能が落ちる いう問題がある ◦ アプローチ:VLM freezeし,low-frequency 大域的情報を入れる.小規模 モデルを task-specific データ 学習し 組み合わせる(局所的視覚情報 体勢感覚・力覚 さら 2段階) 177 作成者:花井
  166. 論文ま め(136/199) Gesture-Informed Robot Assistance via Foundation Models • Li-Heng

    Lin, Yuchen Cui, Yilun Hao, Fei Xia, Dorsa Sadigh ◦ ジェスチャーを理解し 人間 ロボットが協調するため 枠組みを提案 ◦ LLMを活用し ジェスチャーから言語的 理解を促すこ が きる 178 作成者:片岡
  167. 論文ま め(137/199) PlayFusion: Skill Acquisition via Diffusion from Language-Annotated Play

    • Lili Chen, Shikhar Bahl, Deepak Pathak ◦ 構 化され い い demonstration あるPlayデータ(後付け 言語ラベルあり)から,目的志向 スキルを学習 ◦ Diffusionモデル 離散化を促すボトルネック( VQ-VAE code book よう も )を導入するこ 有用 スキルを獲得させる ◦ 複数スキル 合成が必要 複雑タスク SOTA性能達成,latent離散化 有効性も確認 179 作成者:花井
  168. 論文ま め(138/199) Semantic Mechanical Search with Large Vision and Language

    Models • Satvik Sharma, Kaushik Shivakumar, Huang Huang, Lawrence Yunliang Chen, Ryan Hoque, brian ichter, Ken Goldberg ◦ シーン 対象物体 意味的 分布を検出 ◦ 限られたシーン(e.g. 棚 中) オープン スペース( e.g. 部屋) 双方 意味的 関連性を見出す こ が可能。未知 対象識別し タスク 転用するこ が可能 ◦ 180 作成者:元田 https://sites.google.com/view/semantic-mechanical-search/home
  169. 論文ま め(139/199) Grounding Complex Natural Language Commands for Temporal Tasks

    in Unseen Environments • Jason Xinyu Liu, Ziyi Yang, Ifrah Idrees, Sam Liang, Benjamin Schornstein,  Stefanie Tellex, Ankit Shah ◦ 長期 タスク 線形時間論理 基 いたナビゲーションを実現する ◦ LLMを利用し 新た 追加データを必要 せず,場所 認識モジュール 事前知識を利用し そ 場所 空間位置を認識するモジュール.これらから行動系列を計画するモジュール それぞれ モデルを使用する. ◦ 2 屋内環境 52 意味的 多様 ナビゲーションコマンドを実行可能 181 作成者:牧原
  170. 論文ま め(140/199) OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on

    3D Data • Shiyang Lu, Haonan Chang, Eric Pu Jing, Abdeslam Boularias, Kostas Bekris ◦ 3D データ 学習をするこ く 3D map Instance 表現を埋め込む ◦ 言語 結び付けられた 2D 領域候補 多視点 情報を か 3D空間上 マッピングする ◦ Memory bank 2D 情報 時系列を3D 変換し 保存し ,使える情報 みを残す. 3D mapへ アクセス これを かう. ◦ フィルタリングやマージがうまく機能し いるため Opensceneより優れ いる 182 作成者:牧原
  171. 論文ま め(141/199) Large Language Models as General Pattern Machines •

    Suvir Mirchandani, Fei Xia, Pete Florence, brian ichter, Danny Driess, Montserrat Gonzalez Arenas, Kanishka Rao, Dorsa Sadigh, Andy Zeng 183 作成者:片岡 ◦ LLMがロボティクス おける抽象的 パターンを認識し ロボティクスタ スクを解けるか うか い 議論 し いる ◦ 右図 示し いるよう シーケンス 変換・単純 関数 完成・メタパ ターン 向上 い 実施し い る
  172. 論文ま め(142/199) Language-Conditioned Path Planning • Amber Xie, Youngwoon Lee,

    Pieter Abbeel, Stephen James ◦ ロボット 衝突を検知するため 画像、言語プロンプトから学習するアプローチ ◦ 言語 視覚 組み合わせから Collision scoreを算出、連続する動作 おい 衝突を検知 ◦ 検証 、シミュレーションおよび実世界 対話的 経路計画を示した 「Can collide」 指示 対応する 、幅広いシーン 適応性を示唆 184 作成者:元田 https://amberxie88.github.io/lapp/
  173. 論文ま め(143/199) Goal Representations for Instruction Following: A Semi-Supervised Language

    Interface to Control • Vivek Myers, Andre He, Kuan Fang, Homer Walke, Philippe Hansen-Estruch, Ching-An Cheng, Mihai Jalobeanu, Andrey Kolobov, Anca Dragan, Sergey Levine ◦ 少量 言語データを使用し 画像 目標 条件付けされたポリシーを学習する ◦ 初期状態 目標状態を入力するこ そ 変化を見るよう ,言語 も 潜在表現 埋め込みポ リシーを学習する枠組み する ◦ 対照学習 言語 動作 関係性を大規模事前学習した後 ,ラベル し 新規データ 共 ポリ シーを学習する 185 作成者:牧原
  174. 論文ま め(144/199) Context-Aware Entity Grounding with Open-Vocabulary 3D Scene Graphs

    • Haonan Chang, Kowndinya Boyalakuntla, Shiyang Lu, Siwei Cai, Eric Pu Jing, Shreesh Keskar, Shijie Geng, Adeeb Abbas, Lifeng Zhou, Kostas Bekris, Abdeslam Boularias ◦ 物体 インスタンスだけ く,物体間 関係 シーングラフを3D空間上 自由形式 使用可能 する ◦ 言語入力から物体 エージェント,ある領域(場所),位置関係,従属関係を全 要素 分割した上 ,別々 エン コーディングを行い.グラフを構築する. ◦ も も 全体 シーングラフを構築し おき,そ 一部 マッチングし いるか うかを探索する.こ き ,元々 データ い知識ま 考慮する 186 作成者:牧原
  175. 論文ま め(145/199) ManiCast: Collaborative Manipulation with Cost-Aware Human Forecasting •

    Kushal Kedia, Cornell University, Prithwish Dan, Cornell University, Atiksh Bhardwaj, Cornell University, Sanjiban Choudhury ◦ 将来 人間 動きが与える行動計画 コストを予測 ◦ 事前学習 大規模データ 人間 行動自体を予測するよう する. Fine-tuning 人間同士 行動 おい コスト(腕が近けれ 大きいも )を考慮した予測を行い,こ 予測 コストを考慮し MPC 軌道を計画する 188 作成者:牧原
  176. 論文ま め(146/199) SCALE: Causal Learning and Discovery of Robot Manipulation

    Skills using Simulation • Tabitha Edith Lee, Shivam Vats,l Siddharth Girdhar, Oliver Kroemer ◦ 少 いデータから多様 動きを生成する ◦ コンテキスト空間からサンプリングされたタスクをシミュレーション環境 実行し,データ 特徴を ベース スキルを分割し Policyを学習する. ◦ ブロック積み上げや Peg-in-hole 関し 実環境 も動作可能 189 作成者:牧原
  177. 論文ま め(147/199) Learning to Design and Use Tools for Robotic

    Manipulation • Ziang Liu, Stephen Tian, Michelle Guo, C. Karen Liu, Jiajun Wu ◦ 人間 指示 し 明示的 与えられ い作業 ,タスクを完了 きる道具を自動 設計し行動す る. ◦ シミュレーション い 試行を通じ 訓練された,ツール設計 制御 ため 別々 ポリシーを 含む2フェーズ マルコフ決定プロセスを使用 ◦ 既存 方法 比較し サンプル効率が高く,未知タスク 対し シミュレーションタスク 実ロボット 実験 実証. 190 作成者:牧原
  178. 論文ま め(148/199) Geometry Matching for Multi-Embodiment Grasping • Maria Attarian,

    Muhammad Adil Asif, Jingzhou Liu, Ruthrash Hari, Animesh Garg ◦ 多様 グリッパ形状 対応する物体把持を実現する, GNNを用い 物体 グリッパ 両方 幾何 学的表現を学習する ◦ 物体 グリッパ 点群からグラフを生成し、 GNN 入力し,接触点 尤度を予測 ◦ 複数 グリッパ 新しい物体 対し 高い成功率を示し,特 2指 3指 グリッパ パフォーマ ンスが5-30%向上した 191 作成者:牧原
  179. 論文ま め(149/199) Efficient Sim-to-real Transfer of Contact-Rich Manipulation Skills with

    Online Admittance Residual Learning • Xiang Zhang, Changhao Wang, Lingfeng Sun, Zheng Wu, Xinghao Zhu, Masayoshi Tomizuka ◦ シミュレーション 学習した Contact-rich 操作スキルを実環境 適用可能 する ◦ モデルフリー強化学習を用い コンプライアンス制御 パラメータを学習する.オンライン トル ク 測定値から再学習する ◦ 組み立 ,ピボット,ネジ締め 3種類 タスクを実現 192 作成者:牧原
  180. 論文ま め(150/199) Simultaneous Learning of Contact and Continuous Dynamics •

    Bibit Bianchini, Mathew Halm, and Michael Posa ◦ 複数 関節を持 物体 動きを通じ 接触 連続ダイナミクスを同時 学習する ◦ 物理的制約を侵す接触力を推測する損失関数を用い ,データセットから物体 動きを観察し,運 動方程式 基 くモデルパラメータを学習.連続ダイナミクス 不正確さを補うため Residualネッ トワークを用い いる ◦ 物体 投げられた軌道 キューブ 投げられたデータ 検証 ◦ 物理的 意味 あるパラメータを用いたダイナミクスモデリングが可能 193 作成者:牧原
  181. 論文ま め(151/199) Structural Concept Learning via Graph Attention for Multi-Level

    Rearrangement Planning • Manav Kulshrestha, Ahmed H. Qureshi ◦ 構 的依存関係 あるシナリオ Graph Attetionを か 複数 レベル わたる物体 依存関 係を学習し,効率的 配置計画を行う ◦ 複数 視点から得られた RGB-D画像から初期 目標 シーンを生成し,それらから依存関係グラ フを構築する.そ 後トポロジカル ソート よ 物体 配置順序を決定 ◦ 未知 シーン 対し も高い成功率を達成 ◦ 密 構 よる遮蔽や不完全 点群データ 場合 おい も有効 194 作成者:牧原
  182. 論文ま め(152/199) Dexterous Functional Grasping • Ananye Agarwal, Shagun Uppal,

    Kenneth Shaw, Deepak Pathak ◦ 物体 機能を考慮し 把持するため 方法 ◦ 人間 データ 大規模シミュレーション訓練を組み合わせ,異 る物体間 対応する領域をマッチ ングするアフォーダンスモデルを使用し,事前 把持姿勢を予測 ◦ シミュレーション 訓練された Low-level ポリシーを か 把持を完了する ◦ 7 複雑 タスク 実世界 シミュレーション 両方 おい 有効性を検証.人間 テレオペレー ターを上回る. ◦ アクションスペースをを制限するこ 、より物理的 現実的 動作を可能 し いる 195 作成者:牧原
  183. 論文ま め(153/199) DEFT: Dexterous Fine-Tuning for Hand Policies • Aditya

    Kannan, Kenneth Shaw, Shikhar Bahl, Pragna Mannam, Deepak Pathak ◦ 複雑 器用 タスクをツールや柔らかい物体をロボット 実演 し 効率的 学習する ◦ 人間 事前学習された動作を基 し ,ソフトハンド 実環境 動作するよう リアルタイム オン ライン最適化を行う. ◦ 9 タスク おい 高い成功率をだし,少 い試行 現実世界 学習を行い,人間 動画から学 んだ事前情報 基 い 効率的 性能を向上させるこ が き いる 196 作成者:牧原
  184. 論文ま め(154/199) Learning Sequential Acquisition Policies for Robot-Assisted Feeding •

    Priya Sundaresan, Jiajun Wu, Dorsa Sadigh ◦ 長期的 食事補助 ため 高度 計画 食品取り扱いをシミュレーション内 高レベル 行動選 択 ポリシーを学習する. ◦ 潜在的 ダイナミクスをモデル化し,現実世界 視覚 基 いたプリミティブを利用し 具体的 計 画を実行 ◦ ヌードル 取得 ジェリービーンズ 両手操作スクープ ユーザから高い評価 197 作成者:牧原
  185. 論文ま め(155/199) TactileVAD: Geometric Aliasing-Aware Dynamics for High-Resolution Tactile Control

    • Miquel Oller, Dmitry Berenson, Nima Fazeli ◦ 触覚センサ 基 くロボット操作 異 る接触点が似た触覚シグネチャを生成する場合(エイリアシ ング問題)を識別し操作性能を向上させる ◦ 線形潜在ダイナミクス デコーダ み アーキテクチャ ,観測されたデータから潜在空間表現を 最適化する ◦ 未知 形状 Carpoleを操作するやタスク 対し ,目標接触状態 姿勢 るよう 操作する 198 作成者:牧原
  186. 論文ま め(156/199) Push Past Green: Learning to Look Behind Plant

    Foliage by Moving It • Xiaoyu Zhang, Saurabh Gupta ◦ 植物 葉 下 空間を見えるよう するため 動作を構築する ◦ あるシーン 対し アクションが加わ た時 , れだけ 空間が現れるかを予測し 動作を生成 する. ◦ 見えるよう る空間 量 そ 場所がわかるため,一連 動きを設計するこ が き, 手作業 構築した動きよりも,未知 植物 対し も有効 あるこ がわか た 199 作成者:牧原
  187. 論文ま め(157/199) Vision-Based Contact Localization Without Touch or Force Sensing

    • Leon Kim, Yunshuang Li, Michael Posa, Dinesh Jayaraman ◦ ロボットが操作する物体 環境 接触を視覚 み 予測する研究 ◦ シミュレーション depthを使 学習をするが,それだけ シミュレーション 上手く動くが,実 環境 上手く動か い(理由も考察) ◦ 3 工夫を追加:把持物体周辺 salient領域切り出し, オクルージョン部分 把持物体形状を補 うため 把持物体全体が見える 1枚depth画像,動きを利用するため RGBから計算したオプティ カルフロー ◦ 200 作成者:花井
  188. 論文ま め(158/199) Neural Field Dynamics Model for Granular Object Piles

    Manipulation • Shangjie Xue, Shuo Cheng, Pujith Kachana, Danfei Xu ◦ 粉流体 ダイナミクスを学習ベース 効果的 予測し,これをベース 物体 操作を最適化 ◦ 粉流体 状態 ロボット 動作から将来 物体状態を予測する.こ 時,微分可能レンダリング よ ロボット 動作を空間上 マッピングし 予測器 入力するよう する. ◦ ゴール 差分を り ,状態 行動が逆伝播 きるため,学習ベース 行動 軌道を最適化 きる.また,障害物があ た し も回避し がら粉流体を操作 きる. 201 作成者:牧原
  189. 論文ま め(159/199) KITE: Keypoint-Conditioned Policies for Semantic Manipulation • Priya

    Sundaresan, Suneel Belkhale, Dorsa Sadigh, Jeannette Bohg ◦ 言語指示からセマンティクス(より詳細 意味)を引き出し ,キーポイント 対応 いたスキルを実 行する ◦ 言語 画像から操作点(キーポイント)を抽出し, LLMから出力されたスキルラベル,シーン状態 PointCloudを一緒 入力し,スキル 対応 いたポリシーをデモデータから学習 ◦ VLM み,キーポイント み, E2E 手法よりも成功率が高い 202 作成者:牧原
  190. 論文ま め(160/199) Polybot: Training One Policy Across Robots While Embracing

    Variability • Jonathan Heewon Yang, Dorsa Sadigh, Chelsea Finn ◦ 1 方策を複数 ロボット 利用する方法 提案 ◦ observation alignment => 手首 けたカメラ 利用(身体映り込み よる違いが小さい) ◦ action alignment => 共有 逆運動学solver(共通 backbone 各ロボット 対応する headを有 するaction decoder) ◦ internal state alignment => 対照学習 ◦ 別ロボット データを用いるこ few-shot >70% 成功率,シーン 構 が近い場合 zero-shot(他 ロボット データ み) もか り 成功率 203 作成者:花井
  191. 論文ま め(161/199) PLEX: Making the Most of the Available Data

    for Robotic Manipulation Pretraining • Garrett Thomas, Ching-An Cheng, Ricky Loynd, Felipe Vieira Frujeri, Vibhav Vineet, Mihai Jalobeanu, Andrey Kolobov ◦ ロボットマニピュレーション ため 表現学習方法を提案 ◦ タスク操作し いる動画を入力 し 学習するこ ,より少 いデータ セットサイズ がら,より多く ロボットマニピュレーションシーンを学習 するこ が きる ◦ Meta-World 汎化,Robosuite environment おい 最高水準 精 度を実現した 204 作成者:片岡
  192. 論文ま め(162/199) CALAMARI: Contact-Aware and Language conditioned spatial Action MApping

    for contact-Rich manipulation • Youngsun Wi, Mark Van der Merwe, Pete Florence, Andy Zeng, Nima Fazeli ◦ household task 意図的 接触を制御するタスク( wiping, sweeping, pushing)が多く存在 ◦ 言語指示から,接触状態そ も をアクション するpolicyを学習 205 作成者:花井
  193. 論文ま め(163/199) DYNAMO-GRASP: DYNAMics-aware Optimization for GRASP Point Detection in

    Suction Grippers • Boling Yang, Soofiyan Atar, Markus Grotz, Byron Boots, Joshua Smith ◦ 吸引型マニピュレーション ため 把持位置推定 い 物理シミュレーション データドリブン よるアプローチを試みた ◦ ベンチマークデータセット ある DYNAMO-GRASP より良好 性能を実現 206 作成者:片岡 ◦ 19種類 日用品を採用 ◦ 時系列 従 シミュレーション ◦ データセットを構築,距離画像やマスク,把 持ポイントを生成 ◦ モデル よる学習 推論 より把持位置 推定
  194. 論文ま め(164/199) M2T2: Multi-Task Masked Transformer for Object-centric Pick and

    Place • Wentao Yuan, Adithyavairavan Murali, Arsalan Mousavian, Dieter Fox 207 作成者:片岡 ◦ 6DoF 検出 把持位置推定 4DoF 物体 配置 学習をマルチタスク学習 より同時 実行するMulti-Task Masked Transformer (M2T2)を提案 ◦ M2T2 学習 ため 合成データセットを構 築,130k 煩雑 シーン,8.8k 異 る物体 ,把持位置や物体配置 姿勢を指示 ◦ ゼロショット よるsim2real 把持や配置を 実現
  195. 論文ま め(165/199) Composable Part-Based Manipulation • Weiyu Liu, Jiayuan Mao,

    Joy Hsu, Tucker Hermans, Animesh Garg, Jiajun Wu ◦ ロボットが物体 パーツやそれら 対応関係を理解する物体認識能力を実装 ◦ 物体間 関係性を理解し がらロボットタスクを実行する ◦ 拡散モデル(Diffusion Models) より上記 物体認識を実装 208 作成者:片岡
  196. 論文ま め(166/199) MUTEX: Learning Unified Policies from Multimodal Task Specifications

    • Rutav Shah, Roberto Mart´ın Mart´ın, Yuke Zhu ◦ 様々 モダリティから 情報を統合したタスク 条件付けから行動を生成する ◦ エンコーディング MAE よう マスキングを復元する学習 ,対応する動作 模倣学習を行 う.第二段階 し ,デモ映像がも も特徴表現 情報量が多いため,全 モダリティ 表現を これ よせるよう Cross-modal matching学習を行う ◦ LIBERO-100を か シミュレーション 100タスク,実世界 50タスク おい モダリティを多用 する 効果が高いこ がわか た 209 作成者:牧原
  197. 論文ま め(167/199) Learning Generalizable Manipulation Policies with Object-Centric 3D Representations

    • Yifeng Zhu, Zhenyu Jiang, Peter Stone, Yuke Zhu ◦ 卓上マニピュレーション 模倣学習 おい ,方策ネットワークへ 入力 ,物体ご セグメン テーションされたポイントクラウド( PointNet トークン化)を用いる ◦ 従来 模倣学習 比べ ,背景やカメラアングル 変化 ロバスト る ◦ open-vocabulary 物体セグメンテーションを用いるこ 新規物体を扱うこ も きる 210 作成者:室岡 https://ut-austin-rpl.github.io/GROOT/
  198. 論文ま め(168/199) REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous

    Manipulation • Zheyuan Hu, Aaron Rovinsky, Jianlan Luo, Vikash Kumar, Abhishek Gupta, Sergey Levine ◦ RL ILを組み合わせるこ Contact-rich タスクを効果的 学習する ◦ RL リプレイバッファ(以前 タスクデータ)を利用し新タスク学習 初期ポリシー する ◦ 実環境 リセットを行うポリシーを別 模倣学習 獲得し,ロボット自身が試行 リセットを行 ,人 介入 いら い学習を実現 211 作成者:牧原
  199. 論文ま め(169/199) Waypoint-Based Imitation Learning for Robotic Manipulation • Archit

    Sharma, Lucy Xiaoyang Shi, Tony Z. Zhao, Chelsea Finn ◦ behavioral cloning よる模倣学習 おい ,長いエピソード タスク 誤差が蓄積する問題を緩 和するため ,学習データ 軌道を経由点ご 分割し 学習 利用する ◦ 元 軌道 経由点を線形補間した軌道 誤差が一定以内 収まるよう 経由点を自動生成 ◦ 経由点を利用した模倣学習 よりマニピュレーションタスク 成功率が上昇するこ を確認 212 作成者:室岡 https://lucys0.github.io/awe/
  200. 論文ま め(170/199) Leveraging 3D Reconstruction for Mechanical Search on Cluttered

    Shelves • Seungyeon Kim, Young Hun Kim, Yonghyeon Lee, Frank Chongwoo Park ◦ 物体 存在可能性 把持可能性を考慮し 目標物体をみ けるよう 押し動作 ピックアンドプ レースを効果的 組み合わせる ◦ 物体 部分的 観測から超四次表現を用い 物体 3次元完全形状を予測するモデル シーン 3次元状態を構築 ◦ 物体 環境,ターゲット 間 衝突が い場合 存在し いる 判定 ◦ 衝突可能性がすべ 考慮された軌道を見 けるこ が きれ 把持可能 ある 判定 ◦ 近似ダイナミクスモデルをベース 予測し, MPC 軌道制御を行う 213 作成者:牧原
  201. 論文ま め(171/199) 4D-Former: Multimodal 4D Panoptic Segmentation • Ali Athar,

    Enxu Li, Sergio Casas, Raquel Urtasun ◦ Pointcloud 時系列変化 おける PanopticSegmentationをおこ う ◦ LiDAR 時系列情報 加え , RGB画像を利用するこ ,アピアランス 情報から予測を補強す る. ◦ LiDAR データを多視点 画像 射影し,それ RGB画像 対応関係を考慮した PointからVoxel 表現 変換するエンコーダを利用し, Transformerベース デコーダ より Segmentation Trackingをおこ う ◦ nuScenesおよびSemanticKITTI 対し 最高性能 215 作成者:牧原
  202. 論文ま め(172/199) LabelFormer: Object Trajectory Refinement for Offboard Perception from

    LiDAR Point Clouds • Anqi Joyce Yang, Sergio Casas, Nikita Dvornik, Sean Segal, Yuwen Xiong, Jordan Sir Kwang Hu, Carter Fang, Raquel Urtasun ◦ 自動ラベリング ため、複雑さ 少 いが効果的 軌跡を調整するアプローチを提案 ◦ 各フレームをエンコードし Self-Attention よ 時系列的 解釈。物体 各フレーム 姿勢をデ コードするこ 認識を調整 ◦ 検証:都市 高 道路 関するデータセットへ ラベル化 より元 認識性能を向上 216 作成者:元田 https://waabi.ai/labelformer/
  203. 論文ま め(173/199) ADU-Depth: Attention-based Distillation with Uncertainty Modeling for Depth

    Estimation • ZiZhang Wu, Zhuozheng Li, Zhigang Fan, Yunzhe Wu, Xiaoquan Wang, Rui Tang, Jian Pu ◦ monocular学習 い 、左右 画像ペアから教師データを導入し 3D空間 対する認識 単眼 データセットデータ 対する知識蒸留フレームワーク. ◦ ADU-Depth アテンション適応型特徴蒸留 し 提案 ◦ 検証 ,実際 深度推定データを用い 提案手法が効果的 あるこ を示した. 217 作成者:元田
  204. 論文ま め(174/199) DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera

    3D Object Detection and Tracking • Qing LIAN, Tai Wang, Dahua Lin, Jiangmiao Pan ◦ マルチカメラ 三次元検出 い 提案法 DORT 動的 動きを考え,位置合わせ 対応 ◦ BEV 手法 こ り,物体ご 局所部 学習を繰り返しを行う. ◦ nuScences ベンチマーク おい ,それぞれ高い成功率を示す. 218 作成者:元田 https://github.com/OpenRobotLab/DORT
  205. 論文ま め(175/199) Ready, Set, Plan! Planning to Goal Sets Using

    Generalized Bayesian Inference • Jana Pavlasek, Stanley Robert Lewis, Balakumar Sundaralingam, Fabio Ramos, Tucker Hermans ◦ 動作計画 おい ,複数 ゴールサンプルが与えられ いる場合 対応 きるベイズ推定 (Stein variational gradient descent)ベース 計画アルゴリズム ◦ 二次元経路計画やマニピュレータ Pick&place動作計画 おい ,複数 ゴールが与えられ いる も 実行可能 ゴールへ 動作を高い成功率 計画 きるこ を確認 219 作成者:室岡
  206. 論文ま め(176/199) Revisiting Depth-guided Methods for Monocular 3D Object Detection

    by Hierarchical Balanced Depth • Yi-Rong Chen, Ching-Yu Tseng, Yi-Syuan Liou, Tsung-Han Wu, Winston H. Hsu ◦ 従来 画像 対し 一律 距離を計算する 対し ,提案手法 物体 即した距離画像 計 算を実施するこ ,近距離・遠距離 応じた距離画像 生成を実現(下図参照) 220 作成者:片岡 ◦ 上記 方針 従い,物体間や距離 応じた誤差関数を提案,距離画像が階 層的 いるHierarchical Depth Map(HDM)を計算する
  207. 論文ま め(177/199) Stealthy Terrain-Aware Multi-Agent Active Search • Nikhil Angad

    Bakshi, Jeff Schneider ◦ 探索エージェント 位置を隠すため 手法を提案=偵察するタスクへ 展開 ◦ STARアルゴリズム 変化する可視性 リスク 対応するため並列化された top-sampled-based アルゴリズム いう立ち位置. ◦ 検証 ,既存 エージェント 散策方法 い 優れたパフォーマンス 221 作成者:元田
  208. 論文ま め(178/199) STOW: Discrete-Frame Segmentation and Tracking of Unseen Objects

    for Warehouse Picking Robots • Yi Li, Muru Zhang, Markus Grotz, Kaichun Mo, Dieter Fox ◦ シーン 大き 変化が発生するよう フレーム 系列を入力し も Segmentationを可能 する手 法 ◦ DETR 似たTransformerベース デコーダから Head部分 物体 マスクを予測.こ 時,物体追 跡 埋め込みを利用するため,異 るフレーム 同じ物体トークンを関連付け,信頼度が高く,前 追跡軌道 類似性 高い物体トークンを紐 ける学習を追加する ◦ Sim2Real gapが小さくシミュレーション み 学習 も他 手法より実環境 うまくいく 222 作成者:牧原
  209. 論文ま め(179/199) SA6D: Self-Adaptive Few-Shot 6D Pose Estimator for Novel

    and Occluded Objects • Ning Gao, Vien Anh Ngo, Hanna Ziesche, Gerhard Neumann ◦ 遮蔽がある場合 姿勢推定 ため 、点群を構築 →Self-Adaptation Module よ 対象 物体 分割、部分点群から6次元姿勢を推定。 ◦ セグメンテーションモデル 出力を齊藤英し 、物体 中心が含まれる きを正 サンプル、そう い時を負 する。 ◦ ピクセル単位 特徴を平均化し 各物体が表現する。 ◦ 検証 遮蔽 多いシーン 有用性を評価し いる。 223 作成者:元田 https://sites.google.com/view/sa6d
  210. 論文ま め(180/199) Marginalized Importance Sampling for Off-Environment Policy Evaluation •

    Pulkit Katdare, Nan Jiang, Katherine Driggs-Campbell ◦ 実県境 RLポリシーを評価するため ,シミュレーションデータ 実環境 オフラインデータを使 用する ◦ 密度比率 予測を使 た評価方法 Marginalized Importance sampling おい 重み関数を学 習必要があり,これを2 分割する.実環境 教師から 学習 シミュレーション おい 占有 率 分けるこ ,計算効率をよくする. 224 作成者:牧原
  211. 論文ま め(181/199) Improving Behavioural Cloning with Positive Unlabeled Learning •

    Qiang Wang, Robert McCarthy, David Cordova Bulens, Kevin McGuinness, Noel E. O’Connor, Francisco Roldan Sanchez, Nico Gürtler, Felix Widmaier, Stephen J. Redmond ◦ オフライン 方策学習 おい ,少数 質が良い demonstrationデータ 多数 質が未知 学習 データがある場合 学習 ◦ semi-supervised学習 より,未知データから質が良いデータを filteringし 動作学習 利用 ◦ 実機 cube持ち上げやそ 他シミュレーションタスク おい ,複数 オフライン学習や模倣学習 baselineを上回る性能を達成 225 作成者:花井
  212. 論文ま め(182/199) Heteroscedastic Gaussian Processes and Random Features: Scalable Motion

    Primitives with Guarantees • Edoardo Caldarelli, Antoine Chatalic, Adrià Colomé, Lorenzo Rosasco, Carme Torras ◦ Heteroscedastic Gaussian process (不均一ガウス過程) 複雑性を解決するため 、ランダム カーネル関数 近似手法 ある Random Features (RFs)を用い 、LfD 高 軌道 処理を実 現。 ◦ 本手法 軌跡を処理する課題 ため 理論的 適切 ある手法 あり、精度 ロスが い。 226 作成者:元田 https://github.com/LCSL/rff-hgp 図:検証を実施したLfD 例
  213. 論文ま め(183/199) Fleet Active Learning: A Submodular Maximization Approach •

    Oguzhan Akcin, Orhan Unuvar, Onat Ure, Sandeep P. Chinchali ◦ DNN ため 分散されたデータ 冗長性 課題 対応. Fleet Active Learning (FAL) いう提案 法 サブ(劣)モジュラー関数 最大化 よりデータサンプル効率を実現. ◦ FAL 意味 ある情報を優先的 サンプル し 選択.通信量を抑え がら適切 抽出. ◦ Berkeley DeepDrive 実世界 知覚 関するデータセット おい 検証し性能向上 227 作成者:元田 図:クラウド 更新されたモデル 重みを全 ロボット 共有し、各ロボット それ 応じ モデル パラメータを更新.
  214. 論文ま め(184/199) BM2CP: Efficient Collaborative Perception with LiDAR-Camera Modalities •

    Binyu Zhao, Wei ZHANG, Zhaonian Zou ◦ LiDAR カメラを用いた単一 限ら いモダリティが重要 ある。 ◦ BM2CP よりモダリティを中間部分 統合する方法を提案。 ◦ 実世界 自動運転 おい ,通信が困難 ある状況( 50倍低い) 最先端 手法 勝 る! 228 作成者:元田
  215. 論文ま め(185/199) A Bayesian approach to breaking things: efficiently predicting

    and repairing failure modes via sampling • Charles Dawson, Chuchu Fan ◦ 様々 ロボットタスク おい ,失敗モード 予測 それ 対するアクション 修正をサンプリング ベース ベイズ推定手法 効率的 行う ◦ シミュレーションモデル 評価関数を既知 し , MCMC 高リスク 失敗例や失敗から復帰する アクション例をサンプリングする.パーティクルフィルタ サンプルを更新する ◦ 10台 移動ロボット かくれんぼ 動作計画や電力送電網 設計 適用し,従来手法 半分 イ テレーション 1/10 コスト 解が得られるこ を確認 229 作成者:室岡 https://mit-realm.github.io/breaking-things/
  216. 論文ま め(186/199) Topology-Matching Normalizing Flows for Out-of-Distribution Detection in Robot

    Learning • Jianxiang Feng, Jongseok Lee, Simon Geisler, Stephan Günnemann, Rudolph Triebel ◦ 正規化フロー(NF)を用いたOut-Of-Distribution検出 ◦ NF base分布を微分同相写像 target分布 変換するため, base分布 単峰ガウシアン を 用いる target 位相 違い より, target分布 モデル化性能低下や最適化が数値的 不安 定 る いう問題がある ◦ base分布 表現力が高く, target分布 位相構 を学習 させるこ が きるResampled Base Distribution(RSB) を利用 230 作成者:花井
  217. 論文ま め(187/199) Fine-Tuning Generative Models as an Inference Method for

    Robotic Tasks • Orr Krupnik, Elisei Shafer, Tom Jurgenson, Aviv Tamar ◦ 生成したサンプルが観測 近く るよう , GPUを活用し深層生成モデルを素早く適応させる手法 ◦ 観測データを生成するシミュレータを使い,交差エントロピー法 複雑 事後分布を近似 ◦ 把持した物体形状 推定,逆運動学計算,点群補完 多様 ロボット利用 きる 231 作成者:花井
  218. 論文ま め(188/199) Neural Graph Control Barrier Functions Guided Distributed Collision-avoidance

    Multi-agent Control • Songyuan Zhang, Kunal Garg, Chuchu Fan ◦ Graph control barrier functions(GCBFs)を導入。これ 、CBF理論を基 し、グラフ構 を利用し 拡張可能 一般的 分散制御。 ◦ グラフニューラルネットワークを使用し 、 GCBF 証明 分散制御を学習し、状態ベース モデル だけ くLiDAR 点群 対応。 ◦ エージェント 数や移動距離が増加し も主要 手法を上回 実行可能。 232 作成者:元田 https://mit-realm.github.io/gcbf-website/
  219. 論文ま め(189/199) Learning Efficient Abstract Planning Models that Choose What

    to Predict • Nishanth Kumar, Willie McClinton, Rohan Chitnis, Tom Silver, Tomás Lozano-Pérez, Leslie Pack Kaelbling ◦ Long-horizon タスク計画問題を,抽象レイヤー タスクプランニング 詳細レイヤー モーション プランニング 2段解 解くため ,抽象レイヤー シンボリック 状態・アクションをデモンストレー ションから学習する ◦ 観測データからゴール達成 関係ある変化 着目するこ 抽象レイヤーをシンプル する ◦ BEHAVIOR-100 benchmark 物品移動タスク 有効性を確認 233 作成者:室岡 https://nishanthjkumar.com/tamp-operator-learning.github.io/
  220. 論文ま め(190/199) PairwiseNet: Pairwise Collision Distance Learning for High-dof Robot

    Systems • Jihwan Kim, Frank C. Park ◦ ロボット 幾何干渉を回避するため , 3Dモデルから最近点 間 距離(干渉距離)を学習ベース 効率的 計算する.従来 学習ベース干渉距離計算より精度が高い ◦ 要素形状モデル ペア間 干渉距離を NN 予測する(形状モデルをサンプリングしたポイントクラ ウドをDGCNN 特徴抽出し全結合層へ繋い スカラ値を出力する) ◦ 各ペア間 い 干渉距離を求め,最小値をグローバル 干渉距離 する 234 作成者:室岡 https://www.youtube.com/watch?v=N5Q8ZXbB6Uc https://github.com/kjh6526/PairwiseNet
  221. 論文ま め(191/199) Equivalent Motion Manifold Primitives • Byeongho Lee, Yonghyeon

    Lee, Seungyeon Kim, MinJun Son, Frank C. Park ◦ 動作プリミティブ 軌道を生成するモデルを学習するこ が多い ◦ 軌道 く連続的 多様体を生成するこ 未知物体や新しい制約 対する適応性を向上 きる が,こ よう 学習 多く データが必要 ◦ ロボットタスク 内在する対称性を考慮するこ データ効率を改善 ▪ latent codingをAutoEncoder 学習する き ,encoder 不変性,decoder 同変性を課 すこ これを実現 ◦ タスクパラメータ 関し 共通 latent座標系を見 けるこ ,さら データ効率を改善 ◦ 実機 学習時 存在し い obstacleを回避 235 作成者:花井
  222. 論文ま め(192/199) Policy Stitching: Learning Transferable Robot Policies • Pingcheng

    Jian, Easop Lee, Zachary Bell, Michael M. Zavlanos, Boyuan Chen ◦ 強化学習 おい 方策をタスク依存部 ロボット依存部 モジュール化し,タスク ロボット 組み 合わせを切り替え可能 する ◦ 状態,方策,Q-関数をタスク依存部 ロボット依存部 分離 ◦ タスクモジュール ロボットモジュール 接続部 潜在表現を多数 方策 共通表現 るよう学 習 し alignment 236 作成者:花井
  223. 論文ま め(193/199) α-MDF: An Attention-based Multimodal Differentiable Filter for Robot

    State Estimation • Xiao Liu, Yifan Zhou, Shuhei Ikemoto, and Heni Ben Amor ◦ ベイズ推定 おけるフィルターを学習ベース 構築する.こ き , Attention機構を用い 異 るモダリティ 潜在表現を学習するよう し,そ ゲインも学習ベース 獲得可能 する. ◦ 状態 行動 潜在表現をこ フィルター おすこ ,観測 コンテキスト 依存したゲインを生 成し,状態推定 きる. ◦ 剛体,ソフトロボット おい も状態推定 エラーが大きく削減 きた 237 作成者:牧原
  224. 論文ま め(194/199) Batch Differentiable Pose Refinement for In-The-Wild Camera/LiDAR Extrinsic

    Calibration • Lanke Frank Tarimo Fu, Maurice Fallon ◦ LiDAR キャリブレーションがため End-to-End アライメント手法を提案. ◦ バッチ処理された変換を用いるこ 学習注 サンプル効率を向上. ◦ 検証:センサー 用いた場合 十分 精度を達成.ゼロショット転移も可能. 238 作成者:元田 図:画像 三次元情報から特徴を抽 出.ボクセル 特徴 画像 特徴 差分から位置 最適化を考える.
  225. 論文ま め(195/199) Embodied Lifelong Learning for Task and Motion Planning

    • Jorge Mendez-Mendez, Leslie Pack Kaelbling, Tomas Lozano-P ´ erez ◦ TAMP 軌道サンプリングする場合共有されるモデル 共有され いモデルを学習し,計画中 オ ンライン 使用するモデルを決定する ◦ 過去 経験を次 計画 用い 効率よくサンプリングするため ,生成モデル おい ,軌道 サ ンプリング時 アクション 種類から絞り込むひ ようがある.こ き Diffusion modelを使用し ,分布ご モデルを用意する. ◦ 過去 経験 基 い いるアクションから, FIne-tuningし 忘却するか,共同学習をするか,新モ デル 旧モデル サンプリングをバランスよく使うか 戦略を る. ◦ 2DおよびBEHAVIOR 計画 おい ,時間 経過 も 大幅 改善がみられた 239 作成者:牧原
  226. 論文ま め(196/199) Compositional Diffusion-Based Continuous Constraint Solvers • Zhutian Yang,

    Jiayuan Mao, Yilun Du, Jiajun Wu, Joshua B. Tenenbaum, Tomás Lozano-Pérez, Leslie Pack Kaelbling ◦ 物体配置,把持姿勢, collision-free 制約をdiffusion modelから sampling し 解く ◦ 個々 制約 対応した diffusion modelを学習,energy 和を考えるこ 全 制約 対応した 解を求める ◦ 多様 変数 よる条件付け,柔軟 制約 組み合わせが可能 240 作成者:花井
  227. 論文ま め(197/199) Generalization of Heterogeneous Multi-Robot Policies via Awareness and

    Communication of Capabilities • Pierce Howell, Max Rudolph, Reza Joseph Torbati, Kevin Fu, Harish Ravichandar ◦ 異種 マルチエージェント強化学習 おい 適応的 協調が重要 ある。 ◦ 分散型異種マルチロボット協調政策を新しい構成、サイズ、ロボット チーム 一般化する際 能 力認識 コミュニケーション 役割を調査 241 作成者:元田 https://sites.google.com/view/cap-comm
  228. 論文ま め(198/199) Task Generalization with Stability Guarantees via Elastic Dynamical

    System Motion Policies • Tianyu Li, Nadia Figueroa ◦ 柔軟 タスク 適応するため、 GMMベース Linear Parameter Varing (LPV) Dynamical System よる定式化を採用(左図)。 NN 手法 パラメータを調整 削減が目的。 タスク 不変 パラメータ(物体、配置 )を表現するため 拘束条件を設定。 → 別 情報(入力)を用い く も対応可能。 ◦ 実世界 ロボット 検証。また、制御理論を考慮し も、柔軟 適応性が示され いる。 242 作成者:元田 https://sites.google.com/view/elastic-ds
  229. 論文ま め(199/199) Online Model Adaptation with Feedforward Compensation • ABULIKEMU

    ABUDUWEILI, Changliu Liu ◦ 分布シフトやダイナミクスが非定常 システム 対処するため モデル オンライン更新 ◦ feedbackアプローチ 過去 情報を忘れ しまう点が問題 ◦ 最新 サンプル く,メモリバッファ 重要 サンプル(最新 サンプル 近いサンプル) 対す る予測誤差を最小化するよう モデルを更新する提案 ▪ 手法 シンプルだが,理論的解析がし かりし いる ◦ ダイナミクスが遅い場合 既存手法より誤差 上限を小さく 抑えるこ が きる 243 作成者:花井
  230. 今後 展望(1/2) CVxRobotics 連携が鍵! • Best paperを た著者 CV Robotics

    スーパースターが連 る • 認識から行動ま 一貫したシステムが多数 • それぞれ 強みを生かした連携が必要 245
  231. 今後 展望(2/2) CoRL いこう! • 2017年ごろ USから きた学会だが,プレゼンス か り高い

    • ICRA, IROS 匹敵する論文 質 盛り上がりをみせ いる • 基盤モデル 組み合わせ ロボット学習 トレンド これからも続く可能性が 高い! 246