CoRL2023速報

著者リスト（五十音順）牧原昂志*，片岡裕雄**，堂前幸康*，中條亨一*，花井亮*，室岡雅樹***，元田智大*，Floris Erich* CoRL2023 報 1 産総研 {オートメーション*,
コンピュータビジョン **}研究チーム， AIST-CNRSロボット工学連携研究ラボ ***

概要：CoRL2023 動向，気きロボティクストップ国際会議CoRL2023 サーベイ報告 • 今回ん研究が流行いた？
• 海外研究者何をしいる？ • 「動向」や「気付き」をまめました＋全論文199本を完全読破した論文サマリも公開！ 2

CoRL2023 動向，気き（1/29）査読プロセス完全公開！ • OpenReview 査読一連流れが完全
公開 ◦ Oﬃcial Review ▪ Review ▪ Questions for Rebuttal ▪ Originality ▪ Technical Quality ▪ Clarity ▪ Impact ▪ … 3 作成者：元田例： https://openreview.net/forum?id=JkFeyEC6VXV Check Points: • 査読者視点を伺うこがきる貴重情報 • 透明性が高い論文評価期待（ ←査読者負担大？） • そ時代流行（≒採択されやすい）を知る指標もる近年 OpenAccess主流トレンド合致した学会戦略

CoRL2023 動向，気き（2/29）学会概要 • 正式名称：Conference on Robot Learning
(CoRL) ◦ 「ロボット機械学習融合」をテーマする． ◦ IFRR(International Foundation of Robotics Research)* シンポジウム一し 2017年から毎年開催． ◦ す ICRA, IROS, CoRL… よう並び称される発展著しい国際会議． • 今年度 ◦ 開催地：Atlanta, Georgia USA / 日程： November 6 to 9, 2023 4 作成者：元田 2017 (初開催): Mountain View, CA, USA 2018 : Zurich, Switzerland 2019 : Osaka, Japan 2020 : Virtual 2021 : London, UK and Virtual 2022 : Auckland, NZ *他 RSS も運営 IEEE 別組織ある http://www.ifrr.org/about-ifrr https://www.corl2023.org/ 参考：補足：短期間趨勢変化を知るべし！

CoRL2023 動向，気き（3/29）関わる企業着目 • BigTechや有力企業がスポンサー ◦ Google DeepMind
◦ Amazon robotics ◦ Nvidia etc. ◦ ロボット取り組む米国企業 ≒ 世界もトップ企業．それらが一流研究成果を発表し、論文投稿しいる事実を認識すべき。 → CoRL 立ち位置が推し量られる。 • Hello robot, Unitree サービスロボット系企業も… ◦ 安価質高いハードウェア（サーボ発展も着目）が登場し企業勢いが ... ◦ 例え、近年Unitree 多く国際学会４足や２足ロボットデモを展開． ◦ URやFranka よう標準的研究・教育向けロボット定着を狙いる … 思われる 5 引用：https://www.corl2023.org/ 作成者：元田

CoRL2023 動向，気き（4/29）「CALL FOR PAPERS」を見る • 投稿が推奨される分野： 6 作成者：元田
「ロボティクス無関係研究エディターキックする！」旨が記載されいる → CoRL 採択されるため特ロボット工学へ貢献必要ある強く主張しいる →全 Learningが含まれる

CoRL2023 動向，気き（5/29）著者向け情報 • 論文発表 ◦ １段組８ページ（参考文献リスト
カウントしい） ◦ 補足資料を添付するこが許可されいる ◦ 全採択論文ポスターセッションを実施し、こうち選れた論文が口頭発表。 • 査読規定 ◦ 理論的or結果を伴う重要性新規性があるか ◦ ロボット工学関連性を示されいるか →Desk kick 可能性あり ◦ Discussion 機会（Rebuttal）があり、論文修正が可能。 • 投稿規定 ◦ 採択論文 OpenReview オープン公開される 7 作成者：元田

CoRL2023 動向，気き（6/29） 2023年度採択い • 採択率 39.9% (199 /
498) ◦ 口頭発表選出：33件 ※6.63% ◦ ポスター発表：166件 • 投稿者情報 ◦ 25か国から参加 ◦ 873名がリストアップ 8 作成者：Erich、元田参考：https://www.corl2023.org/explore-papers 2023 2022 2021 投稿数 498 504 408 口頭発表 33 34 26 ポスター発表 166 163 130 採択 39.9% 39.5% 38.2% 参考： ←採択、投稿数横倍

CoRL2023 動向，気き（7/29） Finalists - Best Systems Paper Award •
🎉RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools ◦ Haochen Shi, Huazhe Xu, Samuel Clarke, Yunzhu Li, Jiajun Wu • MimicPlay: Long-Horizon Imitation Learning by Watching Human Play ◦ Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, Anima Anandkumar • Robot Parkour Learning ◦ Ziwen Zhuang, Zipeng Fu, Jianren Wang, Christopher G Atkeson, Sören Schwertfeger, Chelsea Finn, Hang Zhao 9 作成者：元田 https://www.corl2023.org/awards WIN!

CoRL2023 動向，気き（8/29） Finalists - Best Student Paper Awards •
MimicPlay: Long-Horizon Imitation Learning by Watching Human Play ◦ Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, Anima Anandkumar • 🎉Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners ◦ Allen Z. Ren, Anushri Dixit, Alexandra Bodrova, Sumeet Singh, Stephen Tu, Noah Brown, Peng Xu, Leila Takayama, Fei Xia, Jake Varley, Zhenjia Xu, Dorsa Sadigh, Andy Zeng, Anirudha Majumdar • Predicting Object Interactions with Behavior Primitives: An Application in Stowing Tasks ◦ Haonan Chen, Yilong Niu, Kaiwen Hong, Shuijing Liu, Yixuan Wang, Yunzhu Li, Katherine Rose Driggs-Campbell • Distilled Feature Fields Enable Few-Shot Manipulation ◦ William Shen, Ge Yang, Alan Yu, Jensen Wong, Leslie Pack Kaelbling, Phillip Isola • Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping ◦ Satvik Sharma, Adam Rashid, Chung Min Kim, Justin Kerr, Lawrence Yunliang Chen, Angjoo Kanazawa, Ken Goldberg 10 作成者：元田 https://www.corl2023.org/awards WIN!

Finalists - Best Paper Awards • MimicPlay: Long-Horizon Imitation Learning
by Watching Human Play ◦ Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, Anima Anandkumar • Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners ◦ Allen Z. Ren, Anushri Dixit, Alexandra Bodrova, Sumeet Singh, Stephen Tu, Noah Brown, Peng Xu, Leila Takayama, Fei Xia, Jake Varley, Zhenjia Xu, Dorsa Sadigh, Andy Zeng, Anirudha Majumdar • Predicting Object Interactions with Behavior Primitives: An Application in Stowing Tasks ◦ Haonan Chen, Yilong Niu, Kaiwen Hong, Shuijing Liu, Yixuan Wang, Yunzhu Li, Katherine Rose Driggs-Campbell • 🎉Distilled Feature Fields Enable Few-Shot Manipulation ◦ William Shen, Ge Yang, Alan Yu, Jensen Wong, Leslie Pack Kaelbling, Phillip Isola • Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping ◦ Satvik Sharma, Adam Rashid, Chung Min Kim, Justin Kerr, Lawrence Yunliang Chen, Angjoo Kanazawa, Ken Goldberg CoRL2023 動向，気き（9/29） 11 作成者：元田 https://www.corl2023.org/awards WIN!

Computer Vision（CV）分野若手研究者台頭 • Awards, Award Finalists CV分野先端技術を導入しいる例も多い
◦ 先端技術：3D Vision もちろん，NeRFやCLIP（Vision-Language Pre-training）もすロボット実装されいる ◦ CV研究者：Jiajun Wu（Stanford Univ.）, Phillip Isola（MIT）, Angjoo Kanazawa（UC Berkeley）あたり CVPR 常連名前も売れいる ◦ CV/Robotics研究者: Yuke Zhu（UTAustin/NVIDIA） CV・Robotics両方分野活躍 ◦ もちろん，そ他多数気鋭研究者が Finalist 名前を連いる CoRL2023 動向，気き（10/29） 12 作成者：片岡

Oral以上論文大規模チームよる論文が多い？ • 採択率約40% 一方，強い研究チームい
かか高評価得られいか ◦ Robotics x Machine Learning いうクロスポイント時点研究者限られるか，連携より技術融合しい投稿すらきい印象 ◦ Award Finalists Stanford, MIT, UC Berkeley, Google, NVIDIA, UIUC もやRoboticsや ML もほぼ常連チームが共著入り ◦ 大規模連携より上記常連チーム牙城を崩せるか？？ CoRL2023 動向，気き（11/29） 13 作成者：片岡

マルチタスク学習：スキルを分割し学習 • 基礎スキルご学習し，一貫したPolicy（方策）蒸留 • 大規模言語モデル（LLM）を使いがら，スキル組み合わせを考える
• モデル Fine-tuning（微調整）よオリジナル分布を遷移させる • 最初から一貫するよりも，動作特徴を捉え学習した方がいい CoRL2023 動向，気き（12/29） 14 作成者：元田，牧原

未知タスク，状況へ適応 • 大規模オフラインデータをさら増やすより，事前学習後自前少量
データを用い適応させる ◦ 一般研究機関が大規模データを作成するこ非現実的 ◦ 少量データから対応するスキルや状況を過去経験マッチングする ◦ 人間が目的かゴールを簡単与えるロボット自身がデータを作る～LLMを用い作る「敵対的」データ etc. • 軌道対処きる場合解決きいる例がある • インタラクションを含む場合これから？ CoRL2023 動向，気き（13/29） 15 作成者：元田，牧原

3D 特徴表現がアツい • 3Dだ解きやすいマニピュレーション問題（＝6DOF把持）が扱えるよう • PointCloudよりもVoxel, NeRF 表現を使う研究が評価される傾向 ◦
NeRF 2Dや言語特徴量自体を埋め込ん 3D 拡張（Oral 2件） ◦ 三次元 Neural Descriptionがロボティクス常識る日も近い …？ • 多視点画像をそまま入力し 3D 情報を得る方法も ◦ 既存 Vision Transformer 適用やデータセット充実度を考える最も妥当 ◦ 3Dデータセットが拡充する、状況が変わる可能性あり CoRL2023 動向，気き（14/29） 16 作成者：元田，牧原

3D ダイナミクス予測 • これまも柔軟物変形予測も多く提案されきた • ほぼ静的
１物体場合 GNN 解いいる • 2物体以上も剛体あれある程度可能．しかし，単純形状・パラメータ化きる限られる • 今後一般物体，シーンへう拡張しいくかが鍵？ CoRL2023 動向，気き（15/29） 17 作成者：元田，牧原

Robotics Transformer (RT)シリーズ今後？ • 2022/12 RT-1 始まり，後続研究もインパクト
大きい ◦ RT-1：大規模データ収集 Millionパラメータモデル ◦ RT-2：VQA事前学習 Billionモデル ◦ RT-X：異るロボットデータスケールアップ ◦ こ間も，データ拡張 (ROSIE)や対話(KNOWNO) も登場 ◦ 今後方向性人強調しいかそ場改善しいくか，そインターフェース (RT-Sketch, RT-Trajectory)や学習方法が必要？また大規模データを収集し続ける？ CoRL2023 動向，気き（16/29） 18 作成者：牧原

Early Career Keynote • Shuran Song: What I Wish I
Had for Robot Learning ◦ 柔軟物（紐，布，袋）操作かり高難度． Primitive 動き組み合わせ解くこが最もシンプルあるが，限界もある ◦ Diﬀusion policy 模倣学習方法し高難度タスク対し効果的．そため，正しいデータが必要 ◦ ロボット学習ほしいも３．データ（スケール可能）データ（再利用可能）データ（ロボット使える）！ CoRL2023 動向，気き（17/29） 19 作成者：牧原

Early Career Keynote • Shuran Song: What I Wish I
Had for Robot Learning ◦ シミュレーション LLM 組み合わせよデータをスケールアップさせ，必要応じ使用するデータを選択する（ https://www.cs.columbia.edu/~huy/scalingup/） ◦ 実環境人間ロボットハンドみ構成されるインターフェースを使，一人称視点デモンストレーションを取得する（ https://arxiv.org/pdf/1912.04344.pdf） ◦ それぞれ利点がある，両方手段データを作いきたい CoRL2023 動向，気き（18/29） 20 作成者：牧原

Early Career Keynote • Karol Hausman: Bitter Lessons & Sweet
Future in Robot Learning ◦ 70年わたるロボティクス研究最終的 Foundation modelを使た方法が最も効果的あるいう教訓を得た ◦ LLM ようデジタルエージェントから CoRL ようロボットへう進むこがきるかを考え，PaLM-SayCan を発表． ◦ 次ユーザエージェントインターフェースを考えいく時代．人情報をいかオンラインロボット与えいくか (RT-Trajectory, RT-Sketch) CoRL2023 動向，気き（19/29） 21 作成者：牧原

Workshop: Language and Robot Learning Language as Grounding • FeiXia:
Low-level Embodied Intelligence with Foundation Models ◦ LLM, VLMを使ロボット制御を実現する ◦ 手順生成，軌道 High-level 関しきるよういるが， Low-level 関しデータが少いし取得コストも高いいう難しさがある．また LLM 知識不足 ◦ １モデル High-level, low-levelを一括考慮（PaLM-E）や言語視覚事前知識を利用し転移学習（RT-2） Vision-and-Language Action model ◦ Chain-of-thought Low-level 行動を拡張きる CoRL2023 動向，気き（20/29） 22 作成者：牧原

Low-level Embodied Intelligence with Foundation Models ◦ LLM, VLMを使ロボット制御を実現する ◦ 手順生成，軌道 High-level 関しきるよういるが， Low-level 関しデータが少いし取得コストも高いいう難しさがある．また LLM 知識不足 ◦ １モデル High-level, low-levelを一括考慮（PaLM-E）や言語視覚事前知識を利用し転移学習（RT-2） Vision-and-Language Action model ◦ Chain-of-thought Low-level 行動を拡張きる CoRL2023 動向，気き（21/29） 23 作成者：牧原

Low-level Embodied Intelligence with Foundation Models ◦ LLMを新たインターフェースし利用 ◦ 報酬モデルし High-level(LLM) Low-level(Mujoco MPC)を繋ぐ役割を持たせる (Learning to Rewards) ◦ 環境タスク説明から報酬設計，シミュレーション結果から報酬設計をフィードバックする（Eureka） CoRL2023 動向，気き（22/29） 24 作成者：牧原

Workshop: 2nd Pre-Training for Robot Learning • Chelsea Finn: Can
Robots Fine-Tune Autonomously? ◦ 事前学習されたロボット学習モデルを使，実環境ロボット自身がう適応させるか？ ◦ 未知タスク，状況それぞれ継続学習アプローチを使適応する手法を紹介 ◦ 未知タスク→Reset-free RL:少量デモ対し， VLMや人間よる評価を使学習 ◦ 未知状況→Single-life RL:状況を見それあた振る舞い行動を選択しがら学習 CoRL2023 動向，気き（23/29） 25 作成者：牧原

Workshop: 2nd Pre-Training for Robot Learning • Kristen Grauman: Learning
About Action from People in Video ◦ 人間デモンストレーションからいか行動認識やロボット行動移しいくか（ Ego4Dプロジェクト統括） ◦ 行動階層構を言語を組み合わせた対照学習獲得（ HierVL） ◦ １人称視点他視点特徴表現をコンテキストから一致させる（ Ego-exo allignment） ◦ 身体を含めた環境認識を加える（ EgoEnv） ◦ 人間手動きを模倣し多指ハンド把持を実現する CoRL2023 動向，気き（24/29） 26 作成者：牧原

Workshop: Towards Generalist Robots: Learning Paradigms for Scalable Skill Acquisition
• Dieter Fox: Scaling Data Generation for Imitation Learning in Sim:　 Demonstrations and Assets ◦ シミュレーションデータを使た模倣学習アプローチ ◦ RT-X 実環境データ多いも，スケールアップ関し Simulationが有効 ◦ Task and Motion Planning(TAMP)から詳細状態を含め収集する．人間テレオペも含めシミュレーション表現が難しい Contact-rich データも収集可能する CoRL2023 動向，気き（25/29） 27 作成者：牧原

Workshop: Towards Generalist Robots: Learning Paradigms for Scalable Skill Acquisition
• Dieter Fox: Scaling Data Generation for Imitation Learning in Sim:　 Demonstrations and Assets ◦ 自動データ生成：高，スケーリング可能，リアリスティックもカスタマイズ性が低いも，シミュレーションだけ完結しい例がある ◦ 実環境幾何構を把握しシーンを生成 (URDFormer) ◦ AR 実演データからロボット変換，シーン内人間手ロボットを入れかえる (AR2-D2) CoRL2023 動向，気き（26/29） 28 作成者：牧原

Sponsor talk: Google DeepMind • Open X-Embodiment: Robotic Learning Datasets
and RT-X Models ◦ 10/17, 2023 arXiv 公開された論文（https://robotics-transformer-x.github.io/）解説 ◦ 世界中研究機関（３４）からロボットデータ（現在６０）をあめスケーリング等効果を検証． RT-1,2をこ大規模データ学習 (RT-1-X, RT-2-X) ◦ 全データを一貫した形式（ RLDS from tensorﬂow_datasets）管理 ◦ 移動台車やマニピュレーションを含め様々シーン，ロボット，物体が存在 ◦ Workshop 至る所引用，解説がされいた CoRL2023 動向，気き（27/29） 29 作成者：牧原

Sponsor talk: Google DeepMind • Open X-Embodiment: Robotic Learning Datasets
and RT-X Models ◦ バリエーションや量も含め，やりまだまだデータ足りいい！他機関からもデータ提供を求めいる． ◦ google groups 参加する形式打ち合わせも行いる（１３８人くらいメンバーがいるらしい） ◦ RT-2-X 関し APIを公開しいる模様．多く人試しもらいたいこ ◦ LLM いうGPTシリーズよう立ち位置る可能性がある？ CoRL2023 動向，気き（28/29） 30 作成者：牧原

次回ミュンヘン（ドイツ）！ CoRL2023 動向，気き（29/29） 31 作成者：牧原

以下論文まめ：全論文199本完全読破 https://openreview.net/group?id=robot-learning.org/CoRL/2023/Conference • Oral:33本 ◦ Oral 1:
Manipulation ◦ Oral 2: RL ◦ Oral 3: Mobility (driving / navigation / locomotion) ◦ Oral 4: LLM ◦ Oral 5: Manipulation 2 ◦ Oral 6: Pre-training, surrogate model, and representation learning • Poster:166本 ◦ Poster 1: Manipulation 1 ◦ Poster 2: RL/IL ◦ Poster 3: Mobility ◦ Poster 4: LLM/VLM/HRI ◦ Poster 5: Manipulation 2 ◦ Poster 6: Perception, representation, adaptation 32

Oral 1: Manipulation

論文まめ（1/199） Stabilize to Act: Learning to Coordinate for Bimanual
Manipulation • Jennifer Grannen, Yilin Wu, Brandon Vu, Dorsa Sadigh ◦ 安定ため物体を保持＋もう一方腕タスクを実行、双方役を割り当る手法 ◦ サンプル効率・双腕操作一般化するこ、両手分高次元空間制御を可能。 ◦ 検証：４双腕タスク対し 20回デモデータみ 76.9％タスク成功率 34 https://sites.google.com/view/stabilizetoact 作成者：元田

論文まめ（2/199） HANDLOOM: Learned Tracing of One-Dimensional Objects for Inspection
and Manipulation • Vainavi Viswanath, Kaushik Shivakumar, Mallika Parulekar, Jainil Ajmera, Justin Kerr, Jeﬀrey Ichnowski, Richard Cheng, Thomas Kollar, Ken Goldberg ◦ 紐状（一次元）物体をスプライン曲線フィッティングし、上下や絡まりを識別。 ◦ ニューラルネットワークより、結び目を検出する。 ◦ 検証：80% 結び目を追跡可能。双腕ロボットより、 64% 紐をほぐすこ成功。 35 https://sites.google.com/view/cable-tracing 作成者：元田

論文まめ（3/199） RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools
• Haochen Shi, Huazhe Xu1, Samuel Clarke, Yunzhu Li, Jiajun Wu ◦ いろん道具を使フィードバックを行いがら調理を行う ◦ PointCloudから物体形状を抽出し，目標状態形状ま操作を行う Policyを選択し，GNNを元実行する ◦ 計画時間や完成度関し大きく向上しいる 36 作成者：牧原 🎉Best Systems Paper Award

論文まめ（4/199） On the Utility of Koopman Operator Theory in
Learning Dexterous Manipulation Skills • Yunhai Han, Madie Xie, Ye Zhao, Harish Ravichandar ◦ クープマン作用素を用い複雑非線形ダイナミクスを表現し，模倣学習用いる ◦ デモンストレーションから物体ロボット状態を利用し，それぞれ関係を考慮し線形ダイナミクス近似するようダイナミクスモデルを学習する． ◦ 予測されたダイナミクスおうじ目標制御を出力する ◦ 計算時間が短く，サンプル効率が高い 37 作成者：牧原

論文まめ（5/199） Diff-LfD: Contact-aware Model-based Learning from Visual Demonstration for
Robotic Manipulation via Differentiable Physics-based Simulation and Rendering • Xinghao Zhu, Jinghan Ke, Zhixuan Xu, Zhixin Sun, Bizhe Bai, Jun Lv, Qingtao Liu, Yuwei Zeng, Qi Ye, Cewu Lu, Masayoshi Tomizuka, Lin Shao ◦ 人間デモからIn-hand manipulationを模倣する ◦ デモからDifferentiable renderingをベースした姿勢推定物体軌道を取得 ◦ ロボット軌道を再現するき，力を加え物体を動かすか，指を配置し直すかを選択しがら目標状態へ操作する 38 作成者：牧原

論文まめ（6/199） Predicting Object Interactions with Behavior Primitives: An Application
in Stowing Tasks • Haonan Chen, Yilong Niu, Kaiwen Hong, Shuijing Liu, Yixuan Wang, Yunzhu Li, Katherine Rose Driggs-Campbell ◦ 棚もを収納するタスク ◦ 挿入するaction 対し，並んいるも配置がよう変化するかいう Forward DynamicsをGraph Neural Network (GNN) 学習し，目標状態近い actionを選ぶ ▪ 物体一様サンプルした particles 表現，実世界物体姿勢 SIFT 推定 ◦ 図 6 シーン対し 95%以上成功率．box shapes 学習したが，deformables もある程度汎化した 39 作成者：花井

Oral 2: RL

論文まめ（7/199） How to Learn and Generalize From Three Minutes
of Data: Physics-Constrained and Uncertainty-Aware Neural Stochastic Diﬀerential Equations • Franck Djeumou, Cyrus Neary, ufuk topcu ◦ 提案法Neural SDEs ダイナミクスを推論するため確率微分方程式パラメータを NN よ獲得．パラメータ ①物理的情報や②モデル不確かさ、関連。これらが評価対象 ◦ MPC（モデル予測制御）転用可能。 ◦ 強化学習中もデータ効率性が高い。データセットがスパースも長期予測対応可能。 41 作成者：元田 [Video]

論文まめ（8/199） Finetuning Offline World Models in the Real World
• Yunhai Feng, Nicklas Hansen, Nicklas_Hansen, Ziyan Xiong, Chandramouli Rajagopalan, Xiaolong Wang ◦ off-line学習より世界モデルを取得 →こモデル則た Fine-Tune学習効果を証明． ◦ off-line学習得た情報をon-line学習転用させるこ，タスク分布を適切調整する． off-/on-line 両方利点を活かし，学習効率向上を実現した． ◦ 本手法より，22%だた成功率を20回試行み 67% 向上させた． 42 作成者：元田 https://www.yunhaifeng.com/FOWM/ 図：Off-line学習より得た情報を Fine-Tune 指標するこ，タスク毎別分布らようしいる．

論文まめ（9/199） Hijacking Robot Teams Through Adversarial Communication • Zixuan
Wu, Sean Ye, Byeolyi Han, Matthew Gombolay ◦ マルチエージェント強化学習おい，敵対的攻撃を与える手法 ◦ バイナリ通信を例挙げ，学習後ポリシー出力対し，模倣し報酬を推測しビットを一部反転させルようし攻撃を与える ◦ 様々設定ランダム方法よりも報酬低下が大きく，少い攻撃おおき影響をあたえるこがきる 43 作成者：牧原

論文まめ（10/199） Expansive Latent Planning for Sparse Reward Oﬄine Reinforcement
Learning • Robert Gieselmann, Florian T. Pokorny ◦ 複雑環境下おける大域的経路探索ため動的計画アルゴリズム ◦ 教師し学習 X サンプリングベース動作計画、いうモデルベース RL ◦ 潜在的空間内サンプリングよ探索木を拡張 → スパース報酬から最先端性能。 44 作成者：元田 https://krobg.github.io/ 図：潜在空間拡張よ疎問題連続的、長期的推論を可能する図：マニピュレーションタスクおい検証

論文まめ（11/199） HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile
Manipulation • Wenxuan Zhou, Bowen Jiang, Fan Yang, Chris Paxton, David Held ◦ 点群を観測データする 6D非把持タスクを実現する強化学習 ◦ Actor-Map: 点群毎モーション、 Critic-Map: 点群毎 Q値を算出→接触点をmapから選ぶ ◦ Sim検証：未知物体おい 80~90% 正しく機能 ◦ Real検証：未知物体 50%以上成功率指定した６次元姿勢移動可能。 45 作成者：元田

Oral 3: Mobility (driving / navigation / locomotion)

論文まめ（12/199） ViNT: A Foundation Model for Visual Navigation •
Dhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black, Noriaki Hirose, Sergey Levine ◦ Navigation model trained on existing datasets and deployed to novel environments without ﬁne-tuning ▪ Good performance, but existing dataset size is not huge (a few hundred hours) ▪ Transformer model for planning, diﬀusion model for generating subgoal states 47 作成者：Erich

論文まめ（13/199） Robot Parkour Learning • Ziwen Zhuang, Zipeng Fu,
Jianren Wang, Christopher G Atkeson, Sören Schwertfeger, Chelsea Finn, Hang Zhao ◦ 個々スキルをシミュレーションカリキュラム学習し、蒸留全体方策モデルを構築 ◦ 失敗しも物理的障害が少いソフトペナルティから、徐々干渉が増えいくハード　ペナルティるようカリキュラムを設計 ◦ 実環境も動作可能、さら失敗時再挑戦する振る舞いが現れた 48 作成者：中條 https://robot-parkour.github.io/

論文まめ（14/199） DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control
• Kevin Huang, Rwik Rana, Alexander Spitzer, Guanya Shi, Byron Boots ◦ 四軸飛行機（≒ドローン）軌道トラッキングため学習ベース手法 ◦ フィードフォワード/フィードバック適応制御機構を用いた RL（左図） ◦ 閉ループよるL1適応制御よ外乱対応きるため、環境毎微調整不要 ◦ 3.2ms未満推論時間（←従来法 1/4） 49 作成者：元田 https://sites.google.com/view/deep-adaptive-traj-tracking

論文まめ（15/199） Intent-Aware Planning in Heterogeneous Traﬃc via Distributed Multi-Agent
Reinforcement Learning • Xiyang Wu, Rohan Chandra, Tianrui Guan, Amrit Bedi, Dinesh Manocha ◦ 自動走行交通状況対し安全か効率的交通整理（行動計画）する強化学習手法。 ◦ 分散型マルチエージェント RL よ周囲エージェント（＝運転手）意図推測を実施し、こ情報意思決定（動作計画）用いられる ◦ 検証：交通状況（穏やか、混雑）別みも成功率が向上（右図） 50 作成者：元田 https://arxiv.org/abs/2306.06236

論文まめ（16/199） Language-Guided Traﬃc Simulation via Scene-Level Diﬀusion • Ziyuan
Zhong, Davis Rempe, Yuxiao Chen, Boris Ivanovic, Yulong Cao, Danfei Xu, Marco Pavone, Baishakhi Ray ◦ 自動運転発展必須交通シミュためシーン単位条件付き拡散モデル（ CTG++） ◦ 言語指示よシーンを制御するこが可能。 ◦ マルチエージェント対応した時空間相関 Transformer 51 作成者：元田

Oral 4: LLM

論文まめ（17/199） Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping
• Satvik Sharma, Adam Rashid, Chung Min Kim, Justin Kerr, Lawrence Yunliang Chen, Angjoo Kanazawa, Ken Goldberg ◦ Grasp objects by speciﬁed parts ◦ NeRF for posed-2D to 3D and CLIP applied to image patches to generate dense embeddings (LERF) ◦ Select strongest keypoint for high level object query, grow the region using DINO, then select strongest keypoint for part query 53 作成者：Erich

論文まめ（18/199） Language to Rewards for Robotic Skill Synthesis •
Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee,　 Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard　 Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng, Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia ◦ 低レベルロボット制御を LLM 行うため報酬パラメータを最適化する ◦ Mujoco MPCを組み合わせ対話的制御するこも可能いる ◦ 四足歩行やマニピュレーション多様動作を実現 54 作成者：牧原

論文まめ（19/199） Robots That Ask For Help: Uncertainty Alignment for
Large Language Model Planners • Allen Z. Ren, Anushri Dixit, Alexandra Bodrova, Sumeet Singh, Stephen Tu, Noah Brown, Peng Xu, Leila Takayama, Fei Xia, Jake Varley, Zhenjia Xu, Dorsa Sadigh, Andy Zeng, Anirudha Majumdar ◦ KNOWNO: Conformal Prediction(ラベルを単一く幅をも返す予測法 ) 基き、LLM 予測対する不確実さを定量化する提案法。まさ ”No”を知る、いうこ。 ◦ LLM ”幻覚”問題を最小限人手（質疑）、より保証きるようする考え 55 作成者：元田 https://robot-help.github.io/ 🎉Best Student Paper Award

論文まめ（20/199） Bootstrap Your Own Skills: Learning to Solve New
Tasks with Large Language Model Guidance • Jesse Zhang, Jiahui Zhang, Karl Pertsch, Ziyi Liu, Xiang Ren, Minsuk Chang, Shao-Hua Sun, Joseph J. Lim ◦ 単純スキル構成からそれらを組み合わせ実行するこ新しいスキルを獲得する ◦ LLMをガイドし行動系列候補を生成し，ここ動き強化学習獲得する ◦ Practice 得られたPolicy スキル系列をあらたスキルし辞書追加する 56 作成者：牧原

論文まめ（21/199） SayPlan: Grounding Large Language Models using 3D Scene
Graphs for Scalable Task Planning • Krishan Rana, Jad Abou-Chakra, Sourav Garg, Jesse Haviland, Ian Reid, Niko Suenderhauf ◦ Ground large-scale long-horizon tasks plans from abstract natural language instruction and execute on mobile robot with arm ◦ GPT 4 LLM for SOTA, some experiments with GPT 3.5 ◦ Assumes a known scene graph. SayPlan can explore the graph by collapsing/expanding nodes and returns a ﬁnal path plan within the graph ◦ Simple idea, complex implementation, works reasonably well ▪ 73.3% success rate on “complex tasks”: “Abstract semantic search queries which require complex reasoning”, e.g. “Find the room where people are playing board games.” 57 作成者：Erich Iterative semantic search LLM Iterative replanning

論文まめ（22/199） VoxPoser: Composable 3D Value Maps for Robotic Manipulation
with Language Models • Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li1, Jiajun Wu, Li Fei-Fei ◦ 3D空間上言語指示アフォーダンスを元軌道計画を立る ◦ LLM よ Voxel空間上言語指示対応する ValueをAﬀordance map 割り当，同時避ける制約対し ValueをConstraint map 割り当る． ◦ 空間上位置関し VLMから情報を受け取り更新するため，動的環境計画可能 ◦ Aﬀordance Constraintを考慮し，タスクコストを最小化するよう軌道をくる 58 作成者：牧原

Oral 5: Manipulation 2

論文まめ（23/199） MimicPlay: Long-Horizon Imitation Learning by Watching Human Play
• Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, Anima Anandkumar ◦ 人間 Play dataをもロボット自身行動を修正する． ◦ タスク完全マッチしい人間デモデータから潜在空間上タスク計画を抽出し，それをベースし High-level タスクを計画する ◦ ロボット自身デモンストレーション Low-level し共 Policyを学習する． ◦ Long-horizon 14 タスクおい高い成功率を出しいる． 60 作成者：牧原

論文まめ（24/199） Continual Vision-based Reinforcement Learning with Group Symmetries •
Shiqi Liu1, Mengdi Xu1, Peide Huang, Xilun Zhang, Yongkang Liu, Kentaro Oguchi, Ding Zhao ◦ 継続学習おい，類似性あるタスクをグループご学習する． ◦ 視覚ロボット身体情報から，特徴量空間内 1-Wasserstein距離をベースグルーピングし，そグループ内ある PPOベース Policyを選択し学習する． ◦ Plate Slide, Button Press, Drawer Close, Goal Reach 連続したタスクおい効果的学習がきる 61 作成者：牧原

論文まめ（25/199） Rearrangement Planning for General Part Assembly • Yulong
Li, Andy Zeng, Shuran Song ◦ 左図：新タスクRearrangement Planning（再配置計画）を設定：目標形状（ Novel Target）が与えられた際，よう部品形状（ Unseen Parts）を組み合わせるかを推論する ◦ 右図：同タスクを効果的解くモデルし General Part Assembly Transformer（GPAT）も提案，各部品形状が目標形状よう対応するかを推論 62 作成者：片岡

論文まめ（26/199） Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation https://f3rm.github.io/
• William Shen∗, Ge Yang∗, Alan Yu, Jansen Wong, Leslie Pack Kaelbling, Phillip Isola ◦ 2D 3D 橋渡しを行う特徴フィールドを設計， 2D画像特徴 3D幾何を接続する空間 ◦ 実装上言語入力→CLIP特徴接続するこ Few-shot学習より6DoF 把持を実現 ◦ 下図通りスキャン →3D-to-2D特徴使用→言語操作，例し特性異る物体も 6割程度成功（下表） 63 作成者：片岡 🎉Best Paper Award

論文まめ（27/199） GNFactor: Multi-Task Real Robot Learning with Generalizable Neural
Feature Fields • Yanjie Ze, Ge Yan, Yueh-Hua Wu, Annabella Macaluso, Yuying Ge, Jianglong Ye, Nicklas Hansen, Li Erran Li, Xiaolong Wang ◦ 3D セマンティック表現を潜在空間上構築し行動生成をおこう ◦ 少量デモンストレーションから，多視点情報を Voxelから特徴抽出を行い， Stable diﬀusion RGB画像 Diﬀusion feature（言語関するも）を構成するよう学習する． ◦ 言語 Voxel ボリューム特徴表現から Perciever Transformerをもちい Actionを生成する ◦ Voxel表現みを直接扱う場合よりもマルチタスク成功率が高い 64 作成者：牧原

論文まめ（28/199） RVT: Robotic View Transformer for 3D Object Manipulation
• Ankit Goyal, Jie Xu, Yijie Guo, Valts Blukis, Yu-Wei Chao, Dieter Fox ◦ 3D物体を複数視点から観測し特徴獲得する Transformerを提案 ◦ 図処理工程を示しおり，点群獲得仮想複数視点から特徴獲得・把持位置推定 ◦ シミュレーション環境学習より，多数タスク対し成功しいる述べられいる 65 作成者：片岡

Oral 6: Pre-training, surrogate model, and representation learning

論文まめ（29/199） Measuring Interpretability of Neural Policies of Robots with
Disentangled Representation • Tsun-Hsuan Wang, Wei Xiao, Tim Seyde, Ramin Hasani, Daniela Rus ◦ ロボット動作学習おける disentangle表現解釈性関係を分析 ◦ 学習した方策から決定木を構築，決定木から求める disentanglement度合い指標を提案 ◦ 3 タスクおい disentangle度合いが高いほ，人よる解釈性も高いこが伺える 67 作成者：花井

論文まめ（30/199） Task-Oriented Koopman-Based Control with Contrastive Encoder • Xubo
Lyu, Hanyang Hu, Seth Siriya, Ye Pu, Mo Chen ◦ クープマン作用素クープマン埋め込み，線形制御を同時学習する． ◦ クープマン埋め込み対照学習を使獲得する．こ埋め込みをか線形ダイナミクスパラメータを予測する．線形ダイナミクス埋め込みを用い Linear Quadratic Regulator制御を最適化する ◦ タスクコストを優先的考慮し最適化するこモデル誤差ロバストる 68 作成者：牧原

論文まめ（31/199） Robot Learning with Sensorimotor Pre-training • Ilija Radosavovic,
Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik ◦ ロボット身体多視点情報を含めた事前学習手法． ◦ MAEをベースし時系列視覚，身体，運動データ一部をマスクし復元する自己教師あり表現学習をおこう ◦ 把持位置検出手法を用いた動作計画をベース実環境データを収集 ◦ Picking,Stacking 関し事前学習効果が現れいる 69 作成者：牧原

論文まめ（32/199） PreCo: Enhancing Generalization in Co-Design of Modular Soft
Robots via Brain-Body Pre-Training • Yuxing Wang, Shuang Wu, Tiantian Zhang, Yongzhe Chang, Haobo Fu, Qiang Fu, Xueqian Wang ◦ モジュールロボット設計制御関する事前学習戦略．未知モジュール構成や環境対し汎化性を上げる ◦ 身体デザイン制御を１ Policyから出力されるよう構成し，共有されたパラメータ元関係を暗黙的捉え，効果的サンプルをる． ◦ 環境やそれぞれモジュール相対位置，そ形状を状態し， PPOを使設計制御 Policy を学習 70 作成者：牧原

論文まめ（33/199） Surrogate Assisted Generation of Human-Robot Interaction Scenarios •
Varun Bhatt, Heramb Nemlekar, Matthew C. Fontaine, Bryon Tjanaka,　Hejia Zhang, Ya-Chuan Hsu, and Stefanos Nikolaidis ◦ HRIシステム評価おい，人間ロボット両方行動を予測するモデルをかシナリオを自動生成する ◦ 最初人間動き環境を入力し，人間ロボット占有マップ（軌跡履歴）予測結果からパフォーマンスを推定．こシナリオを実現可能も修正し，データセット追加しいく． 71 作成者：牧原

Poster 1: Manipulation 1

論文まめ（34/199） Dynamic Handover: Throw and Catch with Bimanual Hands
• Binghao Huang, Yuanpei Chen, Tianyu Wang, Yuzhe Qin, Yaodong Yang, Nikolay Atanasov, Xiaolong Wang ◦ マルチエージェント強化学習を用い２台多指ハンド付きマニピュレータ物体受け渡しを行う ◦ Issac Gym上 Multi-agent PPOを用い Throw,Catchを学習．そ他 Throwされた軌道を予測し，そこからCatchするPointを予測するモデルを用いるこ Sim2Real おける軌道誤差をうめるこがきる ◦ PDコントローラシステム同定を加え実環境も動作する 73 作成者：牧原

論文まめ（35/199） Towards General Single-Utensil Food Acquisition with Human-Informed Actions
• Ethan K. Gordon, Amal Nanavati, Ramya Challa, Bernie Hao Zhu, Taylor A. Kessler Faulkner, Siddhartha S. Srinivasa ◦ 人間から抽出した動作組み合わせよ食品をピックアップする手法 ◦ 人間デモから再現したロボット物体動きをトラッキングしたデータをスキルし蓄積したち，触覚視覚コンテキストを元報酬が大きくりそう動作を選択し実行し，成否を判定しがらPolicyを更新する． ◦ 11種類動作セット十分 80％以上成功する 74 作成者：牧原

論文まめ（36/199） Learning Reusable Manipulation Strategies • Jiayuan Mao, Joshua
B. Tenenbaum, Tomas Lozano-Perez, Leslie Pack Kaelbling ◦ 操作コツを１度み，物体大きさ，位置，種類が変わも似たよう動きを実現する ◦ 人間デモからロボット物体，物体物体関係を捉えた時系列情報から，ロボット自身動きをシミュレーション上探索しがら生成する ◦ 新しい状況時，物体関し PointNetベース分類から動作をする対象を選択し，抽出されたシーケンスをベースし動作を探索する 75 作成者：牧原

論文まめ（37/199） Aﬀordance-Driven Next-Best-View Planning for Robotic Grasping • Xuechao
Zhang, Dong Wang, Sun Han, Weichuang Li, Bin Zhao, Zhigang Wang, Xiaoming Duan, Chongrong Fang, Xuelong Li, Jianping He ◦ ら積み環境遮蔽ある物体を把持するため Next Best Veiw 研究。 ◦ 従来違い Implicit Neural Representation（≃NeRF）より把持可能性を予測した点。 ◦ Renderingする情報把持評価が含まれおり、 TSDF形式把持可能性が算出される（右） 76 作成者：元田

論文まめ（38/199） FlowBot++: Learning Generalized Articulated Objects Manipulation via Articulation
Projection • Harry Zhang, Ben Eisner, David Held ◦ 引き出し、開き戸を3Dビジョン（点群）ベース理解しロボット操作転用する手法 ◦ 時間ご点（連続写真よう）よし運動を表現するこを提案。軌道がスムーズ。 ◦ 汎用（下流）操作タスクをサポートし、未知対象も対応。 77 作成者：元田

論文まめ（39/199） Dexterity from Touch: Self-Supervised Pre-Training of Tactile Representations
with Robotic Play • Irmak Guzey, Ben Evans, Soumith Chintala, Lerrel Pinto ◦ タクタイル（接触）センサ情報を多指ハンド器用さ情報利用する手法（ T-Dex） ◦ 情報抽出：2.5時間デモデータよる教師あり学習（高次元情報特徴抽出） ◦ 動作学習：(Embedded) 触覚情報視覚情報からノンパラメトリック方策学習、 ◦ 検証視覚or力基くモデルよりも触覚情報優位性を示した 78 作成者：元田 https://tactile-dexterity.github.io/

論文まめ（40/199） XSkill: Cross Embodiment Skill Discovery • Mengda Xu,
Zhenjia Xu, Cheng Chi, Manuela Veloso, Shuran Song ◦ Robot learns to perform a task from a single demonstration video of a human performing the task 79 作成者：Erich

論文まめ（41/199） That Sounds Right: Auditory Self-Supervision for Dynamic Robot
Manipulation • Abitha Thankaraj, Lerrel Pinto ◦ 従来誰も使いかた「音」を利用し Contact-Rich 動作を生成するアプローチを提案 ◦ ５種類 25K 音源付き動作データを取得。音類似度が指標した自己教師あり学習 ◦ 検証：事前学習重要性確認 / 視覚よる学習よりContact-rich 課題高い性能を確認 ◦ 検証：UR10 動作際、音響類似度を評価したオンライン学習を導入効果を確認 80 作成者：元田 https://audio-robot-learning.github.io/

論文まめ（42/199） One-Shot Imitation Learning: A Pose Estimation Perspective •
Pietro Vitiello, Kamil Dreczkowski, Edward Johns ◦ 追加データや事前知識がい場合も、軌道未知物体姿勢推定を組み合わせ定式化可能。こ仮定検証、定式化を基した One- shot 模倣学習を提案。 ◦ 特デモ動作（EEF 軌道データ）を基ロボット EEF 姿勢変化物体姿勢変化を計測 → Test おける姿勢情報、デモ姿勢情報から変化差分を表現する。 ◦ 検証タスク成功率影響ある情報（位置誤差、 calibration誤差）を調査。 81 作成者：元田 https://www.robot-learning.uk/pose-estimation-perspective

論文まめ（43/199） UniFolding: Towards Sample-eﬃcient, Scalable, and Generalizable Robotic Garment
Folding • Han Xue, Yutong Li, Wenqiang Xu, Huanyu Li, Dongzhe Zheng, Cewu Lu ◦ 衣類折り畳みタスク関するロボットシステム UniFolodingを提案。 ◦ 点群情報対し掴む位置を推定 →End-to-End 動作決定を行う。衣服状態 pick, Fling 動作を紐けるよう模倣学習可能モデルを構築 ◦ 学習 Sim（VR） Real（ロボット）両方行う。 ◦ 検証：10種類未知 Tシャツへ対応 82 作成者：元田 https://unifolding.robotflow.ai/

論文まめ（44/199） MimicGen: A Data Generation System for Scalable Robot
Learning using Human Demonstrations • Ajay Mandlekar, Soroush Nasiriany, Bowen Wen, Iretiayo Akinola, Yashraj Narang, Linxi Fan, Yuke Zhu, Dieter Fox ◦ If we learn how a robot interacts with an object from the perspective of the object, then we can move the object around freely and generate new demonstrations ◦ E.g. go from 200 human demonstrations to 50K demonstrations to train on ◦ It seems that after a certain number of human demonstrations, new generated demonstrations are just as easy to learn from as from extra human demonstrations! 83 作成者：Erich

論文まめ（45/199） Learning Robot Manipulation from Cross-Morphology Demonstration • Gautam
Salhotra, I-Chun Arthur Liu, Gaurav S. Sukhatme ◦ LfD (デモ基く学習)研究おい、教師データ行動空間が（学習モデル想定）異る場合（例：データ両手向け、実際片手学習したい、 ※左図）対応。 ◦ 学習対象行動空間内布ダイナミクスを既存モデルから推定 →教師データ比較よ学習すべき行動空間を探索する（※間接的軌道最適化法、を利用） 84 作成者：元田 https://uscresl.github.io/mail/

論文まめ（46/199） Shelving, Stacking, Hanging: Relational Pose Diﬀusion for Multi-modal
Rearrangement • Anthony Simeonov, Ankit Goyal, Lucas Manuelli, Yen-Chen Lin, Alina Sarmiento, Alberto Rodriguez Garcia, Pulkit Agrawal, Dieter Fox ◦ 本棚物体を挿入する、配置を整列する研究。 ◦ 点群情報から対し拡散モデルよ正しい位置を評価する。配置が不適あるこを判断し、目的沿た修正（SE(3) 変換）を出力するモデル。 85 作成者：元田

86 論文まめ（47/199） SCONE: A Food Scooping Robot Learning Framework
with Active Perception • Yen-Ling Tai, Yu Chien Chiu, Yu-Wei Chao, Yi-Ting Chen ◦ 物理的複雑食品掬い上げため、適切そ対象特性を認識する手法。 ◦ 対話型エンコーダ状態（＝事前学習済み）を認識するモデル（＝連続する動き情報から特性を得る）よ方策学習を補助する効果。 ◦ 未知食品、異るレベルタスク 71% 成功率。安定性おい他手法優れる。作成者：元田 https://sites.google.com/view/corlscone/home

論文まめ（48/199） Hierarchical Planning for Rope Manipulation using Knot Theory
and a Learned Inverse Model • Matan Sudry, Tom Jurgenson, Aviv Tamar, Erez Karpas ◦ ロープ（ 1D物体）結び目を作るマニピュレーション研究。 ◦ 階層型動作計画法おい、結び目理論考え（交差を代数学的定義）を取り入れ、ロープ位相情報を連続状態を定義。 ◦ 初期状態終端状態が与えられた際、上流トポロジカル状態同士遷移基く動作計画を実施、下流物理シミュレーションをベースした推定が行われる。 87 作成者：元田

論文まめ（49/199） An Unbiased Look at Datasets for Visuo-Motor Pre-Training
• Sudeep Dasari, Mohan Kumar Srirama, Unnat Jain, Abhinav Gupta ◦ ロボティクスデータセット不足する →従来法「ドメイン転移」も結局内争的 … → 本研究、事前学習「データ」着目した分析を実施。 ◦ ImageNet ようビジョン標準的データセットこそ小規模もロボット学習重要ある、いう知見を得た！ ↔軌道データロボット的データより学習大切！ ◦ 同じアルゴリズム異るデータ Fine-Tune→結果：ImageNetが実世界実験効果が！ 88 作成者：元田 https://data4robotics.github.io/

論文まめ（50/199） HYDRA: Hybrid Robot Actions for Imitation Learning •
Suneel Belkhale, Yuchen Cui, Dorsa Sadigh ◦ 模倣学習テスト環境分布シフト（環境差異）が課題。抽象化一解決策だが、器用さを失う他、特定分布特化する ◦ そこ、抽象的 waypoint アクション空間（ざくりした点点移動）厳密軌道を動的切り替えるこを提案。 ◦ 従来模倣学習比較し 30-40%を上回る性能を示し、長期的作業も耐えうる。 89 作成者：元田 https://sites.google.com/view/hydra-il-2023

論文まめ（51/199） Act3D: Inﬁnite Resolution Action Detection Transformer for Robot
Manipulation • Theophile Gervet, Zhou Xian, Nikolaos Gkanatsios, Katerina Fragkiadaki ◦ タスク応じ三次元特徴解像度（細かさ）を変えるこ大切奥行情報を取り扱う。 ◦ センサ基く深度情報から 2D画像特徴を三次元変換し点群特徴を算出 →3Dマップを軽量算出。 ◦ 2D画像 CLIP ResNet50を用いマッピングしいる（ LERF いう手法近い？） ◦ 2D 複数視点より性能が上がり、直接 3Dデータを用いる場合より軽量！ 90 作成者：元田 https://act3d.github.io/

論文まめ（52/199） Learning Lyapunov-Stable Polynomial Dynamical Systems Through Imitation •
Amin Abyaneh, Hsiu-Chin Lin ◦ 模倣学習おい、リアプノフ安定定理を組み合わせるこ想定外行動エラーを防ぎ、安定性を保証する。 ◦ 教師データから方策リアプノフ意味安定候補を取得 →大域的安定ため、最適化計算を行う。 91 作成者：元田 https://sites.google.com/view/stable-planning-policy/home

論文まめ（53/199） One-shot Imitation Learning via Interaction Warping • Ondrej
Biza, Skye Thompson, Kishore Reddy Pagidi, Abhinav Kumar, Elise van der Pol, Robin Walters, Thomas Kipf, Jan-Willem van de Meent, Lawson L.S. Wong, Robert Platt ◦ SE(3) (特殊直交系) ロボット操作方策を One-shot 得る手法。 ◦ Shape-warping いう方法よ各物体から 3Dメッシュを推論し、物体動きキーポイントを得る。 ◦ 物体形状推論効果が高いため、模倣学習効率（ One-shot）が実現される。 92 作成者：元田 https://shapewarping.github.io./

論文まめ（54/199） AdaptSim: Task-Driven Simulation Adaptation for Sim-to-Real Transfer •
Allen Z. Ren, Hongkai Dai, Benjamin Burchﬁel, Anirudha Majumdar ◦ ① Sim2Real ためシミュレーション内、パフォーマンス基くパラメータ分布よりメタ学習を実施。適切シミュレーション設定を見出す。 ◦ ② 現実データを用い、 Sim 分布をReal 繰り返し学習近ける。 ◦ PushingやScooping 検証し、右グラフよう Realへ適応を示す。 ◦ 例：きゅうりを切る、一片を掬う、いう器用作業を実現した。 93 作成者：元田 https://irom-lab.github.io/AdaptSim/

論文まめ（55/199） A Universal Semantic-Geometric Representation for Robotic Manipulation •
Tong Zhang, Yingdong Hu, Hanchen Cui, Hang Zhao, Yang Gao ◦ RGB 深度カメラ統合着目． Semantic-Geometric Representation（SGR）がそため汎用的ロボット知覚モジュールを提案． ◦ SGR 事前学習済み（CLIP）意味情報三次元空間推論を合わせロボットタスクを格納 ◦ 検証実世界タスクおいも他手法比べ優位． 94 作成者：元田 https://semantic-geometric-representation.github.io/

論文まめ（56/199） General In-hand Object Rotation with Vision and Touch
• Haozhi Qi, Brent Yi, Sudharshan Suresh, Mike Lambeta, Yi Ma, Roberto Calandra, Jitendra Malik ◦ マルチモーダル入力より複数軸を中心した In-hand 物体回転手法。 ◦ ①視覚、②触覚（Tactile image）、③深部感覚（自己受容性）等から内部特性関する知識を取得、潜在的空間上正しい状態を得用する。こ状態 PPO 動作計画。 ◦ 右図よう視覚触覚情報を用いるこ重要性を検証した。 95 作成者：元田 https://haozhi.io/rotateit/

論文まめ（57/199） ChainedDiffuser: Unifying Trajectory Diffusion and Keypose Prediction for
Robotic Manipulation • Zhou Xian, Nikolaos Gkanatsios, Theophile Gervet, Katerina Fragkiadaki ◦ 模倣学習おい， Detection Transformer Diffusion Policyを上手く統合し long-horizon タスクを解く． ◦ マルチモーダル情報を統合し大域的状況判断が必要 keypose 生成 Detection Transformer 行い，Keyposeを繋ぐ滑らか軌道生成 Diffusion modelを使う． ◦ 観測 RGBやdepthをそまま使うく CLIP featureを使 3D feature cloud (2D appearance+3D position) しいる点も興味深い． 96 作成者：花井

論文まめ（58/199） A Data-eﬃcient Neural ODE Framework for Optimal Control
of Soft Manipulators • Mohammadreza Kasaei, Keyhan Kouhkiloui Babarahmati, Zhibin Li, Mohsen Khadem ◦ 柔らかいロボット前進運動モデリング手法。 25データから運動を訓練する可能 ◦ Augmented Neural ODEを用い柔軟連続体をモデリング。モデル予測経路統合、いう方法より非凸性目的関数も効果的対応きる 97 作成者：元田

論文まめ（59/199） Generative Skill Chaining: Long-Horizon Skill Planning with Diﬀusion
Models • Utkarsh Aashu Mishra, Shangjie Xue, Yongxin Chen, Danfei Xu ◦ スキル着目した拡散モデル．並列し学習された分布を組み合わせ、長期間計画を生成． ◦ 各作業制約（事前事後状態関連性）を確認する分類器よ動作を計画． ◦ スキル間連続性が適切モデル化されたこ，汎用性や実現可能性を向上させた 98 作成者：元田 https://generative-skill-chaining.github.io/

論文まめ（60/199） Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation
• Yuanpei Chen, Chen Wang, Li Fei-Fei, C. Karen Liu ◦ 複数器用サブポリシーを連鎖させ長期間操作タスクを実現する ◦ サブポリシー連鎖成功率を高め，障害から回復や不要段階バイパスを可能する．シミュレーションみ学習する． ◦ 前方初期化プロセス後方微調整プロセスいう双方向最適化を行う．各サブポリシー間初期状態実現可能性を評価し，連鎖を最適化する． ◦ 未知オブジェクト形状対し実環境おいも動作を可能した． 99 作成者：牧原

Poster 2: RL/IL

論文まめ（61/199） FastRLAP: A System for Learning High-Speed Driving via
Deep RL and Autonomous Practicing • Kyle Stachowicz, Dhruv Shah, Arjun Bhorkar, Ilya Kostrikov, Sergey Levine ◦ 実環境一人称視点視覚ベース強化学習 1/10スケール高運転を行う ◦ ほかロボット大規模オフラインデータから視覚表現を獲得する． ◦ オンライン強化学習衝突や失敗時リセットする ◦ Oﬀ-policy RL おい遅い周回データを一度集めるこ失敗数を削減しいる ◦ 20分未満学習が完了し動作が可能る 101 作成者：牧原

論文まめ（62/199） Learning Realistic Traﬃc Agents in Closed-loop • Chris
Zhang, James Tu, Lunjun Zhang, Kelvin Wong, Simon Suo, Raquel Urtasun ◦ 交通ルールを厳守し，人間らしい運転を実現するよう Close-loop 学習する ◦ 人間デモから得られたシナリオ（ IL），ヒューリスティック作成した長いシナリオ（ RL）を交互学習する ◦ こモデルから作られる合成データも自動運転タスク学習おい有効あり，より現実近い走行データを生成するこがきいる 102 作成者：牧原

論文まめ（63/199） Imitating Task and Motion Planning with Visuomotor Transformers
• Murtaza Dalal, Ajay Mandlekar, Caelan Reed Garrett, Ankur Handa, Ruslan Salakhutdinov, Dieter Fox ◦ TAMPを教師し用い収集したデータセット Transformerをアーキテクチャする毛包学習強力組み合わせるこを示した． ◦ ①TAMP コストを最小化を考慮，②観測時系列データを扱う Transformer（右図） ◦ 標準 BC 比べも長期タスク効果を確認． 103 作成者：元田 https://mihdalal.github.io/optimus/

論文まめ（64/199） A Bayesian Approach to Robust Inverse Reinforcement Learning
• Ran Wei, Siliang Zeng, Chenliang Li, Alfredo Garcia, Anthony D McDonald, Mingyi Hong ◦ 未知報酬関数環境ダイナミクスモデル（内部）を同時推定。ベイジアンネットワーク基く逆強化学習（IRL）アプローチ。 ◦ 左図：環境モデル重み出力精度関連し、大きくるエラーがすくい探索。 ◦ 右図：ベンチマークよるアルゴリズム性能比較。ほぼ提案法（ BM-IRL）が優位。 104 作成者：元田 https://github.com/rw422scarlet/bmirl_tf

論文まめ（65/199） Reinforcement Learning Enables Real-Time Planning and Control of
Agile Maneuvers for Soft Robot Arms • Rianna Jitosho, Tyler Ga Wei Lum, Allison Okamura, Karen Liu ◦ リアルタイムソフトロボット制御ため強化学習へ Sim2Real アイディア。 ◦ fPAM(空気圧筋) いうを複数リンク（ヒンジ）を持アームし定式化。 → ドメイン乱択化センサ等モデリングがタスク成功率重要あるいう知見。 105 作成者：元田 https://sites.google.com/view/rl-soft-robot

論文まめ（66/199） AR2-D2: Training a Robot Without a Robot •
Jiafei Duan, Yi Ru Wang, Mohit Shridhar, Dieter Fox, Ranjay Krishna ◦ 人間デモデータ収集システムある AR2-D2を提案． ◦ ①特殊訓練を要さい，②現実ロボットを使わい，③多様物体をロボット操作するようデモ収集 ◦ iOSアプリ(iPhoneやiPad アプリ)を用い，作業者がロボットを操作する「様子」ビデオ ◦ 上記デモデータが現実物体操作も応用出来るこを示した． ◦ 本手法アプリ経由収集した場合がタスク成功率が上がた（よいデータが集また！） 106 作成者：元田 https://ar2d2.site/

論文まめ（67/199） Q-Transformer: Scalable Oﬄine Reinforcement Learning via Autoregressive Q-Functions
• Yevgen Chebotar,..., Sergey Levine et al. ◦ 大規模デモデータからマルチタスクへ拡張するため強化学習手法紹介。 ◦ 左図：Transformerを用い各行動を個別トークンし Q値を推定（MDP 問題し扱える形式） ◦ 右図：他行動計画モデルよりも各タスク高い性能 107 作成者：元田 https://qtransformer.github.io/

論文まめ（68/199） Contrastive Value Learning: Implicit Models for Simple Oﬄine
RL • Bogdan Mazoure, Benjamin Eysenbach, Oﬁr Nachum, Jonathan Tompson ◦ 多段階ダイナミクスモデルを提案し、直接、行動価値を推定（ ↔TD学習） ◦ Contrastive Value Learning (CVL) 、モデルフリー制御法あり、対照学習よ未来状態を潜在的空間内獲得する。 ◦ 図よう内部遷移を含む状態（≒連続的）表現あるため、高次元観測が必要しいこも優位点。 108 作成者：元田左図：従来未来状態を保持し、次状態を考えいる右図：Implicit モデルを用い各情報頻度（青い線）を推定しQ値そ重み平均表現

論文まめ（69/199） Sample-Eﬃcient Preference-based Reinforcement Learning by Encoding Environment Dynamics
in the Reward Function • Rin Metcalf, Miguel Sarabia, Natalie Mackraz, Barry-John Theobald ◦ 「選好」をベースする強化学習：人間選好（選択）合わせたロボット行動獲得。 ◦ 人フィードバックを適切行うため、以下を仮定： ①「状態、行動、次状態」関係をモデル化　　　　　　　　 →遷移「選好」ため ②時間的 Consistency objective よダイナミクスを認識　 →行動を一般し、比較可能 ◦ 109 作成者：元田

論文まめ（70/199） Few-Shot In-Context Imitation Learning via Implicit Graph Alignment
• Vitalis Vosylius, Edward Johns ◦ 物体をグラフ表現し、条件付きアライメント問題し模倣学習を定式化。 ◦ デモよ 3D 動きを入力、局所特徴よるグラフ表現変換した上、動きを学習 → 物体形状詳細影響を受けくい。未知物体へ対応が可能。 ◦ ICP 他アライメント手法比較（位置誤差）他をしぐ結果。 110 作成者：元田 https://www.robot-learning.uk/implicit-graph-alignment

論文まめ（71/199） Precise Robotic Needle-Threading with Tactile Perception and Reinforcement
Learning • Zhenjun Yu, Wenqiang Xu, Jieji Ren, Tutian Tang, Yutong Li, Siqiong Yao, Guoying Gu, Cewu Lu ◦ 触覚を用いた糸通し（柔軟線形物体操作を含む）タスクため強化学習手法 ◦ 端（Tail-end） ①検出、および②挿入、二段階： ▪ 実環境、糸を挿入する（突き動かす）作業を繰り返し誤差を補正（一発決まらいが、触覚よ失敗したこが分かる、右図） 111 作成者：元田 https://sites.google.com/view/tac-needlethreading/

論文まめ（72/199） What Went Wrong? Closing the Sim-to-Real Gap via
Diﬀerentiable Causal Discovery • Peide Huang, Xilun Zhang, Ziang Cao, Shiqi Liu, Mengdi Xu, Wenhao Ding, Jonathan Francis, Bingqing Chen, Ding Zhao ◦ 環境パラメータ実世界ギャップ関係性を見出す為手法。 ◦ シミュレーション環境内軌道を実機軌道を違いを微分可能モデルを学習。 ◦ パラメータを最適化し更新する（ドメイン適応を明示的行いる言える） ◦ 右図：収束性や適応が確認される。 112 作成者：元田 https://sites.google.com/view/sim2real-compass

論文まめ（73/199） Equivariant Reinforcement Learning under Partial Observability • Hai
Huu Nguyen, Andrea Baisero, David Klee, Dian Wang, Robert Platt, Christopher Amato ◦ 特定ドメイン関する対称性を考慮するこ、ロボット学習サンプル効率よく解く。 ◦ 例え、物体位置が回転しいるだけ基本的動き同じ →より最適解があるず ◦ 右図よう回転を対称群し定義。群をベースした POMDP よりActor-Critic型強化学習を実施→サンプル効率観点から性能が評価された。 113 作成者：元田

論文まめ（74/199） Robust Reinforcement Learning in Continuous Control Tasks with
Uncertainty Set Regularization • Yuan Zhang, Jianhong Wang, Joschka Boedecker ◦ 不確か情報遷移課題（特連続空間制御い）ため、新しい正則化項。 ◦ 遷移関数パラメータ空間不確実性を校正。未知情報いも価値関数おい対応 ◦ 著者ら提案手法を Real-world Reinforcement Learning（RWRL）ベンチマークおよび Unitree A1 Robot 評価し、特摂動テスト環境シミュレーションから実機へシナリオ堅牢性が向上。（standingおよびLocomotion 検証） 114 作成者：元田図：一定幅（不確かさ）をも表現するいう意図がある

論文まめ（75/199） A Policy Optimization Method Towards Optimal-time Stability •
Shengjie Wang, Fengbo Lan, Xiang Zheng, Yuxue Cao, Oluwatosin Oseni, Haotian Xu, Tao Zhang, Yang Gao ◦ サンプリングよるリアプノフ安定性を導入した方策安定化手法。 ◦ Actor-Critic型強化学習リアプノフ最適制御手法を統合。最適性を考慮した学習をし、安定方策を獲得しいる。 ◦ 10 ロボットタスク評価おい、提案法従来法優位。 115 作成者：元田 https://sites.google.com/view/adaptive-lyapunov-actor-critic

論文まめ（76/199） IIFL: Implicit Interactive Fleet Learning from Heterogeneous Human
Supervisors • Gaurav Datta, Ryan Hoque, Anrui Gu, Eugen Solowjow, Ken Goldberg ◦ Edge case (限界) 模倣学習弱点。リモート人間がそれを修正する手法改善案。 ◦ エネルギーベースモデルよ対象が異る教師データからデモ対応。 ◦ 不確実性定量化ため Jeﬀreys Divergence（分布間差異定量。 Kullback-Leibler divergenceを対称したも）を導入。学習効果を主張。 ◦ Sim 従来法 2.8倍成功率を示す。 Pushing blocks サンプル効率（教師作業）が 4.5 倍たこが報告されいる。 116 作成者：元田 https://github.com/BerkeleyAutomation/IIFL

論文まめ（77/199） TraCo: Learning Virtual Traﬃc Coordinator for Cooperation with
Multi-Agent Reinforcement Learning • Weiwei Liu, Wei Jing, lingping Gao, Ke Guo, Gang Xu, Yong Liu ◦ チーム全体（マルチエージェント）求める寄与を表現する手法ある TraCo ◦ クロスアテンション事実対する報酬を組み合わせ、エージェント全体特講を抽出。全体（チーム）が各エージェント求める寄与を正確定量化 ◦ 交通フロー内車両間多様動き対応。既存手法比較よ検証。 117 作成者：元田対象エージェント周囲状況を評価するネットワーク

論文まめ（78/199） DROID: Learning from Oﬄine Heterogeneous　 Demonstrations via Reward-Policy
Distillation • Sravan Jayanthi, Letian Chen, Nadya Balabanska, Van Duong, Erik Scarlatescu, Ezra Ameperosa, Zulﬁqar Haider Zaidi, Daniel Martin, Taylor Del Matto, Masahiro Ono, Matthew Gombolay ◦ オフライン LfD 研究おい、特異デモデータ対応するため、報酬方策空間おい知識蒸留する。 ◦ 検証、Mars Curiosity Rover(NASA) OpenAI Gym Cartpole環境検証し性能を評価。 118 作成者：元田図：異る方針を持エキスパートデータを想定し、共有する報酬を獲得。共通する方策を知識蒸留する

論文まめ（79/199） Preference learning for guiding the tree search in
continuous POMDPs • Jiyong Ahn, Sanghyeon Son, Dongryung Lee, Jisu Han, Dongwon Son, Beomjoon Kim ◦ 連続空間 POMDPを用いるため、成否双方軌道データを用いた Preference learning（選好学習）を行う（↔回帰学習）。 ◦ 左図よう木探索から選好ラベルを付与。ノード間優先順位が成否をベース設定 ◦ 好ましい軌道適切報酬が設定されるため、少いデータ場合も効率がよい。 ◦ 選好学習、回帰学習比べロバスト結果を示した。 119 作成者：元田 https://sites.google.com/view/preference-guided-pomcpow?usp=sharing

論文まめ（80/199） Cold Diffusion on the Replay Buffer: Learning to
Plan from Known Good States • Zidan Wang, Takuma Yoneda, Takeru Oba, Rui Shen, Matthew Walter, Bradly C. Stadie ◦ 生成された計画が実現可能あるか着目（左図）。最適化プロセスを Replay bufferを介し、事前音連れた状態誘導する「 COLD DIFFUSION」を提案。 ◦ 固定された始点目標状態を有する拡散モデルを用い、模倣しがら、最適化プロセスへ誘導する。※簡単言え、 Replay Buffer Diffision Model 組み合わせ。 ◦ 本手法、障害物を回避するタスク有意改善が見られた。 120 作成者：元田

論文まめ（81/199） BridgeData V2: A Dataset for Robot Learning at
Scale • Homer Walke, Kevin Black, Abraham Lee, Moo Jin Kim, Max Du, Chongyi Zheng, Tony Zhao, Philippe Hansen-Estruch, Quan Vuong, Andre He, Vivek Myers, Kuan Fang, Chelsea Finn, Sergey Levine ◦ ロボット操作大規模データ． 24 環境，60,096 データ ◦ WidowX 様々シーン（キッチンか家庭環境）や物体を扱い，言語指示を含んおり，オープンボキャブラリーマルチタスク学習手法使用可能 ◦ 模倣学習やオフライン強化学習おいデータ量関するスケーリング効果を確認 121 作成者：牧原

論文まめ（82/199） Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning •
Archit Sharma, Ahmed M Ahmed, Rehaan Ahmad, Chelsea Finn ◦ 少量エキスパートデモデータから学習し、ロボットが Self-improving (自己改善)する。 ◦ 視覚エンコーダよ End-to-End 方策および報酬関数を学習。タスク固有事前トレーニングを必要しい。効率性を考えたアンサンブル学習エキスパート利用を検証。 ◦ 視覚ベース手法から 30％性能向上、ロボット実験成功率向上がある。 122 作成者：元田図：人間が環境をリセットし繰り返しデータを集めるが今強化学習。ここ、ロボット自身がそれを行う、いうコンセプトがある。

論文まめ（83/199） Autonomous Robotic Reinforcement Learning with Asynchronous Human Feedback
• Max Balsells I Pamies, Marcel Torne Villasevil, Zihan Wang, Samedh Desai, Pulkit Agrawal, Abhishek Gupta ◦ 手動報酬関数設定やリセット（繰り返し設計）を行わいため手法。 ◦ 遠隔非エキスパートフィードバックから、 goal-directed-policy learning （目標指向方策学習）自己教師あり学習を導入（報酬を学習） ◦ 検証：シミュレーションや実世界い、ロボットタスクシステムを評価 → ウェブインターフェースを介した遠隔フィードバック学習非常効果的 123 作成者：元田 https://guided-exploration-autonomous-rl.github.io/GEAR/ 図：ロボット自動的探索を行うが、非常簡単ＵＩよ良し悪しを人判断しもらう。

論文まめ（84/199） Fighting Uncertainty with Gradients: Oﬄine Reinforcement Learning via
Diﬀusion Score Matching • H.J. Terry Suh, Glen Chou, Hongkai Dai, Lujie Yang, Abhishek Gupta, Russ Tedrake ◦ 不確実性推定が最適化手法作用するかを検証。 ◦ Smoothed distanceを不確実性評価し考える。以下有用性が示されいる。 ▪ 不確実性を最小化しようする勾配ベース手法。 ▪ リプシッツ定数（リプシッツ連続ある写像）を用いモデルバイアス分析 ◦ 提案法よるSGP アンサンブル学習等が苦手局所的最小値問題を改善しオフライン強化学習おける効果を示した。 124 作成者：元田 https://sites.google.com/view/score-guided-planning/home

論文まめ（85/199） Enabling Eﬃcient, Reliable Real-World Reinforcement Learning with Approximate
Physics-Based Models • Tyler Westenbroek, Jake Levy, David Fridovich-Keil ◦ 実世界データ限られた情報から学習する方策最適化手法 ◦ 近似モデルを用いたフレームワークあり以下を構築した： ◦ ローレベル安定化（追従）制御が導入されおり、学習や、平滑化特性を改善するこが特徴。サンプル効率点からも他手法優れいるこが示された。 125 作成者：元田

論文まめ（86/199） Learning to Discern: Imitating Heterogeneous Human Demonstrations with
Preference and Representation Learning • Sachit Kuhar, Shuo Cheng, Shivang Chopra, Matthew Bronars, Danfei Xu ◦ デモデータ品質を維持するため、特異データい対応。 ◦ 小さいデモバッチから時間系列軌跡データを潜在的（ latent）表現し品質を評価。 ◦ 複数異るデータ（条件が様々）からも効果的学習き、複数タスク方策学習おい、パフォーマンスが向上した。 126 作成者：元田図：軌道データから潜在空間内マッピングを考える。そ中 quality critic (品質評価)を行い、軌道良し悪しを決める。

論文まめ（87/199） RoboPianist: Dexterous Piano Playing with Deep Reinforcement Learning
• Kevin Zakka, Philipp Wu, Laura Smith, Nimrod Gileadi, Taylor Howell, Xue Bin Peng, Sumeet Singh, Yuval Tassa, Pete Florence, Andy Zeng, Pieter Abbeel ◦ ピアノを弾く（≒精密動作）指運動を深層強化学習よる獲得を目指すため環境を提供 ◦ シミュレーション環境やデータセット。モデル予測比べ精度が向上しいる結果（右図） 127 作成者：元田 https://kzakka.com/robopianist/ 図：運指（指配置）付き楽譜を用いいる。

論文まめ（88/199） Deception Game: Closing the Safety-Learning Loop in Interactive
Robot Autonomy • Haimin Hu, Zixu Zhang, Kensuke Nakamura, Andrea Bajcsy, Jaime Fernández Fisac ◦ 自律移動車ロボット人が対話するため課題焦点あ、閉ループ型意思決定ゲーム（交通シーン安全かうかを判断するゲーム）を提案 ◦ 物理的ダイナミクスおよび敵対的強化学習を用い、安全性を分析しる。 ◦ 本研究用いた手段有用性をケーススタディも評価。 128 作成者：元田 https://saferoboticslab.github.io/Belief-Game/

論文まめ（89/199） Action-Quantized Oﬄine Reinforcement Learning for Robotic Skill Learning
• Jianlan Luo, Perry Dong, Jeﬀrey Wu, Aviral Kumar, Xinyang Geng, Sergey Levine ◦ 条件付きVQ-VAEを訓練し、状態条件付けられたアクション潜在表現を学習。 ◦ VQ-VAE 離散コード（Codebook）をアクションしオフライン RLを実行 ◦ 推論中、ポリシーを使用し最適離散アクションを選択し、訓練されたデコーダ連続変換。 ◦ Robomimic環境複雑タスク検証おい 2-3倍改善を示した。 129 作成者：元田 https://saqrl.github.io/

論文まめ（90/199） CLUE: Calibrated Latent Guidance for Oﬄine Reinforcement Learning
• Jinxin Liu, Lipeng Zu, Li He, Donglin Wang ◦ オフライン強化学習おける報酬設定い、少数エキスパートから実施。 ◦ Calibrated Latent guidance より内部報酬エキスパート整合性確保。 ◦ 条件付きVAEを用い潜在空間を学習し、潜在空間内部評価を行う。 ◦ スパース報酬 RL おいパフォーマンス向上効果的あるこを示した。 130 作成者：元田図：適切潜在空間を学習させるこ、尤もらしい報酬が選択きる

論文まめ（91/199） MOTO: Oﬄine Pre-training to Online Fine-tuning for Model-based
Robot Learning • Rafael Rafailov, Kyle Beltran Hatch, Victor Kolev, John D Martin, Mariano Phielipp, Chelsea Finn ◦ オフライン学習からオンライン Fine-tuneを行う際課題（ドメイン違いやダイナミクス）を改善するOn-Policy モデルベース手法。 ◦ オフライン得た価値（評価）を拡張、不確かさを考慮した予測モデル、方策最適化。 131 作成者：元田 https://sites.google.com/view/mo2o/ ←データ再利用最適化よ分布シフト課題を改善。不確実部分を制御するこ、モデル学習を調整。

Poster 3: Mobility

論文まめ（92/199） Parting with Misconceptions about Learning-based Vehicle Motion Planning
• Daniel Dauner, Marcel Hallgarten, Andreas Geiger, Kashyap Chitta ◦ 近年自動車関連データが充実し、学習よる動作計画が可能。 ◦ 本研究そうした最新分析し、以下調査結果。 ▪ 閉ループ型動作計画い学習ベース手法比べルールベース事前知識が有益 ▪ ナイーブ学習ベース動作計画を実装したが、ルート中心線を与えやれ自己位置が推定可能 133 作成者：元田

論文まめ（93/199） Towards Scalable Coverage-Based Testing of Autonomous Vehicles •
James Tu, Simon Suo, Chris Zhang, Kelvin Wong, Raquel Urtasun ◦ 自律走行車（AV）ため（離散化を避けた）確率を安全ためモデル化、閾値をもしたパラメータ空間調整を行た。 ◦ 提案法 GUARD ガウス分布従う確率モデルを行い、 Levelset アルゴリズム（境界を設定した段階的評価）よパラメータ空間効果的学習を行う。 ◦ 134 作成者：元田図：離散化を避けるこ、本手法連続的正しいパラメータ空間を構築するこが可能。

論文まめ（94/199） Adv3D: Generating Safety-Critical 3D Objects through Closed-Loop Simulation
• Jay Sarva, Jingkang Wang, James Tu, Yuwen Xiong, Sivabalan Manivasagam, Raquel Urtasun ◦ 自動走行車安全ため、幅広いシナリオ・厳格テストが必要ある。 ◦ そこ、閉ループシミュレーションおける自律運転性能評価法を提案。 ◦ LiDARベース考えたき、周囲認識おい、形状変化（認識した車形）が与えるパフォーマンス劣化を考える。 ◦ 検証：シーン外観変動が自律運転パフォーマンス与える影響を示した。 135 作成者：元田

論文まめ（95/199） SayTap: Language to Quadrupedal Locomotion • Yujin Tang,
Wenhao Yu, Jie Tan, Heiga Zen, Aleksandra Faust, Tatsuya Harada ◦ LLMを用いた四足歩行ロボット制御。自然言語ローレベル動作指令を関連付ける手法 ◦ 足接触パターンより，運動パターン分布を制御器学習。 ◦ 論文報酬関数や LLM プロンプト設計を紹介しいる． ◦ 検証：30 タスク内、10 追加タスクを解決可能。多様運動パターン対応。 136 作成者：元田 https://saytap.github.io/

論文まめ（96/199） ScalableMap: Scalable Map Learning for Online Long-Range Vectorized
HD Map Construction • Jingyi Yu, Zizhao Zhang, Shengfu Xia, Jizhang Sang ◦ 車載カメラからオンライン長距離ベクトル化された HDマップを構築する学習． ◦ 線形構基き，正確 BEV（俯瞰）特徴を抽出，スケーラビリティを活用し，階層的マップ表現を提案。 ◦ 最新モデル比較し，精度計算処理高い性能を示した。 137 作成者：元田 https://github.com/jingy1yu/ScalableMap

論文まめ（97/199） Stochastic Occupancy Grid Map Prediction in Dynamic Scenes
• Zhanteng Xie, Philip Dames ◦ VAE より、モバイルロボットが複雑動的シーン未来状態を予測 ◦ ロボット動き、動的オブジェクト、静的オブジェクト情報を組み合わせ予測精度を向上 ◦ 異るロボットモデル収集された 3 データセットを使用し、提案手法が他アルゴリズムよりも正確頑健予測性能を達成． 138 作成者：元田 https://github.com/TempleRAIL/SOGMP

論文まめ（98/199） Learning Physically Grounded Robot Vision with Active Sensing
Motor Policies • Gabriel B. Margolis, Xiang Fu, Yandong Ji, Pulkit Agrawal ◦ 色情報を用い地形物理情報を予測．視覚モデルを通じ異るタスク適用可能ロボット効率的移動計画． ◦ 環境物理を正確推定するためモータ動作訓練．色情報から物理的特性を推論． ◦ 検証結果: 地上カメラ画像みを使用し訓練されがら、オーバーヘッド画像から経路計画おい堅牢汎化を実証． 139 作成者：元田 https://gmargo11.github.io/active-sensing-loco/ 図：視覚情報から地形情報を分析（右）

論文まめ（99/199） CAT: Closed-loop Adversarial Training for Safe End-to-End Driving
• Linrui Zhang, Zhenghao Peng, Quanyi Li, Bolei Zhou ◦ 自動運転安全性向上ため環境を拡張する ◦ 環境・自車・対向車を時系列動かすポリシーを最適化し危険場面からいか避けるかを学習する 140 作成者：片岡

論文まめ（100/199） Learning to Drive Anywhere via Regional Channel Attention
• Ruizhao Zhu, Peng Huang, Eshed Ohn-Bar, Venkatesh Saligrama 141 作成者：片岡 ◦ 地理的・環境的要因を考慮し自動運転学習を実施する GeCo いう条件付き模倣学習枠組みを提供する ◦ 左・右通行や交差点・中央分離帯地理的条件をモデル内入れ込むこ，限られた環境みしか動作しい今ま制約を取り払うこがきる

論文まめ（101/199） HomeRobot: Open-Vocabulary Mobile Manipulation • Sriram Yenamandra, Arun
Ramachandran, Karmesh Yadav, Austin S Wang, Mukul Khanna, Theophile Gervet, Tsung-Yen Yang, Vidhi Jain, Alexander Clegg, John M Turner, Zsolt Kira, Manolis Savva, Angel X Chang, Devendra Singh Chaplot, Dhruv Batra, Roozbeh Mottaghi, Yonatan Bisk, Chris Paxton ◦ 家庭内物体を汎用的操作しタスクを完了させるロボット ’HomeRobot’ 提案 ◦ 認識・言語理解・ナビ・操作を同時統合実装 ◦ さら，汎用的家庭内タスクある HomeRobot OVMMベンチマークを導入 142 作成者：片岡

論文まめ（102/199） Synthesizing Navigation Abstractions for Planning with Portable Manipulation
Skills • Eric Rosen, Steven James, Sergio Orozco, Vedant Gupta, Max Merlin, Stefanie Tellex, George Konidaris ◦ 高レベル抽出化一般化． ▪ 新しい環境下移動や操作計画をサポートする ▪ 前提条件下空間そうい空間い ▪ 双方状態変数を用いナビゲーションを用い，計画可能ナビゲーション抽象化を生成 ◦ 提案方わずか数分操作表現が可能るよう生 ◦ AI2Thour シミュレーションデータ実際ハード実験高い性能を示した 143 作成者：元田 https://github.com/ericrosenbrown/aosm_experiments

論文まめ（103/199） Cross-Dataset Sensor Alignment: Making Visual 3D Object Detector
Generalizable • Liangtao Zheng, Yicheng Liu, Yue Wang, Hang Zhao 144 作成者：片岡 ◦ 各交通データセットが単一カメラ・ 3Dセンサより構成されいるこを指摘した上，クロス学習し自動車を操作するこを想定した研究 ◦ カメラベース 3D物体検出能力を評価，別データセットへ検出器適応や複数データセット学習を実施し評価 ◦ 各交通データセットセンサが異るいう問題対し，センサー構成を効率的調整する技術を導入

論文まめ（104/199） Energy-based Potential Games for Joint Motion Forecasting and
Control • Christopher Diehl, Tobias Klosek, Martin Krueger, Nils Murzyn, Timo Osterburg, Torsten Bertram ◦ ゲーム理論を用いマルチエージェント動作予測制御おける相互作用モデリング ◦ パラメータ推論 NNおよび微分可能ゲーム理論最適化層を合わせ帰納的バイアス ◦ 解釈可能性向上，予測性能向上 145 作成者：元田

論文まめ（105/199） Multi-Predictor Fusion: Combining Learning-based and Rule-based Trajectory Predictors
• Sushant Veer, Apoorva Sharma, Marco Pavone ◦ 学習ベース軌道予測モジュールを改善するため、論理ベースルールを組み込んだ手法 →自動運転車動作計画おい，安全性効率性を向上． ◦ 学習および論理基く予測両方を確率的統合．多様振る舞い適応する． ◦ 検証結果：それぞれ予測モジュール単独比べ，本手法統合したこよる効果が評価された． 146 作成者：元田

論文まめ（106/199） STERLING: Self-Supervised Terrain Representation Learning from Unconstrained Robot
Experience • Haresh Karnan, Elvin Yang, Daniel Farkash, Garrett Warnell, Joydeep Biswas, Peter Stone ◦ 自律型オフロードナビゲーションい非対照表現学習よ，ロボット経験みを用い，地形を学習するためマルチモーダル自己教師あり学習． ◦ 実世界オフロード条件対し堅牢あり、 3マイルトレイルを2回手動介入み完了する大規模実験を実施． 147 作成者：元田 https://hareshkarnan.github.io/sterling/

論文まめ（107/199） Generating Transferable Adversarial Simulation Scenarios for Self-Driving via
Neural Rendering • Yasasa Abeysirigoonawardena, Kevin Xie, Chuhan Chen, Salar Hosseini Khorasgani, Ruiqi Wang, Florian Shkurti ◦ 自動運転ため，敵対的シナリオを生成するため最適制御問題を解決． ◦ ニューラルレンダリング表現敵対的物体を挿入（右図）し，テクスチャを最適化するこ，方策対する敵対的センサー入力を生成可能． ◦ シミュレートおよび実環境両方、提案手法が有効あるこを実証。 148 作成者：元田 https://www.yasasa.me/advscenarios/

論文まめ（108/199） Curiosity-Driven Learning for Joint Locomotion and Manipulation Tasks
• Clemens Schwarke, Victor Klemm, Matthijs van der Boon, Marko Bjelonic, Marco Hutter ◦ タスク特化し報酬を設計する作業を軽減するため動機基く報酬 RL ◦ 望ましいタスクいスパース報酬を用い Curiosity stateへエンコードされる． ◦ 実世界実験、プッシュドア開閉およびパッケージ操作失敗く、安定し成功。 149 作成者：元田 https://www.youtube.com/watch?v=Qob2k_ldLuw&feature=youtu.be

論文まめ（109/199） Dynamic Multi-Team Racing: Competitive Driving on 1/10-th Scale
Vehicles via Learning in Simulation • Peter Werner, Tim Seyde, Paul Drews, Thomas Matrai Balch, Igor Gilitschenski, Wilko Schwarting, Guy Rosman, Sertac Karaman, Daniela Rus ◦ 自動車レースよう複数エージェントがいるシーン強化学習関する提案 ◦ 競争的制御ため、長期的か戦略的意思決定が必要 →階層型モデル（ローレベル自ら制御、ハイレベル周囲エージェントを考慮した制御） ◦ レース競技し検証：最高度やラップタイムを指標性能を評価 ◦ `` 150 作成者：元田 https://sites.google.com/view/dynmutr/home Low-level (ステアリング) High-level

論文まめ（110/199） Tuning Legged Locomotion Controllers via Safe Bayesian Optimization
• Daniel Widmer, Dongho Kang, Bhavya Sukhija, Jonas Hübotter, Andreas Krause, Stelian Coros ◦ データドリブン制御ゲインを安全領域チューニングする ◦ Gait 呼れる歩行関するコンテキストを入力し， MPCから出力実際ロボット状態差分を小さくするようベイズ最適化を行ゲインを出す． ◦ Local safe探索これま軌道全ポリシーを学習しおき，パラメータ空間を確保する． Global探索安全圏あた場合パラメータ空間追加し， Local safe探索戻る． 151 作成者：牧原

論文まめ（111/199） CAJun: Continuous Adaptive Jumping using a Learned Centroidal
Controller • Yuxiang Yang, Guanya Shi, Xiangyun Meng, Wenhao Yu, Tingnan Zhang, Jie Tan, Byron Boots ◦ 一定距離連続ジャンプを階層型学習フレームワーク実現する ◦ 歩行タイミング，度，スイングする足位置を High-level 計画をおこうCentroidal policyを学習し，これ追従するようモータコマンドを最適化する Low-level 分割し学習する． ◦ E2E フレームワークよりも実環境適用性が高い 152 作成者：牧原

論文まめ（112/199） Transforming a Quadruped into a Guide Robot for
the Visually Impaired: Formalizing Wayﬁnding, Interaction Modeling, and Safety Mechanism • J. Taery Kim, Wenhao Yu, Yash Kothari, Bruce Walker, Jie Tan, Greg Turk, Sehoon Ha ◦ 四足歩行ロボットよるユーザ道案内を行う．ロボット人間ナビゲーション機構を形式化基いたインタラクションモデリングより，ユーザー安全性を向上させる ◦ Delayed Harness Model よ，人間追従遅れを含んだモデルよ，一時的オフセットを徐々補間し修正するこ安全性を高める ◦ 時間を考慮した衝突領域関する Shelding Zoneを計算し，危険行動を取らいようする 153 作成者：牧原

論文まめ（113/199） Seeing-Eye Quadruped Navigation with Force Responsive Locomotion Control
• David DeFazio, Eisuke Hirota, Shiqi Zhang ◦ 人間引張り反応しそれ適応し，ユーザ意図沿た歩行制御を実現する ◦ 引張られた時力方向推定をシミュレーションデータ学習し，これ適応する歩行ポリシーも同時学習する． ◦ 力ピークを検出し，左か右か方向意図応じナビゲーションゴール変更し経路を計画し直す．任意リードハードウェア対応可能． 154 作成者：牧原

論文まめ（114/199） Scalable Deep Kernel Gaussian Process for Vehicle Dynamics
in Autonomous Racing • Jingyun Ning, Madhur Behl ◦ SKIP-GPをかたカーネル関数学習高走行車両ダイナミクスを予測する． ◦ SKIP-GP:誘導点間カーネル関数を構築するこ計算複雑さを解消する構化カーネル補間カーネルご乗算する積カーネルよカーネル関数を近似するこよ，ロバスト性を表現力を維持する ◦ SKIP-GPやN4SID 対し実環境シミュレーション予測精度が高い 155 作成者：牧原

論文まめ（115/199） Tell Me Where to Go: A Composable Framework
for Context-Aware Embodied Robot Navigation • Harel Biggie, Ajay Narasimha Mopidevi, Dusty Woods, Chris Heckman ◦ 人間が見知ら環境おいもコンテキストから推論するこヒントを得， LLM よりコンテキストを導入しロボットナビゲーションを実施する研究 ◦ 3D環境・RGB画像・ナビゲーションコマンドからナビゲーション中間状態し Pythonコードを生成，以降経路推定を行い環境内を移動する動線を推定 156 作成者：片岡

論文まめ（116/199） Online Learning for Obstacle Avoidance • David Snyder,
Meghan Booker, Nathaniel Simon, Wenhan Xia, Daniel Suo, Elad Hazan, Anirudha Majumdar ◦ ４足歩行ロボットがいか密配置された障害物をオンライン学習し避け目的地ま到達するか ◦ 提案オンライン学習よる操作４足歩行ロボットが通りやすい経路を探索，推薦しいる 157 作成者：片岡

論文まめ（117/199） Context-Aware Deep Reinforcement Learning for Autonomous Robotic Navigation
in Unknown Area • Jingsong Liang, Zhichen Wang, Yuhong Cao, Jimmy Chiun, Mengqi Zhang, Guillaume Adrien Sartoretti ◦ Mapless Navigation いう問題設定を解決： 3D空間が適宜更新される中ロボットナビゲーションを実施 ◦ 3D空間中文脈応じた効率的強化学習手法を提案，最短ルート案内を行うポリシーネットワークを使用し学習 158 作成者：片岡

Poster 4: LLM/VLM/HRI

論文まめ（118/199） Navigation with Large Language Models: Semantic Guesswork as
a Heuristic for Planning • Dhruv Shah, Michael Robert Equi, Błażej Osiński, Fei Xia, brian ichter, Sergey Levine ◦ LLMを活用したロボットナビゲーション提案 ◦ キッチン隣リビングルームがある， LLM より文脈を提供しナビゲーションを実施 160 作成者：片岡

論文まめ（119/199） NOIR: Neural Signal Operated Intelligent Robots for Everyday
Activities • Ruohan Zhang, Sharon Lee, Minjune Hwang, Ayano Hiranaka, Chen Wang, Wensi Ai, Jin Jie Ryan Tan, Shreya Gupta, Yilun Hao, Gabrael Levine, Ruohan Gao, Anthony Norcia, Li Fei-Fei, Jiajun Wu ◦ Neural Signal Operated Intelligent Robots（NOIR）提案 ◦ 人間脳波を入力，ロボットを操作し日常行動を実行する研究 161 作成者：片岡

論文まめ（120/199） REFLECT: Summarizing Robot Experiences for Failure Explanation and
Correction • Zeyi Liu, Arpit Bahety, Shuran Song ◦ ロボットタスクよる失敗を自動検知・解析する枠組みを提供（下図） ◦ マルチモーダル認識を LLM 入力し，失敗要因を解析する 162 作成者：片岡

Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition •
Huy Ha, Pete Florence, Shuran Song ◦ LLMサポートより，ロボット操作ため言語付きデータセットを生成 ◦ 同データを視覚運動ポリシー（ Visuo-motor Policy）学習使用する ◦ 上記より，ロボットタスクを実行するスキルを効率的獲得するこが可能論文まめ（121/199） 163 作成者：片岡

論文まめ（122/199） Human-in-the-Loop Task and Motion Planning for Imitation Learning
• Ajay Mandlekar, Caelan Reed Garrett, Danfei Xu, Dieter Fox ◦ 模倣学習 TAMP 利点を組み合わせ、人遠隔操作がデモ部分的修正を想定 ◦ 適宜人操作が入るこ、デモ効率が向上。 TAMP よる方策学習利用 ◦ 通常テレオペレーション比べ、３倍効率 ◦ 非専門オペレータあも十分学習きるこが示された 164 作成者：元田 https://hitltamp.github.io/

論文まめ（123/199） RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control • Anthony Brohan et al. ◦ E2E ロボット学習おい， Internetスケールデータ学習した視覚言語知識を利用し汎化性や意味的推論を可能する ◦ 事前学習されたVQAモデル(PaLM-E, PaLI-X)をロボットデータ（ RT-1） Fine-tuningまた Co-ﬁnetuningするこ大規模知識をロボット操作転移させる ◦ 新しいタスクやオブジェクト，言語指示い RT-1 かたデータ対応するこがき，言語裏隠れいる意味的推論も可能しいる 165 作成者：牧原

論文まめ（124/199） SLAP: Spatial-Language Attention Policies • Priyam Parashar, Chris
Paxton, Vidhi Jain, Xiaohan Zhang, Jay Vakil, Sam Powers, Yonatan Bisk ◦ Separate long horizon task into multiple actions, predict interaction point in 3D and action taken (policy) at that interaction point 166 作成者：Erich Action: Gripper activation, position oﬀset, orientation

論文まめ（125/199） Language Conditioned Traﬃc Generation • Shuhan Tan, Boris
Ivanovic, Xinshuo Weng, Marco Pavone, Philipp Kraehenbuehl ◦ 動的シーンを生成するため教師データし言語を介し制御。 ◦ LLM Trasformer型 Decoderを組み合わせ地図データから適切地点を選択し、交通様子（車両ダイナミクス）を生成する。 ◦ 検証：従来法比べ、現実類似したシーンが構成されいる。 167 作成者：元田 https://ariostgx.github.io/lctgen/

論文まめ（126/199） A Data-Eﬃcient Visual-Audio Representation with Intuitive Fine-tuning for
Voice-Controlled Robots • Peixin Chang, Shuijing Liu, Tianchen Ji, Neeloy Chakraborty, Kaiwen Hong, Katherine Rose Driggs-Campbell ◦ 画像音声指示を関連付けたモデルを構築。新しい環境導入する場合音声入力よる微調整だけ済むこが注目点。 ◦ Contrastive Learningを基した視覚音学習を行う。 ◦ 検証：シミュレーションや実世界実験、少数ラベルも人音声指示対応し、継続的自己改善可能。 168 作成者：元田 https://sites.google.com/site/changpeixin/home/R esearch/a-data-efficient-visual-audio-representati on-with-intuitive-fine-tuning

論文まめ（127/199） PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation
• Shizhe Chen, Ricardo Garcia Pinel, Cordelia Schmid, Ivan Laptev ◦ 自然言語指示基く操作タスクを理解・実行するため、複数カメラ情報統合よ正確 3D位置関係性を推論 ◦ 点群ためエンコーダーよ Transformerを学習。言語指示合わせアクション予測 169 作成者：元田 https://www.di.ens.fr/willow/research/polarnet/ 補足：2D 入力対する性能よりも高い結果が示されいる。

論文まめ（128/199） Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in
Clutter • Georgios Tziafas, Yucheng Xu, Arushi Goel, Mohammadreza Kasaei, Zhibin Li, Hamidreza Kasaei ◦ 乱雑シーンからユーザ指示された物体をピッキングする ◦ 言語シーン画像から CLIP-base 特徴量表現を介し直接把持を生成する ◦ Referring graspが難しい新たベンチマーク（ OCID-VLG）を作成し，CLIP 把持を分割した手法よりもSegmentation Grounding 把持成功率が大幅向上した 170 作成者：牧原

論文まめ（129/199） Open-World Object Manipulation using Pre-Trained Vision-Language Models •
Austin Stone, Ted Xiao, Yao Lu, Keerthana Gopalakrishnan, Kuang-Huei Lee, Quan Vuong, Paul Wohlhart, Sean Kirmani, Brianna Zitkovich, Fei Xia, Chelsea Finn, Karol Hausman ◦ Manipulation of Open-World Obects (MOO) and combination with mobile robot using CLIP-on-Wheels: CoW-MOO 171 作成者：Erich

論文まめ（130/199） Predicting Routine Object Usage for Proactive Robot Assistance
• Maithili Patel, Aswin Prakash, Sonia Chernova ◦ ユーザが過去物体使用したき予測を条件付けるこ，ユーザ行動予測を改善 ◦ ユーザ意図物体使用方法関し対話的予測を改善する ◦ 予測モデルおい矛盾した動作がい発生し，ロボット行動不確実性が高くりそう状態を予測し，こ場合対しユーザ指示を求めるようする ◦ 特長期予測おい対話形式を入れるこ大幅改善する 172 作成者：牧原

論文まめ（131/199） HOI4ABOT: Human-Object Interaction Anticipation for Human Intention Reading
Assistive roBOTs • Esteve Valls Mascaro, Daniel Sliwowski, Dongheui Lee ◦ パッチ化したバウンディングボックスから重みけし、人・物体埋め込み特徴量を推定 ◦ 埋め込み特徴２ Transformer attention 統合し、インタラクション行動認識利用 ◦ 従来手法より高い認識率 15.4倍度人ロボット協調行動検出を実現 173 作成者：中條

論文まめ（132/199） FindThis: Language-Driven Object Disambiguation in Indoor Environments •
Arjun Majumdar, Fei Xia, brian ichter, Dhruv Batra, Leonidas Guibas ◦ 新しいタスクし ’FindThis’ を提案，実世界物体検索を想定し，ロボット言語・画像インタラクションをする ◦ 言語指示曖昧性を，画像や追加言語指示より行いく 174 作成者：片岡

論文まめ（133/199） Quantifying Assistive Robustness Via the Natural-Adversarial Frontier •
Jerry Zhi-Yang He, Daniel S. Brown, Zackory Erickson, Anca Dragan ◦ 人動き自然さを考慮したアシストロボットロバスト性計測方法を提案。 ◦ 自然↔敵対的、評価基準し、ロボット報酬関数を最小化しがら、人間らしい行動トレードオフを考えるため用いる。 ◦ 手動的実施する難しい場合も定量敵モーションが評価きる。 175 作成者：元田

論文まめ（134/199） Learning Human Contribution Preferences in Collaborative Human-Robot Tasks
• Michelle D Zhao, Reid Simmons, Henny Admoni ◦ 人ロボット連携を行うため、 Contribution constraint（貢献制約）を学習する方法。 ◦ 強化学習枠組みか人間関係する報酬項がある。 ◦ 個別制約や選好を有する場合を想定。チーム全体利益を最大化しがら、最適化。 ◦ 右図よう UI シーン選好や制約を設定誌がら検証。 176 作成者：元田 https://www.youtube.com/watch?v=JM4cMHZSu2 0&feature=youtu.be

論文まめ（135/199） Multi-Resolution Sensing for Real-Time Control with Vision-Language Models
• Saumya Saxena, Mohit Sharma, Oliver Kroemer ◦ 空間的・時間的異るスケール情報を扱うアーキテクチャ提案 ◦ VLM 高い汎化性能を有するが，推論が遅い（ reactiveタスク不適），task-specific fine-tuningをほこす汎化性能が落ちるいう問題がある ◦ アプローチ：VLM freezeし，low-frequency 大域的情報を入れる．小規模モデルを task-specific データ学習し組み合わせる（局所的視覚情報体勢感覚・力覚さら 2段階） 177 作成者：花井

論文まめ（136/199） Gesture-Informed Robot Assistance via Foundation Models • Li-Heng
Lin, Yuchen Cui, Yilun Hao, Fei Xia, Dorsa Sadigh ◦ ジェスチャーを理解し人間ロボットが協調するため枠組みを提案 ◦ LLMを活用しジェスチャーから言語的理解を促すこがきる 178 作成者：片岡

論文まめ（137/199） PlayFusion: Skill Acquisition via Diﬀusion from Language-Annotated Play
• Lili Chen, Shikhar Bahl, Deepak Pathak ◦ 構化されいい demonstration あるPlayデータ（後付け言語ラベルあり）から，目的志向スキルを学習 ◦ Diﬀusionモデル離散化を促すボトルネック（ VQ-VAE code book ようも）を導入するこ有用スキルを獲得させる ◦ 複数スキル合成が必要複雑タスク SOTA性能達成，latent離散化有効性も確認 179 作成者：花井

論文まめ（138/199） Semantic Mechanical Search with Large Vision and Language
Models • Satvik Sharma, Kaushik Shivakumar, Huang Huang, Lawrence Yunliang Chen, Ryan Hoque, brian ichter, Ken Goldberg ◦ シーン対象物体意味的分布を検出 ◦ 限られたシーン（e.g. 棚中）オープンスペース（ e.g. 部屋）双方意味的関連性を見出すこが可能。未知対象識別しタスク転用するこが可能 ◦ 180 作成者：元田 https://sites.google.com/view/semantic-mechanical-search/home

論文まめ（139/199） Grounding Complex Natural Language Commands for Temporal Tasks
in Unseen Environments • Jason Xinyu Liu, Ziyi Yang, Ifrah Idrees, Sam Liang, Benjamin Schornstein,　 Stefanie Tellex, Ankit Shah ◦ 長期タスク線形時間論理基いたナビゲーションを実現する ◦ LLMを利用し新た追加データを必要せず，場所認識モジュール事前知識を利用しそ場所空間位置を認識するモジュール．これらから行動系列を計画するモジュールそれぞれモデルを使用する． ◦ 2 屋内環境 52 意味的多様ナビゲーションコマンドを実行可能 181 作成者：牧原

論文まめ（140/199） OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on
3D Data • Shiyang Lu, Haonan Chang, Eric Pu Jing, Abdeslam Boularias, Kostas Bekris ◦ 3D データ学習をするこく 3D map Instance 表現を埋め込む ◦ 言語結び付けられた 2D 領域候補多視点情報をか 3D空間上マッピングする ◦ Memory bank 2D 情報時系列を3D 変換し保存し，使える情報みを残す． 3D mapへアクセスこれをかう． ◦ フィルタリングやマージがうまく機能しいるため Opensceneより優れいる 182 作成者：牧原

論文まめ（141/199） Large Language Models as General Pattern Machines •
Suvir Mirchandani, Fei Xia, Pete Florence, brian ichter, Danny Driess, Montserrat Gonzalez Arenas, Kanishka Rao, Dorsa Sadigh, Andy Zeng 183 作成者：片岡 ◦ LLMがロボティクスおける抽象的パターンを認識しロボティクスタスクを解けるかうかい議論しいる ◦ 右図示しいるようシーケンス変換・単純関数完成・メタパターン向上い実施しいる

論文まめ（142/199） Language-Conditioned Path Planning • Amber Xie, Youngwoon Lee,
Pieter Abbeel, Stephen James ◦ ロボット衝突を検知するため画像、言語プロンプトから学習するアプローチ ◦ 言語視覚組み合わせから Collision scoreを算出、連続する動作おい衝突を検知 ◦ 検証、シミュレーションおよび実世界対話的経路計画を示した「Can collide」指示対応する、幅広いシーン適応性を示唆 184 作成者：元田 https://amberxie88.github.io/lapp/

論文まめ（143/199） Goal Representations for Instruction Following: A Semi-Supervised Language
Interface to Control • Vivek Myers, Andre He, Kuan Fang, Homer Walke, Philippe Hansen-Estruch, Ching-An Cheng, Mihai Jalobeanu, Andrey Kolobov, Anca Dragan, Sergey Levine ◦ 少量言語データを使用し画像目標条件付けされたポリシーを学習する ◦ 初期状態目標状態を入力するこそ変化を見るよう，言語も潜在表現埋め込みポリシーを学習する枠組みする ◦ 対照学習言語動作関係性を大規模事前学習した後，ラベルし新規データ共ポリシーを学習する 185 作成者：牧原

論文まめ（144/199） Context-Aware Entity Grounding with Open-Vocabulary 3D Scene Graphs
• Haonan Chang, Kowndinya Boyalakuntla, Shiyang Lu, Siwei Cai, Eric Pu Jing, Shreesh Keskar, Shijie Geng, Adeeb Abbas, Lifeng Zhou, Kostas Bekris, Abdeslam Boularias ◦ 物体インスタンスだけく，物体間関係シーングラフを3D空間上自由形式使用可能する ◦ 言語入力から物体エージェント，ある領域（場所），位置関係，従属関係を全要素分割した上，別々エンコーディングを行い．グラフを構築する． ◦ もも全体シーングラフを構築しおき，そ一部マッチングしいるかうかを探索する．こき，元々データい知識ま考慮する 186 作成者：牧原

Poster 5: Manipulation 2

論文まめ（145/199） ManiCast: Collaborative Manipulation with Cost-Aware Human Forecasting •
Kushal Kedia, Cornell University, Prithwish Dan, Cornell University, Atiksh Bhardwaj, Cornell University, Sanjiban Choudhury ◦ 将来人間動きが与える行動計画コストを予測 ◦ 事前学習大規模データ人間行動自体を予測するようする． Fine-tuning 人間同士行動おいコスト(腕が近けれ大きいも )を考慮した予測を行い，こ予測コストを考慮し MPC 軌道を計画する 188 作成者：牧原

論文まめ（146/199） SCALE: Causal Learning and Discovery of Robot Manipulation
Skills using Simulation • Tabitha Edith Lee, Shivam Vats,l Siddharth Girdhar, Oliver Kroemer ◦ 少いデータから多様動きを生成する ◦ コンテキスト空間からサンプリングされたタスクをシミュレーション環境実行し，データ特徴をベーススキルを分割し Policyを学習する． ◦ ブロック積み上げや Peg-in-hole 関し実環境も動作可能 189 作成者：牧原

論文まめ（147/199） Learning to Design and Use Tools for Robotic
Manipulation • Ziang Liu, Stephen Tian, Michelle Guo, C. Karen Liu, Jiajun Wu ◦ 人間指示し明示的与えられい作業，タスクを完了きる道具を自動設計し行動する． ◦ シミュレーションい試行を通じ訓練された，ツール設計制御ため別々ポリシーを含む2フェーズマルコフ決定プロセスを使用 ◦ 既存方法比較しサンプル効率が高く，未知タスク対しシミュレーションタスク実ロボット実験実証． 190 作成者：牧原

論文まめ（148/199） Geometry Matching for Multi-Embodiment Grasping • Maria Attarian,
Muhammad Adil Asif, Jingzhou Liu, Ruthrash Hari, Animesh Garg ◦ 多様グリッパ形状対応する物体把持を実現する， GNNを用い物体グリッパ両方幾何学的表現を学習する ◦ 物体グリッパ点群からグラフを生成し、 GNN 入力し，接触点尤度を予測 ◦ 複数グリッパ新しい物体対し高い成功率を示し，特 2指 3指グリッパパフォーマンスが5-30%向上した 191 作成者：牧原

論文まめ（149/199） Eﬃcient Sim-to-real Transfer of Contact-Rich Manipulation Skills with
Online Admittance Residual Learning • Xiang Zhang, Changhao Wang, Lingfeng Sun, Zheng Wu, Xinghao Zhu, Masayoshi Tomizuka ◦ シミュレーション学習した Contact-rich 操作スキルを実環境適用可能する ◦ モデルフリー強化学習を用いコンプライアンス制御パラメータを学習する．オンライントルク測定値から再学習する ◦ 組み立，ピボット，ネジ締め 3種類タスクを実現 192 作成者：牧原

論文まめ（150/199） Simultaneous Learning of Contact and Continuous Dynamics •
Bibit Bianchini, Mathew Halm, and Michael Posa ◦ 複数関節を持物体動きを通じ接触連続ダイナミクスを同時学習する ◦ 物理的制約を侵す接触力を推測する損失関数を用い，データセットから物体動きを観察し，運動方程式基くモデルパラメータを学習．連続ダイナミクス不正確さを補うため Residualネットワークを用いいる ◦ 物体投げられた軌道キューブ投げられたデータ検証 ◦ 物理的意味あるパラメータを用いたダイナミクスモデリングが可能 193 作成者：牧原

論文まめ（151/199） Structural Concept Learning via Graph Attention for Multi-Level
Rearrangement Planning • Manav Kulshrestha, Ahmed H. Qureshi ◦ 構的依存関係あるシナリオ Graph Attetionをか複数レベルわたる物体依存関係を学習し，効率的配置計画を行う ◦ 複数視点から得られた RGB-D画像から初期目標シーンを生成し，それらから依存関係グラフを構築する．そ後トポロジカルソートよ物体配置順序を決定 ◦ 未知シーン対しも高い成功率を達成 ◦ 密構よる遮蔽や不完全点群データ場合おいも有効 194 作成者：牧原

論文まめ（152/199） Dexterous Functional Grasping • Ananye Agarwal, Shagun Uppal,
Kenneth Shaw, Deepak Pathak ◦ 物体機能を考慮し把持するため方法 ◦ 人間データ大規模シミュレーション訓練を組み合わせ，異る物体間対応する領域をマッチングするアフォーダンスモデルを使用し，事前把持姿勢を予測 ◦ シミュレーション訓練された Low-level ポリシーをか把持を完了する ◦ 7 複雑タスク実世界シミュレーション両方おい有効性を検証．人間テレオペレーターを上回る． ◦ アクションスペースをを制限するこ、より物理的現実的動作を可能しいる 195 作成者：牧原

論文まめ（153/199） DEFT: Dexterous Fine-Tuning for Hand Policies • Aditya
Kannan, Kenneth Shaw, Shikhar Bahl, Pragna Mannam, Deepak Pathak ◦ 複雑器用タスクをツールや柔らかい物体をロボット実演し効率的学習する ◦ 人間事前学習された動作を基し，ソフトハンド実環境動作するようリアルタイムオンライン最適化を行う． ◦ 9 タスクおい高い成功率をだし，少い試行現実世界学習を行い，人間動画から学んだ事前情報基い効率的性能を向上させるこがきいる 196 作成者：牧原

論文まめ（154/199） Learning Sequential Acquisition Policies for Robot-Assisted Feeding •
Priya Sundaresan, Jiajun Wu, Dorsa Sadigh ◦ 長期的食事補助ため高度計画食品取り扱いをシミュレーション内高レベル行動選択ポリシーを学習する． ◦ 潜在的ダイナミクスをモデル化し，現実世界視覚基いたプリミティブを利用し具体的計画を実行 ◦ ヌードル取得ジェリービーンズ両手操作スクープユーザから高い評価 197 作成者：牧原

論文まめ（155/199） TactileVAD: Geometric Aliasing-Aware Dynamics for High-Resolution Tactile Control
• Miquel Oller, Dmitry Berenson, Nima Fazeli ◦ 触覚センサ基くロボット操作異る接触点が似た触覚シグネチャを生成する場合（エイリアシング問題）を識別し操作性能を向上させる ◦ 線形潜在ダイナミクスデコーダみアーキテクチャ，観測されたデータから潜在空間表現を最適化する ◦ 未知形状 Carpoleを操作するやタスク対し，目標接触状態姿勢るよう操作する 198 作成者：牧原

論文まめ（156/199） Push Past Green: Learning to Look Behind Plant
Foliage by Moving It • Xiaoyu Zhang, Saurabh Gupta ◦ 植物葉下空間を見えるようするため動作を構築する ◦ あるシーン対しアクションが加わた時，れだけ空間が現れるかを予測し動作を生成する． ◦ 見えるようる空間量そ場所がわかるため，一連動きを設計するこがき，手作業構築した動きよりも，未知植物対しも有効あるこがわかた 199 作成者：牧原

論文まめ（157/199） Vision-Based Contact Localization Without Touch or Force Sensing
• Leon Kim, Yunshuang Li, Michael Posa, Dinesh Jayaraman ◦ ロボットが操作する物体環境接触を視覚み予測する研究 ◦ シミュレーション depthを使学習をするが，それだけシミュレーション上手く動くが，実環境上手く動かい（理由も考察） ◦ 3 工夫を追加：把持物体周辺 salient領域切り出し, オクルージョン部分把持物体形状を補うため把持物体全体が見える 1枚depth画像，動きを利用するため RGBから計算したオプティカルフロー ◦ 200 作成者：花井

論文まめ（158/199） Neural Field Dynamics Model for Granular Object Piles
Manipulation • Shangjie Xue, Shuo Cheng, Pujith Kachana, Danfei Xu ◦ 粉流体ダイナミクスを学習ベース効果的予測し，これをベース物体操作を最適化 ◦ 粉流体状態ロボット動作から将来物体状態を予測する．こ時，微分可能レンダリングよロボット動作を空間上マッピングし予測器入力するようする． ◦ ゴール差分をり，状態行動が逆伝播きるため，学習ベース行動軌道を最適化きる．また，障害物があたしも回避しがら粉流体を操作きる． 201 作成者：牧原

論文まめ（159/199） KITE: Keypoint-Conditioned Policies for Semantic Manipulation • Priya
Sundaresan, Suneel Belkhale, Dorsa Sadigh, Jeannette Bohg ◦ 言語指示からセマンティクス（より詳細意味）を引き出し，キーポイント対応いたスキルを実行する ◦ 言語画像から操作点（キーポイント）を抽出し， LLMから出力されたスキルラベル，シーン状態 PointCloudを一緒入力し，スキル対応いたポリシーをデモデータから学習 ◦ VLM み，キーポイントみ， E2E 手法よりも成功率が高い 202 作成者：牧原

論文まめ（160/199） Polybot: Training One Policy Across Robots While Embracing
Variability • Jonathan Heewon Yang, Dorsa Sadigh, Chelsea Finn ◦ 1 方策を複数ロボット利用する方法提案 ◦ observation alignment => 手首けたカメラ利用（身体映り込みよる違いが小さい） ◦ action alignment => 共有逆運動学solver（共通 backbone 各ロボット対応する headを有するaction decoder） ◦ internal state alignment => 対照学習 ◦ 別ロボットデータを用いるこ few-shot >70% 成功率，シーン構が近い場合 zero-shot（他ロボットデータみ）もかり成功率 203 作成者：花井

論文まめ（161/199） PLEX: Making the Most of the Available Data
for Robotic Manipulation Pretraining • Garrett Thomas, Ching-An Cheng, Ricky Loynd, Felipe Vieira Frujeri, Vibhav Vineet, Mihai Jalobeanu, Andrey Kolobov ◦ ロボットマニピュレーションため表現学習方法を提案 ◦ タスク操作しいる動画を入力し学習するこ，より少いデータセットサイズがら，より多くロボットマニピュレーションシーンを学習するこがきる ◦ Meta-World 汎化，Robosuite environment おい最高水準精度を実現した 204 作成者：片岡

論文まめ（162/199） CALAMARI: Contact-Aware and Language conditioned spatial Action MApping
for contact-Rich manipulation • Youngsun Wi, Mark Van der Merwe, Pete Florence, Andy Zeng, Nima Fazeli ◦ household task 意図的接触を制御するタスク（ wiping, sweeping, pushing）が多く存在 ◦ 言語指示から，接触状態そもをアクションするpolicyを学習 205 作成者：花井

論文まめ（163/199） DYNAMO-GRASP: DYNAMics-aware Optimization for GRASP Point Detection in
Suction Grippers • Boling Yang, Sooﬁyan Atar, Markus Grotz, Byron Boots, Joshua Smith ◦ 吸引型マニピュレーションため把持位置推定い物理シミュレーションデータドリブンよるアプローチを試みた ◦ ベンチマークデータセットある DYNAMO-GRASP より良好性能を実現 206 作成者：片岡 ◦ 19種類日用品を採用 ◦ 時系列従シミュレーション ◦ データセットを構築，距離画像やマスク，把持ポイントを生成 ◦ モデルよる学習推論より把持位置推定

論文まめ（164/199） M2T2: Multi-Task Masked Transformer for Object-centric Pick and
Place • Wentao Yuan, Adithyavairavan Murali, Arsalan Mousavian, Dieter Fox 207 作成者：片岡 ◦ 6DoF 検出把持位置推定 4DoF 物体配置学習をマルチタスク学習より同時実行するMulti-Task Masked Transformer （M2T2）を提案 ◦ M2T2 学習ため合成データセットを構築，130k 煩雑シーン，8.8k 異る物体，把持位置や物体配置姿勢を指示 ◦ ゼロショットよるsim2real 把持や配置を実現

論文まめ（165/199） Composable Part-Based Manipulation • Weiyu Liu, Jiayuan Mao,
Joy Hsu, Tucker Hermans, Animesh Garg, Jiajun Wu ◦ ロボットが物体パーツやそれら対応関係を理解する物体認識能力を実装 ◦ 物体間関係性を理解しがらロボットタスクを実行する ◦ 拡散モデル（Diﬀusion Models）より上記物体認識を実装 208 作成者：片岡

論文まめ（166/199） MUTEX: Learning Uniﬁed Policies from Multimodal Task Speciﬁcations
• Rutav Shah, Roberto Mart´ın Mart´ın, Yuke Zhu ◦ 様々モダリティから情報を統合したタスク条件付けから行動を生成する ◦ エンコーディング MAE ようマスキングを復元する学習，対応する動作模倣学習を行う．第二段階し，デモ映像がもも特徴表現情報量が多いため，全モダリティ表現をこれよせるよう Cross-modal matching学習を行う ◦ LIBERO-100をかシミュレーション 100タスク，実世界 50タスクおいモダリティを多用する効果が高いこがわかた 209 作成者：牧原

論文まめ（167/199） Learning Generalizable Manipulation Policies with Object-Centric 3D Representations
• Yifeng Zhu, Zhenyu Jiang, Peter Stone, Yuke Zhu ◦ 卓上マニピュレーション模倣学習おい，方策ネットワークへ入力，物体ごセグメンテーションされたポイントクラウド（ PointNet トークン化）を用いる ◦ 従来模倣学習比べ，背景やカメラアングル変化ロバストる ◦ open-vocabulary 物体セグメンテーションを用いるこ新規物体を扱うこもきる 210 作成者：室岡 https://ut-austin-rpl.github.io/GROOT/

論文まめ（168/199） REBOOT: Reuse Data for Bootstrapping Eﬃcient Real-World Dexterous
Manipulation • Zheyuan Hu, Aaron Rovinsky, Jianlan Luo, Vikash Kumar, Abhishek Gupta, Sergey Levine ◦ RL ILを組み合わせるこ Contact-rich タスクを効果的学習する ◦ RL リプレイバッファ（以前タスクデータ）を利用し新タスク学習初期ポリシーする ◦ 実環境リセットを行うポリシーを別模倣学習獲得し，ロボット自身が試行リセットを行，人介入いらい学習を実現 211 作成者：牧原

論文まめ（169/199） Waypoint-Based Imitation Learning for Robotic Manipulation • Archit
Sharma, Lucy Xiaoyang Shi, Tony Z. Zhao, Chelsea Finn ◦ behavioral cloning よる模倣学習おい，長いエピソードタスク誤差が蓄積する問題を緩和するため，学習データ軌道を経由点ご分割し学習利用する ◦ 元軌道経由点を線形補間した軌道誤差が一定以内収まるよう経由点を自動生成 ◦ 経由点を利用した模倣学習よりマニピュレーションタスク成功率が上昇するこを確認 212 作成者：室岡 https://lucys0.github.io/awe/

論文まめ（170/199） Leveraging 3D Reconstruction for Mechanical Search on Cluttered
Shelves • Seungyeon Kim, Young Hun Kim, Yonghyeon Lee, Frank Chongwoo Park ◦ 物体存在可能性把持可能性を考慮し目標物体をみけるよう押し動作ピックアンドプレースを効果的組み合わせる ◦ 物体部分的観測から超四次表現を用い物体 3次元完全形状を予測するモデルシーン３次元状態を構築 ◦ 物体環境，ターゲット間衝突がい場合存在しいる判定 ◦ 衝突可能性がすべ考慮された軌道を見けるこがきれ把持可能ある判定 ◦ 近似ダイナミクスモデルをベース予測し， MPC 軌道制御を行う 213 作成者：牧原

Poster 6: Perception, representation, adaptation

論文まめ（171/199） 4D-Former: Multimodal 4D Panoptic Segmentation • Ali Athar,
Enxu Li, Sergio Casas, Raquel Urtasun ◦ Pointcloud 時系列変化おける PanopticSegmentationをおこう ◦ LiDAR 時系列情報加え， RGB画像を利用するこ，アピアランス情報から予測を補強する． ◦ LiDAR データを多視点画像射影し，それ RGB画像対応関係を考慮した PointからVoxel 表現変換するエンコーダを利用し， Transformerベースデコーダより Segmentation Trackingをおこう ◦ nuScenesおよびSemanticKITTI 対し最高性能 215 作成者：牧原

論文まめ（172/199） LabelFormer: Object Trajectory Reﬁnement for Oﬀboard Perception from
LiDAR Point Clouds • Anqi Joyce Yang, Sergio Casas, Nikita Dvornik, Sean Segal, Yuwen Xiong, Jordan Sir Kwang Hu, Carter Fang, Raquel Urtasun ◦ 自動ラベリングため、複雑さ少いが効果的軌跡を調整するアプローチを提案 ◦ 各フレームをエンコードし Self-Attention よ時系列的解釈。物体各フレーム姿勢をデコードするこ認識を調整 ◦ 検証：都市高道路関するデータセットへラベル化より元認識性能を向上 216 作成者：元田 https://waabi.ai/labelformer/

論文まめ（173/199） ADU-Depth: Attention-based Distillation with Uncertainty Modeling for Depth
Estimation • ZiZhang Wu, Zhuozheng Li, Zhigang Fan, Yunzhe Wu, Xiaoquan Wang, Rui Tang, Jian Pu ◦ monocular学習い、左右画像ペアから教師データを導入し 3D空間対する認識単眼データセットデータ対する知識蒸留フレームワーク． ◦ ADU-Depth アテンション適応型特徴蒸留し提案 ◦ 検証，実際深度推定データを用い提案手法が効果的あるこを示した． 217 作成者：元田

論文まめ（174/199） DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera
3D Object Detection and Tracking • Qing LIAN, Tai Wang, Dahua Lin, Jiangmiao Pan ◦ マルチカメラ三次元検出い提案法 DORT 動的動きを考え，位置合わせ対応 ◦ BEV 手法こり，物体ご局所部学習を繰り返しを行う． ◦ nuScences ベンチマークおい，それぞれ高い成功率を示す． 218 作成者：元田 https://github.com/OpenRobotLab/DORT

論文まめ（175/199） Ready, Set, Plan! Planning to Goal Sets Using
Generalized Bayesian Inference • Jana Pavlasek, Stanley Robert Lewis, Balakumar Sundaralingam, Fabio Ramos, Tucker Hermans ◦ 動作計画おい，複数ゴールサンプルが与えられいる場合対応きるベイズ推定（Stein variational gradient descent）ベース計画アルゴリズム ◦ 二次元経路計画やマニピュレータ Pick&place動作計画おい，複数ゴールが与えられいるも実行可能ゴールへ動作を高い成功率計画きるこを確認 219 作成者：室岡

論文まめ（176/199） Revisiting Depth-guided Methods for Monocular 3D Object Detection
by Hierarchical Balanced Depth • Yi-Rong Chen, Ching-Yu Tseng, Yi-Syuan Liou, Tsung-Han Wu, Winston H. Hsu ◦ 従来画像対し一律距離を計算する対し，提案手法物体即した距離画像計算を実施するこ，近距離・遠距離応じた距離画像生成を実現（下図参照） 220 作成者：片岡 ◦ 上記方針従い，物体間や距離応じた誤差関数を提案，距離画像が階層的いるHierarchical Depth Map（HDM）を計算する

論文まめ（177/199） Stealthy Terrain-Aware Multi-Agent Active Search • Nikhil Angad
Bakshi, Jeﬀ Schneider ◦ 探索エージェント位置を隠すため手法を提案＝偵察するタスクへ展開 ◦ STARアルゴリズム変化する可視性リスク対応するため並列化された top-sampled-based アルゴリズムいう立ち位置． ◦ 検証，既存エージェント散策方法い優れたパフォーマンス 221 作成者：元田

論文まめ（178/199） STOW: Discrete-Frame Segmentation and Tracking of Unseen Objects
for Warehouse Picking Robots • Yi Li, Muru Zhang, Markus Grotz, Kaichun Mo, Dieter Fox ◦ シーン大き変化が発生するようフレーム系列を入力しも Segmentationを可能する手法 ◦ DETR 似たTransformerベースデコーダから Head部分物体マスクを予測．こ時，物体追跡埋め込みを利用するため，異るフレーム同じ物体トークンを関連付け，信頼度が高く，前追跡軌道類似性高い物体トークンを紐ける学習を追加する ◦ Sim2Real gapが小さくシミュレーションみ学習も他手法より実環境うまくいく 222 作成者：牧原

論文まめ（179/199） SA6D: Self-Adaptive Few-Shot 6D Pose Estimator for Novel
and Occluded Objects • Ning Gao, Vien Anh Ngo, Hanna Ziesche, Gerhard Neumann ◦ 遮蔽がある場合姿勢推定ため、点群を構築 →Self-Adaptation Module よ対象物体分割、部分点群から６次元姿勢を推定。 ◦ セグメンテーションモデル出力を齊藤英し、物体中心が含まれるきを正サンプル、そうい時を負する。 ◦ ピクセル単位特徴を平均化し各物体が表現する。 ◦ 検証遮蔽多いシーン有用性を評価しいる。 223 作成者：元田 https://sites.google.com/view/sa6d

論文まめ（180/199） Marginalized Importance Sampling for Oﬀ-Environment Policy Evaluation •
Pulkit Katdare, Nan Jiang, Katherine Driggs-Campbell ◦ 実県境 RLポリシーを評価するため，シミュレーションデータ実環境オフラインデータを使用する ◦ 密度比率予測を使た評価方法 Marginalized Importance sampling おい重み関数を学習必要があり，これを２分割する．実環境教師から学習シミュレーションおい占有率分けるこ，計算効率をよくする． 224 作成者：牧原

論文まめ（181/199） Improving Behavioural Cloning with Positive Unlabeled Learning •
Qiang Wang, Robert McCarthy, David Cordova Bulens, Kevin McGuinness, Noel E. O’Connor, Francisco Roldan Sanchez, Nico Gürtler, Felix Widmaier, Stephen J. Redmond ◦ オフライン方策学習おい，少数質が良い demonstrationデータ多数質が未知学習データがある場合学習 ◦ semi-supervised学習より，未知データから質が良いデータを ﬁlteringし動作学習利用 ◦ 実機 cube持ち上げやそ他シミュレーションタスクおい，複数オフライン学習や模倣学習 baselineを上回る性能を達成 225 作成者：花井

論文まめ（182/199） Heteroscedastic Gaussian Processes and Random Features: Scalable Motion
Primitives with Guarantees • Edoardo Caldarelli, Antoine Chatalic, Adrià Colomé, Lorenzo Rosasco, Carme Torras ◦ Heteroscedastic Gaussian process (不均一ガウス過程) 複雑性を解決するため、ランダムカーネル関数近似手法ある Random Features (RFs)を用い、LfD 高軌道処理を実現。 ◦ 本手法軌跡を処理する課題ため理論的適切ある手法あり、精度ロスがい。 226 作成者：元田 https://github.com/LCSL/rff-hgp 図：検証を実施したLfD 例

論文まめ（183/199） Fleet Active Learning: A Submodular Maximization Approach •
Oguzhan Akcin, Orhan Unuvar, Onat Ure, Sandeep P. Chinchali ◦ DNN ため分散されたデータ冗長性課題対応． Fleet Active Learning (FAL) いう提案法サブ（劣）モジュラー関数最大化よりデータサンプル効率を実現． ◦ FAL 意味ある情報を優先的サンプルし選択．通信量を抑えがら適切抽出． ◦ Berkeley DeepDrive 実世界知覚関するデータセットおい検証し性能向上 227 作成者：元田図：クラウド更新されたモデル重みを全ロボット共有し、各ロボットそれ応じモデルパラメータを更新．

論文まめ（184/199） BM2CP: Eﬃcient Collaborative Perception with LiDAR-Camera Modalities •
Binyu Zhao, Wei ZHANG, Zhaonian Zou ◦ LiDAR カメラを用いた単一限らいモダリティが重要ある。 ◦ BM2CP よりモダリティを中間部分統合する方法を提案。 ◦ 実世界自動運転おい，通信が困難ある状況（ 50倍低い）最先端手法勝る！ 228 作成者：元田

論文まめ（185/199） A Bayesian approach to breaking things: eﬃciently predicting
and repairing failure modes via sampling • Charles Dawson, Chuchu Fan ◦ 様々ロボットタスクおい，失敗モード予測それ対するアクション修正をサンプリングベースベイズ推定手法効率的行う ◦ シミュレーションモデル評価関数を既知し， MCMC 高リスク失敗例や失敗から復帰するアクション例をサンプリングする．パーティクルフィルタサンプルを更新する ◦ 10台移動ロボットかくれんぼ動作計画や電力送電網設計適用し，従来手法半分イテレーション 1/10 コスト解が得られるこを確認 229 作成者：室岡 https://mit-realm.github.io/breaking-things/

論文まめ（186/199） Topology-Matching Normalizing Flows for Out-of-Distribution Detection in Robot
Learning • Jianxiang Feng, Jongseok Lee, Simon Geisler, Stephan Günnemann, Rudolph Triebel ◦ 正規化フロー（NF）を用いたOut-Of-Distribution検出 ◦ NF base分布を微分同相写像 target分布変換するため， base分布単峰ガウシアンを用いる target 位相違いより， target分布モデル化性能低下や最適化が数値的不安定るいう問題がある ◦ base分布表現力が高く， target分布位相構を学習させるこがきるResampled Base Distribution(RSB) を利用 230 作成者：花井

論文まめ（187/199） Fine-Tuning Generative Models as an Inference Method for
Robotic Tasks • Orr Krupnik, Elisei Shafer, Tom Jurgenson, Aviv Tamar ◦ 生成したサンプルが観測近くるよう， GPUを活用し深層生成モデルを素早く適応させる手法 ◦ 観測データを生成するシミュレータを使い，交差エントロピー法複雑事後分布を近似 ◦ 把持した物体形状推定，逆運動学計算，点群補完多様ロボット利用きる 231 作成者：花井

論文まめ（188/199） Neural Graph Control Barrier Functions Guided Distributed Collision-avoidance
Multi-agent Control • Songyuan Zhang, Kunal Garg, Chuchu Fan ◦ Graph control barrier functions（GCBFs）を導入。これ、CBF理論を基し、グラフ構を利用し拡張可能一般的分散制御。 ◦ グラフニューラルネットワークを使用し、 GCBF 証明分散制御を学習し、状態ベースモデルだけくLiDAR 点群対応。 ◦ エージェント数や移動距離が増加しも主要手法を上回実行可能。 232 作成者：元田 https://mit-realm.github.io/gcbf-website/

論文まめ（189/199） Learning Eﬃcient Abstract Planning Models that Choose What
to Predict • Nishanth Kumar, Willie McClinton, Rohan Chitnis, Tom Silver, Tomás Lozano-Pérez, Leslie Pack Kaelbling ◦ Long-horizon タスク計画問題を，抽象レイヤータスクプランニング詳細レイヤーモーションプランニング２段解解くため，抽象レイヤーシンボリック状態・アクションをデモンストレーションから学習する ◦ 観測データからゴール達成関係ある変化着目するこ抽象レイヤーをシンプルする ◦ BEHAVIOR-100 benchmark 物品移動タスク有効性を確認 233 作成者：室岡 https://nishanthjkumar.com/tamp-operator-learning.github.io/

論文まめ（190/199） PairwiseNet: Pairwise Collision Distance Learning for High-dof Robot
Systems • Jihwan Kim, Frank C. Park ◦ ロボット幾何干渉を回避するため， 3Dモデルから最近点間距離（干渉距離）を学習ベース効率的計算する．従来学習ベース干渉距離計算より精度が高い ◦ 要素形状モデルペア間干渉距離を NN 予測する（形状モデルをサンプリングしたポイントクラウドをDGCNN 特徴抽出し全結合層へ繋いスカラ値を出力する） ◦ 各ペア間い干渉距離を求め，最小値をグローバル干渉距離する 234 作成者：室岡 https://www.youtube.com/watch?v=N5Q8ZXbB6Uc https://github.com/kjh6526/PairwiseNet

論文まめ（191/199） Equivalent Motion Manifold Primitives • Byeongho Lee, Yonghyeon
Lee, Seungyeon Kim, MinJun Son, Frank C. Park ◦ 動作プリミティブ軌道を生成するモデルを学習するこが多い ◦ 軌道く連続的多様体を生成するこ未知物体や新しい制約対する適応性を向上きるが，こよう学習多くデータが必要 ◦ ロボットタスク内在する対称性を考慮するこデータ効率を改善 ▪ latent codingをAutoEncoder 学習するき，encoder 不変性，decoder 同変性を課すここれを実現 ◦ タスクパラメータ関し共通 latent座標系を見けるこ，さらデータ効率を改善 ◦ 実機学習時存在しい obstacleを回避 235 作成者：花井

論文まめ（192/199） Policy Stitching: Learning Transferable Robot Policies • Pingcheng
Jian, Easop Lee, Zachary Bell, Michael M. Zavlanos, Boyuan Chen ◦ 強化学習おい方策をタスク依存部ロボット依存部モジュール化し，タスクロボット組み合わせを切り替え可能する ◦ 状態，方策，Q-関数をタスク依存部ロボット依存部分離 ◦ タスクモジュールロボットモジュール接続部潜在表現を多数方策共通表現るよう学習し alignment 236 作成者：花井

論文まめ（193/199） α-MDF: An Attention-based Multimodal Diﬀerentiable Filter for Robot
State Estimation • Xiao Liu, Yifan Zhou, Shuhei Ikemoto, and Heni Ben Amor ◦ ベイズ推定おけるフィルターを学習ベース構築する．こき， Attention機構を用い異るモダリティ潜在表現を学習するようし，そゲインも学習ベース獲得可能する． ◦ 状態行動潜在表現をこフィルターおすこ，観測コンテキスト依存したゲインを生成し，状態推定きる． ◦ 剛体，ソフトロボットおいも状態推定エラーが大きく削減きた 237 作成者：牧原

論文まめ（194/199） Batch Diﬀerentiable Pose Reﬁnement for In-The-Wild Camera/LiDAR Extrinsic
Calibration • Lanke Frank Tarimo Fu, Maurice Fallon ◦ LiDAR キャリブレーションがため End-to-End アライメント手法を提案． ◦ バッチ処理された変換を用いるこ学習注サンプル効率を向上． ◦ 検証：センサー用いた場合十分精度を達成．ゼロショット転移も可能． 238 作成者：元田図：画像三次元情報から特徴を抽出．ボクセル特徴画像特徴差分から位置最適化を考える．

論文まめ（195/199） Embodied Lifelong Learning for Task and Motion Planning
• Jorge Mendez-Mendez, Leslie Pack Kaelbling, Tomas Lozano-P ´ erez ◦ TAMP 軌道サンプリングする場合共有されるモデル共有されいモデルを学習し，計画中オンライン使用するモデルを決定する ◦ 過去経験を次計画用い効率よくサンプリングするため，生成モデルおい，軌道サンプリング時アクション種類から絞り込むひようがある．こき Diﬀusion modelを使用し，分布ごモデルを用意する． ◦ 過去経験基いいるアクションから， FIne-tuningし忘却するか，共同学習をするか，新モデル旧モデルサンプリングをバランスよく使うか戦略をる． ◦ 2DおよびBEHAVIOR 計画おい，時間経過も大幅改善がみられた 239 作成者：牧原

論文まめ（196/199） Compositional Diffusion-Based Continuous Constraint Solvers • Zhutian Yang,
Jiayuan Mao, Yilun Du, Jiajun Wu, Joshua B. Tenenbaum, Tomás Lozano-Pérez, Leslie Pack Kaelbling ◦ 物体配置，把持姿勢， collision-free 制約をdiffusion modelから sampling し解く ◦ 個々制約対応した diffusion modelを学習，energy 和を考えるこ全制約対応した解を求める ◦ 多様変数よる条件付け，柔軟制約組み合わせが可能 240 作成者：花井

論文まめ（197/199） Generalization of Heterogeneous Multi-Robot Policies via Awareness and
Communication of Capabilities • Pierce Howell, Max Rudolph, Reza Joseph Torbati, Kevin Fu, Harish Ravichandar ◦ 異種マルチエージェント強化学習おい適応的協調が重要ある。 ◦ 分散型異種マルチロボット協調政策を新しい構成、サイズ、ロボットチーム一般化する際能力認識コミュニケーション役割を調査 241 作成者：元田 https://sites.google.com/view/cap-comm

論文まめ（198/199） Task Generalization with Stability Guarantees via Elastic Dynamical
System Motion Policies • Tianyu Li, Nadia Figueroa ◦ 柔軟タスク適応するため、 GMMベース Linear Parameter Varing (LPV) Dynamical System よる定式化を採用（左図）。 NN 手法パラメータを調整削減が目的。タスク不変パラメータ（物体、配置）を表現するため拘束条件を設定。 → 別情報（入力）を用いくも対応可能。 ◦ 実世界ロボット検証。また、制御理論を考慮しも、柔軟適応性が示されいる。 242 作成者：元田 https://sites.google.com/view/elastic-ds

論文まめ（199/199） Online Model Adaptation with Feedforward Compensation • ABULIKEMU
ABUDUWEILI, Changliu Liu ◦ 分布シフトやダイナミクスが非定常システム対処するためモデルオンライン更新 ◦ feedbackアプローチ過去情報を忘れしまう点が問題 ◦ 最新サンプルく，メモリバッファ重要サンプル（最新サンプル近いサンプル）対する予測誤差を最小化するようモデルを更新する提案 ▪ 手法シンプルだが，理論的解析がしかりしいる ◦ ダイナミクスが遅い場合既存手法より誤差上限を小さく抑えるこがきる 243 作成者：花井

今後展望今後，我々しうすれいいか？ 244

今後展望（1/2） CVxRobotics 連携が鍵！ • Best paperをた著者 CV Robotics
スーパースターが連る • 認識から行動ま一貫したシステムが多数 • それぞれ強みを生かした連携が必要 245

今後展望（2/2） CoRL いこう！ • 2017年ごろ USからきた学会だが，プレゼンスかり高い
• ICRA, IROS 匹敵する論文質盛り上がりをみせいる • 基盤モデル組み合わせロボット学習トレンドこれからも続く可能性が高い！ 246

CoRL2023速報

CoRL2023速報

More Decks by robotpaper.challenge

Other Decks in Research

Featured

Transcript