$30 off During Our Annual Pro Sale. View Details »

CoRL2023速報

 CoRL2023速報

11/6-11/9にアトランタで開催されたCoRL2023の速報です.今回は動向や気づきの他に,全論文199本を完全読破したサマリを載せています.

robotpaper.challenge

November 13, 2023
Tweet

More Decks by robotpaper.challenge

Other Decks in Research

Transcript

  1. 著者リスト(五十音順)
    牧原昂志*,片岡裕雄**,堂前幸康*,中條 亨一*,
    花井亮*,室岡雅樹***,元田智大*,Floris Erich*
    CoRL2023 報
    1
    産総研 {オートメーション*, コンピュータビジョン **}研究チーム,
    AIST-CNRSロボット工学連携研究ラボ ***

    View Slide

  2. 概要:CoRL2023 動向,気 き
    ロボティクストップ国際会議CoRL2023 サーベイ報告
    ● 今回 ん 研究が流行 いた?
    ● 海外研究者 何をし いる?
    ● 「動向」や「気付き」をま めました
    +全論文199本を完全読破した論文サマリも公開!
    2

    View Slide

  3. CoRL2023 動向,気 き(1/29)
    査読プロセス 完全公開!
    ● OpenReview 査読 一連 流れが完全 公開
    ○ Official Review
    ■ Review
    ■ Questions for Rebuttal
    ■ Originality
    ■ Technical Quality
    ■ Clarity
    ■ Impact
    ■ …
    3
    作成者:元田
    例: https://openreview.net/forum?id=JkFeyEC6VXV
    Check Points:
    ● 査読者 視点を伺うこ が きる貴重 情報
    ● 透明性が高い 論文 評価 期待( ←査読者 負担 大?)
    ● そ 時代 流行(≒採択されやすい)を知る指標 も る
    近年 OpenAccess主流 トレンド 合致した学会 戦略

    View Slide

  4. CoRL2023 動向,気 き(2/29)
    学会 概要
    ● 正式名称:Conference on Robot Learning (CoRL)
    ○ 「ロボット 機械学習 融合」をテーマ する.
    ○ IFRR(International Foundation of Robotics Research)* シンポジウム
    一 し 2017年から毎年開催.
    ○ す ICRA, IROS, CoRL… よう 並び称される発展著しい国際会議.
    ● 今年度
    ○ 開催地:Atlanta, Georgia USA / 日程: November 6 to 9, 2023
    4
    作成者:元田
    2017 (初開催): Mountain View, CA, USA
    2018 : Zurich, Switzerland
    2019 : Osaka, Japan
    2020 : Virtual
    2021 : London, UK and Virtual
    2022 : Auckland, NZ
    *他 RSS も運営
    IEEE 別 組織 ある
    http://www.ifrr.org/about-ifrr
    https://www.corl2023.org/
    参考: 補足:
    短期間 趨勢 変化を知るべし!

    View Slide

  5. CoRL2023 動向,気 き(3/29)
    関わる企業 着目
    ● BigTechや有力企業がスポンサー
    ○ Google DeepMind
    ○ Amazon robotics
    ○ Nvidia etc.
    ○ ロボット 取り組む米国 企業 ≒ 世界 もトップ企業.
    それらが一流 研究成果を発表し、 論文投稿し いる事実を認識すべき。
    → CoRL 立ち位置が推し量られる。
    ● Hello robot, Unitree サービスロボット系企業も…
    ○ 安価 質 高いハードウェア(サーボ 発展 も着目)が登場し企業 勢いが ...
    ○ 例え 、近年Unitree 多く 国際学会 4足や2足 ロボット デモを展開.
    ○ URやFranka よう 標準的 研究・教育向けロボット 定着を狙 いる … 思われる
    5
    引用:https://www.corl2023.org/
    作成者:元田

    View Slide

  6. CoRL2023 動向,気 き(4/29)
    「CALL FOR PAPERS」を見る
    ● 投稿が推奨される分野:
    6
    作成者:元田
    「ロボティクス
    無関係 研究
    エディターキックする!」
    旨が記載され いる
    → CoRL 採択されるため
    特 ロボット工学へ 貢献 必要
    ある 強く主張し いる
    →全 Learningが含まれる

    View Slide

  7. CoRL2023 動向,気 き(5/29)
    著者向け 情報
    ● 論文 発表
    ○ 1段組8ページ(参考文献リスト カウントし い)
    ○ 補足資料を添付するこ が許可され いる
    ○ 全 採択論文 ポスターセッションを実施し、こ うち選 れた論文が口頭発表 。
    ● 査読規定
    ○ 理論的or結果を伴う重要性 新規性があるか
    ○ ロボット工学 関連性を示され いるか →Desk kick 可能性あり
    ○ Discussion 機会(Rebuttal)があり、論文 修正が可能。
    ● 投稿規定
    ○ 採択論文 OpenReview オープン 公開される
    7
    作成者:元田

    View Slide

  8. CoRL2023 動向,気 き(6/29)
    2023年度採択 い
    ● 採択率 39.9% (199 / 498)
    ○ 口頭発表選出:33件 ※6.63%
    ○ ポスター発表:166件
    ● 投稿者情報
    ○ 25か国から参加
    ○ 873名がリストアップ
    8
    作成者:Erich、元田
    参考:https://www.corl2023.org/explore-papers
    2023 2022 2021
    投稿数 498 504 408
    口頭発表 33 34 26
    ポスター発表 166 163 130
    採択 39.9% 39.5% 38.2%
    参考:
    ←採択、投稿数 横倍

    View Slide

  9. CoRL2023 動向,気 き(7/29)
    Finalists - Best Systems Paper Award
    ● 🎉RoboCook: Long-Horizon Elasto-Plastic Object Manipulation with Diverse Tools
    ○ Haochen Shi, Huazhe Xu, Samuel Clarke, Yunzhu Li, Jiajun Wu
    ● MimicPlay: Long-Horizon Imitation Learning by Watching Human Play
    ○ Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, Anima Anandkumar
    ● Robot Parkour Learning
    ○ Ziwen Zhuang, Zipeng Fu, Jianren Wang, Christopher G Atkeson, Sören Schwertfeger, Chelsea Finn, Hang
    Zhao
    9
    作成者:元田
    https://www.corl2023.org/awards
    WIN!

    View Slide

  10. CoRL2023 動向,気 き(8/29)
    Finalists - Best Student Paper Awards
    ● MimicPlay: Long-Horizon Imitation Learning by Watching Human Play
    ○ Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, Anima Anandkumar
    ● 🎉Robots That Ask For Help: Uncertainty Alignment for Large Language Model
    Planners
    ○ Allen Z. Ren, Anushri Dixit, Alexandra Bodrova, Sumeet Singh, Stephen Tu, Noah Brown, Peng Xu, Leila
    Takayama, Fei Xia, Jake Varley, Zhenjia Xu, Dorsa Sadigh, Andy Zeng, Anirudha Majumdar
    ● Predicting Object Interactions with Behavior Primitives: An Application in Stowing
    Tasks
    ○ Haonan Chen, Yilong Niu, Kaiwen Hong, Shuijing Liu, Yixuan Wang, Yunzhu Li, Katherine Rose
    Driggs-Campbell
    ● Distilled Feature Fields Enable Few-Shot Manipulation
    ○ William Shen, Ge Yang, Alan Yu, Jensen Wong, Leslie Pack Kaelbling, Phillip Isola
    ● Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping
    ○ Satvik Sharma, Adam Rashid, Chung Min Kim, Justin Kerr, Lawrence Yunliang Chen, Angjoo Kanazawa, Ken
    Goldberg
    10
    作成者:元田
    https://www.corl2023.org/awards
    WIN!

    View Slide

  11. Finalists - Best Paper Awards
    ● MimicPlay: Long-Horizon Imitation Learning by Watching Human Play
    ○ Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu, Yuke Zhu, Anima Anandkumar
    ● Robots That Ask For Help: Uncertainty Alignment for Large Language Model Planners
    ○ Allen Z. Ren, Anushri Dixit, Alexandra Bodrova, Sumeet Singh, Stephen Tu, Noah Brown, Peng Xu, Leila
    Takayama, Fei Xia, Jake Varley, Zhenjia Xu, Dorsa Sadigh, Andy Zeng, Anirudha Majumdar
    ● Predicting Object Interactions with Behavior Primitives: An Application in Stowing
    Tasks
    ○ Haonan Chen, Yilong Niu, Kaiwen Hong, Shuijing Liu, Yixuan Wang, Yunzhu Li, Katherine Rose
    Driggs-Campbell
    ● 🎉Distilled Feature Fields Enable Few-Shot Manipulation
    ○ William Shen, Ge Yang, Alan Yu, Jensen Wong, Leslie Pack Kaelbling, Phillip Isola
    ● Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping
    ○ Satvik Sharma, Adam Rashid, Chung Min Kim, Justin Kerr, Lawrence Yunliang Chen, Angjoo Kanazawa, Ken
    Goldberg
    CoRL2023 動向,気 き(9/29)
    11
    作成者:元田
    https://www.corl2023.org/awards
    WIN!

    View Slide

  12. Computer Vision(CV)分野若手研究者 台頭
    ● Awards, Award Finalists CV分野 先端技術を導入し いる例も多い
    ○ 先端技術:3D Vision もちろん,NeRFやCLIP(Vision-Language Pre-training)もす ロボット
    実装され いる
    ○ CV研究者:Jiajun Wu(Stanford Univ.), Phillip Isola(MIT), Angjoo Kanazawa(UC Berkeley)あ
    たり CVPR 常連 名前も売れ いる
    ○ CV/Robotics研究者: Yuke Zhu(UTAustin/NVIDIA) CV・Robotics両方 分野 活躍
    ○ もちろん,そ 他多数 気鋭研究者が Finalist 名前を連 いる
    CoRL2023 動向,気 き(10/29)
    12
    作成者:片岡

    View Slide

  13. Oral以上 論文 大規模チーム よる論文が多い?
    ● 採択率 約40% 一方 ,強い研究チーム い か か高評価 得られ
    い か
    ○ Robotics x Machine Learning いうクロスポイント 時点 研究者 限られるか,連携 より技術
    融合し い 投稿すら き い印象
    ○ Award Finalists Stanford, MIT, UC Berkeley, Google, NVIDIA, UIUC も やRoboticsや
    ML もほぼ常連チームが共著入り
    ○ 大規模連携 より上記 常連チーム 牙城を崩せるか??
    CoRL2023 動向,気 き(11/29)
    13
    作成者:片岡

    View Slide

  14. マルチタスク学習:スキルを分割し 学習
    ● 基礎スキルご 学習し ,一貫したPolicy(方策) 蒸留
    ● 大規模言語モデル(LLM)を使い がら,スキル組み合わせを考える
    ● モデル Fine-tuning(微調整) よ オリジナル 分布を遷移させる
    ● 最初から一貫するよりも,動作 特徴を捉え 学習した方がいい
    CoRL2023 動向,気 き(12/29)
    14
    作成者:元田,牧原

    View Slide

  15. 未知 タスク,状況へ 適応
    ● 大規模 オフラインデータをさら 増やすより,事前学習 後 自前 少量 デー
    タを用い 適応させる
    ○ 一般 研究機関が大規模データを作成するこ 非現実的
    ○ 少量データから対応するスキルや状況を過去 経験 マッチングする
    ○ 人間が目的かゴールを簡単 与える ロボット自身がデータを作る
    ~LLMを用い 作る「敵対的」 データ etc.
    ● 軌道 対処 きる場合 解決 き いる例がある
    ● インタラクションを含む場合 これから?
    CoRL2023 動向,気 き(13/29)
    15
    作成者:元田,牧原

    View Slide

  16. 3D 特徴表現がアツい
    ● 3Dだ 解きやすいマニピュレーション問題(=6DOF把持)が扱えるよう
    ● PointCloudよりもVoxel, NeRF 表現を使う研究が評価される傾向
    ○ NeRF 2Dや言語 特徴量自体を埋め込ん 3D 拡張(Oral 2件)
    ○ 三次元 Neural Descriptionがロボティクス 常識 る日も近い …?
    ● 多視点 画像をそ まま入力し 3D 情報を得る方法も
    ○ 既存 Vision Transformer 適用やデータセット 充実度を考える 最も妥当
    ○ 3Dデータセットが拡充する 、状況が変わる可能性あり
    CoRL2023 動向,気 き(14/29)
    16
    作成者:元田,牧原

    View Slide

  17. 3D ダイナミクス予測
    ● これま も柔軟物 変形予測 も多く提案され きた
    ● ほぼ静的 1物体 場合 GNN 解い いる
    ● 2物体以上も剛体 あれ ある程度 可能.しかし,単純形状・パラメータ化 きる
    限られる
    ● 今後 一般物体,シーンへ う拡張し いくかが鍵?
    CoRL2023 動向,気 き(15/29)
    17
    作成者:元田,牧原

    View Slide

  18. Robotics Transformer (RT)シリーズ 今後 ?
    ● 2022/12 RT-1 始まり,後続 研究もインパクト 大きい
    ○ RT-1:大規模データ収集 Millionパラメータ モデル
    ○ RT-2:VQA事前学習 Billionモデル
    ○ RT-X:異 るロボットデータ スケールアップ
    ○ こ 間 も,データ拡張 (ROSIE)や対話(KNOWNO) も登場
    ○ 今後 方向性 人 強調し いか そ 場 改善し いくか,そ インターフェース (RT-Sketch,
    RT-Trajectory)や学習方法が必要?また 大規模データを収集し続ける?
    CoRL2023 動向,気 き(16/29)
    18
    作成者:牧原

    View Slide

  19. Early Career Keynote
    ● Shuran Song: What I Wish I Had for Robot Learning
    ○ 柔軟物(紐,布,袋) 操作 か り高難度. Primitive 動き 組み合わせ 解くこ が最もシンプ
    ル あるが,限界もある
    ○ Diffusion policy 模倣学習 方法 し 高難度タスク 対し 効果的.そ ため ,正しい
    データが必要
    ○ ロボット学習 ほしいも 3 .データ(スケール可能) データ(再利用可能) データ(ロボット
    使える)!
    CoRL2023 動向,気 き(17/29)
    19
    作成者:牧原

    View Slide

  20. Early Career Keynote
    ● Shuran Song: What I Wish I Had for Robot Learning
    ○ シミュレーション LLM 組み合わせ よ データをスケールアップさせ,必要 応じ 使用
    するデータを選択する( https://www.cs.columbia.edu/~huy/scalingup/)
    ○ 実環境 人間 ロボットハンド み 構成されるインターフェースを使 ,一人称視点 デモン
    ストレーションを取得する( https://arxiv.org/pdf/1912.04344.pdf)
    ○ それぞれ 利点がある ,両方 手段 データを作 いきたい
    CoRL2023 動向,気 き(18/29)
    20
    作成者:牧原

    View Slide

  21. Early Career Keynote
    ● Karol Hausman: Bitter Lessons & Sweet Future in Robot Learning
    ○ 70年 わたるロボティクス研究 最終的 Foundation modelを使 た方法が最も効果的 ある
    いう教訓を得た
    ○ LLM よう デジタルエージェントから CoRL よう ロボットへ う進むこ が きるかを考え
    ,PaLM-SayCan を発表.
    ○ 次 ユーザ エージェント インターフェースを考え いく時代.人 情報をいか オンライン
    ロボット 与え いくか (RT-Trajectory, RT-Sketch)
    CoRL2023 動向,気 き(19/29)
    21
    作成者:牧原

    View Slide

  22. Workshop: Language and Robot Learning
    Language as Grounding
    ● FeiXia: Low-level Embodied Intelligence with Foundation Models
    ○ LLM, VLMを使 ロボット制御を実現する
    ○ 手順生成,軌道 High-level 関し きるよう いるが, Low-level 関し デー
    タが少 いし取得コストも高い いう難しさがある.また LLM 知識不足
    ○ 1 モデル High-level, low-levelを一括考慮(PaLM-E)や言語 視覚 事前知識を利用し 転
    移学習(RT-2) Vision-and-Language Action model
    ○ Chain-of-thought Low-level 行動を拡張 きる
    CoRL2023 動向,気 き(20/29)
    22
    作成者:牧原

    View Slide

  23. Workshop: Language and Robot Learning
    Language as Grounding
    ● FeiXia: Low-level Embodied Intelligence with Foundation Models
    ○ LLM, VLMを使 ロボット制御を実現する
    ○ 手順生成,軌道 High-level 関し きるよう いるが, Low-level 関し デー
    タが少 いし取得コストも高い いう難しさがある.また LLM 知識不足
    ○ 1 モデル High-level, low-levelを一括考慮(PaLM-E)や言語 視覚 事前知識を利用し 転
    移学習(RT-2) Vision-and-Language Action model
    ○ Chain-of-thought Low-level 行動を拡張 きる
    CoRL2023 動向,気 き(21/29)
    23
    作成者:牧原

    View Slide

  24. Workshop: Language and Robot Learning
    Language as Grounding
    ● FeiXia: Low-level Embodied Intelligence with Foundation Models
    ○ LLMを新た インターフェース し 利用
    ○ 報酬モデル し High-level(LLM) Low-level(Mujoco MPC)を繋ぐ役割を持たせる (Learning to
    Rewards)
    ○ 環境 タスク 説明から報酬設計,シミュレーション 結果から報酬設計をフィードバックする
    (Eureka)
    CoRL2023 動向,気 き(22/29)
    24
    作成者:牧原

    View Slide

  25. Workshop: 2nd Pre-Training for Robot Learning
    ● Chelsea Finn: Can Robots Fine-Tune Autonomously?
    ○ 事前学習されたロボット学習モデルを使 ,実環境 ロボット自身が う適応させるか?
    ○ 未知 タスク,状況 それぞれ継続学習 アプローチを使 適応する手法を紹介
    ○ 未知 タスク→Reset-free RL:少量 デモ 対し , VLMや人間 よる評価を使 学習
    ○ 未知 状況→Single-life RL:状況を見 それ あ た振る舞い 行動を選択し がら学習
    CoRL2023 動向,気 き(23/29)
    25
    作成者:牧原

    View Slide

  26. Workshop: 2nd Pre-Training for Robot Learning
    ● Kristen Grauman: Learning About Action from People in Video
    ○ 人間 デモンストレーションからいか 行動 認識やロボット 行動 移し いくか( Ego4Dプロ
    ジェクト 統括)
    ○ 行動 階層構 を言語を組み合わせた対照学習 獲得( HierVL)
    ○ 1人称視点 他 視点 特徴表現をコンテキストから一致させる( Ego-exo allignment)
    ○ 身体を含めた環境認識を加える( EgoEnv)
    ○ 人間 手 動きを模倣し 多指ハンド 把持を実現する
    CoRL2023 動向,気 き(24/29)
    26
    作成者:牧原

    View Slide

  27. Workshop: Towards Generalist Robots: Learning Paradigms
    for Scalable Skill Acquisition
    ● Dieter Fox: Scaling Data Generation for Imitation Learning in Sim: 
    Demonstrations and Assets
    ○ シミュレーションデータを使 た模倣学習 アプローチ
    ○ RT-X 実環境データ 多いも ,スケールアップ 関し Simulationが有効
    ○ Task and Motion Planning(TAMP)から詳細 状態を含め収集する.人間 テレオペも含め シ
    ミュレーション 表現が難しい Contact-rich データも収集可能 する
    CoRL2023 動向,気 き(25/29)
    27
    作成者:牧原

    View Slide

  28. Workshop: Towards Generalist Robots: Learning Paradigms
    for Scalable Skill Acquisition
    ● Dieter Fox: Scaling Data Generation for Imitation Learning in Sim: 
    Demonstrations and Assets
    ○ 自動データ生成:高 ,スケーリング可能,リアリスティック も カスタマイズ性が低いも ,シ
    ミュレーションだけ 完結し い例がある
    ○ 実環境 幾何構 を把握し シーンを生成 (URDFormer)
    ○ AR 実演データからロボット 変換,シーン内 人間 手 ロボットを入れかえる (AR2-D2)
    CoRL2023 動向,気 き(26/29)
    28
    作成者:牧原

    View Slide

  29. Sponsor talk: Google DeepMind
    ● Open X-Embodiment: Robotic Learning Datasets and RT-X Models
    ○ 10/17, 2023 arXiv 公開された論文(https://robotics-transformer-x.github.io/) 解説
    ○ 世界中 研究機関(34)からロボットデータ(現在 60)をあ め スケーリング等 効果を検証.
    RT-1,2をこ 大規模データ 学習 (RT-1-X, RT-2-X)
    ○ 全 データを一貫した形式( RLDS from tensorflow_datasets) 管理
    ○ 移動台車やマニピュレーションを含め様々 シーン,ロボット,物体が存在
    ○ Workshop 至る所 引用,解説がされ いた
    CoRL2023 動向,気 き(27/29)
    29
    作成者:牧原

    View Slide

  30. Sponsor talk: Google DeepMind
    ● Open X-Embodiment: Robotic Learning Datasets and RT-X Models
    ○ バリエーションや量も含め,や りまだまだデータ 足り い い!他 機関からもデータ 提供
    を求め いる.
    ○ google groups 参加する形式 打ち合わせも行 いる(138人くらいメンバーがいるらしい)
    ○ RT-2-X 関し APIを公開し いる模様.多く 人 試し もらいたい こ
    ○ LLM いうGPTシリーズ よう 立ち位置 る可能性がある?
    CoRL2023 動向,気 き(28/29)
    30
    作成者:牧原

    View Slide

  31. 次回 ミュンヘン(ドイツ)!
    CoRL2023 動向,気 き(29/29)
    31
    作成者:牧原

    View Slide

  32. 以下 論文ま め:全論文199本 完全読破
    https://openreview.net/group?id=robot-learning.org/CoRL/2023/Conference
    ● Oral:33本
    ○ Oral 1: Manipulation
    ○ Oral 2: RL
    ○ Oral 3: Mobility (driving / navigation / locomotion)
    ○ Oral 4: LLM
    ○ Oral 5: Manipulation 2
    ○ Oral 6: Pre-training, surrogate model, and representation learning
    ● Poster:166本
    ○ Poster 1: Manipulation 1
    ○ Poster 2: RL/IL
    ○ Poster 3: Mobility
    ○ Poster 4: LLM/VLM/HRI
    ○ Poster 5: Manipulation 2
    ○ Poster 6: Perception, representation, adaptation
    32

    View Slide

  33. Oral 1: Manipulation

    View Slide

  34. 論文ま め(1/199)
    Stabilize to Act: Learning to Coordinate for Bimanual
    Manipulation
    ● Jennifer Grannen, Yilin Wu, Brandon Vu, Dorsa Sadigh
    ○ 安定 ため 物体を保持+もう一方 腕 タスクを実行、双方 役を割り当 る手法
    ○ サンプル効率・双腕操作 一般化するこ 、両手分 高次元 空間 制御を可能 。
    ○ 検証:4 双腕タスク 対し 20回 デモデータ み 76.9% タスク成功率
    34
    https://sites.google.com/view/stabilizetoact
    作成者:元田

    View Slide

  35. 論文ま め(2/199)
    HANDLOOM: Learned Tracing of One-Dimensional Objects
    for Inspection and Manipulation
    ● Vainavi Viswanath, Kaushik Shivakumar, Mallika Parulekar, Jainil Ajmera,
    Justin Kerr, Jeffrey Ichnowski, Richard Cheng, Thomas Kollar, Ken Goldberg
    ○ 紐状(一次元)物体をスプライン曲線 フィッティングし、上下や絡まりを識別。
    ○ ニューラルネットワーク より、結び目を検出する。
    ○ 検証:80% 結び目を追跡可能。双腕ロボット より、 64% 紐をほぐすこ 成功。
    35
    https://sites.google.com/view/cable-tracing
    作成者:元田

    View Slide

  36. 論文ま め(3/199)
    RoboCook: Long-Horizon Elasto-Plastic Object Manipulation
    with Diverse Tools
    ● Haochen Shi, Huazhe Xu1, Samuel Clarke, Yunzhu Li, Jiajun Wu
    ○ いろん 道具を使 フィードバックを行い がら調理を行う
    ○ PointCloudから物体 形状を抽出し,目標状態 形状ま 操作を行う Policyを選択し,GNNを
    元 実行する
    ○ 計画時間や完成度 関し 大きく向上し いる
    36
    作成者:牧原
    🎉Best Systems Paper Award

    View Slide

  37. 論文ま め(4/199)
    On the Utility of Koopman Operator Theory in Learning
    Dexterous Manipulation Skills
    ● Yunhai Han, Madie Xie, Ye Zhao, Harish Ravichandar
    ○ クープマン作用素を用い 複雑 非線形ダイナミクスを表現し,模倣学習 用いる
    ○ デモンストレーションから物体 ロボット 状態を利用し ,それぞれ 関係を考慮し 線形 ダ
    イナミクス 近似するよう ダイナミクスモデルを学習する.
    ○ 予測されたダイナミクス おうじ 目標 制御を出力する
    ○ 計算時間が短く,サンプル効率が高い
    37
    作成者:牧原

    View Slide

  38. 論文ま め(5/199)
    Diff-LfD: Contact-aware Model-based Learning from Visual
    Demonstration for Robotic Manipulation via Differentiable
    Physics-based Simulation and Rendering
    ● Xinghao Zhu, Jinghan Ke, Zhixuan Xu, Zhixin Sun, Bizhe Bai, Jun Lv, Qingtao
    Liu, Yuwei Zeng, Qi Ye, Cewu Lu, Masayoshi Tomizuka, Lin Shao
    ○ 人間 デモからIn-hand manipulationを模倣する
    ○ デモからDifferentiable renderingをベース した姿勢推定 物体 軌道を取得
    ○ ロボット 軌道を再現する き ,力を加え 物体を動かすか,指を配置し直すかを選択し がら目
    標状態へ操作する
    38
    作成者:牧原

    View Slide

  39. 論文ま め(6/199)
    Predicting Object Interactions with Behavior Primitives: An
    Application in Stowing Tasks
    ● Haonan Chen, Yilong Niu, Kaiwen Hong, Shuijing Liu, Yixuan Wang, Yunzhu
    Li, Katherine Rose Driggs-Campbell
    ○ 棚 も を収納するタスク
    ○ 挿入するaction 対し ,並ん いるも 配置が よう 変化するか いう Forward
    DynamicsをGraph Neural Network (GNN) 学習し,目標状態 近い actionを選ぶ
    ■ 物体 一様 サンプルした particles 表現,実世界 物体姿勢 SIFT 推定
    ○ 図 6 シーン 対し 95%以上 成功率.box shapes 学習したが,deformables もある程
    度汎化した
    39
    作成者:花井

    View Slide

  40. Oral 2: RL

    View Slide

  41. 論文ま め(7/199)
    How to Learn and Generalize From Three Minutes of Data:
    Physics-Constrained and Uncertainty-Aware Neural
    Stochastic Differential Equations
    ● Franck Djeumou, Cyrus Neary, ufuk topcu
    ○ 提案法Neural SDEs ダイナミクスを推論するため確率微分方程式 パラメータを NN よ 獲
    得.パラメータ ①物理的 情報や②モデル 不確かさ、 関連。これらが評価対象
    ○ MPC(モデル予測制御) 転用可能。
    ○ 強化学習 中 もデータ効率性が高い。データセットがスパース も長期予測 対応可能。
    41
    作成者:元田
    [Video]

    View Slide

  42. 論文ま め(8/199)
    Finetuning Offline World Models in the Real World
    ● Yunhai Feng, Nicklas Hansen, Nicklas_Hansen, Ziyan Xiong, Chandramouli
    Rajagopalan, Xiaolong Wang
    ○ off-line学習 より世界モデルを取得 →こ モデル 則 た Fine-Tune学習 効果を証明.
    ○ off-line学習 得た情報をon-line学習 転用させるこ ,タスク 分布を適切 調整する.
    off-/on-line 両方 利点を活かし,学習効率 向上を実現した.
    ○ 本手法 より,22%だ た成功率を20回 試行 み 67% 向上させた.
    42
    作成者:元田
    https://www.yunhaifeng.com/FOWM/
    図:Off-line学習 より得た情報を
    Fine-Tune 指標 するこ ,タスク毎 別 分布 ら よう し いる.

    View Slide

  43. 論文ま め(9/199)
    Hijacking Robot Teams Through Adversarial Communication
    ● Zixuan Wu, Sean Ye, Byeolyi Han, Matthew Gombolay
    ○ マルチエージェント強化学習 おい ,敵対的攻撃を与える手法
    ○ バイナリ通信を例 挙げ,学習後 ポリシー 出力 対し ,模倣し 報酬を推測し ビットを
    一部反転させルよう し 攻撃を与える
    ○ 様々 設定 ランダム 方法よりも報酬 低下が大きく,少 い攻撃 おおき 影響をあたえるこ
    が きる
    43
    作成者:牧原

    View Slide

  44. 論文ま め(10/199)
    Expansive Latent Planning for Sparse Reward Offline
    Reinforcement Learning
    ● Robert Gieselmann, Florian T. Pokorny
    ○ 複雑 環境下 おける大域的 経路探索 ため 動的計画アルゴリズム
    ○ 教師 し学習 X サンプリングベース 動作計画、 いうモデルベース RL
    ○ 潜在的 空間内 サンプリング よ 探索木を拡張 → スパース 報酬から最先端 性能。
    44
    作成者:元田
    https://krobg.github.io/
    図:潜在空間 拡張 よ 疎 問題 連続的、長期的 推論を可能 する 図:マニピュレーションタスク おい 検証

    View Slide

  45. 論文ま め(11/199)
    HACMan: Learning Hybrid Actor-Critic Maps for 6D
    Non-Prehensile Manipulation
    ● Wenxuan Zhou, Bowen Jiang, Fan Yang, Chris Paxton, David Held
    ○ 点群を観測データ する 6D非把持 タスクを実現する強化学習
    ○ Actor-Map: 点群毎 モーション、 Critic-Map: 点群毎 Q値を算出→接触点をmapから選ぶ
    ○ Sim検証:未知物体 おい 80~90% 正しく機能
    ○ Real検証:未知物体 50%以上 成功率 指定した6次元 姿勢 移動可能。
    45
    作成者:元田

    View Slide

  46. Oral 3: Mobility
    (driving / navigation / locomotion)

    View Slide

  47. 論文ま め(12/199)
    ViNT: A Foundation Model for Visual Navigation
    ● Dhruv Shah, Ajay Sridhar, Nitish Dashora, Kyle Stachowicz, Kevin Black,
    Noriaki Hirose, Sergey Levine
    ○ Navigation model trained on existing datasets and deployed to novel environments without
    fine-tuning
    ■ Good performance, but existing dataset size is not huge (a few hundred hours)
    ■ Transformer model for planning, diffusion model for generating subgoal states
    47
    作成者:Erich

    View Slide

  48. 論文ま め(13/199)
    Robot Parkour Learning
    ● Ziwen Zhuang, Zipeng Fu, Jianren Wang, Christopher G Atkeson, Sören
    Schwertfeger, Chelsea Finn, Hang Zhao
    ○ 個々 スキルをシミュレーション カリキュラム学習し、蒸留 全体 方策モデルを構築
    ○ 失敗し も物理的 障害が少 いソフトペナルティから、徐々 干渉が増え いくハード ペナル
    ティ るようカリキュラムを設計
    ○ 実環境 も動作可能、さら 失敗時 再挑戦する振る舞いが現れた
    48
    作成者:中條
    https://robot-parkour.github.io/

    View Slide

  49. 論文ま め(14/199)
    DATT: Deep Adaptive Trajectory Tracking for Quadrotor
    Control
    ● Kevin Huang, Rwik Rana, Alexander Spitzer, Guanya Shi, Byron Boots
    ○ 四軸飛行機(≒ドローン) 軌道トラッキング ため 学習ベース 手法
    ○ フィードフォワード/フィードバック適応制御機構を用いた RL(左図)
    ○ 閉ループ よるL1適応制御 よ 外乱 対応 きるため、環境毎 微調整 不要
    ○ 3.2ms未満 推論時間(←従来法 1/4)
    49
    作成者:元田
    https://sites.google.com/view/deep-adaptive-traj-tracking

    View Slide

  50. 論文ま め(15/199)
    Intent-Aware Planning in Heterogeneous Traffic via
    Distributed Multi-Agent Reinforcement Learning
    ● Xiyang Wu, Rohan Chandra, Tianrui Guan, Amrit Bedi, Dinesh Manocha
    ○ 自動走行 交通状況 対し安全か 効率的 交通整理(行動計画)する強化学習 手法。
    ○ 分散型 マルチエージェント RL よ 周囲 エージェント(=運転手) 意図 推測を実施し、こ
    情報 意思決定(動作計画) 用いられる
    ○ 検証:交通状況(穏やか、混雑)別 み も成功率が向上(右図)
    50
    作成者:元田
    https://arxiv.org/abs/2306.06236

    View Slide

  51. 論文ま め(16/199)
    Language-Guided Traffic Simulation via Scene-Level
    Diffusion
    ● Ziyuan Zhong, Davis Rempe, Yuxiao Chen, Boris Ivanovic, Yulong Cao,
    Danfei Xu, Marco Pavone, Baishakhi Ray
    ○ 自動運転 発展 必須 交通シミュ ため シーン単位 条件付き拡散モデル( CTG++)
    ○ 言語 指示 よ シーンを制御するこ が可能 。
    ○ マルチエージェント 対応した時空間相関 Transformer
    51
    作成者:元田

    View Slide

  52. Oral 4: LLM

    View Slide

  53. 論文ま め(17/199)
    Language Embedded Radiance Fields for Zero-Shot
    Task-Oriented Grasping
    ● Satvik Sharma, Adam Rashid, Chung Min Kim, Justin Kerr, Lawrence
    Yunliang Chen, Angjoo Kanazawa, Ken Goldberg
    ○ Grasp objects by specified parts
    ○ NeRF for posed-2D to 3D and CLIP applied to image patches to generate dense embeddings
    (LERF)
    ○ Select strongest keypoint for high level object query, grow the region using DINO, then
    select strongest keypoint for part query
    53
    作成者:Erich

    View Slide

  54. 論文ま め(18/199)
    Language to Rewards for Robotic Skill Synthesis
    ● Wenhao Yu, Nimrod Gileadi, Chuyuan Fu, Sean Kirmani, Kuang-Huei Lee, 
    Montse Gonzalez Arenas, Hao-Tien Lewis Chiang, Tom Erez, Leonard 
    Hasenclever, Jan Humplik, Brian Ichter, Ted Xiao, Peng Xu, Andy Zeng,
    Tingnan Zhang, Nicolas Heess, Dorsa Sadigh, Jie Tan, Yuval Tassa, Fei Xia
    ○ 低レベル ロボット制御を LLM 行うため 報酬パラメータを最適化する
    ○ Mujoco MPCを組み合わせ 対話的 制御するこ も可能 いる
    ○ 四足歩行やマニピュレーション 多様 動作を実現
    54
    作成者:牧原

    View Slide

  55. 論文ま め(19/199)
    Robots That Ask For Help: Uncertainty Alignment for Large
    Language Model Planners
    ● Allen Z. Ren, Anushri Dixit, Alexandra Bodrova, Sumeet Singh, Stephen Tu,
    Noah Brown, Peng Xu, Leila Takayama, Fei Xia, Jake Varley, Zhenjia Xu,
    Dorsa Sadigh, Andy Zeng, Anirudha Majumdar
    ○ KNOWNO: Conformal Prediction(ラベルを単一 く幅をも 返す予測法 ) 基 き、LLM 予
    測 対する不確実さを定量化する提案法。まさ ”No”を知る、 いうこ 。
    ○ LLM ”幻覚”問題を最小限 人手(質疑) 、より保証 きるよう する考え
    55
    作成者:元田
    https://robot-help.github.io/
    🎉Best Student Paper Award

    View Slide

  56. 論文ま め(20/199)
    Bootstrap Your Own Skills: Learning to Solve New Tasks
    with Large Language Model Guidance
    ● Jesse Zhang, Jiahui Zhang, Karl Pertsch, Ziyi Liu, Xiang Ren, Minsuk Chang,
    Shao-Hua Sun, Joseph J. Lim
    ○ 単純 スキル 構成からそれらを組み合わせ 実行するこ 新しいスキルを獲得する
    ○ LLMをガイド し 行動系列 候補を生成し ,ここ 動き 強化学習 獲得する
    ○ Practice 得られたPolicy スキル系列をあらた スキル し 辞書 追加する
    56
    作成者:牧原

    View Slide

  57. 論文ま め(21/199)
    SayPlan: Grounding Large Language Models using 3D
    Scene Graphs for Scalable Task Planning
    ● Krishan Rana, Jad Abou-Chakra, Sourav Garg, Jesse Haviland, Ian Reid,
    Niko Suenderhauf
    ○ Ground large-scale long-horizon tasks plans from abstract natural language instruction and
    execute on mobile robot with arm
    ○ GPT 4 LLM for SOTA, some experiments with GPT 3.5
    ○ Assumes a known scene graph. SayPlan can explore the graph by collapsing/expanding
    nodes and returns a final path plan within the graph
    ○ Simple idea, complex implementation, works reasonably well
    ■ 73.3% success rate on “complex tasks”: “Abstract semantic search queries which
    require complex reasoning”, e.g. “Find the room where people are playing board
    games.”
    57
    作成者:Erich
    Iterative semantic
    search
    LLM Iterative replanning

    View Slide

  58. 論文ま め(22/199)
    VoxPoser: Composable 3D Value Maps for Robotic
    Manipulation with Language Models
    ● Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li1, Jiajun Wu, Li
    Fei-Fei
    ○ 3D空間上 言語指示 アフォーダンスを元 軌道計画を立 る
    ○ LLM よ Voxel空間上 言語指示 対応する ValueをAffordance map 割り当 ,同時 避
    ける 制約 対し ValueをConstraint map 割り当 る.
    ○ 空間上 位置 関し VLMから情報を受け取り更新するため,動的 環境 計画可能
    ○ Affordance Constraintを考慮し ,タスクコストを最小化するよう 軌道を くる
    58
    作成者:牧原

    View Slide

  59. Oral 5: Manipulation 2

    View Slide

  60. 論文ま め(23/199)
    MimicPlay: Long-Horizon Imitation Learning by Watching
    Human Play
    ● Chen Wang, Linxi Fan, Jiankai Sun, Ruohan Zhang, Li Fei-Fei, Danfei Xu,
    Yuke Zhu, Anima Anandkumar
    ○ 人間 Play dataをも ロボット自身 行動を修正する.
    ○ タスク 完全 マッチし い人間 デモデータから潜在空間上 タスク計画を抽出し,それをベー
    ス し High-level タスクを計画する
    ○ ロボット自身 デモンストレーション Low-level し 共 Policyを学習する.
    ○ Long-horizon 14 タスク おい 高い成功率を出し いる.
    60
    作成者:牧原

    View Slide

  61. 論文ま め(24/199)
    Continual Vision-based Reinforcement Learning with Group
    Symmetries
    ● Shiqi Liu1, Mengdi Xu1, Peide Huang, Xilun Zhang, Yongkang Liu, Kentaro
    Oguchi, Ding Zhao
    ○ 継続学習 おい ,類似性 あるタスクをグループご 学習する.
    ○ 視覚 ロボット 身体情報から,特徴量空間内 1-Wasserstein距離をベース グルーピングし,
    そ グループ内 ある PPOベース Policyを選択し 学習する.
    ○ Plate Slide, Button Press, Drawer Close, Goal Reach 連続したタスク おい 効果的 学習が
    きる
    61
    作成者:牧原

    View Slide

  62. 論文ま め(25/199)
    Rearrangement Planning for General Part Assembly
    ● Yulong Li, Andy Zeng, Shuran Song
    ○ 左図:新タスクRearrangement Planning(再配置計画)を設定:目標形状( Novel Target)が与えら
    れた際 , よう 部品形状( Unseen Parts)を組み合わせるかを推論する
    ○ 右図:同タスクを効果的 解くモデル し General Part Assembly Transformer(GPAT)も提案,
    各部品形状が目標形状 よう 対応するかを推論
    62
    作成者:片岡

    View Slide

  63. 論文ま め(26/199)
    Distilled Feature Fields Enable Few-Shot Language-Guided
    Manipulation https://f3rm.github.io/
    ● William Shen∗, Ge Yang∗, Alan Yu, Jansen Wong, Leslie Pack Kaelbling,
    Phillip Isola
    ○ 2D 3D 橋渡しを行う特徴フィールドを設計, 2D画像特徴 3D幾何を接続する空間
    ○ 実装上 言語入力→CLIP特徴 接続するこ Few-shot学習 より6DoF 把持を実現
    ○ 下図 通りスキャン →3D-to-2D特徴使用→言語操作,例 し 特性 異 る物体も 6割程度成功
    (下表)
    63
    作成者:片岡
    🎉Best Paper Award

    View Slide

  64. 論文ま め(27/199)
    GNFactor: Multi-Task Real Robot Learning with
    Generalizable Neural Feature Fields
    ● Yanjie Ze, Ge Yan, Yueh-Hua Wu, Annabella Macaluso, Yuying Ge, Jianglong
    Ye, Nicklas Hansen, Li Erran Li, Xiaolong Wang
    ○ 3D セマンティック表現を潜在空間上 構築し 行動生成をおこ う
    ○ 少量 デモンストレーションから,多視点 情報を Voxelから特徴抽出を行い, Stable diffusion
    RGB画像 Diffusion feature(言語 関するも )を構成するよう 学習する.
    ○ 言語 Voxel ボリューム特徴表現から Perciever Transformerをもちい Actionを生成する
    ○ Voxel表現 みを直接扱う場合よりもマルチタスク 成功率が高い
    64
    作成者:牧原

    View Slide

  65. 論文ま め(28/199)
    RVT: Robotic View Transformer for 3D Object Manipulation
    ● Ankit Goyal, Jie Xu, Yijie Guo, Valts Blukis, Yu-Wei Chao, Dieter Fox
    ○ 3D物体を複数視点から観測し 特徴獲得する Transformerを提案
    ○ 図 処理工程を示し おり,点群獲得 仮想複数視点から 特徴獲得・把持位置推定
    ○ シミュレーション環境 学習 より,多数タスク 対し 成功し いる 述べられ いる
    65
    作成者:片岡

    View Slide

  66. Oral 6: Pre-training, surrogate model,
    and representation learning

    View Slide

  67. 論文ま め(29/199)
    Measuring Interpretability of Neural Policies of Robots with
    Disentangled Representation
    ● Tsun-Hsuan Wang, Wei Xiao, Tim Seyde, Ramin Hasani, Daniela Rus
    ○ ロボット 動作学習 おける disentangle表現 解釈性 関係を分析
    ○ 学習した方策から決定木を構築,決定木から求める disentanglement度合い 指標を提案
    ○ 3 タスク おい disentangle度合いが高いほ ,人 よる解釈性も高いこ が伺える
    67
    作成者:花井

    View Slide

  68. 論文ま め(30/199)
    Task-Oriented Koopman-Based Control with Contrastive
    Encoder
    ● Xubo Lyu, Hanyang Hu, Seth Siriya, Ye Pu, Mo Chen
    ○ クープマン作用素 クープマン埋め込み,線形制御を同時 学習する.
    ○ クープマン埋め込み 対照学習を使 獲得する.こ 埋め込みを か 線形ダイナミクス パ
    ラメータを予測する.線形ダイナミクス 埋め込みを用い Linear Quadratic Regulator制御を最
    適化する
    ○ タスクコストを優先的 考慮し 最適化するこ モデル 誤差 ロバスト る
    68
    作成者:牧原

    View Slide

  69. 論文ま め(31/199)
    Robot Learning with Sensorimotor Pre-training
    ● Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell,
    Jitendra Malik
    ○ ロボット 身体 多視点 情報を含めた事前学習手法.
    ○ MAEをベース し 時系列 視覚,身体,運動データ 一部をマスクし 復元する自己教師あり
    表現学習をおこ う
    ○ 把持位置検出手法 を用いた動作計画をベース 実環境 データを収集
    ○ Picking,Stacking 関し 事前学習効果が現れ いる
    69
    作成者:牧原

    View Slide

  70. 論文ま め(32/199)
    PreCo: Enhancing Generalization in Co-Design of
    Modular Soft Robots via Brain-Body Pre-Training
    ● Yuxing Wang, Shuang Wu, Tiantian Zhang, Yongzhe Chang, Haobo Fu,
    Qiang Fu, Xueqian Wang
    ○ モジュールロボット 設計 制御 関する事前学習戦略.未知 モジュール構成や環境 対し
    汎化性を上げる
    ○ 身体 デザイン 制御を1 Policyから出力されるよう 構成 し ,共有されたパラメータ 元
    関係を暗黙的 捉え ,効果的 サンプルを る.
    ○ 環境やそれぞれ モジュール 相対位置,そ 形状を状態 し , PPOを使 設計 制御 Policy
    を学習
    70
    作成者:牧原

    View Slide

  71. 論文ま め(33/199)
    Surrogate Assisted Generation of Human-Robot Interaction
    Scenarios
    ● Varun Bhatt, Heramb Nemlekar, Matthew C. Fontaine, Bryon Tjanaka, Hejia
    Zhang, Ya-Chuan Hsu, and Stefanos Nikolaidis
    ○ HRIシステム評価 おい ,人間 ロボット 両方 行動を予測するモデルを か シナリオを自
    動生成する
    ○ 最初 人間 動き 環境を入力し ,人間 ロボット 占有マップ(軌跡 履歴) 予測結果から
    パフォーマンス を推定.こ シナリオを実現可能 も 修正し ,データセット 追加し
    いく.
    71
    作成者:牧原

    View Slide

  72. Poster 1: Manipulation 1

    View Slide

  73. 論文ま め(34/199)
    Dynamic Handover: Throw and Catch with Bimanual Hands
    ● Binghao Huang, Yuanpei Chen, Tianyu Wang, Yuzhe Qin, Yaodong Yang,
    Nikolay Atanasov, Xiaolong Wang
    ○ マルチエージェント強化学習を用い 2台 多指ハンド付きマニピュレータ 物体 受け渡しを行う
    ○ Issac Gym上 Multi-agent PPOを用い Throw,Catchを学習.そ 他 Throwされた軌道を予測
    し,そこからCatchするPointを予測するモデルを用いるこ Sim2Real おける軌道 誤差をうめ
    るこ が きる
    ○ PDコントローラ システム同定を加え 実環境 も動作する
    73
    作成者:牧原

    View Slide

  74. 論文ま め(35/199)
    Towards General Single-Utensil Food Acquisition with
    Human-Informed Actions
    ● Ethan K. Gordon, Amal Nanavati, Ramya Challa, Bernie Hao Zhu, Taylor A.
    Kessler Faulkner, Siddhartha S. Srinivasa
    ○ 人間から抽出した動作 組み合わせ よ 食品をピックアップする手法
    ○ 人間 デモから再現したロボット 物体 動きをトラッキングしたデータをスキル し 蓄積した ち
    ,触覚 視覚 コンテキストを元 報酬が大きく りそう 動作を選択し 実行し,成否を判定し
    がらPolicyを更新する.
    ○ 11種類 動作セット 十分 80%以上成功する
    74
    作成者:牧原

    View Slide

  75. 論文ま め(36/199)
    Learning Reusable Manipulation Strategies
    ● Jiayuan Mao, Joshua B. Tenenbaum, Tomas Lozano-Perez, Leslie Pack
    Kaelbling
    ○ 操作 コツを1度み ,物体 大きさ,位置,種類が変わ も似たよう 動きを実現する
    ○ 人間 デモからロボット 物体,物体 物体 関係を捉えた時系列 情報から,ロボット自身 動
    きをシミュレーション上 探索し がら生成する
    ○ 新しい状況 時 ,物体 関し PointNetベース 分類から動作をする対象を選択し,抽出さ
    れたシーケンスをベース し 動作を探索する
    75
    作成者:牧原

    View Slide

  76. 論文ま め(37/199)
    Affordance-Driven Next-Best-View Planning for Robotic
    Grasping
    ● Xuechao Zhang, Dong Wang, Sun Han, Weichuang Li, Bin Zhao, Zhigang
    Wang, Xiaoming Duan, Chongrong Fang, Xuelong Li, Jianping He
    ○ ら積み 環境 遮蔽 ある物体を把持するため Next Best Veiw 研究。
    ○ 従来 違い Implicit Neural Representation(≃NeRF) より把持可能性を予測した点。
    ○ Renderingする情報 把持評価が含まれ おり、 TSDF形式 把持可能性が算出される(右)
    76
    作成者:元田

    View Slide

  77. 論文ま め(38/199)
    FlowBot++: Learning Generalized Articulated Objects
    Manipulation via Articulation Projection
    ● Harry Zhang, Ben Eisner, David Held
    ○ 引き出し、開き戸を3Dビジョン(点群)ベース 理解しロボット 操作 転用する手法
    ○ 時間ご 点(連続写真 よう )よし 運動を表現するこ を提案。軌道がスムーズ 。
    ○ 汎用 (下流 )操作タスクをサポートし、未知 対象 も対応。
    77
    作成者:元田

    View Slide

  78. 論文ま め(39/199)
    Dexterity from Touch: Self-Supervised Pre-Training of Tactile
    Representations with Robotic Play
    ● Irmak Guzey, Ben Evans, Soumith Chintala, Lerrel Pinto
    ○ タクタイル(接触)センサ情報を多指ハンド 器用さ 情報 利用する手法( T-Dex)
    ○ 情報抽出:2.5時間 デモデータ よる教師あり学習(高次元 情報 特徴抽出)
    ○ 動作学習:(Embedded) 触覚情報 視覚情報からノンパラメトリック 方策学習、
    ○ 検証 視覚or力 基 くモデルよりも触覚情報 優位性を示した
    78
    作成者:元田
    https://tactile-dexterity.github.io/

    View Slide

  79. 論文ま め(40/199)
    XSkill: Cross Embodiment Skill Discovery
    ● Mengda Xu, Zhenjia Xu, Cheng Chi, Manuela Veloso, Shuran Song
    ○ Robot learns to perform a task from a single demonstration video of a human performing the
    task
    79
    作成者:Erich

    View Slide

  80. 論文ま め(41/199)
    That Sounds Right: Auditory Self-Supervision for Dynamic
    Robot Manipulation
    ● Abitha Thankaraj, Lerrel Pinto
    ○ 従来誰も使 い か た「音」を利用し Contact-Rich 動作を生成するアプローチを提案
    ○ 5種類 25K 音源付き動作データを取得。音 類似度が指標 した自己教師あり学習
    ○ 検証:事前学習 重要性 確認 / 視覚 よる学習よりContact-rich 課題 高い性能を確認
    ○ 検証:UR10 動作 際、音響 類似度を評価 したオンライン学習を導入 効果を確認
    80
    作成者:元田
    https://audio-robot-learning.github.io/

    View Slide

  81. 論文ま め(42/199)
    One-Shot Imitation Learning: A Pose Estimation Perspective
    ● Pietro Vitiello, Kamil Dreczkowski, Edward Johns
    ○ 追加データや事前知識が い場合 も、軌道 未知物体 姿勢推定を組み合わせ 定式化可
    能。こ 仮定 検証 、定式化を基 した One- shot 模倣学習を提案。
    ○ 特 デモ動作(EEF 軌道データ)を基 ロボット EEF 姿勢変化 物体 姿勢変化を計測
    → Test おける姿勢情報 、デモ 姿勢情報から変化 差分を表現する。
    ○ 検証 タスク 成功率 影響 ある情報(位置誤差、 calibration誤差 )を調査。
    81
    作成者:元田
    https://www.robot-learning.uk/pose-estimation-perspective

    View Slide

  82. 論文ま め(43/199)
    UniFolding: Towards Sample-efficient, Scalable, and
    Generalizable Robotic Garment Folding
    ● Han Xue, Yutong Li, Wenqiang Xu, Huanyu Li, Dongzhe Zheng, Cewu Lu
    ○ 衣類 折り畳みタスク 関するロボットシステム UniFolodingを提案。
    ○ 点群情報 対し 掴む位置を推定 →End-to-End 動作決定を行う。衣服 状態 pick, Fling
    動作を紐 けるよう 模倣学習可能 モデルを構築
    ○ 学習 Sim(VR) Real(ロボット) 両方 行う。
    ○ 検証:10種類 未知 Tシャツへ 対応
    82
    作成者:元田
    https://unifolding.robotflow.ai/

    View Slide

  83. 論文ま め(44/199)
    MimicGen: A Data Generation System for Scalable Robot
    Learning using Human Demonstrations
    ● Ajay Mandlekar, Soroush Nasiriany, Bowen Wen, Iretiayo Akinola, Yashraj
    Narang, Linxi Fan, Yuke Zhu, Dieter Fox
    ○ If we learn how a robot interacts with an object from the perspective of the object, then we
    can move the object around freely and generate new demonstrations
    ○ E.g. go from 200 human demonstrations to 50K demonstrations to train on
    ○ It seems that after a certain number of human demonstrations, new generated
    demonstrations are just as easy to learn from as from extra human demonstrations!
    83
    作成者:Erich

    View Slide

  84. 論文ま め(45/199)
    Learning Robot Manipulation from Cross-Morphology
    Demonstration
    ● Gautam Salhotra, I-Chun Arthur Liu, Gaurav S. Sukhatme
    ○ LfD (デモ 基 く学習)研究 おい 、教師データ 行動空間が(学習モデル 想定 )異 る場
    合(例:データ 両手向け、実際 片手 学習したい、 ※左図) 対応。
    ○ 学習対象 行動空間内 布 ダイナミクスを既存モデルから推定 →教師データ 比較 よ
    学習すべき行動空間を探索する(※間接的 軌道 最適化法、を利用)
    84
    作成者:元田
    https://uscresl.github.io/mail/

    View Slide

  85. 論文ま め(46/199)
    Shelving, Stacking, Hanging: Relational Pose Diffusion for
    Multi-modal Rearrangement
    ● Anthony Simeonov, Ankit Goyal, Lucas Manuelli, Yen-Chen Lin, Alina
    Sarmiento, Alberto Rodriguez Garcia, Pulkit Agrawal, Dieter Fox
    ○ 本棚 物体を挿入する、 配置を整列する研究。
    ○ 点群情報から 対し拡散モデル よ 正しい位置を評価する。配置が不適 あるこ を判断し、
    目的 沿 た修正(SE(3) 変換)を出力するモデル。
    85
    作成者:元田

    View Slide

  86. 86
    論文ま め(47/199)
    SCONE: A Food Scooping Robot Learning Framework with
    Active Perception
    ● Yen-Ling Tai, Yu Chien Chiu, Yu-Wei Chao, Yi-Ting Chen
    ○ 物理的 複雑 食品 掬い上げ ため、適切 そ 対象 特性を認識する手法。
    ○ 対話型 エンコーダ 状態(=事前学習済み)を認識するモデル(=連続する動き 情報から特性
    を得る) よ 方策学習を補助する効果。
    ○ 未知 食品、異 るレベル タスク 71% 成功率。安定性 おい 他手法 優れる。
    作成者:元田
    https://sites.google.com/view/corlscone/home

    View Slide

  87. 論文ま め(48/199)
    Hierarchical Planning for Rope Manipulation using Knot
    Theory and a Learned Inverse Model
    ● Matan Sudry, Tom Jurgenson, Aviv Tamar, Erez Karpas
    ○ ロープ( 1D物体) 結び目を作るマニピュレーション 研究。
    ○ 階層型 動作計画法 おい 、結び目理論 考え(交差を代数学的 定義)を取り入れ、ロープ
    位相情報を連続状態を定義。
    ○ 初期状態 終端状態が与えられた際、上流 トポロジカル 状態同士 遷移 基 く動作計画を
    実施、下流 物理シミュレーションをベース した推定が行われる。
    87
    作成者:元田

    View Slide

  88. 論文ま め(49/199)
    An Unbiased Look at Datasets for Visuo-Motor Pre-Training
    ● Sudeep Dasari, Mohan Kumar Srirama, Unnat Jain, Abhinav Gupta
    ○ ロボティクス データセット不足する →従来法 「ドメイン転移」も結局内争的 …
    → 本研究 、事前学習 「データ」 着目した分析を実施。
    ○ ImageNet よう ビジョン 標準的 データセットこそ小規模 もロボット学習 重要 あ
    る、 いう知見を得た! ↔軌道データ ロボット的データより 学習 大切!
    ○ 同じアルゴリズム 異 るデータ Fine-Tune→結果:ImageNetが実世界 実験 効果が!
    88
    作成者:元田
    https://data4robotics.github.io/

    View Slide

  89. 論文ま め(50/199)
    HYDRA: Hybrid Robot Actions for Imitation Learning
    ● Suneel Belkhale, Yuchen Cui, Dorsa Sadigh
    ○ 模倣学習 テスト環境 分布 シフト(環境 差異)が課題。抽象化 一 解決策だが、器用
    さを失う他、特定 分布 特化する
    ○ そこ 、抽象的 waypoint アクション空間(ざ くり した点 点 移動) 厳密 軌道を動的 切
    り替えるこ を提案。
    ○ 従来 模倣学習 比較し 30-40%を上回る性能を示し、長期的 作業 も耐えうる。
    89
    作成者:元田
    https://sites.google.com/view/hydra-il-2023

    View Slide

  90. 論文ま め(51/199)
    Act3D: Infinite Resolution Action Detection Transformer for
    Robot Manipulation
    ● Theophile Gervet, Zhou Xian, Nikolaos Gkanatsios, Katerina Fragkiadaki
    ○ タスク 応じ 三次元特徴 解像度(細かさ)を変えるこ 大切 奥行情報を取り扱う。
    ○ センサ 基 く深度情報から 2D画像特徴を三次元 変換し 点群 特徴を算出
    →3Dマップを軽量 算出。
    ○ 2D画像 CLIP ResNet50を用い マッピングし いる( LERF いう手法 近い?)
    ○ 2D 複数視点より性能が上がり、直接 3Dデータを用いる場合より軽量!
    90
    作成者:元田
    https://act3d.github.io/

    View Slide

  91. 論文ま め(52/199)
    Learning Lyapunov-Stable Polynomial Dynamical Systems
    Through Imitation
    ● Amin Abyaneh, Hsiu-Chin Lin
    ○ 模倣学習 おい 、リアプノフ 安定定理を組み合わせるこ 想定外 行動 エラーを防ぎ、安
    定性を保証する。
    ○ 教師データから方策 リアプノフ 意味 安定 候補を取得 →大域的 安定 ため 、最適化計算
    を行う。
    91
    作成者:元田
    https://sites.google.com/view/stable-planning-policy/home

    View Slide

  92. 論文ま め(53/199)
    One-shot Imitation Learning via Interaction Warping
    ● Ondrej Biza, Skye Thompson, Kishore Reddy Pagidi, Abhinav Kumar, Elise
    van der Pol, Robin Walters, Thomas Kipf, Jan-Willem van de Meent, Lawson
    L.S. Wong, Robert Platt
    ○ SE(3) (特殊直交系) ロボット操作 方策を One-shot 得る手法。
    ○ Shape-warping いう方法 よ 各物体から 3Dメッシュを推論し、物体 動き キーポイントを
    得る。
    ○ 物体 形状推論 効果が高いため、模倣学習 効率( One-shot)が実現される。
    92
    作成者:元田
    https://shapewarping.github.io./

    View Slide

  93. 論文ま め(54/199)
    AdaptSim: Task-Driven Simulation Adaptation for
    Sim-to-Real Transfer
    ● Allen Z. Ren, Hongkai Dai, Benjamin Burchfiel, Anirudha Majumdar
    ○ ① Sim2Real ため シミュレーション内 、パフォーマンス 基 くパラメータ分布 よりメタ学習
    を実施。適切 シミュレーション 設定を見出す。
    ○ ② 現実 データを用い 、 Sim 分布をReal 繰り返し 学習 近 ける。
    ○ PushingやScooping 検証し、右グラフ よう Realへ 適応を示す。
    ○ 例:きゅうりを切る、一片を掬う、 いう器用 作業を実現した。
    93
    作成者:元田
    https://irom-lab.github.io/AdaptSim/

    View Slide

  94. 論文ま め(55/199)
    A Universal Semantic-Geometric Representation for Robotic
    Manipulation
    ● Tong Zhang, Yingdong Hu, Hanchen Cui, Hang Zhao, Yang Gao
    ○ RGB 深度カメラ 統合 着目. Semantic-Geometric Representation(SGR)がそ ため 汎用
    的 ロボット知覚モジュールを提案.
    ○ SGR 事前学習済み(CLIP) 意味情報 三次元 空間推論を合わせロボットタスクを格納
    ○ 検証 実世界 タスク おい も他 手法 比べ優位.
    94
    作成者:元田
    https://semantic-geometric-representation.github.io/

    View Slide

  95. 論文ま め(56/199)
    General In-hand Object Rotation with Vision and Touch
    ● Haozhi Qi, Brent Yi, Sudharshan Suresh, Mike Lambeta, Yi Ma, Roberto
    Calandra, Jitendra Malik
    ○ マルチモーダル 入力 より複数 軸を中心 した In-hand 物体 回転 手法。
    ○ ①視覚、②触覚(Tactile image)、③深部感覚(自己受容性)等から内部 特性 関する知識を取
    得、潜在的 空間上 正しい状態を得用 する。こ 状態 PPO 動作計画。
    ○ 右図 よう 視覚 触覚情報を用いるこ 重要性を検証した。
    95
    作成者:元田
    https://haozhi.io/rotateit/

    View Slide

  96. 論文ま め(57/199)
    ChainedDiffuser: Unifying Trajectory Diffusion and Keypose
    Prediction for Robotic Manipulation
    ● Zhou Xian, Nikolaos Gkanatsios, Theophile Gervet, Katerina Fragkiadaki
    ○ 模倣学習 おい , Detection Transformer Diffusion Policyを上手く統合し long-horizon タ
    スクを解く.
    ○ マルチモーダル 情報を統合し 大域的
    状況判断が必要 keypose 生成 Detection
    Transformer 行い,Keyposeを繋ぐ滑らか
    軌道生成 Diffusion modelを使う.
    ○ 観測 RGBやdepthをそ まま使う く
    CLIP featureを使 3D feature cloud
    (2D appearance+3D position) し いる点も
    興味深い.
    96
    作成者:花井

    View Slide

  97. 論文ま め(58/199)
    A Data-efficient Neural ODE Framework for Optimal Control
    of Soft Manipulators
    ● Mohammadreza Kasaei, Keyhan Kouhkiloui Babarahmati, Zhibin Li, Mohsen
    Khadem
    ○ 柔らかいロボット 前進運動 モデリング手法。 25データから運動を訓練する可能
    ○ Augmented Neural ODEを用い 柔軟 連続体をモデリング。モデル予測経路統合、 いう方法
    より非凸性 目的関数 も効果的 対応 きる
    97
    作成者:元田

    View Slide

  98. 論文ま め(59/199)
    Generative Skill Chaining: Long-Horizon Skill Planning with
    Diffusion Models
    ● Utkarsh Aashu Mishra, Shangjie Xue, Yongxin Chen, Danfei Xu
    ○ スキル 着目した拡散モデル.並列し 学習された分布を組み合わせ、長期間計画を生成.
    ○ 各作業 制約(事前 事後 状態 関連性)を確認する分類器 よ 動作を計画.
    ○ スキル間 連続性が適切 モデル化されたこ ,汎用性や実現可能性を向上させた
    98
    作成者:元田
    https://generative-skill-chaining.github.io/

    View Slide

  99. 論文ま め(60/199)
    Sequential Dexterity: Chaining Dexterous Policies for
    Long-Horizon Manipulation
    ● Yuanpei Chen, Chen Wang, Li Fei-Fei, C. Karen Liu
    ○ 複数 器用 サブポリシーを連鎖させ 長期間 操作タスクを実現する
    ○ サブポリシー 連鎖成功率を高め,障害から 回復や不要 段階 バイパスを可能 する.シミュ
    レーション み 学習する.
    ○ 前方初期化プロセス 後方微調整プロセス いう双方向最適化を行う.各サブポリシー間 初期状
    態 実現可能性を評価し,連鎖を最適化する.
    ○ 未知 オブジェクト形状 対し 実環境 おい も動作を可能 した.
    99
    作成者:牧原

    View Slide

  100. Poster 2: RL/IL

    View Slide

  101. 論文ま め(61/199)
    FastRLAP: A System for Learning High-Speed Driving via
    Deep RL and Autonomous Practicing
    ● Kyle Stachowicz, Dhruv Shah, Arjun Bhorkar, Ilya Kostrikov, Sergey Levine
    ○ 実環境 一人称視点 視覚ベース 強化学習 1/10スケール 高 運転を行う
    ○ ほか ロボット 大規模オフラインデータから視覚表現を獲得する.
    ○ オンライン強化学習 衝突や失敗時 リセットする
    ○ Off-policy RL おい 遅い周回データを一度集めるこ 失敗 数を削減し いる
    ○ 20分未満 学習が完了し 動作が可能 る
    101
    作成者:牧原

    View Slide

  102. 論文ま め(62/199)
    Learning Realistic Traffic Agents in Closed-loop
    ● Chris Zhang, James Tu, Lunjun Zhang, Kelvin Wong, Simon Suo, Raquel
    Urtasun
    ○ 交通ルールを厳守し ,人間らしい運転を実現するよう Close-loop 学習する
    ○ 人間 デモから得られたシナリオ( IL) ,ヒューリスティック 作成した長いシナリオ( RL)を交互
    学習する
    ○ こ モデルから作られる合成データも自動運転タスク 学習 おい 有効 あり,より現実 近い
    走行データを生成するこ が き いる
    102
    作成者:牧原

    View Slide

  103. 論文ま め(63/199)
    Imitating Task and Motion Planning with Visuomotor
    Transformers
    ● Murtaza Dalal, Ajay Mandlekar, Caelan Reed Garrett, Ankur Handa, Ruslan
    Salakhutdinov, Dieter Fox
    ○ TAMPを教師 し 用い 収集したデータセット Transformerをアーキテクチャ する毛包学習
    強力 組み合わせ るこ を示した.
    ○ ①TAMP コストを最小化を考慮,②観測 時系列データを扱う Transformer(右図)
    ○ 標準 BC 比べ も長期タスク 効果を確認.
    103
    作成者:元田
    https://mihdalal.github.io/optimus/

    View Slide

  104. 論文ま め(64/199)
    A Bayesian Approach to Robust Inverse Reinforcement
    Learning
    ● Ran Wei, Siliang Zeng, Chenliang Li, Alfredo Garcia, Anthony D McDonald,
    Mingyi Hong
    ○ 未知 報酬関数 環境 ダイナミクスモデル(内部)を同時推定。ベイジアンネットワーク 基 く
    逆強化学習(IRL) アプローチ。
    ○ 左図:環境モデル 重み 出力 精度関連し、大きく る エラーがすく い探索 。
    ○ 右図:ベンチマーク よるアルゴリズム 性能比較。ほぼ提案法( BM-IRL)が優位。
    104
    作成者:元田
    https://github.com/rw422scarlet/bmirl_tf

    View Slide

  105. 論文ま め(65/199)
    Reinforcement Learning Enables Real-Time Planning and
    Control of Agile Maneuvers for Soft Robot Arms
    ● Rianna Jitosho, Tyler Ga Wei Lum, Allison Okamura, Karen Liu
    ○ リアルタイム ソフトロボット 制御 ため 強化学習へ Sim2Real アイディア。
    ○ fPAM(空気圧筋) いうを複数リンク(ヒンジ)を持 アーム し 定式化。
    → ドメイン 乱択化 センサ等 モデリングがタスク 成功率 重要 ある いう知見。
    105
    作成者:元田
    https://sites.google.com/view/rl-soft-robot

    View Slide

  106. 論文ま め(66/199)
    AR2-D2: Training a Robot Without a Robot
    ● Jiafei Duan, Yi Ru Wang, Mohit Shridhar, Dieter Fox, Ranjay Krishna
    ○ 人間 デモデータ 収集システム ある AR2-D2を提案.
    ○ ①特殊 訓練を要さ い,②現実 ロボットを使わ い,③多様 物体をロボット 操作するよう
    デモ 収集
    ○ iOSアプリ(iPhoneやiPad アプリ)を用い ,作業者がロボットを操作する「様子」 ビデオ
    ○ 上記 デモデータが現実 物体操作 も応用出来るこ を示した.
    ○ 本手法 アプリ経由 収集した場合がタスク成功率が上が た
    (よいデータが集ま た!)
    106
    作成者:元田
    https://ar2d2.site/

    View Slide

  107. 論文ま め(67/199)
    Q-Transformer: Scalable Offline Reinforcement Learning via
    Autoregressive Q-Functions
    ● Yevgen Chebotar,..., Sergey Levine et al.
    ○ 大規模 デモデータからマルチタスクへ拡張するため 強化学習手法 紹介。
    ○ 左図:Transformerを用い 各行動を個別 トークン し Q値を推定(MDP 問題 し 扱える形
    式)
    ○ 右図:他 行動計画モデルよりも各タスク 高い性能
    107
    作成者:元田
    https://qtransformer.github.io/

    View Slide

  108. 論文ま め(68/199)
    Contrastive Value Learning: Implicit Models for Simple
    Offline RL
    ● Bogdan Mazoure, Benjamin Eysenbach, Ofir Nachum, Jonathan Tompson
    ○ 多段階 ダイナミクスモデルを提案し 、直接、行動価値を推定( ↔TD学習)
    ○ Contrastive Value Learning (CVL) 、モデルフリー 制御法 あり、対照学習 よ 未来 状
    態を潜在的 空間内 獲得する。
    ○ 図 よう 内部 遷移を含む状態(≒連続的) 表現 あるため、
    高次元 観測が必要 し いこ も優位 点。
    108
    作成者:元田
    左図:従来 未来 状態を保持し 、次 状態を考え いる
    右図:Implicit モデルを用い 各情報 頻度(青い線)を推定しQ値 そ
    重み 平均 表現

    View Slide

  109. 論文ま め(69/199)
    Sample-Efficient Preference-based Reinforcement Learning
    by Encoding Environment Dynamics in the Reward Function
    ● Rin Metcalf, Miguel Sarabia, Natalie Mackraz, Barry-John Theobald
    ○ 「選好」をベース する強化学習:人間 選好(選択) 合わせたロボット 行動獲得。
    ○ 人 フィードバックを適切 行うため、以下を仮定:
    ①「状態、行動、次 状態」 関係をモデル化         →遷移 「選好」 ため
    ②時間的 Consistency objective よ ダイナミクスを認識  →行動を一般し、比較可能

    109
    作成者:元田

    View Slide

  110. 論文ま め(70/199)
    Few-Shot In-Context Imitation Learning via Implicit Graph
    Alignment
    ● Vitalis Vosylius, Edward Johns
    ○ 物体をグラフ表現 し、条件付き アライメント問題 し 模倣学習を定式化。
    ○ デモ よ 3D 動きを入力、局所特徴 よるグラフ表現 変換した上 、動きを学習
    → 物体 形状 詳細 影響を受け くい。未知物体へ 対応が可能。
    ○ ICP 他 アライメント手法 比較(位置誤差) 他をし ぐ結果。
    110
    作成者:元田
    https://www.robot-learning.uk/implicit-graph-alignment

    View Slide

  111. 論文ま め(71/199)
    Precise Robotic Needle-Threading with Tactile Perception
    and Reinforcement Learning
    ● Zhenjun Yu, Wenqiang Xu, Jieji Ren, Tutian Tang, Yutong Li, Siqiong Yao,
    Guoying Gu, Cewu Lu
    ○ 触覚を用いた糸通し(柔軟 線形物体 操作を含む)タスク ため 強化学習手法
    ○ 端(Tail-end) ①検出、および②挿入、 二段階:
    ■ 実環境 、糸を挿入する(突き動かす)作業を繰り返し誤差を補正
    (一発 決まら いが、触覚 よ 失敗したこ が分かる、右図)
    111
    作成者:元田
    https://sites.google.com/view/tac-needlethreading/

    View Slide

  112. 論文ま め(72/199)
    What Went Wrong? Closing the Sim-to-Real Gap via
    Differentiable Causal Discovery
    ● Peide Huang, Xilun Zhang, Ziang Cao, Shiqi Liu, Mengdi Xu, Wenhao Ding,
    Jonathan Francis, Bingqing Chen, Ding Zhao
    ○ 環境パラメータ 実世界 ギャップ 関係性を見出す為 手法。
    ○ シミュレーション環境内 軌道を実機 軌道を違いを微分可能 モデルを学習。
    ○ パラメータを最適化し 更新する(ドメイン適応を明示的 行 いる 言える)
    ○ 右図:収束性や適応が確認される。
    112
    作成者:元田
    https://sites.google.com/view/sim2real-compass

    View Slide

  113. 論文ま め(73/199)
    Equivariant Reinforcement Learning under Partial
    Observability
    ● Hai Huu Nguyen, Andrea Baisero, David Klee, Dian Wang, Robert Platt,
    Christopher Amato
    ○ 特定 ドメイン 関する対称性を考慮するこ 、ロボット学習 サンプル効率よく解く。
    ○ 例え 、物体 位置が回転し いるだけ 基本的 動き 同じ →より最適 解がある ず
    ○ 右図 よう 回転を対称群 し 定義。群をベース した POMDP よりActor-Critic型 強化学習
    を実施→サンプル効率 観点から性能が評価された。
    113
    作成者:元田

    View Slide

  114. 論文ま め(74/199)
    Robust Reinforcement Learning in Continuous Control Tasks
    with Uncertainty Set Regularization
    ● Yuan Zhang, Jianhong Wang, Joschka Boedecker
    ○ 不確か 情報遷移 課題(特 連続空間 制御 い ) ため、新しい正則化項。
    ○ 遷移関数 パラメータ空間 不確実性を校正。未知 情報 い も価値関数 おい 対応
    ○ 著者ら 提案手法を Real-world Reinforcement Learning(RWRL)ベンチマークおよび Unitree A1
    Robot 評価し、特 摂動テスト環境 シミュレーションから実機へ シナリオ 堅牢性が向上。
    (standingおよびLocomotion 検証)
    114
    作成者:元田
    図:一定 幅(不確かさ)をも 表現する いう意図がある

    View Slide

  115. 論文ま め(75/199)
    A Policy Optimization Method Towards Optimal-time
    Stability
    ● Shengjie Wang, Fengbo Lan, Xiang Zheng, Yuxue Cao, Oluwatosin Oseni,
    Haotian Xu, Tao Zhang, Yang Gao
    ○ サンプリング よるリアプノフ安定性を導入した方策安定化手法。
    ○ Actor-Critic型強化学習 リアプノフ最適制御 手法を統合。最適性を考慮した学習をし 、安
    定 方策を獲得し いる。
    ○ 10 ロボットタスク 評価 おい 、提案法 従来法 優位。
    115
    作成者:元田
    https://sites.google.com/view/adaptive-lyapunov-actor-critic

    View Slide

  116. 論文ま め(76/199)
    IIFL: Implicit Interactive Fleet Learning from Heterogeneous
    Human Supervisors
    ● Gaurav Datta, Ryan Hoque, Anrui Gu, Eugen Solowjow, Ken Goldberg
    ○ Edge case (限界) 模倣学習 弱点。リモート 人間がそれを修正する手法 改善案。
    ○ エネルギーベース モデル よ 対象が異 る教師データから デモ 対応。
    ○ 不確実性 定量化 ため Jeffreys Divergence(分布間 差異 定量。 Kullback-Leibler
    divergenceを対称 したも )を導入。学習 効果を主張。
    ○ Sim 従来法 2.8倍 成功率を示す。 Pushing blocks サンプル効率(教師 作業)が 4.5
    倍 たこ が報告され いる。
    116
    作成者:元田
    https://github.com/BerkeleyAutomation/IIFL

    View Slide

  117. 論文ま め(77/199)
    TraCo: Learning Virtual Traffic Coordinator for Cooperation
    with Multi-Agent Reinforcement Learning
    ● Weiwei Liu, Wei Jing, lingping Gao, Ke Guo, Gang Xu, Yong Liu
    ○ チーム全体(マルチエージェント) 求める寄与を表現する手法 ある TraCo
    ○ クロスアテンション 事実 対する報酬を組み合わせ 、エージェント全体 特講を抽出。
    全体(チーム)が各エージェント 求める寄与を正確 定量化
    ○ 交通フロー内 車両間 多様 動き 対応。既存手法 比較 よ 検証。
    117
    作成者:元田
    対象エージェント 周囲
    状況を評価するネット
    ワーク

    View Slide

  118. 論文ま め(78/199)
    DROID: Learning from Offline Heterogeneous 
    Demonstrations via Reward-Policy Distillation
    ● Sravan Jayanthi, Letian Chen, Nadya Balabanska, Van Duong, Erik
    Scarlatescu, Ezra Ameperosa, Zulfiqar Haider Zaidi, Daniel Martin, Taylor
    Del Matto, Masahiro Ono, Matthew Gombolay
    ○ オフライン LfD 研究 おい 、特異 デモデータ 対応するため 、報酬 方策 空間 おい
    知識蒸留する。
    ○ 検証 、Mars Curiosity Rover(NASA) OpenAI Gym Cartpole環境 検証し性能を評価。
    118
    作成者:元田
    図:異 る方針を持 エキスパート データを想
    定し、共有する報酬を獲得。共通する方策を知
    識蒸留する

    View Slide

  119. 論文ま め(79/199)
    Preference learning for guiding the tree search in
    continuous POMDPs
    ● Jiyong Ahn, Sanghyeon Son, Dongryung Lee, Jisu Han, Dongwon Son,
    Beomjoon Kim
    ○ 連続空間 POMDPを用いるため、成否 双方 軌道データを用いた Preference learning(選好
    学習)を行う(↔回帰学習)。
    ○ 左図 よう 木探索から選好ラベルを付与。ノード間 優先順位が成否をベース 設定
    ○ 好ましい軌道 適切 報酬が設定されるため、少 いデータ 場合 も効率がよい。
    ○ 選好学習 、回帰学習 比べ ロバスト 結果を示した。
    119
    作成者:元田
    https://sites.google.com/view/preference-guided-pomcpow?usp=sharing

    View Slide

  120. 論文ま め(80/199)
    Cold Diffusion on the Replay Buffer: Learning to Plan from
    Known Good States
    ● Zidan Wang, Takuma Yoneda, Takeru Oba, Rui Shen, Matthew Walter, Bradly
    C. Stadie
    ○ 生成された計画が実現可能 あるか 着目(左図)。最適化プロセスを Replay bufferを介し、事前
    音連れた状態 誘導する「 COLD DIFFUSION」を提案。
    ○ 固定された始点 目標状態を有する拡散モデルを用い 、模倣し がら、最適化プロセスへ誘導す
    る。※簡単 言え 、 Replay Buffer Diffision Model 組み合わせ。
    ○ 本手法 、障害物を回避するタスク 有意 改善が見られた。
    120
    作成者:元田

    View Slide

  121. 論文ま め(81/199)
    BridgeData V2: A Dataset for Robot Learning at Scale
    ● Homer Walke, Kevin Black, Abraham Lee, Moo Jin Kim, Max Du, Chongyi
    Zheng, Tony Zhao, Philippe Hansen-Estruch, Quan Vuong, Andre He, Vivek
    Myers, Kuan Fang, Chelsea Finn, Sergey Levine
    ○ ロボット操作 大規模データ. 24 環境,60,096 データ
    ○ WidowX 様々 シーン(キッチン か 家庭環境)や物体を扱い,言語指示を含ん おり,オープ
    ンボキャブラリー マルチタスク学習手法 使用可能
    ○ 模倣学習やオフライン強化学習 おい データ量 関するスケーリング 効果を確認
    121
    作成者:牧原

    View Slide

  122. 論文ま め(82/199)
    Self-Improving Robots: End-to-End Autonomous Visuomotor
    Reinforcement Learning
    ● Archit Sharma, Ahmed M Ahmed, Rehaan Ahmad, Chelsea Finn
    ○ 少量 エキスパートデモデータから学習し 、ロボットが Self-improving (自己改善)する。
    ○ 視覚エンコーダ よ End-to-End 方策および報酬関数を学習。タスク固有 事前トレーニング
    を必要 し い。効率性を考えたアンサンブル学習 エキスパート 利用を検証。
    ○ 視覚ベース 手法から 30% 性能向上 、ロボット実験 成功率向上がある。
    122
    作成者:元田
    図:人間が環境をリセットし 繰り返しデータを
    集める が今 強化学習。
    ここ 、ロボット自身がそれを行う、 いうコ
    ンセプトがある。

    View Slide

  123. 論文ま め(83/199)
    Autonomous Robotic Reinforcement Learning with
    Asynchronous Human Feedback
    ● Max Balsells I Pamies, Marcel Torne Villasevil, Zihan Wang, Samedh Desai,
    Pulkit Agrawal, Abhishek Gupta
    ○ 手動 報酬関数 設定やリセット(繰り返し 設計)を行わ いため 手法。
    ○ 遠隔 非エキスパート フィードバックから、 goal-directed-policy learning (目標指向 方策学
    習) 自己教師あり学習を導入(報酬 を学習)
    ○ 検証:シミュレーションや実世界 い 、ロボットタスク システムを評価
    → ウェブ インターフェースを介した遠隔フィードバック 学習 非常 効果的
    123
    作成者:元田
    https://guided-exploration-autonomous-rl.github.io/GEAR/
    図:ロボット 自動的 探索を行うが、非常 簡単 UI
    よ 良し悪しを人 判断し もらう。

    View Slide

  124. 論文ま め(84/199)
    Fighting Uncertainty with Gradients: Offline Reinforcement
    Learning via Diffusion Score Matching
    ● H.J. Terry Suh, Glen Chou, Hongkai Dai, Lujie Yang, Abhishek Gupta, Russ
    Tedrake
    ○ 不確実性 推定が最適化手法 作用するかを検証。
    ○ Smoothed distanceを不確実性 評価 し 考える。以下 有用性が示され いる。
    ■ 不確実性を最小化しよう する勾配ベース 手法。
    ■ リプシッツ定数(リプシッツ連続 ある写像)を用い モデル バイアス 分析
    ○ 提案法 よるSGP アンサンブル学習等が苦手 局所的 最小値 問題を改善しオフライン強化
    学習 おける効果を示した。
    124
    作成者:元田
    https://sites.google.com/view/score-guided-planning/home

    View Slide

  125. 論文ま め(85/199)
    Enabling Efficient, Reliable Real-World Reinforcement
    Learning with Approximate Physics-Based Models
    ● Tyler Westenbroek, Jake Levy, David Fridovich-Keil
    ○ 実世界 データ 限られた情報から学習する方策 最適化手法
    ○ 近似モデルを用いたフレームワーク あり以下を構築した:
    ○ ローレベル 安定化(追従)制御が導入され おり、学習や、平滑化特性を改善するこ が特徴。
    サンプル効率 点からも他手法 優れ いるこ が示された。
    125
    作成者:元田

    View Slide

  126. 論文ま め(86/199)
    Learning to Discern: Imitating Heterogeneous Human
    Demonstrations with Preference and Representation
    Learning
    ● Sachit Kuhar, Shuo Cheng, Shivang Chopra, Matthew Bronars, Danfei Xu
    ○ デモデータ 品質を維持するため、特異データ い 対応。
    ○ 小さいデモバッチから時間系列 軌跡データを潜在的( latent) 表現し品質を評価。
    ○ 複数 異 るデータ(条件が様々)からも効果的 学習 き、
    複数タスク 方策学習 おい 、パフォーマンスが向上した。
    126
    作成者:元田
    図:軌道 データから潜在空間内 マッピングを考え
    る。そ 中 quality critic (品質評価)を行い、軌道 良
    し悪しを決める。

    View Slide

  127. 論文ま め(87/199)
    RoboPianist: Dexterous Piano Playing with Deep
    Reinforcement Learning
    ● Kevin Zakka, Philipp Wu, Laura Smith, Nimrod Gileadi, Taylor Howell, Xue
    Bin Peng, Sumeet Singh, Yuval Tassa, Pete Florence, Andy Zeng, Pieter
    Abbeel
    ○ ピアノを弾く(≒精密動作)指 運動を深層強化学習 よる獲得を目指すため 環境を提供
    ○ シミュレーション環境やデータセット。モデル予測 比べ精度が向上し いる結果(右図)
    127
    作成者:元田
    https://kzakka.com/robopianist/
    図:運指(指 配置)付き 楽譜を用い いる。

    View Slide

  128. 論文ま め(88/199)
    Deception Game: Closing the Safety-Learning Loop in
    Interactive Robot Autonomy
    ● Haimin Hu, Zixu Zhang, Kensuke Nakamura, Andrea Bajcsy, Jaime
    Fernández Fisac
    ○ 自律移動車 ロボット 人が対話するため 課題 焦点 あ 、閉ループ型 意思決定ゲー
    ム(交通シーン 安全か うかを判断するゲーム)を提案
    ○ 物理的 ダイナミクスおよび敵対的強化学習を用い 、安全性を分析し る。
    ○ 本研究 用いた手段 有用性をケーススタディ も 評価。
    128
    作成者:元田
    https://saferoboticslab.github.io/Belief-Game/

    View Slide

  129. 論文ま め(89/199)
    Action-Quantized Offline Reinforcement Learning for
    Robotic Skill Learning
    ● Jianlan Luo, Perry Dong, Jeffrey Wu, Aviral Kumar, Xinyang Geng, Sergey
    Levine
    ○ 条件付きVQ-VAEを訓練し 、状態 条件付けられたアクション 潜在表現を学習。
    ○ VQ-VAE 離散コード(Codebook)をアクション し オフライン RLを実行
    ○ 推論中 、ポリシーを使用し 最適 離散アクションを選択し、訓練されたデコーダ 連続 変換。
    ○ Robomimic環境 複雑 タスク 検証 おい 2-3倍 改善を示した。
    129
    作成者:元田
    https://saqrl.github.io/

    View Slide

  130. 論文ま め(90/199)
    CLUE: Calibrated Latent Guidance for Offline Reinforcement
    Learning
    ● Jinxin Liu, Lipeng Zu, Li He, Donglin Wang
    ○ オフライン強化学習 おける報酬設定 い 、少数エキスパートから実施。
    ○ Calibrated Latent guidance より内部 報酬 エキスパート 整合性 確保。
    ○ 条件付きVAEを用い 潜在空間を学習し 、潜在空間内部 評価を行う。
    ○ スパース 報酬 RL おい パフォーマンス 向上 効果的 あるこ を示した。
    130
    作成者:元田
    図:適切 潜在空間を学習させるこ
    、尤もらしい報酬が選択 きる

    View Slide

  131. 論文ま め(91/199)
    MOTO: Offline Pre-training to Online Fine-tuning for
    Model-based Robot Learning
    ● Rafael Rafailov, Kyle Beltran Hatch, Victor Kolev, John D Martin, Mariano
    Phielipp, Chelsea Finn
    ○ オフライン学習からオンライン Fine-tuneを行う際 課題(ドメイン 違いやダイナミクス )を
    改善するOn-Policy モデルベース手法。
    ○ オフライン 得た価値(評価)を拡張、不確かさを考慮した予測モデル、方策最適化。
    131
    作成者:元田
    https://sites.google.com/view/mo2o/
    ←データ 再利用 最適化 よ
    分布 シフト 課題を改善。不確実
    部分を制御するこ 、モデル
    学習を調整。

    View Slide

  132. Poster 3: Mobility

    View Slide

  133. 論文ま め(92/199)
    Parting with Misconceptions about Learning-based Vehicle
    Motion Planning
    ● Daniel Dauner, Marcel Hallgarten, Andreas Geiger, Kashyap Chitta
    ○ 近年 自動車関連 データが充実し 、学習 よる動作計画が可能 。
    ○ 本研究 そうした最新 分析し、以下 調査結果。
    ■ 閉ループ型動作計画 い 学習ベース 手法 比べ ルールベース 事前知識が有益
    ■ ナイーブ 学習ベース 動作計画を実装したが、ルート 中心線を与え やれ 自己位置
    が推定可能
    133
    作成者:元田

    View Slide

  134. 論文ま め(93/199)
    Towards Scalable Coverage-Based Testing of Autonomous
    Vehicles
    ● James Tu, Simon Suo, Chris Zhang, Kelvin Wong, Raquel Urtasun
    ○ 自律走行車(AV) ため (離散化を避けた)確率を安全 ため モデル化 、閾値をも したパ
    ラメータ空間 調整を行 た。
    ○ 提案法 GUARD ガウス分布 従う確率モデルを行い、 Levelset アルゴリズム(境界を設定し
    た段階的評価) よ パラメータ空間 効果的 学習を行う。

    134
    作成者:元田
    図:離散化を避けるこ 、本手法
    連続的 正しいパラメータ空間を
    構築するこ が可能。

    View Slide

  135. 論文ま め(94/199)
    Adv3D: Generating Safety-Critical 3D Objects through
    Closed-Loop Simulation
    ● Jay Sarva, Jingkang Wang, James Tu, Yuwen Xiong, Sivabalan
    Manivasagam, Raquel Urtasun
    ○ 自動走行車 安全 ため、幅広いシナリオ・厳格 テストが必要ある。
    ○ そこ 、閉ループ シミュレーション おける自律運転 性能 評価法を提案。
    ○ LiDARベース 考えた き、周囲 認識 おい 、形状 変化(認識した車 形)が与えるパフォー
    マンス 劣化を考える。
    ○ 検証:シーン 外観 変動が自律運転 パフォーマンス 与える影響を示した。
    135
    作成者:元田

    View Slide

  136. 論文ま め(95/199)
    SayTap: Language to Quadrupedal Locomotion
    ● Yujin Tang, Wenhao Yu, Jie Tan, Heiga Zen, Aleksandra Faust, Tatsuya
    Harada
    ○ LLMを用いた四足歩行ロボット 制御。自然言語 ローレベル 動作指令を関連付ける手法
    ○ 足 接触パターン より,運動パターン 分布を制御器 学習。
    ○ 論文 報酬関数や LLM プロンプト 設計を紹介し いる.
    ○ 検証:30 タスク 内、10 追加タスクを解決可能。多様 運動パターン 対応。
    136
    作成者:元田
    https://saytap.github.io/

    View Slide

  137. 論文ま め(96/199)
    ScalableMap: Scalable Map Learning for Online Long-Range
    Vectorized HD Map Construction
    ● Jingyi Yu, Zizhao Zhang, Shengfu Xia, Jizhang Sang
    ○ 車載カメラからオンライン 長距離ベクトル化された HDマップを構築する学習.
    ○ 線形構 基 き,正確 BEV(俯瞰)特徴を抽出,スケーラビリティを活用し,階層的 マップ表
    現を提案。
    ○ 最新モデル 比較し ,精度 計算処理 高い性能を示した。
    137
    作成者:元田
    https://github.com/jingy1yu/ScalableMap

    View Slide

  138. 論文ま め(97/199)
    Stochastic Occupancy Grid Map Prediction in Dynamic
    Scenes
    ● Zhanteng Xie, Philip Dames
    ○ VAE より、モバイルロボットが複雑 動的シーン 未来 状態を予測
    ○ ロボット 動き、動的オブジェクト、静的オブジェクト 情報を組み合わせ予測精度を向上
    ○ 異 るロボットモデル 収集された 3 データセットを使用し 、提案手法が他 アルゴリズムよ
    りも正確 頑健 予測性能を達成.
    138
    作成者:元田
    https://github.com/TempleRAIL/SOGMP

    View Slide

  139. 論文ま め(98/199)
    Learning Physically Grounded Robot Vision with Active
    Sensing Motor Policies
    ● Gabriel B. Margolis, Xiang Fu, Yandong Ji, Pulkit Agrawal
    ○ 色情報を用い 地形 物理情報を予測.視覚モデルを通じ 異 るタスク 適用可能 ロボット
    効率的 移動計画.
    ○ 環境 物理を正確 推定するため モータ 動作訓練.色情報から物理的 特性を推論.
    ○ 検証結果: 地上 カメラ画像 みを使用し 訓練され がら、オーバーヘッド画像から 経路計画
    おい 堅牢 汎化を実証.
    139
    作成者:元田
    https://gmargo11.github.io/active-sensing-loco/
    図:視覚情報から地形 情報を分析(右)

    View Slide

  140. 論文ま め(99/199)
    CAT: Closed-loop Adversarial Training for Safe End-to-End
    Driving
    ● Linrui Zhang, Zhenghao Peng, Quanyi Li, Bolei Zhou
    ○ 自動運転 安全性向上 ため 環境を拡張する
    ○ 環境・自車・対向車を時系列 動かすポリシーを最適化し 危険 場面からいか 避けるかを学習
    する
    140
    作成者:片岡

    View Slide

  141. 論文ま め(100/199)
    Learning to Drive Anywhere via Regional Channel Attention
    ● Ruizhao Zhu, Peng Huang, Eshed Ohn-Bar, Venkatesh Saligrama
    141
    作成者:片岡
    ○ 地理的・環境的 要因を考慮し
    自動運転 学習を実施する
    GeCo いう条件付き模倣学習
    枠組みを提供する
    ○ 左・右通行や交差点・中央分離
    帯 地理的 条件をモデル
    内 入れ込むこ ,限られた
    環境 み しか動作し い
    今ま 制約を取り払うこ が
    きる

    View Slide

  142. 論文ま め(101/199)
    HomeRobot: Open-Vocabulary Mobile Manipulation
    ● Sriram Yenamandra, Arun Ramachandran, Karmesh Yadav, Austin S Wang,
    Mukul Khanna, Theophile Gervet, Tsung-Yen Yang, Vidhi Jain, Alexander
    Clegg, John M Turner, Zsolt Kira, Manolis Savva, Angel X Chang, Devendra
    Singh Chaplot, Dhruv Batra, Roozbeh Mottaghi, Yonatan Bisk, Chris Paxton
    ○ 家庭内 物体を汎用的 操作しタスクを完了させるロボット ’HomeRobot’ 提案
    ○ 認識・言語理解・ナビ・操作を同時 統合実装
    ○ さら ,汎用的 家庭内タスク ある HomeRobot OVMMベンチマークを導入
    142
    作成者:片岡

    View Slide

  143. 論文ま め(102/199)
    Synthesizing Navigation Abstractions for Planning with
    Portable Manipulation Skills
    ● Eric Rosen, Steven James, Sergio Orozco, Vedant Gupta, Max Merlin,
    Stefanie Tellex, George Konidaris
    ○ 高レベル 抽出化 一般化.
    ■ 新しい環境下 移動や操作計画をサポートする
    ■ 前提条件下 空間 そう い空間 い
    ■ 双方 状態変数を用い ナビゲーションを用い ,
    計画可能 ナビゲーション 抽象化を生成
    ○ 提案方 わずか数分 操作 表現
    が可能 るよう 生
    ○ AI2Thour シミュレーションデータ 実際 ハード
    実験 高い性能を示した
    143
    作成者:元田
    https://github.com/ericrosenbrown/aosm_experiments

    View Slide

  144. 論文ま め(103/199)
    Cross-Dataset Sensor Alignment: Making Visual 3D Object
    Detector Generalizable
    ● Liangtao Zheng, Yicheng Liu, Yue Wang, Hang Zhao
    144
    作成者:片岡
    ○ 各交通データセットが単一 カメラ・ 3Dセンサ より構成
    され いるこ を指摘した上 ,クロス 学習し 自動車
    を操作するこ を想定した研究
    ○ カメラベース 3D物体検出 能力を評価,別データセッ
    トへ 検出器適応や複数データセット 学習を実施し
    評価
    ○ 各交通データセット センサが異 る いう問題 対し
    ,センサー構成を効率的 調整する技術を導入

    View Slide

  145. 論文ま め(104/199)
    Energy-based Potential Games for Joint Motion Forecasting
    and Control
    ● Christopher Diehl, Tobias Klosek, Martin Krueger, Nils Murzyn, Timo
    Osterburg, Torsten Bertram
    ○ ゲーム理論を用い マルチエージェント 動作予測 制御 おける相互作用モデリング
    ○ パラメータ推論 NNおよび微分可能 ゲーム理論 最適化層を合わせ帰納的 バイアス
    ○ 解釈可能性 向上,予測性能 向上
    145
    作成者:元田

    View Slide

  146. 論文ま め(105/199)
    Multi-Predictor Fusion: Combining Learning-based and
    Rule-based Trajectory Predictors
    ● Sushant Veer, Apoorva Sharma, Marco Pavone
    ○ 学習ベース 軌道予測モジュールを改善するため、論理ベース ルールを組み込んだ手法
    →自動運転車 動作計画 おい ,安全性 効率性を向上.
    ○ 学習および論理 基 く予測 両方を確率的 統合.多様 振る舞い 適応する.
    ○ 検証結果:それぞれ 予測モジュール単独 比べ ,本手法 統合したこ よる効果が評価され
    た.
    146
    作成者:元田

    View Slide

  147. 論文ま め(106/199)
    STERLING: Self-Supervised Terrain Representation Learning
    from Unconstrained Robot Experience
    ● Haresh Karnan, Elvin Yang, Daniel Farkash, Garrett Warnell, Joydeep
    Biswas, Peter Stone
    ○ 自律型オフロードナビゲーション い 非対照表現学習 よ ,ロボット 経験 みを用い ,
    地形を学習するため マルチモーダル 自己教師あり 学習.
    ○ 実世界 オフロード条件 対し 堅牢 あり、 3マイル トレイルを2回 手動介入 み 完了する
    大規模 実験を実施.
    147
    作成者:元田
    https://hareshkarnan.github.io/sterling/

    View Slide

  148. 論文ま め(107/199)
    Generating Transferable Adversarial Simulation Scenarios
    for Self-Driving via Neural Rendering
    ● Yasasa Abeysirigoonawardena, Kevin Xie, Chuhan Chen, Salar Hosseini
    Khorasgani, Ruiqi Wang, Florian Shkurti
    ○ 自動運転 ため,敵対的 シナリオを生成するため最適制御問題を解決.
    ○ ニューラルレンダリング表現 敵対的 物体を挿入(右図)し ,テクスチャを最適化するこ ,方
    策 対する敵対的 センサー入力を生成可能.
    ○ シミュレートおよび実環境 両方 、提案手法が有効 あるこ を実証。
    148
    作成者:元田
    https://www.yasasa.me/advscenarios/

    View Slide

  149. 論文ま め(108/199)
    Curiosity-Driven Learning for Joint Locomotion and
    Manipulation Tasks
    ● Clemens Schwarke, Victor Klemm, Matthijs van der Boon, Marko Bjelonic,
    Marco Hutter
    ○ タスク 特化し 報酬を設計する作業を軽減するため 動機 基 く報酬 RL
    ○ 望ましいタスク い スパース 報酬を用い Curiosity stateへエンコードされる.
    ○ 実世界実験 、プッシュドア 開閉およびパッケージ 操作 失敗 く、安定し 成功。
    149
    作成者:元田
    https://www.youtube.com/watch?v=Qob2k_ldLuw&feature=youtu.be

    View Slide

  150. 論文ま め(109/199)
    Dynamic Multi-Team Racing: Competitive Driving on 1/10-th
    Scale Vehicles via Learning in Simulation
    ● Peter Werner, Tim Seyde, Paul Drews, Thomas Matrai Balch, Igor
    Gilitschenski, Wilko Schwarting, Guy Rosman, Sertac Karaman, Daniela Rus
    ○ 自動車レース よう 複数エージェントがいるシーン 強化学習 関する提案
    ○ 競争的 制御 ため、長期的か 戦略的 意思決定が必要 →階層型 モデル(ローレベル 自
    ら 制御、ハイレベル 周囲 エージェントを考慮した制御)
    ○ レース競技 し 検証:最高 度やラップタイム を指標 性能を評価
    ○ ``
    150
    作成者:元田
    https://sites.google.com/view/dynmutr/home
    Low-level
    (ステアリング)
    High-level

    View Slide

  151. 論文ま め(110/199)
    Tuning Legged Locomotion Controllers via Safe Bayesian
    Optimization
    ● Daniel Widmer, Dongho Kang, Bhavya Sukhija, Jonas Hübotter, Andreas
    Krause, Stelian Coros
    ○ データドリブン 制御ゲインを安全 領域 チューニングする
    ○ Gait 呼 れる歩行 関するコンテキストを入力 し , MPCから 出力 実際 ロボット 状態
    差分を小さくするよう ベイズ最適化を行 ゲインを出す.
    ○ Local safe探索 これま 軌道 全 ポリシーを学習し おき,パラメータ空間を確保する.
    Global探索 安全圏 あ た場合 パラメータ空間 追加し, Local safe探索 戻る.
    151
    作成者:牧原

    View Slide

  152. 論文ま め(111/199)
    CAJun: Continuous Adaptive Jumping using a Learned
    Centroidal Controller
    ● Yuxiang Yang, Guanya Shi, Xiangyun Meng, Wenhao Yu, Tingnan Zhang, Jie
    Tan, Byron Boots
    ○ 一定距離 連続 ジャンプを階層型学習 フレームワーク 実現する
    ○ 歩行タイミング, 度,スイングする足 位置を High-level 計画をおこ うCentroidal policyを学
    習し,これ 追従するよう モータコマンドを最適化する Low-level 分割し 学習する.
    ○ E2E フレームワークよりも実環境 適用性が高い
    152
    作成者:牧原

    View Slide

  153. 論文ま め(112/199)
    Transforming a Quadruped into a Guide Robot for the Visually Impaired:
    Formalizing Wayfinding, Interaction Modeling, and Safety Mechanism
    ● J. Taery Kim, Wenhao Yu, Yash Kothari, Bruce Walker, Jie Tan, Greg Turk,
    Sehoon Ha
    ○ 四足歩行ロボット よるユーザ 道案内を行う.ロボット 人間 ナビゲーション機構を形式化 基
    いたインタラクション モデリング より,ユーザー 安全性を向上させる
    ○ Delayed Harness Model よ ,人間 追従 遅れを含んだモデル よ ,一時的 オフセッ
    トを 徐々 補間し 修正するこ 安全性を高める
    ○ 時間を考慮した衝突領域 関する Shelding Zoneを計算し,危険 行動を取ら いよう する
    153
    作成者:牧原

    View Slide

  154. 論文ま め(113/199)
    Seeing-Eye Quadruped Navigation with Force Responsive
    Locomotion Control
    ● David DeFazio, Eisuke Hirota, Shiqi Zhang
    ○ 人間 引 張り 反応し それ 適応し ,ユーザ 意図 沿 た歩行制御を実現する
    ○ 引 張られた時 力 方向 推定をシミュレーションデータ 学習し ,これ 適応する歩行ポ
    リシーも同時 学習する.
    ○ 力 ピークを検出し,左か右か 方向 意図 応じ ナビゲーション ゴール変更し 経路を計画
    し直す.任意 リード ハードウェア 対応可能.
    154
    作成者:牧原

    View Slide

  155. 論文ま め(114/199)
    Scalable Deep Kernel Gaussian Process for Vehicle
    Dynamics in Autonomous Racing
    ● Jingyun Ning, Madhur Behl
    ○ SKIP-GPを か たカーネル関数 学習 高 走行車両 ダイナミクスを予測する.
    ○ SKIP-GP:誘導点 間 カーネル関数を構築するこ 計算 複雑さを解消する構 化カーネル補
    間 カーネルご 乗算する積カーネル よ カーネル関数を近似するこ よ ,ロバスト性
    を表現力を維持する
    ○ SKIP-GPやN4SID 対し 実環境
    シミュレーション 予測精度が高い
    155
    作成者:牧原

    View Slide

  156. 論文ま め(115/199)
    Tell Me Where to Go: A Composable Framework for
    Context-Aware Embodied Robot Navigation
    ● Harel Biggie, Ajay Narasimha Mopidevi, Dusty Woods, Chris Heckman
    ○ 人間が見知ら 環境 おい もコンテキストから推論するこ ヒントを得 , LLM よりコンテキス
    トを導入し ロボットナビゲーションを実施する研究
    ○ 3D環境・RGB画像・ナビゲーションコマンドからナビゲーション 中間状態 し Pythonコードを生
    成,以降 経路推定を行い環境内を移動する動線を推定
    156
    作成者:片岡

    View Slide

  157. 論文ま め(116/199)
    Online Learning for Obstacle
    Avoidance
    ● David Snyder, Meghan Booker, Nathaniel
    Simon, Wenhan Xia, Daniel Suo, Elad Hazan,
    Anirudha Majumdar
    ○ 4足歩行ロボットがいか 密 配置された障害物をオン
    ライン 学習し避け 目的地ま 到達するか
    ○ 提案 オンライン学習 よる操作 4足歩行ロボットが
    通りやすい経路を探索,推薦し いる
    157
    作成者:片岡

    View Slide

  158. 論文ま め(117/199)
    Context-Aware Deep Reinforcement Learning for
    Autonomous Robotic Navigation in Unknown Area
    ● Jingsong Liang, Zhichen Wang, Yuhong Cao, Jimmy Chiun, Mengqi Zhang,
    Guillaume Adrien Sartoretti
    ○ Mapless Navigation いう問題設定を解決: 3D空間が適宜更新される中 ロボットナビゲーション
    を実施
    ○ 3D空間中 文脈 応じた効率的 強化学習手法を提案,最短ルート 案内を行うポリシーネッ
    トワークを使用し 学習
    158
    作成者:片岡

    View Slide

  159. Poster 4: LLM/VLM/HRI

    View Slide

  160. 論文ま め(118/199)
    Navigation with Large Language Models: Semantic
    Guesswork as a Heuristic for Planning
    ● Dhruv Shah, Michael Robert Equi, Błażej Osiński, Fei Xia, brian ichter,
    Sergey Levine
    ○ LLMを活用したロボットナビゲーション 提案
    ○ キッチン 隣 リビングルームがある, LLM より文脈を提供し ナビゲーションを実施
    160
    作成者:片岡

    View Slide

  161. 論文ま め(119/199)
    NOIR: Neural Signal Operated Intelligent Robots for
    Everyday Activities
    ● Ruohan Zhang, Sharon Lee, Minjune Hwang, Ayano Hiranaka, Chen Wang,
    Wensi Ai, Jin Jie Ryan Tan, Shreya Gupta, Yilun Hao, Gabrael Levine,
    Ruohan Gao, Anthony Norcia, Li Fei-Fei, Jiajun Wu

    Neural Signal Operated Intelligent Robots(NOIR) 提案

    人間 脳波を入力,ロボットを操作し 日常行動を実行する研究
    161
    作成者:片岡

    View Slide

  162. 論文ま め(120/199)
    REFLECT: Summarizing Robot Experiences for Failure
    Explanation and Correction
    ● Zeyi Liu, Arpit Bahety, Shuran Song
    ○ ロボットタスク よる失敗を自動検知・解析する枠組みを提供(下図)
    ○ マルチモーダル 認識を LLM 入力し ,失敗 要因を解析する
    162
    作成者:片岡

    View Slide

  163. Scaling Up and Distilling Down: Language-Guided Robot
    Skill Acquisition
    ● Huy Ha, Pete Florence, Shuran Song
    ○ LLMサポート より,ロボット操作 ため 言語付きデータセットを生成
    ○ 同データを視覚運動ポリシー( Visuo-motor Policy) 学習 使用する
    ○ 上記 より,ロボットタスクを実行するスキルを効率的 獲得するこ が可能
    論文ま め(121/199)
    163
    作成者:片岡

    View Slide

  164. 論文ま め(122/199)
    Human-in-the-Loop Task and Motion Planning for Imitation
    Learning
    ● Ajay Mandlekar, Caelan Reed Garrett, Danfei Xu, Dieter Fox
    ○ 模倣学習 TAMP 利点を組み合わせ、人 遠隔操作がデモ 部分的修正を想定
    ○ 適宜人 操作が入るこ 、デモ 効率が向上。 TAMP よる方策学習 利用
    ○ 通常 テレオペレーション 比べ、3倍 効率
    ○ 非専門 オペレータ あ も十分 学習 きるこ が示された
    164
    作成者:元田
    https://hitltamp.github.io/

    View Slide

  165. 論文ま め(123/199)
    RT-2: Vision-Language-Action Models Transfer Web
    Knowledge to Robotic Control
    ● Anthony Brohan et al.
    ○ E2E ロボット学習 おい , Internetスケール データ 学習した視覚 言語 知識を利用し
    汎化性や意味的推論を可能 する
    ○ 事前学習されたVQAモデル(PaLM-E, PaLI-X)をロボット データ( RT-1) Fine-tuningまた
    Co-finetuningするこ 大規模 知識をロボット操作 転移させる
    ○ 新しいタスクやオブジェクト,言語指示 い RT-1 か たデータ 対応するこ が き,言語
    裏 隠れ いる意味的 推論も可能 し いる
    165
    作成者:牧原

    View Slide

  166. 論文ま め(124/199)
    SLAP: Spatial-Language Attention Policies
    ● Priyam Parashar, Chris Paxton, Vidhi Jain, Xiaohan Zhang, Jay Vakil, Sam
    Powers, Yonatan Bisk
    ○ Separate long horizon task into multiple actions, predict interaction point in 3D and action
    taken (policy) at that interaction point
    166
    作成者:Erich
    Action: Gripper activation, position offset, orientation

    View Slide

  167. 論文ま め(125/199)
    Language Conditioned Traffic Generation
    ● Shuhan Tan, Boris Ivanovic, Xinshuo Weng, Marco Pavone, Philipp
    Kraehenbuehl
    ○ 動的 シーンを生成するため 教師データ し 言語を介し 制御。
    ○ LLM Trasformer型 Decoderを組み合わせ 地図データから適切 地点を選択し 、交通 様
    子(車両 ダイナミクス)を生成する。
    ○ 検証:従来法 比べ 、現実 類似したシーンが構成され いる。
    167
    作成者:元田
    https://ariostgx.github.io/lctgen/

    View Slide

  168. 論文ま め(126/199)
    A Data-Efficient Visual-Audio Representation with Intuitive
    Fine-tuning for Voice-Controlled Robots
    ● Peixin Chang, Shuijing Liu, Tianchen Ji, Neeloy Chakraborty, Kaiwen Hong,
    Katherine Rose Driggs-Campbell
    ○ 画像 音声指示を関連付けたモデルを構築。
    新しい環境 導入する場合 音声 入力 よる微調整だけ 済むこ が注目点。
    ○ Contrastive Learningを基 した視覚 音 学習を行う。
    ○ 検証:シミュレーションや実世界 実験 、少数ラベル も人 音声指示 対応し 、継続的 自
    己改善可能。
    168
    作成者:元田
    https://sites.google.com/site/changpeixin/home/R
    esearch/a-data-efficient-visual-audio-representati
    on-with-intuitive-fine-tuning

    View Slide

  169. 論文ま め(127/199)
    PolarNet: 3D Point Clouds for Language-Guided Robotic
    Manipulation
    ● Shizhe Chen, Ricardo Garcia Pinel, Cordelia Schmid, Ivan Laptev
    ○ 自然言語 指示 基 く操作タスクを理解・実行するため、複数 カメラ情報 統合 よ 正確
    3D位置 関係性を推論
    ○ 点群 ため エンコーダー よ Transformerを学習。言語指示 合わせ アクション予測
    169
    作成者:元田
    https://www.di.ens.fr/willow/research/polarnet/
    補足:2D 入力 対する性能より
    も高い結果が示され いる。

    View Slide

  170. 論文ま め(128/199)
    Language-guided Robot Grasping: CLIP-based Referring
    Grasp Synthesis in Clutter
    ● Georgios Tziafas, Yucheng Xu, Arushi Goel, Mohammadreza Kasaei, Zhibin
    Li, Hamidreza Kasaei
    ○ 乱雑 シーンからユーザ 指示された物体をピッキングする
    ○ 言語 シーン画像から CLIP-base 特徴量表現を介し 直接把持を生成する
    ○ Referring graspが難しい新た ベンチマーク( OCID-VLG)を作成し,CLIP 把持を分割した手法よ
    りもSegmentation Grounding 把持成功率が大幅 向上した
    170
    作成者:牧原

    View Slide

  171. 論文ま め(129/199)
    Open-World Object Manipulation using Pre-Trained
    Vision-Language Models
    ● Austin Stone, Ted Xiao, Yao Lu, Keerthana Gopalakrishnan, Kuang-Huei Lee,
    Quan Vuong, Paul Wohlhart, Sean Kirmani, Brianna Zitkovich, Fei Xia,
    Chelsea Finn, Karol Hausman
    ○ Manipulation of Open-World Obects (MOO) and combination with mobile robot using
    CLIP-on-Wheels: CoW-MOO
    171
    作成者:Erich

    View Slide

  172. 論文ま め(130/199)
    Predicting Routine Object Usage for Proactive Robot
    Assistance
    ● Maithili Patel, Aswin Prakash, Sonia Chernova
    ○ ユーザが過去 物体 使用した き 予測を条件付けるこ ,ユーザ 行動予測を改善
    ○ ユーザ 意図 物体 使用方法 関し 対話的 予測を改善する
    ○ 予測モデル おい 矛盾した動作がい 発生し,ロボット 行動 不確実性が高く りそう 状態
    を予測し ,こ 場合 対し ユーザ 指示を求めるよう する
    ○ 特 長期予測 おい 対話形式を入れるこ 大幅 改善する
    172
    作成者:牧原

    View Slide

  173. 論文ま め(131/199)
    HOI4ABOT: Human-Object Interaction Anticipation for
    Human Intention Reading Assistive roBOTs
    ● Esteve Valls Mascaro, Daniel Sliwowski, Dongheui Lee
    ○ パッチ化したバウンディングボックスから重み けし、人・物体 埋め込み特徴量を推定
    ○ 埋め込み特徴 2 Transformer attention 統合し、インタラクション 行動認識 利用
    ○ 従来手法より高い認識率 15.4倍 度 人ロボット協調 行動検出を実現
    173
    作成者:中條

    View Slide

  174. 論文ま め(132/199)
    FindThis: Language-Driven Object Disambiguation in Indoor
    Environments
    ● Arjun Majumdar, Fei Xia, brian ichter, Dhruv Batra, Leonidas Guibas
    ○ 新しいタスク し ’FindThis’ を提案,実世界 物体検索を想定し ,ロボット 言語・画像
    インタラクションをする
    ○ 言語指示 曖昧性を,画像や追加 言語指示 より行 いく
    174
    作成者:片岡

    View Slide

  175. 論文ま め(133/199)
    Quantifying Assistive Robustness Via the
    Natural-Adversarial Frontier
    ● Jerry Zhi-Yang He, Daniel S. Brown, Zackory Erickson, Anca Dragan
    ○ 人 動き 自然さを考慮したアシストロボット ロバスト性 計測方法を提案。
    ○ 自然↔敵対的、 評価基準 し 、ロボット 報酬関数を最小化し がら、人間らしい行動 トレー
    ドオフを考えるため 用いる。
    ○ 手動的 実施する 難しい場合 も定量敵 モーションが評価 きる。
    175
    作成者:元田

    View Slide

  176. 論文ま め(134/199)
    Learning Human Contribution Preferences in Collaborative
    Human-Robot Tasks
    ● Michelle D Zhao, Reid Simmons, Henny Admoni
    ○ 人 ロボット 連携を行うため、 Contribution constraint(貢献制約)を学習する方法。
    ○ 強化学習 枠組み か 人間 関係する報酬項がある。
    ○ 個別 制約や選好を有する場合を想定。チーム全体 利益を最大化し がら、最適化。
    ○ 右図 よう UI シーン 選好や制約を設定誌 がら検証。
    176
    作成者:元田
    https://www.youtube.com/watch?v=JM4cMHZSu2
    0&feature=youtu.be

    View Slide

  177. 論文ま め(135/199)
    Multi-Resolution Sensing for Real-Time Control with
    Vision-Language Models
    ● Saumya Saxena, Mohit Sharma, Oliver Kroemer
    ○ 空間的・時間的 異 るスケール 情報を扱うアーキテクチャ 提案
    ○ VLM 高い汎化性能を有するが,推論が遅い( reactiveタスク 不適),task-specific
    fine-tuningをほ こす 汎化性能が落ちる いう問題がある
    ○ アプローチ:VLM freezeし,low-frequency 大域的情報を入れる.小規模 モデルを
    task-specific データ 学習し 組み合わせる(局所的視覚情報 体勢感覚・力覚 さら 2段階)
    177
    作成者:花井

    View Slide

  178. 論文ま め(136/199)
    Gesture-Informed Robot Assistance via Foundation Models
    ● Li-Heng Lin, Yuchen Cui, Yilun Hao, Fei Xia, Dorsa Sadigh
    ○ ジェスチャーを理解し 人間 ロボットが協調するため 枠組みを提案
    ○ LLMを活用し ジェスチャーから言語的 理解を促すこ が きる
    178
    作成者:片岡

    View Slide

  179. 論文ま め(137/199)
    PlayFusion: Skill Acquisition via Diffusion from
    Language-Annotated Play
    ● Lili Chen, Shikhar Bahl, Deepak Pathak
    ○ 構 化され い い demonstration あるPlayデータ(後付け 言語ラベルあり)から,目的志向
    スキルを学習
    ○ Diffusionモデル 離散化を促すボトルネック( VQ-VAE code book よう も )を導入するこ
    有用 スキルを獲得させる
    ○ 複数スキル 合成が必要 複雑タスク SOTA性能達成,latent離散化 有効性も確認
    179
    作成者:花井

    View Slide

  180. 論文ま め(138/199)
    Semantic Mechanical Search with Large Vision and
    Language Models
    ● Satvik Sharma, Kaushik Shivakumar, Huang Huang, Lawrence Yunliang
    Chen, Ryan Hoque, brian ichter, Ken Goldberg
    ○ シーン 対象物体 意味的 分布を検出
    ○ 限られたシーン(e.g. 棚 中) オープン スペース( e.g. 部屋) 双方 意味的 関連性を見出す
    こ が可能。未知 対象識別し タスク 転用するこ が可能

    180
    作成者:元田
    https://sites.google.com/view/semantic-mechanical-search/home

    View Slide

  181. 論文ま め(139/199)
    Grounding Complex Natural Language Commands for
    Temporal Tasks in Unseen Environments
    ● Jason Xinyu Liu, Ziyi Yang, Ifrah Idrees, Sam Liang, Benjamin Schornstein, 
    Stefanie Tellex, Ankit Shah
    ○ 長期 タスク 線形時間論理 基 いたナビゲーションを実現する
    ○ LLMを利用し 新た 追加データを必要 せず,場所 認識モジュール 事前知識を利用し そ
    場所 空間位置を認識するモジュール.これらから行動系列を計画するモジュール それぞれ
    モデルを使用する.
    ○ 2 屋内環境 52 意味的 多様 ナビゲーションコマンドを実行可能
    181
    作成者:牧原

    View Slide

  182. 論文ま め(140/199)
    OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without
    Training on 3D Data
    ● Shiyang Lu, Haonan Chang, Eric Pu Jing, Abdeslam Boularias, Kostas Bekris
    ○ 3D データ 学習をするこ く 3D map Instance 表現を埋め込む
    ○ 言語 結び付けられた 2D 領域候補 多視点 情報を か 3D空間上 マッピングする
    ○ Memory bank 2D 情報 時系列を3D 変換し 保存し ,使える情報 みを残す. 3D
    mapへ アクセス これを かう.
    ○ フィルタリングやマージがうまく機能し いるため Opensceneより優れ いる
    182
    作成者:牧原

    View Slide

  183. 論文ま め(141/199)
    Large Language Models as General Pattern Machines
    ● Suvir Mirchandani, Fei Xia, Pete Florence, brian ichter, Danny Driess,
    Montserrat Gonzalez Arenas, Kanishka Rao, Dorsa Sadigh, Andy Zeng
    183
    作成者:片岡
    ○ LLMがロボティクス おける抽象的
    パターンを認識し ロボティクスタ
    スクを解けるか うか い 議論
    し いる
    ○ 右図 示し いるよう シーケンス
    変換・単純 関数 完成・メタパ
    ターン 向上 い 実施し い

    View Slide

  184. 論文ま め(142/199)
    Language-Conditioned Path Planning
    ● Amber Xie, Youngwoon Lee, Pieter Abbeel, Stephen James
    ○ ロボット 衝突を検知するため 画像、言語プロンプトから学習するアプローチ
    ○ 言語 視覚 組み合わせから Collision scoreを算出、連続する動作 おい 衝突を検知
    ○ 検証 、シミュレーションおよび実世界 対話的 経路計画を示した
    「Can collide」 指示 対応する 、幅広いシーン 適応性を示唆
    184
    作成者:元田
    https://amberxie88.github.io/lapp/

    View Slide

  185. 論文ま め(143/199)
    Goal Representations for Instruction Following:
    A Semi-Supervised Language Interface to Control
    ● Vivek Myers, Andre He, Kuan Fang, Homer Walke, Philippe Hansen-Estruch,
    Ching-An Cheng, Mihai Jalobeanu, Andrey Kolobov, Anca Dragan, Sergey
    Levine
    ○ 少量 言語データを使用し 画像 目標 条件付けされたポリシーを学習する
    ○ 初期状態 目標状態を入力するこ そ 変化を見るよう ,言語 も 潜在表現 埋め込みポ
    リシーを学習する枠組み する
    ○ 対照学習 言語 動作 関係性を大規模事前学習した後 ,ラベル し 新規データ 共 ポリ
    シーを学習する
    185
    作成者:牧原

    View Slide

  186. 論文ま め(144/199)
    Context-Aware Entity Grounding with Open-Vocabulary 3D
    Scene Graphs
    ● Haonan Chang, Kowndinya Boyalakuntla, Shiyang Lu, Siwei Cai, Eric Pu Jing, Shreesh
    Keskar, Shijie Geng, Adeeb Abbas, Lifeng Zhou, Kostas Bekris, Abdeslam Boularias
    ○ 物体 インスタンスだけ く,物体間 関係 シーングラフを3D空間上 自由形式 使用可能 する
    ○ 言語入力から物体 エージェント,ある領域(場所),位置関係,従属関係を全 要素 分割した上 ,別々 エン
    コーディングを行い.グラフを構築する.
    ○ も も 全体 シーングラフを構築し おき,そ 一部 マッチングし いるか うかを探索する.こ き ,元々
    データ い知識ま 考慮する
    186
    作成者:牧原

    View Slide

  187. Poster 5: Manipulation 2

    View Slide

  188. 論文ま め(145/199)
    ManiCast: Collaborative Manipulation with Cost-Aware
    Human Forecasting
    ● Kushal Kedia, Cornell University, Prithwish Dan, Cornell University, Atiksh
    Bhardwaj, Cornell University, Sanjiban Choudhury
    ○ 将来 人間 動きが与える行動計画 コストを予測
    ○ 事前学習 大規模データ 人間 行動自体を予測するよう する. Fine-tuning 人間同士
    行動 おい コスト(腕が近けれ 大きいも )を考慮した予測を行い,こ 予測 コストを考慮し
    MPC 軌道を計画する
    188
    作成者:牧原

    View Slide

  189. 論文ま め(146/199)
    SCALE: Causal Learning and Discovery of Robot
    Manipulation Skills using Simulation
    ● Tabitha Edith Lee, Shivam Vats,l Siddharth Girdhar, Oliver Kroemer
    ○ 少 いデータから多様 動きを生成する
    ○ コンテキスト空間からサンプリングされたタスクをシミュレーション環境 実行し,データ 特徴を
    ベース スキルを分割し Policyを学習する.
    ○ ブロック積み上げや Peg-in-hole 関し 実環境 も動作可能
    189
    作成者:牧原

    View Slide

  190. 論文ま め(147/199)
    Learning to Design and Use Tools for Robotic Manipulation
    ● Ziang Liu, Stephen Tian, Michelle Guo, C. Karen Liu, Jiajun Wu
    ○ 人間 指示 し 明示的 与えられ い作業 ,タスクを完了 きる道具を自動 設計し行動す
    る.
    ○ シミュレーション い 試行を通じ 訓練された,ツール設計 制御 ため 別々 ポリシーを
    含む2フェーズ マルコフ決定プロセスを使用
    ○ 既存 方法 比較し サンプル効率が高く,未知タスク 対し シミュレーションタスク 実ロボット
    実験 実証.
    190
    作成者:牧原

    View Slide

  191. 論文ま め(148/199)
    Geometry Matching for Multi-Embodiment Grasping
    ● Maria Attarian, Muhammad Adil Asif, Jingzhou Liu, Ruthrash Hari, Animesh
    Garg
    ○ 多様 グリッパ形状 対応する物体把持を実現する, GNNを用い 物体 グリッパ 両方 幾何
    学的表現を学習する
    ○ 物体 グリッパ 点群からグラフを生成し、 GNN 入力し,接触点 尤度を予測
    ○ 複数 グリッパ 新しい物体 対し 高い成功率を示し,特 2指 3指 グリッパ パフォーマ
    ンスが5-30%向上した
    191
    作成者:牧原

    View Slide

  192. 論文ま め(149/199)
    Efficient Sim-to-real Transfer of Contact-Rich Manipulation
    Skills with Online Admittance Residual Learning
    ● Xiang Zhang, Changhao Wang, Lingfeng Sun, Zheng Wu, Xinghao Zhu,
    Masayoshi Tomizuka
    ○ シミュレーション 学習した Contact-rich 操作スキルを実環境 適用可能 する
    ○ モデルフリー強化学習を用い コンプライアンス制御 パラメータを学習する.オンライン トル
    ク 測定値から再学習する
    ○ 組み立 ,ピボット,ネジ締め 3種類 タスクを実現
    192
    作成者:牧原

    View Slide

  193. 論文ま め(150/199)
    Simultaneous Learning of Contact and Continuous
    Dynamics
    ● Bibit Bianchini, Mathew Halm, and Michael Posa
    ○ 複数 関節を持 物体 動きを通じ 接触 連続ダイナミクスを同時 学習する
    ○ 物理的制約を侵す接触力を推測する損失関数を用い ,データセットから物体 動きを観察し,運
    動方程式 基 くモデルパラメータを学習.連続ダイナミクス 不正確さを補うため Residualネッ
    トワークを用い いる
    ○ 物体 投げられた軌道 キューブ 投げられたデータ 検証
    ○ 物理的 意味 あるパラメータを用いたダイナミクスモデリングが可能
    193
    作成者:牧原

    View Slide

  194. 論文ま め(151/199)
    Structural Concept Learning via Graph Attention for
    Multi-Level Rearrangement Planning
    ● Manav Kulshrestha, Ahmed H. Qureshi
    ○ 構 的依存関係 あるシナリオ Graph Attetionを か 複数 レベル わたる物体 依存関
    係を学習し,効率的 配置計画を行う
    ○ 複数 視点から得られた RGB-D画像から初期 目標 シーンを生成し,それらから依存関係グラ
    フを構築する.そ 後トポロジカル ソート よ 物体 配置順序を決定
    ○ 未知 シーン 対し も高い成功率を達成
    ○ 密 構 よる遮蔽や不完全 点群データ 場合 おい も有効
    194
    作成者:牧原

    View Slide

  195. 論文ま め(152/199)
    Dexterous Functional Grasping
    ● Ananye Agarwal, Shagun Uppal, Kenneth Shaw, Deepak Pathak
    ○ 物体 機能を考慮し 把持するため 方法
    ○ 人間 データ 大規模シミュレーション訓練を組み合わせ,異 る物体間 対応する領域をマッチ
    ングするアフォーダンスモデルを使用し,事前 把持姿勢を予測
    ○ シミュレーション 訓練された Low-level ポリシーを か 把持を完了する
    ○ 7 複雑 タスク 実世界 シミュレーション 両方 おい 有効性を検証.人間 テレオペレー
    ターを上回る.
    ○ アクションスペースをを制限するこ 、より物理的 現実的 動作を可能 し いる
    195
    作成者:牧原

    View Slide

  196. 論文ま め(153/199)
    DEFT: Dexterous Fine-Tuning for Hand Policies
    ● Aditya Kannan, Kenneth Shaw, Shikhar Bahl, Pragna Mannam, Deepak
    Pathak
    ○ 複雑 器用 タスクをツールや柔らかい物体をロボット 実演 し 効率的 学習する
    ○ 人間 事前学習された動作を基 し ,ソフトハンド 実環境 動作するよう リアルタイム オン
    ライン最適化を行う.
    ○ 9 タスク おい 高い成功率をだし,少 い試行 現実世界 学習を行い,人間 動画から学
    んだ事前情報 基 い 効率的 性能を向上させるこ が き いる
    196
    作成者:牧原

    View Slide

  197. 論文ま め(154/199)
    Learning Sequential Acquisition Policies for Robot-Assisted
    Feeding
    ● Priya Sundaresan, Jiajun Wu, Dorsa Sadigh
    ○ 長期的 食事補助 ため 高度 計画 食品取り扱いをシミュレーション内 高レベル 行動選
    択 ポリシーを学習する.
    ○ 潜在的 ダイナミクスをモデル化し,現実世界 視覚 基 いたプリミティブを利用し 具体的 計
    画を実行
    ○ ヌードル 取得 ジェリービーンズ 両手操作スクープ ユーザから高い評価
    197
    作成者:牧原

    View Slide

  198. 論文ま め(155/199)
    TactileVAD: Geometric Aliasing-Aware Dynamics for
    High-Resolution Tactile Control
    ● Miquel Oller, Dmitry Berenson, Nima Fazeli
    ○ 触覚センサ 基 くロボット操作 異 る接触点が似た触覚シグネチャを生成する場合(エイリアシ
    ング問題)を識別し操作性能を向上させる
    ○ 線形潜在ダイナミクス デコーダ み アーキテクチャ ,観測されたデータから潜在空間表現を
    最適化する
    ○ 未知 形状 Carpoleを操作するやタスク 対し ,目標接触状態 姿勢 るよう 操作する
    198
    作成者:牧原

    View Slide

  199. 論文ま め(156/199)
    Push Past Green: Learning to Look Behind Plant Foliage by
    Moving It
    ● Xiaoyu Zhang, Saurabh Gupta
    ○ 植物 葉 下 空間を見えるよう するため 動作を構築する
    ○ あるシーン 対し アクションが加わ た時 , れだけ 空間が現れるかを予測し 動作を生成
    する.
    ○ 見えるよう る空間 量 そ 場所がわかるため,一連 動きを設計するこ が き, 手作業
    構築した動きよりも,未知 植物 対し も有効 あるこ がわか た
    199
    作成者:牧原

    View Slide

  200. 論文ま め(157/199)
    Vision-Based Contact Localization Without Touch or Force
    Sensing
    ● Leon Kim, Yunshuang Li, Michael Posa, Dinesh Jayaraman
    ○ ロボットが操作する物体 環境 接触を視覚 み 予測する研究
    ○ シミュレーション depthを使 学習をするが,それだけ シミュレーション 上手く動くが,実
    環境 上手く動か い(理由も考察)
    ○ 3 工夫を追加:把持物体周辺 salient領域切り出し, オクルージョン部分 把持物体形状を補
    うため 把持物体全体が見える 1枚depth画像,動きを利用するため RGBから計算したオプティ
    カルフロー

    200
    作成者:花井

    View Slide

  201. 論文ま め(158/199)
    Neural Field Dynamics Model for Granular Object Piles
    Manipulation
    ● Shangjie Xue, Shuo Cheng, Pujith Kachana, Danfei Xu
    ○ 粉流体 ダイナミクスを学習ベース 効果的 予測し,これをベース 物体 操作を最適化
    ○ 粉流体 状態 ロボット 動作から将来 物体状態を予測する.こ 時,微分可能レンダリング
    よ ロボット 動作を空間上 マッピングし 予測器 入力するよう する.
    ○ ゴール 差分を り ,状態 行動が逆伝播 きるため,学習ベース 行動 軌道を最適化
    きる.また,障害物があ た し も回避し がら粉流体を操作 きる.
    201
    作成者:牧原

    View Slide

  202. 論文ま め(159/199)
    KITE: Keypoint-Conditioned Policies for Semantic
    Manipulation
    ● Priya Sundaresan, Suneel Belkhale, Dorsa Sadigh, Jeannette Bohg
    ○ 言語指示からセマンティクス(より詳細 意味)を引き出し ,キーポイント 対応 いたスキルを実
    行する
    ○ 言語 画像から操作点(キーポイント)を抽出し, LLMから出力されたスキルラベル,シーン状態
    PointCloudを一緒 入力し,スキル 対応 いたポリシーをデモデータから学習
    ○ VLM み,キーポイント み, E2E 手法よりも成功率が高い
    202
    作成者:牧原

    View Slide

  203. 論文ま め(160/199)
    Polybot: Training One Policy Across Robots While Embracing
    Variability
    ● Jonathan Heewon Yang, Dorsa Sadigh, Chelsea Finn
    ○ 1 方策を複数 ロボット 利用する方法 提案
    ○ observation alignment => 手首 けたカメラ 利用(身体映り込み よる違いが小さい)
    ○ action alignment => 共有 逆運動学solver(共通 backbone 各ロボット 対応する headを有
    するaction decoder)
    ○ internal state alignment => 対照学習
    ○ 別ロボット データを用いるこ few-shot >70% 成功率,シーン 構 が近い場合
    zero-shot(他 ロボット データ み) もか り 成功率
    203
    作成者:花井

    View Slide

  204. 論文ま め(161/199)
    PLEX: Making the Most of the Available Data
    for Robotic Manipulation Pretraining
    ● Garrett Thomas, Ching-An Cheng, Ricky Loynd, Felipe
    Vieira Frujeri, Vibhav Vineet, Mihai Jalobeanu, Andrey
    Kolobov
    ○ ロボットマニピュレーション ため 表現学習方法を提案
    ○ タスク操作し いる動画を入力 し 学習するこ ,より少 いデータ
    セットサイズ がら,より多く ロボットマニピュレーションシーンを学習
    するこ が きる
    ○ Meta-World 汎化,Robosuite environment おい 最高水準 精
    度を実現した
    204
    作成者:片岡

    View Slide

  205. 論文ま め(162/199)
    CALAMARI: Contact-Aware and Language conditioned
    spatial Action MApping for contact-Rich manipulation
    ● Youngsun Wi, Mark Van der Merwe, Pete Florence, Andy Zeng, Nima Fazeli
    ○ household task 意図的 接触を制御するタスク( wiping, sweeping, pushing)が多く存在
    ○ 言語指示から,接触状態そ も をアクション するpolicyを学習
    205
    作成者:花井

    View Slide

  206. 論文ま め(163/199)
    DYNAMO-GRASP: DYNAMics-aware Optimization for
    GRASP Point Detection in Suction Grippers
    ● Boling Yang, Soofiyan Atar, Markus Grotz, Byron Boots, Joshua Smith
    ○ 吸引型マニピュレーション ため 把持位置推定 い 物理シミュレーション データドリブン
    よるアプローチを試みた
    ○ ベンチマークデータセット ある DYNAMO-GRASP より良好 性能を実現
    206
    作成者:片岡
    ○ 19種類 日用品を採用
    ○ 時系列 従 シミュレーション
    ○ データセットを構築,距離画像やマスク,把
    持ポイントを生成
    ○ モデル よる学習 推論 より把持位置
    推定

    View Slide

  207. 論文ま め(164/199)
    M2T2: Multi-Task Masked Transformer for Object-centric
    Pick and Place
    ● Wentao Yuan, Adithyavairavan Murali, Arsalan Mousavian, Dieter Fox
    207
    作成者:片岡
    ○ 6DoF 検出 把持位置推定 4DoF 物体
    配置 学習をマルチタスク学習 より同時
    実行するMulti-Task Masked Transformer
    (M2T2)を提案
    ○ M2T2 学習 ため 合成データセットを構
    築,130k 煩雑 シーン,8.8k 異 る物体
    ,把持位置や物体配置 姿勢を指示
    ○ ゼロショット よるsim2real 把持や配置を
    実現

    View Slide

  208. 論文ま め(165/199)
    Composable Part-Based Manipulation
    ● Weiyu Liu, Jiayuan Mao, Joy Hsu, Tucker Hermans, Animesh Garg, Jiajun
    Wu
    ○ ロボットが物体 パーツやそれら 対応関係を理解する物体認識能力を実装
    ○ 物体間 関係性を理解し がらロボットタスクを実行する
    ○ 拡散モデル(Diffusion Models) より上記 物体認識を実装
    208
    作成者:片岡

    View Slide

  209. 論文ま め(166/199)
    MUTEX: Learning Unified Policies from Multimodal Task
    Specifications
    ● Rutav Shah, Roberto Mart´ın Mart´ın, Yuke Zhu
    ○ 様々 モダリティから 情報を統合したタスク 条件付けから行動を生成する
    ○ エンコーディング MAE よう マスキングを復元する学習 ,対応する動作 模倣学習を行
    う.第二段階 し ,デモ映像がも も特徴表現 情報量が多いため,全 モダリティ 表現を
    これ よせるよう Cross-modal matching学習を行う
    ○ LIBERO-100を か シミュレーション 100タスク,実世界 50タスク おい モダリティを多用
    する 効果が高いこ がわか た
    209
    作成者:牧原

    View Slide

  210. 論文ま め(167/199)
    Learning Generalizable Manipulation Policies with
    Object-Centric 3D Representations
    ● Yifeng Zhu, Zhenyu Jiang, Peter Stone, Yuke Zhu
    ○ 卓上マニピュレーション 模倣学習 おい ,方策ネットワークへ 入力 ,物体ご セグメン
    テーションされたポイントクラウド( PointNet トークン化)を用いる
    ○ 従来 模倣学習 比べ ,背景やカメラアングル 変化 ロバスト る
    ○ open-vocabulary 物体セグメンテーションを用いるこ 新規物体を扱うこ も きる
    210
    作成者:室岡
    https://ut-austin-rpl.github.io/GROOT/

    View Slide

  211. 論文ま め(168/199)
    REBOOT: Reuse Data for Bootstrapping Efficient Real-World
    Dexterous Manipulation
    ● Zheyuan Hu, Aaron Rovinsky, Jianlan Luo, Vikash Kumar, Abhishek Gupta,
    Sergey Levine
    ○ RL ILを組み合わせるこ Contact-rich タスクを効果的 学習する
    ○ RL リプレイバッファ(以前 タスクデータ)を利用し新タスク学習 初期ポリシー する
    ○ 実環境 リセットを行うポリシーを別 模倣学習 獲得し,ロボット自身が試行 リセットを行
    ,人 介入 いら い学習を実現
    211
    作成者:牧原

    View Slide

  212. 論文ま め(169/199)
    Waypoint-Based Imitation Learning for Robotic Manipulation
    ● Archit Sharma, Lucy Xiaoyang Shi, Tony Z. Zhao, Chelsea Finn
    ○ behavioral cloning よる模倣学習 おい ,長いエピソード タスク 誤差が蓄積する問題を緩
    和するため ,学習データ 軌道を経由点ご 分割し 学習 利用する
    ○ 元 軌道 経由点を線形補間した軌道 誤差が一定以内 収まるよう 経由点を自動生成
    ○ 経由点を利用した模倣学習 よりマニピュレーションタスク 成功率が上昇するこ を確認
    212
    作成者:室岡
    https://lucys0.github.io/awe/

    View Slide

  213. 論文ま め(170/199)
    Leveraging 3D Reconstruction for Mechanical Search on
    Cluttered Shelves
    ● Seungyeon Kim, Young Hun Kim, Yonghyeon Lee, Frank Chongwoo Park
    ○ 物体 存在可能性 把持可能性を考慮し 目標物体をみ けるよう 押し動作 ピックアンドプ
    レースを効果的 組み合わせる
    ○ 物体 部分的 観測から超四次表現を用い 物体 3次元完全形状を予測するモデル シーン
    3次元状態を構築
    ○ 物体 環境,ターゲット 間 衝突が い場合 存在し いる 判定
    ○ 衝突可能性がすべ 考慮された軌道を見 けるこ が きれ 把持可能 ある 判定
    ○ 近似ダイナミクスモデルをベース 予測し, MPC 軌道制御を行う
    213
    作成者:牧原

    View Slide

  214. Poster 6: Perception, representation,
    adaptation

    View Slide

  215. 論文ま め(171/199)
    4D-Former: Multimodal 4D Panoptic Segmentation
    ● Ali Athar, Enxu Li, Sergio Casas, Raquel Urtasun
    ○ Pointcloud 時系列変化 おける PanopticSegmentationをおこ う
    ○ LiDAR 時系列情報 加え , RGB画像を利用するこ ,アピアランス 情報から予測を補強す
    る.
    ○ LiDAR データを多視点 画像 射影し,それ RGB画像 対応関係を考慮した PointからVoxel
    表現 変換するエンコーダを利用し, Transformerベース デコーダ より Segmentation
    Trackingをおこ う
    ○ nuScenesおよびSemanticKITTI 対し 最高性能
    215
    作成者:牧原

    View Slide

  216. 論文ま め(172/199)
    LabelFormer: Object Trajectory Refinement for Offboard
    Perception from LiDAR Point Clouds
    ● Anqi Joyce Yang, Sergio Casas, Nikita Dvornik, Sean Segal, Yuwen Xiong,
    Jordan Sir Kwang Hu, Carter Fang, Raquel Urtasun
    ○ 自動ラベリング ため、複雑さ 少 いが効果的 軌跡を調整するアプローチを提案
    ○ 各フレームをエンコードし Self-Attention よ 時系列的 解釈。物体 各フレーム 姿勢をデ
    コードするこ 認識を調整
    ○ 検証:都市 高 道路 関するデータセットへ ラベル化 より元 認識性能を向上
    216
    作成者:元田
    https://waabi.ai/labelformer/

    View Slide

  217. 論文ま め(173/199)
    ADU-Depth: Attention-based Distillation with Uncertainty
    Modeling for Depth Estimation
    ● ZiZhang Wu, Zhuozheng Li, Zhigang Fan, Yunzhe Wu, Xiaoquan Wang, Rui
    Tang, Jian Pu
    ○ monocular学習 い 、左右 画像ペアから教師データを導入し 3D空間 対する認識
    単眼 データセットデータ 対する知識蒸留フレームワーク.
    ○ ADU-Depth アテンション適応型特徴蒸留 し 提案
    ○ 検証 ,実際 深度推定データを用い
    提案手法が効果的 あるこ を示した.
    217
    作成者:元田

    View Slide

  218. 論文ま め(174/199)
    DORT: Modeling Dynamic Objects in Recurrent for
    Multi-Camera 3D Object Detection and Tracking
    ● Qing LIAN, Tai Wang, Dahua Lin, Jiangmiao Pan
    ○ マルチカメラ 三次元検出 い 提案法 DORT 動的 動きを考え,位置合わせ 対応
    ○ BEV 手法 こ り,物体ご 局所部 学習を繰り返しを行う.
    ○ nuScences ベンチマーク おい ,それぞれ高い成功率を示す.
    218
    作成者:元田
    https://github.com/OpenRobotLab/DORT

    View Slide

  219. 論文ま め(175/199)
    Ready, Set, Plan! Planning to Goal Sets Using Generalized
    Bayesian Inference
    ● Jana Pavlasek, Stanley Robert Lewis, Balakumar Sundaralingam, Fabio
    Ramos, Tucker Hermans
    ○ 動作計画 おい ,複数 ゴールサンプルが与えられ いる場合 対応 きるベイズ推定
    (Stein variational gradient descent)ベース 計画アルゴリズム
    ○ 二次元経路計画やマニピュレータ Pick&place動作計画 おい ,複数 ゴールが与えられ いる
    も 実行可能 ゴールへ 動作を高い成功率 計画 きるこ を確認
    219
    作成者:室岡

    View Slide

  220. 論文ま め(176/199)
    Revisiting Depth-guided Methods for Monocular 3D Object
    Detection by Hierarchical Balanced Depth
    ● Yi-Rong Chen, Ching-Yu Tseng, Yi-Syuan Liou, Tsung-Han Wu, Winston H.
    Hsu
    ○ 従来 画像 対し 一律 距離を計算する 対し ,提案手法 物体 即した距離画像 計
    算を実施するこ ,近距離・遠距離 応じた距離画像 生成を実現(下図参照)
    220
    作成者:片岡
    ○ 上記 方針 従い,物体間や距離
    応じた誤差関数を提案,距離画像が階
    層的 いるHierarchical Depth
    Map(HDM)を計算する

    View Slide

  221. 論文ま め(177/199)
    Stealthy Terrain-Aware Multi-Agent Active Search
    ● Nikhil Angad Bakshi, Jeff Schneider
    ○ 探索エージェント 位置を隠すため 手法を提案=偵察するタスクへ 展開
    ○ STARアルゴリズム 変化する可視性 リスク 対応するため並列化された top-sampled-based
    アルゴリズム いう立ち位置.
    ○ 検証 ,既存 エージェント 散策方法 い 優れたパフォーマンス
    221
    作成者:元田

    View Slide

  222. 論文ま め(178/199)
    STOW: Discrete-Frame Segmentation and Tracking of
    Unseen Objects for Warehouse Picking Robots
    ● Yi Li, Muru Zhang, Markus Grotz, Kaichun Mo, Dieter Fox
    ○ シーン 大き 変化が発生するよう フレーム 系列を入力し も Segmentationを可能 する手

    ○ DETR 似たTransformerベース デコーダから Head部分 物体 マスクを予測.こ 時,物体追
    跡 埋め込みを利用するため,異 るフレーム 同じ物体トークンを関連付け,信頼度が高く,前
    追跡軌道 類似性 高い物体トークンを紐 ける学習を追加する
    ○ Sim2Real gapが小さくシミュレーション み 学習 も他 手法より実環境 うまくいく
    222
    作成者:牧原

    View Slide

  223. 論文ま め(179/199)
    SA6D: Self-Adaptive Few-Shot 6D Pose Estimator for Novel
    and Occluded Objects
    ● Ning Gao, Vien Anh Ngo, Hanna Ziesche, Gerhard Neumann
    ○ 遮蔽がある場合 姿勢推定 ため 、点群を構築 →Self-Adaptation Module よ 対象 物体
    分割、部分点群から6次元姿勢を推定。
    ○ セグメンテーションモデル 出力を齊藤英し 、物体 中心が含まれる きを正 サンプル、そう
    い時を負 する。
    ○ ピクセル単位 特徴を平均化し
    各物体が表現する。
    ○ 検証 遮蔽 多いシーン
    有用性を評価し いる。
    223
    作成者:元田
    https://sites.google.com/view/sa6d

    View Slide

  224. 論文ま め(180/199)
    Marginalized Importance Sampling for Off-Environment
    Policy Evaluation
    ● Pulkit Katdare, Nan Jiang, Katherine Driggs-Campbell
    ○ 実県境 RLポリシーを評価するため ,シミュレーションデータ 実環境 オフラインデータを使
    用する
    ○ 密度比率 予測を使 た評価方法 Marginalized Importance sampling おい 重み関数を学
    習必要があり,これを2 分割する.実環境 教師から 学習 シミュレーション おい 占有
    率 分けるこ ,計算効率をよくする.
    224
    作成者:牧原

    View Slide

  225. 論文ま め(181/199)
    Improving Behavioural Cloning with Positive Unlabeled
    Learning
    ● Qiang Wang, Robert McCarthy, David Cordova Bulens, Kevin McGuinness,
    Noel E. O’Connor, Francisco Roldan Sanchez, Nico Gürtler, Felix Widmaier,
    Stephen J. Redmond
    ○ オフライン 方策学習 おい ,少数 質が良い demonstrationデータ 多数 質が未知 学習
    データがある場合 学習
    ○ semi-supervised学習 より,未知データから質が良いデータを filteringし 動作学習 利用
    ○ 実機 cube持ち上げやそ 他シミュレーションタスク おい ,複数 オフライン学習や模倣学習
    baselineを上回る性能を達成
    225
    作成者:花井

    View Slide

  226. 論文ま め(182/199)
    Heteroscedastic Gaussian Processes and Random Features:
    Scalable Motion Primitives with Guarantees
    ● Edoardo Caldarelli, Antoine Chatalic, Adrià Colomé, Lorenzo Rosasco,
    Carme Torras
    ○ Heteroscedastic Gaussian process (不均一ガウス過程) 複雑性を解決するため 、ランダム
    カーネル関数 近似手法 ある Random Features (RFs)を用い 、LfD 高 軌道 処理を実
    現。
    ○ 本手法 軌跡を処理する課題 ため 理論的 適切 ある手法 あり、精度 ロスが い。
    226
    作成者:元田
    https://github.com/LCSL/rff-hgp
    図:検証を実施したLfD 例

    View Slide

  227. 論文ま め(183/199)
    Fleet Active Learning: A Submodular Maximization
    Approach
    ● Oguzhan Akcin, Orhan Unuvar, Onat Ure, Sandeep P. Chinchali
    ○ DNN ため 分散されたデータ 冗長性 課題 対応. Fleet Active Learning (FAL) いう提案
    法 サブ(劣)モジュラー関数 最大化 よりデータサンプル効率を実現.
    ○ FAL 意味 ある情報を優先的 サンプル し 選択.通信量を抑え がら適切 抽出.
    ○ Berkeley DeepDrive 実世界 知覚 関するデータセット おい 検証し性能向上
    227
    作成者:元田
    図:クラウド 更新されたモデル 重みを全
    ロボット 共有し、各ロボット それ 応じ
    モデル パラメータを更新.

    View Slide

  228. 論文ま め(184/199)
    BM2CP: Efficient Collaborative Perception with
    LiDAR-Camera Modalities
    ● Binyu Zhao, Wei ZHANG, Zhaonian Zou
    ○ LiDAR カメラを用いた単一 限ら いモダリティが重要 ある。
    ○ BM2CP よりモダリティを中間部分 統合する方法を提案。
    ○ 実世界 自動運転 おい ,通信が困難 ある状況( 50倍低い) 最先端 手法 勝 る!
    228
    作成者:元田

    View Slide

  229. 論文ま め(185/199)
    A Bayesian approach to breaking things: efficiently
    predicting and repairing failure modes via sampling
    ● Charles Dawson, Chuchu Fan
    ○ 様々 ロボットタスク おい ,失敗モード 予測 それ 対するアクション 修正をサンプリング
    ベース ベイズ推定手法 効率的 行う
    ○ シミュレーションモデル 評価関数を既知 し , MCMC 高リスク 失敗例や失敗から復帰する
    アクション例をサンプリングする.パーティクルフィルタ サンプルを更新する
    ○ 10台 移動ロボット かくれんぼ 動作計画や電力送電網 設計 適用し,従来手法 半分 イ
    テレーション 1/10 コスト 解が得られるこ を確認
    229
    作成者:室岡
    https://mit-realm.github.io/breaking-things/

    View Slide

  230. 論文ま め(186/199)
    Topology-Matching Normalizing Flows for
    Out-of-Distribution Detection in Robot Learning
    ● Jianxiang Feng, Jongseok Lee, Simon Geisler, Stephan Günnemann,
    Rudolph Triebel
    ○ 正規化フロー(NF)を用いたOut-Of-Distribution検出
    ○ NF base分布を微分同相写像 target分布 変換するため, base分布 単峰ガウシアン を
    用いる target 位相 違い より, target分布 モデル化性能低下や最適化が数値的 不安
    定 る いう問題がある
    ○ base分布 表現力が高く, target分布 位相構 を学習
    させるこ が きるResampled Base Distribution(RSB)
    を利用
    230
    作成者:花井

    View Slide

  231. 論文ま め(187/199)
    Fine-Tuning Generative Models as an Inference Method for
    Robotic Tasks
    ● Orr Krupnik, Elisei Shafer, Tom Jurgenson, Aviv Tamar
    ○ 生成したサンプルが観測 近く るよう , GPUを活用し深層生成モデルを素早く適応させる手法
    ○ 観測データを生成するシミュレータを使い,交差エントロピー法 複雑 事後分布を近似
    ○ 把持した物体形状 推定,逆運動学計算,点群補完 多様 ロボット利用 きる
    231
    作成者:花井

    View Slide

  232. 論文ま め(188/199)
    Neural Graph Control Barrier Functions Guided Distributed
    Collision-avoidance Multi-agent Control
    ● Songyuan Zhang, Kunal Garg, Chuchu Fan
    ○ Graph control barrier functions(GCBFs)を導入。これ 、CBF理論を基 し、グラフ構 を利用し
    拡張可能 一般的 分散制御。
    ○ グラフニューラルネットワークを使用し 、 GCBF 証明 分散制御を学習し、状態ベース モデル
    だけ くLiDAR 点群 対応。
    ○ エージェント 数や移動距離が増加し も主要 手法を上回 実行可能。
    232
    作成者:元田
    https://mit-realm.github.io/gcbf-website/

    View Slide

  233. 論文ま め(189/199)
    Learning Efficient Abstract Planning Models that Choose
    What to Predict
    ● Nishanth Kumar, Willie McClinton, Rohan Chitnis, Tom Silver, Tomás
    Lozano-Pérez, Leslie Pack Kaelbling
    ○ Long-horizon タスク計画問題を,抽象レイヤー タスクプランニング 詳細レイヤー モーション
    プランニング 2段解 解くため ,抽象レイヤー シンボリック 状態・アクションをデモンストレー
    ションから学習する
    ○ 観測データからゴール達成 関係ある変化 着目するこ 抽象レイヤーをシンプル する
    ○ BEHAVIOR-100 benchmark 物品移動タスク 有効性を確認
    233
    作成者:室岡
    https://nishanthjkumar.com/tamp-operator-learning.github.io/

    View Slide

  234. 論文ま め(190/199)
    PairwiseNet: Pairwise Collision Distance Learning for
    High-dof Robot Systems
    ● Jihwan Kim, Frank C. Park
    ○ ロボット 幾何干渉を回避するため , 3Dモデルから最近点 間 距離(干渉距離)を学習ベース
    効率的 計算する.従来 学習ベース干渉距離計算より精度が高い
    ○ 要素形状モデル ペア間 干渉距離を NN 予測する(形状モデルをサンプリングしたポイントクラ
    ウドをDGCNN 特徴抽出し全結合層へ繋い スカラ値を出力する)
    ○ 各ペア間 い 干渉距離を求め,最小値をグローバル 干渉距離 する
    234
    作成者:室岡
    https://www.youtube.com/watch?v=N5Q8ZXbB6Uc
    https://github.com/kjh6526/PairwiseNet

    View Slide

  235. 論文ま め(191/199)
    Equivalent Motion Manifold Primitives
    ● Byeongho Lee, Yonghyeon Lee, Seungyeon Kim, MinJun Son, Frank C. Park
    ○ 動作プリミティブ 軌道を生成するモデルを学習するこ が多い
    ○ 軌道 く連続的 多様体を生成するこ 未知物体や新しい制約 対する適応性を向上 きる
    が,こ よう 学習 多く データが必要
    ○ ロボットタスク 内在する対称性を考慮するこ データ効率を改善
    ■ latent codingをAutoEncoder 学習する き ,encoder 不変性,decoder 同変性を課
    すこ これを実現
    ○ タスクパラメータ 関し 共通 latent座標系を見 けるこ ,さら データ効率を改善
    ○ 実機 学習時 存在し い obstacleを回避
    235
    作成者:花井

    View Slide

  236. 論文ま め(192/199)
    Policy Stitching: Learning Transferable Robot Policies
    ● Pingcheng Jian, Easop Lee, Zachary Bell, Michael M. Zavlanos, Boyuan
    Chen
    ○ 強化学習 おい 方策をタスク依存部 ロボット依存部 モジュール化し,タスク ロボット 組み
    合わせを切り替え可能 する
    ○ 状態,方策,Q-関数をタスク依存部 ロボット依存部 分離
    ○ タスクモジュール ロボットモジュール 接続部 潜在表現を多数 方策 共通表現 るよう学
    習 し alignment
    236
    作成者:花井

    View Slide

  237. 論文ま め(193/199)
    α-MDF: An Attention-based Multimodal Differentiable Filter
    for Robot State Estimation
    ● Xiao Liu, Yifan Zhou, Shuhei Ikemoto, and Heni Ben Amor
    ○ ベイズ推定 おけるフィルターを学習ベース 構築する.こ き , Attention機構を用い 異
    るモダリティ 潜在表現を学習するよう し,そ ゲインも学習ベース 獲得可能 する.
    ○ 状態 行動 潜在表現をこ フィルター おすこ ,観測 コンテキスト 依存したゲインを生
    成し,状態推定 きる.
    ○ 剛体,ソフトロボット おい も状態推定 エラーが大きく削減 きた
    237
    作成者:牧原

    View Slide

  238. 論文ま め(194/199)
    Batch Differentiable Pose Refinement for In-The-Wild
    Camera/LiDAR Extrinsic Calibration
    ● Lanke Frank Tarimo Fu, Maurice Fallon
    ○ LiDAR キャリブレーションがため End-to-End アライメント手法を提案.
    ○ バッチ処理された変換を用いるこ 学習注 サンプル効率を向上.
    ○ 検証:センサー 用いた場合 十分 精度を達成.ゼロショット転移も可能.
    238
    作成者:元田
    図:画像 三次元情報から特徴を抽
    出.ボクセル 特徴 画像 特徴
    差分から位置 最適化を考える.

    View Slide

  239. 論文ま め(195/199)
    Embodied Lifelong Learning for Task and Motion Planning
    ● Jorge Mendez-Mendez, Leslie Pack Kaelbling, Tomas Lozano-P ´ erez
    ○ TAMP 軌道サンプリングする場合共有されるモデル 共有され いモデルを学習し,計画中 オ
    ンライン 使用するモデルを決定する
    ○ 過去 経験を次 計画 用い 効率よくサンプリングするため ,生成モデル おい ,軌道 サ
    ンプリング時 アクション 種類から絞り込むひ ようがある.こ き Diffusion modelを使用し
    ,分布ご モデルを用意する.
    ○ 過去 経験 基 い いるアクションから, FIne-tuningし 忘却するか,共同学習をするか,新モ
    デル 旧モデル サンプリングをバランスよく使うか 戦略を る.
    ○ 2DおよびBEHAVIOR 計画 おい ,時間 経過 も 大幅 改善がみられた
    239
    作成者:牧原

    View Slide

  240. 論文ま め(196/199)
    Compositional Diffusion-Based Continuous Constraint
    Solvers
    ● Zhutian Yang, Jiayuan Mao, Yilun Du, Jiajun Wu, Joshua B. Tenenbaum,
    Tomás Lozano-Pérez, Leslie Pack Kaelbling
    ○ 物体配置,把持姿勢, collision-free 制約をdiffusion modelから sampling し 解く
    ○ 個々 制約 対応した diffusion modelを学習,energy 和を考えるこ 全 制約 対応した
    解を求める
    ○ 多様 変数 よる条件付け,柔軟 制約 組み合わせが可能
    240
    作成者:花井

    View Slide

  241. 論文ま め(197/199)
    Generalization of Heterogeneous Multi-Robot Policies via
    Awareness and Communication of Capabilities
    ● Pierce Howell, Max Rudolph, Reza Joseph Torbati, Kevin Fu, Harish
    Ravichandar
    ○ 異種 マルチエージェント強化学習 おい 適応的 協調が重要 ある。
    ○ 分散型異種マルチロボット協調政策を新しい構成、サイズ、ロボット チーム 一般化する際 能
    力認識 コミュニケーション 役割を調査
    241
    作成者:元田
    https://sites.google.com/view/cap-comm

    View Slide

  242. 論文ま め(198/199)
    Task Generalization with Stability Guarantees via Elastic
    Dynamical System Motion Policies
    ● Tianyu Li, Nadia Figueroa
    ○ 柔軟 タスク 適応するため、 GMMベース Linear Parameter Varing (LPV) Dynamical System
    よる定式化を採用(左図)。 NN 手法 パラメータを調整 削減が目的。
    タスク 不変 パラメータ(物体、配置 )を表現するため 拘束条件を設定。
    → 別 情報(入力)を用い く も対応可能。
    ○ 実世界 ロボット 検証。また、制御理論を考慮し も、柔軟 適応性が示され いる。
    242
    作成者:元田
    https://sites.google.com/view/elastic-ds

    View Slide

  243. 論文ま め(199/199)
    Online Model Adaptation with Feedforward Compensation
    ● ABULIKEMU ABUDUWEILI, Changliu Liu
    ○ 分布シフトやダイナミクスが非定常 システム 対処するため モデル オンライン更新
    ○ feedbackアプローチ 過去 情報を忘れ しまう点が問題
    ○ 最新 サンプル く,メモリバッファ 重要 サンプル(最新 サンプル 近いサンプル) 対す
    る予測誤差を最小化するよう モデルを更新する提案
    ■ 手法 シンプルだが,理論的解析がし かりし いる
    ○ ダイナミクスが遅い場合 既存手法より誤差 上限を小さく
    抑えるこ が きる
    243
    作成者:花井

    View Slide

  244. 今後 展望
    今後,我々 し うすれ いいか?
    244

    View Slide

  245. 今後 展望(1/2)
    CVxRobotics 連携が鍵!
    ● Best paperを た著者 CV Robotics スーパースターが連 る
    ● 認識から行動ま 一貫したシステムが多数
    ● それぞれ 強みを生かした連携が必要
    245

    View Slide

  246. 今後 展望(2/2)
    CoRL いこう!
    ● 2017年ごろ USから きた学会だが,プレゼンス か り高い
    ● ICRA, IROS 匹敵する論文 質 盛り上がりをみせ いる
    ● 基盤モデル 組み合わせ ロボット学習 トレンド これからも続く可能性が
    高い!
    246

    View Slide