Slide 1

Slide 1 text

元田智大a,板寺駿輝a,片岡裕雄b,加藤辰樹c,堂前幸康a,中條亨一a, 西村樹希c,東和樹c,牧原昂志a,c,室岡雅樹d,Oh Hanbita ICRA 2024 速報 1 産総研 {オートメーションa, コンピュータビジョン b}研究チーム, 大阪大学c AIST-CNRSロボット工学連携研究ラボ d

Slide 2

Slide 2 text

概要:ICRA2024の動向,気づき ロボティクストップ国際会議ICRA2024のサーベイ報告 ● 今回どんな研究が流行っていた? ● 海外研究者は何をしている? ● 「動向」や「気付き」をまとめました 2 2024年5月14日-16日(Oral, Poster, Exhibition etc. ) 2024年5月13日, 17日(Workshop, Tutorial) website: https://2024.ieee-icra.org/ https://x.com/ieeeras/status/1790186352828461471 opening ceremony

Slide 3

Slide 3 text

ICRA2024の動向,気づき(1/40) ICRA 2024 とは? ● ロボット工学とオートメーションに関する国際会議2024(ICRA2024) ● 1984年に米国・アトランタで第1回が開催 → 2024年5月の横浜での開催は第41回 (補足) 来年度は米国・アトランタ開催であることが発表されている。 3 Google Scholarのh5-index (Roboticsカテゴリ)によると最も 貢献のある学会である

Slide 4

Slide 4 text

ICRA2024の動向,気づき(2/40) ICRA 2024 とは? ● ロボット工学とオートメーションに関する国際会議2024(ICRA2024) ● 1984年に米国・アトランタで第1回が開催 → 2024年5月の横浜での開催は第41回 (補足) 来年度は米国・アトランタ開催であることが発表されている。 ● ロボットやオートメーションに関する研究分野では トップカンファレンスの一つとして数えられている。 ● オートメーションに関する幅広い分野を網羅。毎回数千もの投稿と大勢の聴講参加 がある著名な学会であり、毎年注目度が高い。 ● 特に今回は日本開催。本会議の経済波及効果を約10億円*と試算されており、日 本と海外の研究者、さらには地元企業との交流が期待されている。 4 *https://www.hamakei.com/headline/11524/

Slide 5

Slide 5 text

ICRA2024の動向,気づき(3/40) ICRA 2024 Events ● ICRA Expo: 80 robots ● Workshop/ Tutorial: 73/ 6 sessions (proposal: 146) ● Late-breaking result posters: 226 (proposal: 243) ● Forum: 5 ● RAS event: 11 events ● Exhibition: 120 booth ● Competition: 11 events ● Technical Tours: 7 companies or labs 5

Slide 6

Slide 6 text

ICRA2024の動向,気づき(4/40) 会場の様子 ● Reception ● Farewell ● Banquet ● Exhibition etc. 6

Slide 7

Slide 7 text

ICRA2024の動向,気づき(5/40) ICRA 2024 Accepted Papers ● Plenary talks: 3 ● Keynote talks: 15 ● Papers: 2337 in 285 sessions ● Regular paper submissions: 3937 from 58 countries and regions ● Accepted paper: 1760 (採択率 44.7%) ● RAS journals: 577 (RA-L 451, T-RO 84, T-ASE 25, and RA Magazine 17) 7 日本は全体の5番手 投稿元

Slide 8

Slide 8 text

ICRA2024の動向,気づき(6/40) ICRA 2024 Accepted Papers ● Plenary talks: 3 ● Keynote talks: 15 ● Papers: 2337 in 285 sessions ● Regular paper submissions: 3937 from 58 countries and regions ● Accepted paper: 1760 (採択率 44.7%) ● RAS journals: 577 (RA-L 451, T-RO 84, T-ASE 25, and RA Magazine 17) 8 日本は全体の5番手 投稿元 年度 開催地 投稿数 採択論文数 採択率 2024 Yokohama, Japan 3,937 1,760 45% 2023 London, UK 3,125 1,345 43% 2022 Philadelphia, USA 3,313 1,428 43% 2021 Xi'an, China 4,005 1,946 49% 2020 Paris, France (Online) 3,466 1,483 44% 2019 Montreal, Canada 2,902 1,317 45% 2018 Brisbane, Australia 2,586 1,056 41% 2017 Singapore 2,289 939 41% 参考: 2023年までの情報を下記から取得。 あくまで参考値としてご確認ください。 https://research-p.com/column/1287 https://staff.aist.go.jp/k.koide/acceptance-rate.html

Slide 9

Slide 9 text

ICRA2024の動向,気づき(7/40) ICRAに採択されるには? ● 課題やテーマに対する定義・設定が”特殊” / ”斬新” / “イノベーション” ○ 例:独自のハードウェアに適切なデータ・モデル・プランニングを提案している ○ 例:誰も挑戦していないタスクを実現する提案でありつつ、拡張性を示されている ○ 例:研究分野をリード・評価するための研究。コミュニティやベンチマークの提唱。 ● ロボットやビジョンの研究評価 ○ 絶対的指標や相対的な評価は ”Outbreak”を起こすのに最良であるが、必ずしも研究をアピールす る正しい戦略であるとは言えない。 ○ 事例: ■ Milestoneを主張する。Maximum Goalがどこにあるのかが分かるように。 ■ ベンチマークを持ち出す ■ ロボットのように実体のあるものは「実際に動く≒デモ・競技会」という自明な結果を出すのが 得策である。(ただし、 Simulationを貶める主張ではない) 9 ⭕ ロボットは動くこと。速さ、正確さ、安定性 ⭕ 学術誌水準の内容でないと、今後は採択されない

Slide 10

Slide 10 text

ICRA2024の動向,気づき(8/40) ICRAに採択されるには? ● 新しい研究・技術をいち早く取り入れる!ロボティクス研究の加速傾向 ○ 今年度ではSegment-Anything model(Meta, Apr., 2023)のようなコンピュータビジョン分野の新 技術やAction Chunking with Transformers(Stanford univ., Feb., 2023)のようなロボット学習に 関する研究手法が人気。主に視覚や言語に関する手法で先進技術を利用。 ○ 既存技術との融合や、少しずつ開発が進められたハードウェアを応用する手段として、 有用な技術であるため、より一層のコラボレーションの重要性が増している。 → CoRL、RSS、CVPRやNeurIPSのような学会の中から有力なアイディアを見つけ出す ”嗅覚”が求められるかもしれない (※メインの開発とは別に、トレンドを取り入れた研究で採択が狙える可能性に留意) 10 ICRAの投稿〆切が2023年9月頃である為、 こうした新しい技術や手法が 半年足らずで導入され採択 されている事実

Slide 11

Slide 11 text

ICRA2024の動向,気づき(9/40) ロボットがDexterity (器用さ)を得るためのアイディアは? ● ”タスク”自動化の次のヒントは「触覚」と「双腕」。これらは器用さ、つまりタスクを拡 張するためのアイディアの一つ。 ○ 触覚:ObjectとEEFをどのような接触をするか、対象の状態に依存する器用なタス クにとって、重要な「感覚、識別」である。 ○ 双腕:空間、力学、幾何学的なタスク空間を拡張する(≒多指ハンドの議論)。専用 治具や専用EEF、可能タスクへの分割を実施して工夫していた時代から、「協働」や 人の動きのTransferの議論から直接的に両腕のモーションを生成するアイディア が考えられるように。 例えば、KITのAsfour教授は料理について以下のキーワードを提示  ー Cooking is Bimanual ! (By Prof. Tamin Asfour, KIT) 11

Slide 12

Slide 12 text

ICRA2024の動向,気づき(10/40) Data Collections in Robotics ● ロボティクスでも”ImageNet”をモデルケースとして多くの動きがあった ● ハードウェア開発とデータ収集システムの提案 (例えば、Mobile ALOHAに追従するような興味深い提案が多数) ○ データをオープンに公開し、会期中に Workshop, Posterで宣伝。 ○ 関連するセッション: Big Data in Robotics, Dataset for Robot Learning ○ 単にモダリティ(視覚や音など)の拡張だけでなく、ハードウェアを想定した独自データベースを公開 することが主流 ○ 身体(ハード)に関する情報が暗に含まれるべきという流れに注目すべし 12 i. 画像認識におけるスタンダードとして定着 ii. 十分なデータ量と共通のベンチマークとして iii. 深層学習分野の研究への大きな貢献 https://image-net.org/update-mar-11-2021.php

Slide 13

Slide 13 text

ICRA2024の動向,気づき(11/40) Robot Learning に関する気づき ● 基盤モデル(LLM, VML)トレンド ○ 言語モデルをTAMPとして、シーケンス生成 ○ 画像生成AI(T2I)によるデータセット構築 ○ Segment-Anything (Meta, 2023)を始めする「基盤モデル」の技術を適切に利用 する事例も多い←毎年出てくる新しい技術を早々に導入 ● アーキテクチャ、モデルに関するトレンド ○ GPT-4, ChatGPTによるPrompt EngineeringによるHigh-levelプランニング ○ Action Chunking with Transformer (Standord, 2023) + 改良モデル ○ Diffusion policy (TRI, 2022) + 改良モデル 13

Slide 14

Slide 14 text

ICRA2024の動向,気づき(12/40) 身体性(Embodiment)の議論が盛ん ● OXEをはじめとしてロボットモデルの汎用性に着目して大規模かつ効率的にデータ を収集する手法の紹介が目立つ。 ● 身体性と知能化のための学習は相互に作用しながら共進化する関係性を有するた め(Plenary talk2 より)、どのようなハードウェアを用いたのか、どのようなメカニズ ムを持っているのかを考察することが重要である。 ○ 一つのアイディアとしてはマルチモーダルシステムを構築して、主として用いらる視覚情報だけでは 足りない情報を獲得することが重要であることが指摘されている。 e.g., 触覚センサ、視触覚センシング、音声情報、ロボットのメカニズム ○ 両手のロボットなどの自由度の違いに関する考察 14

Slide 15

Slide 15 text

ICRA2024の動向,気づき(13/40) Robot Learning による実世界適応 => 大規模事前学習・小規模適応学習の対比 ● 大規模事前学習 ○ 1:大量の言語・画像をWEBから収集して学習 ○ 2:大量のロボット動作を現実空間から収集して学習 ○ 例:LLM / LVM一般,Robotics Transformer-1/2/X ● 小規模適応学習 ○ 1:事前学習と近いドメインではゼロショット適応が可能 ○ 2:特定タスクに対して小さく集めて高精度に適用学習する ○ 例:模倣学習一般,Mobile ALOHA 15

Slide 16

Slide 16 text

ICRA2024の動向,気づき(14/40) 新しいハードウェア開発はあったか? ● 適切な問題設定を定め、それを十分なハードウェアを実装する研究が多い。 ● 一方で”トンでも”ハードウェアはICRAでは少な目な印象。 ● Gelsightに代表される視触覚センサのトレンドは継続している。例えばグリッパや 多指ハンドに埋め込み新しいタスクを実現した事例が多い。 ○ これらは主に物体の姿勢や状態を分析するために利用される。特殊なノイズの影響を受けずに、 視覚情報として解釈することができるため、学習系の手法に非常に相性がよく、新しいデータセット のための感覚器官として機能している事例もある。 ○ GelsightやFingerVisionライクなハードウェアが日々開発されているが、計測原理などは大きく変 化しておらず、タスクに応じたマイナーチェンジがなされている印象。 ● 日々ハードウェアは開発と提案があるため、比較することが難しいが、 Moonshotに代表されるように、「どのような目的か」という視点が今後も重要であ る。 16

Slide 17

Slide 17 text

ICRA2024の動向,気づき(15/40) Assembly automation ● LLMを活用した組み立ての上位シーケンス(部品の順序)の自動生成などが増えて きた ● 物体を積み上げる位置や順序などを生成するアプローチが多い ● 実際のロボットや製品を使ったアプリケーションは少なく,これから上位シーケンス と連動しつつ,下位シーケンス(行動)の生成をすることが必要 ● 組み立て作業の制約(Collision, Reachabilityなどロボットに関するもの)を考慮す ると上位シーケンスの修正も必要になる ● ロボットの身体まで考慮したシーケンスの生成が次のステップ? 17

Slide 18

Slide 18 text

ICRA2024の動向,気づき(16/40) Plenary Talk by Dr. Yoky Matsuoka, CEO of Yohana ● How to Turn a Roboticist into a Corporate Explorer ○ 重要なキーワードである 「Corporate Explorer」について自身の経歴や経験を踏まえて解説。 ○ これまでの研究開発の立ち位置は ”一方通行”になっている? ■ アカデミックな研究者 =論文を量産するが、製品は作らない。資金力は低い 💲 ■ アカデミックなエンジニア( MS Research, Google Deep Mindなど) =新しい技術を提案しつつ、製品への展開を考える。論文はほぼ書かない。 ■ 企業(起業家)のエンジニア =製品開発に専念する。論文は書かない。資金力はある 💲💲💲 ○ 研究者は起業家に学ぶべきであり、またその逆もしかり ■ 現在のグローバル市場で意義深いビジネスを創出(≒資金調達)には ロボット研究者も枠組みを打ち破る ”Corporate Explorer”になるべきだ! → 現代の企業の成長とイノベーションの形である 18

Slide 19

Slide 19 text

ICRA2024の動向,気づき(17/40) Plenary Talk by Prof. Sami Haddadin, Robotics and Systems Intelligence, Technical University of Munich ● The Great Robot Accelerator: Collective Learning of Optimal Embodied AI ○ ロボットの成長には「身体性」「知能」の 自律的な共進化が必要不可欠である。 ○ AIによるロボットの進化に向けて、 Collective Learning (集団学習)と Embodied AI に関する概念を紹介。 ○ まず身体を持たない AIだけが学習を進めても、 必ずしもロボットの改善にならない。 → どのようなハードウェアを有するののか、 を考えながらでないと変革は引き起こせない。 19 転載:https://2024.ieee-icra.org/

Slide 20

Slide 20 text

ICRA2024の動向,気づき(18/40) Plenary Talk by Prof. Sunil K Agrawal, Professor of Mechanical Engineering and Rehabilitation Medicine, Columbia University ● Rehabilitation Robotics: How to Improve Daily Functions in People with Impairments? ○ 「リハビリテーションロボティクス」の紹介 ○ ロボティクスは、人間の神経筋反応に影響する、 人間の機能を再訓練するための新しい方法。 (リハビリ向けのロボットの方向性を提示) ○ 立つ、歩く、階段を登る、体幹制御、 頭を回すなどの人間の機能を改善する科学的研究 20

Slide 21

Slide 21 text

ICRA2024の動向,気づき(19/40) Keynote session by Prof. Kensuke Harada, Osaka Univ. Japan ● Robotic Manipulation Aiming for Industrial Applications ○ ロボットの産業応用の観点での取り組みの紹介. ○ Task and Motion planningのなかでのデータベースや機械学習手法は大きな役割を果たしていて ,活用することでFull Automationの実現に近づくことができる. 21

Slide 22

Slide 22 text

ICRA2024の動向,気づき(20/40) Keynote session by Prof. Yasuhisa Hirata, Tohoku Univ. Japan ● Smarter Inclusive Society: vision of the society of 2050 ○ JST Moonshotプロジェクト目標3「活力ある社会を作る適応自在 AIロボット群」の講演 ○ AIロボットによるサポートにより,人間自身が新たなチャレンジができる社会を創造 ○ 人間をサポートする技術として,ロボット・ AI・VRの融合,及びその応用について紹介 22

Slide 23

Slide 23 text

ICRA2024の動向,気づき(21/40) Keynote session by Prof. Harold Soh, Singapore Univ. ● Building Bridges Towards Embodied Generative AI ○ Realロボットドメインのための Generative AI:Diffusion Modelによるロボットポリシ学習 ○ RealロボットドメインからGenerative AIへの貢献:実世界での Touchから集められるデータ 23

Slide 24

Slide 24 text

ICRA2024の動向,気づき(22/40) JST Moonshot プロジェクトから多くの展示 ● Webpage: https://www.jst.go.jp/moonshot/ ● 2050年までのBigChallengeを形にするための大型研究開発事業 ● 地元開催ということもあり,料理・介護ロボットなど多くのロボットを展示 24

Slide 25

Slide 25 text

ICRA2024の動向,気づき(23/40) [Exhibition] ムーンショット 料理ロボット実演 ● ヒューマノイドよる料理の実演 ● 会場で実演するのはすごい ● ↑尾形先生がアピールしてた 25

Slide 26

Slide 26 text

ICRA2024の動向,気づき(24/40) [Exhibition] Unitree社の新型ヒューマノイド Unitree G1 ● 宣伝動画はhttps://youtu.be/GzX1qOIO1bE?si=rqG9UrSLlOmf2LeV ● 16000$から購入できるヒューマノイドロボット ● 身長は結構小さい,小学生くらい 26 https://www.unitree.com/g1/

Slide 27

Slide 27 text

ICRA2024の動向,気づき(25/40) [Exhibition] 日立と早稲田大学尾形研究室 27 人間による操作をロボットがリアルタイムで再現 ドア開け動作の実演

Slide 28

Slide 28 text

ICRA2024の動向,気づき(26/40) [Exhibition] 企業の展示の様子 ● 展示で各社がヒューマノイドや 脚ロボット、遠隔操作システムを紹介 → 近年安定性の ● Unitreeが安価で高性能な ロボットが紹介 ● 川崎重工業のKaleidoやTHKの世界最速 で走ることができる脚ロボットなど 国内企業が多く出展。 ● 会場内を4脚ロボットが走り回るなど、 ロボット展示会としてもだけでも面白い 28

Slide 29

Slide 29 text

ICRA2024の動向,気づき(27/40) [Exhibition] 企業の展示の様子 ● 多指ハンドの展示が増えている ● OpenAIのIn-Hand manipulationのデ モ(2019)でのShadow robotのハンドが 有名 ● SHUNKやヒューマノイドにも搭載されて いることが多く,Teslaや BostonDynamicsのデモに近いような器 用な操作ができるハードウェアが今回の テーマ? 29

Slide 30

Slide 30 text

ICRA2024の動向,気づき(28/40) [Competition] ICRA2024 FOOD TOPPING CHALLENGE ● 変化の多いトッピング作業に適用し自動化する技術、開発を競う。 ● いくら(=ICRAに語感が似ている)丼と唐揚げのトッピングが課題 ● FoodlyやNextageを利用し、各チームが小さく柔らかいもの安全に把持する originalグリッパを開発。正確な量と場所に配置することを自動で実現。 30 https://icra2024.rt-net.jp/ Winnerへ送られるトロフィー

Slide 31

Slide 31 text

ICRA2024の動向,気づき(29/40) [Competition] WRS Future Convenience Store Challenge in Cyber Space ● 産総研NEDO3プロジェクト成果である拡張版SIGVerse(稲邑先生)を用いた仮想世 界での人・機械インタラクション競技 ● 言語指示から、モバイルマニピュレータに適切な商品を探しに行かせる ● 曖昧な文章指示から、商品を特定する部分をLLMベースで各チーム実装 ● 1st trial で言語指示の明快さを競った。実ロボット動作は次回以降に 31

Slide 32

Slide 32 text

ICRA2024の動向,気づき(30/40) [Award Session] Robot Manipulation🎉 ● 🎉🎉OpenX Embodiment: Robotics Learning datasets and RT-X Models Towards Generalizable Zero-shot Manipulation via Translating Human Interaction Plans [Best Conference Paper Award] ● Hearing Touch: Audio-Visual Pretraining for Contact-rich Manipulation ● 🎉SARA-RT: Scaling up Robotics Transformers with Self-Adaptive Robust Attention [Best Paper Award in Robot Manipulation] ● DenseTact-Mini: An Optical Tactile Sensor for Grasping Multi-Scale Objects from Flat Surfaces ● Constrained Bimanual Planning with Analytic Inverse Kinematics 32 ★ 先進的な研究機関の研究(Googleなど)がエントリー ※robotpaper.challengeのPickupセッション

Slide 33

Slide 33 text

ICRA2024の動向,気づき(31/40) [Award Session] Robot Manipulation🎉 ● 🎉🎉OpenX Embodiment: Robotics Learning datasets and RT-X Models ● Towards Generalizable Zero-shot Manipulation via Translating Human Interaction Plans [Best Conference Paper Award] ● Hearing Touch: Audio-Visual Pretraining for Contact-rich Manipulation ● 🎉SARA-RT: Scaling up Robotics Transformers with Self-Adaptive Robust Attention [Best Paper Award in Robot Manipulation] ● DenseTact-Mini: An Optical Tactile Sensor for Grasping Multi-Scale Objects from Flat Surfaces ● Constrained Bimanual Planning with Analytic Inverse Kinematics 33 ★ 先進的な研究機関の研究がエントリー ★ Googleに関連のある研究が2件 ● 結果的にOXEがBest Conference Paperに選出。セッ ションではSARA-RT。 → Foundation model(基盤モデル)関連に注目。 ※Google関連成果は確かに面白く,2023~2024のトレ ンドが現れていると思います。 ● タスクの器用さの拡張には、新しいハードウェアが提案 (Tactile Sensing)。画像やテキストなどのトレンドに限ら ず解析的な動作計画 ● どの研究も実験や機構的な利点が明確。

Slide 34

Slide 34 text

ICRA2024の動向,気づき(32/40) [Award Session] Cognitive Robotics🎉 ● Resilient Legged Local Navigation: Learning to Traverse with Compromised Perception End-To-End ● 🎉Vision-Language Frontier Maps for Zero-Shot Semantic Navigation [Best Paper Award in Cognitive Robotics] ● Learning Continuous Control with Geometric Regularity from Robot Intrinsic Symmetry ● Learning Vision-Based Bipedal Locomotion for Challenging Terrain ● 🎉🎉NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [Best Conference Paper Award] 34

Slide 35

Slide 35 text

ICRA2024の動向,気づき(33/40) [WORKSHOP] Bi-manual Manipulation: ON KITCHEN CHALLENGES (1/2) ● 『Kitchen』環境のマニピュレーション視点から見る。研究の意義に注目。 ○ 重要なポイント ■ かき混ぜる、皮をむく、切り分ける、等のドメイン特化の問題 ■ ここでは、問題の設定とタスクの定義などシステム・ハード側の構築が重要。 (↔データのスケールアップすることで解決する) ■ どのように研究を評価するべきか?( e.g. 良いベンチマークを設定すること) ○ PDDL:人工知能とロボティクスの分野で発展した言語体系、は基本的に利用される ○ レシピの解析やTAMPなどの研究分野の好例であった。ただし次の欠点があった: ■ 😒Unstructured, Unseenな問題に不得手 ■ 😒限られたシーンであるため、一般的出ない ○ 近年では一般性を高められる LLMを組み合わせることで従来法を拡張した ■ 😊シーン、言語指示への理解が GPT-4等のPrompt Engineeringで容易にPDDLを構築。 35 URL: https://sites.google.com/view/icra2024-ws-bi-mp/home

Slide 36

Slide 36 text

ICRA2024の動向,気づき(34/40) [WORKSHOP] Bi-manual Manipulation: ON KITCHEN CHALLENGES (2/2) ● データ効率の重要性 ○ State、Action、Planを徹底的に分析して定義することは、豊富なデータの効果的にするコツ ○ LLMは手動で構築することの欠点である『一般性の不足』を解決するトレンドの一つ ○ 必ずしもデータ量が重要でない分野が『キッチン』というドメイン。手続きや対象物の状態が明示的 であることの方が問題解決の本質的な議論である。 ● 多様性への挑戦 ○ 質を保持しつつ、分布(タスク種類)を大きくすることが重要。 ○ 例えば柔軟性やグリッパ別の特性調査が重視される。調査によると問題の複雑さがよく分かる。こ れに比べ基盤モデル研究においてはこうした身体性は浅いという見解。 36 URL: https://sites.google.com/view/icra2024-ws-bi-mp/home

Slide 37

Slide 37 text

ICRA2024の動向,気づき(35/40) [WORKSHOP] Cooking Robotics: Perception and Motion Planning ● 料理、食事、食品産業に関わる 自動化を焦点として技術を探求。 ○ キッチンから提案された研究に対して 人の食事のサポートや、両手操作、 ならびに食品の状態変化に関わる研究を 紹介。 ○ キッチン内に限らず、ダイニングや 食事が喉を通るまでをロボティクスの観点 から考察。新しい研究分野を探索。 ○ また、料理というタスクの面白さを専門家 が解説しており、非常に興味深い。 ● Food Topping Challengeとの連携 (Winnerによる講演もあった) 37 URL: https://sites.google.com/view/icra2024cookingrobotics/home URL: https://icra2024.rt-net.jp/archives/92

Slide 38

Slide 38 text

ICRA2024の動向,気づき(36/40) [WORKSHOP] ViTac 2024: Robot Embodiment through Visuo-Tactile Perception ● 視触覚センサのワークショップ ○ 低価格化や視野の拡大 ,小型化など,性能の向上のためのデザインやデータ処理の研究 ○ 視触覚センサもかなり手ごろになってきており, GelSight miniは499ドル程度で購入可能 ○ センシングにとどまらず,物性の推定や Manipulationに応用する事例も増えた 38 https://shanluo.github.io/ViTacWorkshops/

Slide 39

Slide 39 text

ICRA2024の動向,気づき(37/40) [WORKSHOP] NeuroDesign in Human-Robot Interaction ● ハード・ソフト両面からHRIデザインを議論するワークショップ (主にソフトの講演を聴講) ● 双方向コミュニケーションを介して協調するために 必要なプロトコルをいかに抽出するか、の観点で 深層学習を使った事例も紹介 39 URL: https://neurodesign-in-hri.webflow.io/

Slide 40

Slide 40 text

ICRA2024の動向,気づき(38/40) [WORKSHOP] Human-aligned Reinforcement Learning for Autonomous Agents and Robotics ● ロボットでhuman-in-the-loopな強化学習を展開・議論するワークショップ ● Pulkit Agrawal 先生 (MIT) の講演から:ロボットデータのスケール化のため 環境と報酬の設計をどうやってスケール化するか? ○ 3D scene reconstructionからデジタルツイン環境を簡易に構築する ■ RialTo: https://real-to-sim-to-real.github.io/RialTo/ ○ どちらがよりゴールに近いかをウェブアンケートで収集 する報酬設計の半自動化 ■ HuGE: https://human-guided-exploration.github.io/HuGE/ 40 URL: https://harlworkshop.github.io/index.html

Slide 41

Slide 41 text

ICRA2024の動向,気づき(39/40) [WORKSHOP] 3D Visual Representations for Robot Manipulation ● Invited Talk #3: Ken Goldberg: Is Data All You Need? Large Robot Action Models and Good Old Fashioned Engineering ○ 個々のモジュールを組み合わせた技術と E2Eモデルはどちらがいいのか? ○ データ量がすべてだというが, WaymoはTeslaの1/500のデータで運転ができている ○ OXEやALOHAなどのデータ利用もあるが,把持の ための大規模データ (Dex-net)やMotion planning, P ID制御など個々の有効なモジュールは産業にも展開 されているため重要な技術である ○ 手術などはMANIPという個別モジュールをくみあわ せによって実現している ○ 人間の脳も機能ごとに分割されているため理には かなっている 41

Slide 42

Slide 42 text

ICRA2024の動向,気づき(40/40) [WORKSHOP] Vision-Language Models for Navigation and Manipulation ● Foundation modelでロボティクスの問題は解決できるか?という問いについて議 論 ○ NavigationについてはViNTなどが代表例で,カメラの視点のばらつきに対応できれば,移動ロボッ トのデータがドローンなどにも転移できるため, Cross-embidimentの可能性はある ○ Manipulationについては,High-levelな知識はLLMなどから得ると片付けなどのタスクができる (Tidybot).あとは成功失敗などの報酬を VLMに出力させるなど(RoboFUME) ○ 人間のデータからロボットの操作への転移や Diffusion Policyの効果的な学習などがトピックになっ ていた 42

Slide 43

Slide 43 text

以下は論文まとめ ● arXiv等で無料アクセス可能なPreprintが公開されているものに限り1枚スライドにまと めを作成しました. ● 論文リンクはスライドごとに載せています. 43

Slide 44

Slide 44 text

論文まとめ(1/87) FSD: Fast Self-Supervised Single RGB-D to Categorical 3D Objects ● Mayank Lunayach et al. ○ シミュレーションと実データを両方使って物体の形状と姿勢を推定する手法 ○ 事前学習の段階でシミュレーションデータを大規模に学習.次に, SimとRealを混ぜたデータ,最後 にRealのみという段階を分て学習. ○ シミュレーションデータによる事前学習が大きく効果を発揮している ○ マルチタスクのHeadにより関連のあるタスクを加えることで精度が大きく向上した 44 https://arxiv.org/abs/2310.12974

Slide 45

Slide 45 text

論文まとめ(2/87) Physics-Encoded Graph Neural Networks for Deformation Prediction under Contact ● Mahdi Saleh et al. ○ 柔軟物体の変形をGNNで推定する手法 ○ 剛体と柔軟物体の接触を仮定し,それぞれの GNNから特徴量を利用して変形の予測を行う ○ GroundTruthにはFEMベースの手法として用意して学習を行い,良い予測結果と 4msと高速な推 論を可能にした 45 https://arxiv.org/abs/2402.03466

Slide 46

Slide 46 text

論文まとめ(3/87) Point Cloud Models Improve Visual Robustness in Robotic Learners ● Skand Peri et al. ○ Point Cloudを入力とした世界モデルベースの強化学習における視点変化の影響 ○ オクルージョンを含む PoinctCloudとRGB-Dを使用した場合で2Dと3Dで比較 ○ 学習データにない視点を与えた時に,元の視点からの違いが大きいと成功率は下がっていくが 3D の方が高い水準を維持できている 46 https://arxiv.org/html/2404.18926v1

Slide 47

Slide 47 text

論文まとめ(4/87) The New Dexterity Open-Source Bimanual Manipulation Platform (OpenBMP) for Education and Research ● Che-Ming Chang et al. ○ 双腕操作を実行可能なはハードウェアと遠隔操作システム ○ 人間の身体構造に近い設計で腕と多指ハンドが設計されており,ハンドはトルクが出るものと軽い もののオプションが用意されている ○ 指の動きまでトラッキングするインターフェースで繊細な操作を可能にしている 47 https://github.com/newdexterity/Open-Biomanual-Manip ulation-System/tree/main?tab=readme-ov-file

Slide 48

Slide 48 text

論文まとめ(5/87) Self-Recovery Prompting: Promptable General Purpose Service Robot System with Foundation Models and Self-Recovery ● Mimo Shirasaka et al. ○ 世界大会(RoboCup@Home 2023)のGPSRを想定したシステム設計 ○ 情報不足や誤った行動計画の生成や実行失敗に対してシステム自身がリカバリーを行う. ○ プロンプトとして,LLMや人間のフィードバックをベースに行動の再計画を実行 48 https://sites.google.com/view/srgpsr

Slide 49

Slide 49 text

論文まとめ(6/87) DefGoalNet: Contextual Goal Learning from Demonstrations for Deformable Object Manipulation ● Bao Thach et al. ○ 人間の実演というコンテキストから目標の柔軟物体の形状を推定する手法 ○ PointCLoudで対象の布と物体を操作した人間のての PointCloudを利用して,ゴールとなった PointCloudをデモンストレーションから取得する ○ 取得されたゴールの PointCloudと現在の状態を入力して DeformerNetで行動を出力する ○ わずか10回のデモンストレーションで学習した場合でもほぼ 90%の成功率 49 https://synthical.com/article/990d1c83-4d7 4-4606-aefa-698c0480307a

Slide 50

Slide 50 text

論文まとめ(7/87) SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained Networks ● Xingyu Lin, John So, Sashwat Mahalingam, Fangchen Liu, Pieter Abbeel ○ 事前に訓練された視覚表現を使用し、未知カテゴリーの変化に対応するポリシーを少数のデモンス トレーションで学習 ○ 観察を入力とする別の CNNをゼロから訓練。異なる層で事前に訓練された特徴と新しいストリーム を融合させるアダプターモジュールを設計 50 https://arxiv.org/abs/2307.03567

Slide 51

Slide 51 text

論文まとめ(8/87) RGBManip: Monocular Image-based Robotic Manipulation through Active Object Pose Estimation ● Boshi An, Yiran Geng, Kai Chen, Xiaoqi Li, Qi Dou, Hao Dong ○ 単眼カメラのみを利用してアクティブな計測をおなうことで、奥行の不足を軽減誌ながら、6 Dポーズ 推定を実現している。 ○ さらに強化学習との連携によって姿勢の推定と操作の時間効率を考慮している ←計測に時間がかかって本末転倒にならないように工夫している。 51 https://arxiv.org/abs/2310.03478

Slide 52

Slide 52 text

論文まとめ(9/87) RiskBench: A Scenario-based Benchmark for Risk Identification ● Chi-Hsi Kung et al. ○ 動的な歩行者や想定外の状況からリスクを識別・分析することに特化したベンチマーク。 ○ 各シナリオについてデータを拡張するためのパイプラインを提案。 ■ カメラ、LiDAR, GNSS、IMUからデータを収集して、それぞれにラベルを付与 ○ リスクの検出・位置の特定・予測・意思決定について検証している。 52 https://arxiv.org/abs/2312.01659

Slide 53

Slide 53 text

論文まとめ(10/87) 53 RoboAgent: Generalization and Efficiency in Robot Manipulation Via Semantic Augmentations and Action Chunking ● Homanga Bharadhwaj et al. ○ 12種類(38タスク)の操作スキルに対して多様なシナリオを提供。 ○ データセット自体は7500と少量ながら、DataAumentationなどの工夫と、 MT-ACTポリシー表現を使用して、 低データ環境で一般化可能なポリシー学習を実現 ○ https://arxiv.org/abs/2309.01918

Slide 54

Slide 54 text

論文まとめ(11/87) Open X-Embodiment: Robotic Learning Datasets and RT-X Models ● Sergey Levine et al. ○ ロボティクスにおける多様なデータセットを構築するにはどうすべきか? ↔ [従来の課題] アプリケーションに対して別々にモデルを構築している ○ 標準的なデータ形式とモデルを提供して ”新しい”「ロボット」「タスク」「環境」に適用でき る”Generalist”を構築する。複数の研究機関からデータを収集 →RT-X ○ 22のロボット、21機関、527のスキル(160266タスク)を含む大規模なデータセットによって改善と 向上があった。 54 https://robotics-transformer-x.github.io/

Slide 55

Slide 55 text

論文まとめ(12/87) Hearing Touch: Audio-Visual Pretraining for Contact-Rich Manipulation ● Jared Mejia, Victoria Dean, Tess Hellebrekers, Abhinav Gupta ○ (接触)マイクロフォンを触覚センサの代替として利用して、視覚やテキストに比べてデータ量が少 ない”ギャップ”を埋める試み。ロボットの動作に関して性能の向上を期して新しいモダリティを導入 しようと挑戦ととしては新しい。 ○ タスク毎の検証によってビジョンだけの操りに比べて音声データ(触覚の代用)を導入した場合に性 能の向上を確認。また新しい感覚はスクラッチからの学習で十分である発見。 55 https://sites.google.com/view/hearing-touch

Slide 56

Slide 56 text

論文まとめ(13/87) SARA-RT: Scaling up Robotics Transformers with Self-Adaptive Robust Attention ● Isabel Leal et al. ○ 新しいファインチューニングの方法である SARA-RTを提案。up-trainingと呼ばれる技術、学習可能 なガウス射影行列(Softmaxに代わって利用)によって事前に学習されたポリシーを、効果的に ”線 形計算量”に変換し、性能の劣化を防ぎつつ、処理の高速化を実現。 ○ RT-2のような大規模学習モデルや点群に関する Transformerモデルを高速化することができる ○ 56 https://arxiv.org/abs/2312.01990

Slide 57

Slide 57 text

論文まとめ(14/87) DenseTact-Mini: An Optical Tactile Sensor for Grasping Multi-Scale Objects from Flat Surfaces ● Won Kyung Do, Ankush Dhawan, Mathilda Kitzmann, Monroe Kennedy ○ 球面のゲル表面形状をもった小型の視触覚センサの提案。単に認識を想定した設計ではなく、把 持するための工夫とモデルの分析が含まれている。 ○ 動作モデルとして、Tap, Fingernail, Fingertip Graspingの3つのモードを考察。 ○ 薄く小さいものピッキングを含むタスクの検証において 90%以上の把持を実現。 57 https://sites.google.com/view/densetact-mini/home

Slide 58

Slide 58 text

論文まとめ(15/87) Constrained Bimanual Planning with Analytic Inverse Kinematics ● Thomas Cohn, Seiji Shaw, Max Simchowitz, Russ Tedrake ○ 双腕ロボットのためにサンプリングベースのモーションプランナを提案。『逆運動学問題の解析的な 解』を用い、空間をパラメータ化し、コンフィグレーション空間上の低次元表現として用いている。 ○ 既存のアルゴリズムに対してこの ”パラメータ設定”手法をどのように適用するかを紹介 ○ 計算時間をベースに性能を評価して、既存手法比べてよりショートパス、計算を高速化。 58 https://tommycohn.com/Bimanual-Web/

Slide 59

Slide 59 text

論文まとめ(16/87) Mobile Robot Oriented Large-Scale Indoor Dataset for Dynamic Scene Understanding ● Yi-Fan Tang et al. ○ THUD (Tsinghua University Dynamic) robotic dataset:モバイルロボット向けの大規模な室内 データセットを提案。特に動的なシーンを推論と学習のために構築されている。 ○ 主に運用上必要な三次元の推論やセマンティックセグメンテーションなどを想定 ○ 13の大規模な動的シナリオ、 90Kの画像フレーム、20Mの静的および動的オブジェクトの 2D/3Dバ ウンディングボックス、カメラの姿勢、 IMUを含む 59 https://jackyzengl.github.io/THUD-Robotic-Dataset.github.io/

Slide 60

Slide 60 text

論文まとめ(17/87) InteRACT: Transformer Models for Human Intent Prediction Conditioned on Robot Actions ● Kushal Kedia, Atiksh Bhardwaj, Prithwish Dan, Sanjiban Choudhury ○ 人ロボット協働を想定したデータセット・学習アーキテクチャの提案、学習方法の評価 ○ 人の暮らしの中のロボットは相互依存性が重要 → 従来法は独立してロボット動作が学習されていた ○ 大規模な「人-人」データの活用に着目( CoMaDo) → 人とロボットの機構的な相互関係に注意しつつ、 人とロボットの協働作業に転移学習( InteRACT) ○ [結果]人と人の事前学習はロボットの学習に効果的 60 https://huggingface.co/papers/2311.12943

Slide 61

Slide 61 text

論文まとめ(18/87) Towards Learning-Based Planning: The nuPlan Benchmark for Real-World Autonomous Driving ● Napat Karnchanachari et al. ○ nuPlan:自動運転のための世界初の大規模計画ベンチマーク。 ○ 既存のベンチマークは他のエージェントの短期的な動き予測だったのに対して、本研究は自己車両 の長期計画に特徴。 ○ 1200時間の人間の運転データ:アメリカとアジアの 4つの都市(ボストン、ピッツバーグ、ラスベガ ス、シンガポール)、道路や信号機などのラベル付きの 2Dマップを提供。 61 https://www.nuscenes.org/nuplan Semantic map of nuPlan

Slide 62

Slide 62 text

論文まとめ(19/87) TBD Pedestrian Data Collection: Towards Rich, Portable, and Large-Scale Natural Pedestrian Data ● Allan Wang, Daisuke Sato, Yasser Corzo, Sonya Simkin, Abhijat Biswas, Aaron Steinfeld ○ 歩行者を含む環境でのデータセット。人間による検証済みのメトリック空間ラベル。 ○ 上から見下ろす視点とエゴセントリック視点の組み合わせ。全体のシーンを取得。 ○ 自然な人間の行動: データ収集に使用される「ロボット」は手動で押されるカートを開発。 62 https://arxiv.org/abs/2309.17187

Slide 63

Slide 63 text

論文まとめ(20/87) RoboVQA: Multimodal Long-Horizon Reasoning for Robotics ● Pierre Sermanet et al. ○ ロボットが長期的なタスクを実行する際の計画や判断を支援するための認知モデル。 ○ Google Meetのようなビデオ会議ツールを用いビデオストリーミングや多参加者サポート、高品質 な音声書き起こしを利用し、データ収集と展開をスケールアップ ○ ロボットが人間のように複雑なタスクを理解するために向上させている ○ 27Kの独自の短いタスクと、 3Kの長期的タスクを含む 800Kのデータセットを構築 63 https://robovqa.github.io/

Slide 64

Slide 64 text

論文まとめ(21/87) RH20T: A Comprehensive Robotic Dataset for Learning Diverse Skills in One-Shot ● Hao-shu Fang et al. ○ 10,000以上の接触豊かなロボット操作シーケンスを含むデータセット ○ RLBenchから48のタスク、MetaWorldから29のタスクを選択し、ロボットが達成可能な 70の自己提 案タスクを導入 ○ データのモダリティ、サイズ、頻度に関する詳細な情報を提供。 64 https://rh20t.github.io/

Slide 65

Slide 65 text

論文まとめ(22/87) Vision-Language Interpreter for Robot Task Planning ● Keisuke Shirai et al. ○ [概要] 大規模言語モデルと視覚言語モデルを用いてロボットプランナを開発。 ○ 言語指示とシーン観察( vision)から問題記述(PD)を生成。 ○ [実験結果] ViLaInが99%以上の精度で文法的に正しい問題を、 58%以上の精度で有効なプラン を生成できることを示しています。 65 https://github.com/omron-sinicx/ViLaIn

Slide 66

Slide 66 text

論文まとめ(23/87) Trust-Region Neural Moving Horizon Estimation for Robots ● Bingheng Wang, Xuyang Chen, Lin Zhao ○ neural moving horizon estimation (NeuroMHE): 正確な外乱推定のためにニューラルネットワー クを用いる。また計算効率を高める効果が期待される。 ○ カルマンフィルタを用いた勾配とヘッセ行列による信頼領域政策最適化手法 ○ [実験結果] わずか100点のデータのみを用いて、 5分以内で非常に効率的な学習を実証 66 https://arxiv.org/abs/2309.05955

Slide 67

Slide 67 text

論文まとめ(24/87) Kinematic-Aware Prompting for Generalizable Articulated Object Manipulation with LLMs ● Wenke Xia et al. ○ 物体の機構(ドアの開閉や引き出しの動き etc.)に関する知識を記述するアイディアを提示。動作 軌跡を生成するための新しいフレームワークを構築。 ○ [実験] 複数種類の物体で実験を行いフレームワークを検証し評価。 ○ [評価] LLMも知識も利用可能であるので、未知の対象にも適用可能( Zero-shot性能あり) 67 https://gewu-lab.github.io/llm_for_articulated_object_manipulation/

Slide 68

Slide 68 text

論文まとめ(25/87) ISR-LLM: Iterative Self-Refined Large Language Model for Long-Horizon Sequential Task Planning ● Zhehua Zhou, Jiayang Song, Kunpeng Yao, Zhan Shu, Lei Ma ○ ISR-LLM:LLMはあるタスクの説明について、実現可能性や正確さに欠点を持つ。これに対して、反 復的な自己調整を行うプロセスを提案。 ○ 前処理、計画、反復的な自己調整という 3 つの連続したステップによってタスクを出力。 → 特に「自己調整」ではタスクのプランが現実的であるか、実行できるか、という評価をしつつ、閉 ループ系によって出力を調整している点がこの研究のメインである。 68 https://arxiv.org/abs/2308.13724

Slide 69

Slide 69 text

論文まとめ(26/87) Disentangled Neural Relational Inference for Interpretable Motion Prediction ● Victoria Magdalena Dax et al. ○ 自律型ロボットにインタラクティブな動きの推論について、相互作用の解釈性を高めるモデルを提 案。相互関係を表現するグラフ表現、ならびに特徴空間による独自のオートエンコーダモデルを紹 介し、一般性を持たせつつもモデルの解釈可能性を高めた。 ○ 主にNBAの選手の移動のデータの推論や、人間の歩容の解析において性能を評価した。 69 https://arxiv.org/abs/2401.03599

Slide 70

Slide 70 text

論文まとめ(27/87) DeFlow: Decoder of Scene Flow Network in Autonomous Driving ● Qingwen Zhang, Yi Yang, Heng Fang, Ruoyu Geng, Patric Jensfelt ○ リアルタイム処理が可能なボクセルベースの特徴抽出から、点群レベルの特徴に補正する Gated Recurrent Unitを持つアーキテクチャを提案。 ○ 高速な処理を実現しつつも、点群レベルの Scene Flowを正確に推論することが可能に。 70 https://arxiv.org/abs/2401.16122

Slide 71

Slide 71 text

論文まとめ(28/87) Subequivariant Reinforcement Learning Framework for Coordinated Motion Control ● Haoyu Wang, Xiaoyu Tan, Xihe Qiu, Chao Qu ○ CoordiGraph: 物理学の原理を応用し、重力の影響下での学習プロセスにおいて等価性をモデル 化。主に複雑な機構を持つ agentについて動きの”対称性”、”等価性”などを モデル化することで協調運動の学習の効率を高めている。 71 https://arxiv.org/abs/2403.15100

Slide 72

Slide 72 text

論文まとめ(29/87) OpenBot-Fleet: A System for Collective Learning with Real Robots ● Matthias Mueller et al. ○ 教育向けで安価なモバイル(車輪付き)ロボットが強化学習によって学習しながら、 72台が環境下 の情報を記録してデータセットを構築する。 ○ クラウドロボティクスに関する取り組みとして意欲的であり、継続的に学習する大規模なモデルにお いてはこうしたDIYできるデバイスの方が効果的。 ○ 最終的に収集された結果から高い成功率でナビゲーションが可能なっている。 72 https://arxiv.org/abs/2405.07515

Slide 73

Slide 73 text

論文まとめ(30/87) WOMD-LiDAR: Raw Sensor Dataset Benchmark for Motion Forecasting ● Kan Chen et al. ○ モーション予測を想定した 100,000以上のシーンを含む 大規模なLiDARデータセット ○ LiDARデータを統合して動き予測モデルの学習を行い、 性能向上を実証。対応するモデルを提案している。 ○ [着眼点] End2Endでの予測モデルの開発に重要な ベンチマーク、データセットを提供している。 73 https://arxiv.org/abs/2304.03834

Slide 74

Slide 74 text

論文まとめ(31/87) Decomposing the Generalization Gap in Imitation Learning for Visual Robotic Manipulation ● Annie Xie et al. ○ Robotics Transformer(RT-1)の汎化性能を精密に調査 ○ lighting condition, distractor objects, table texture, object texture, background, and camera poseの6個の要素の変化に対する SRで評価 ○ 訓練環境の数が増えると全ての要素に対して汎化性能が増加することが確認 74 https://sites.google.com/view/generalization-gap/

Slide 75

Slide 75 text

論文まとめ(32/87) PROGrasp: Pragmatic Human-Robot Communication for Object Grasping ● Gi-cheon Kang et al. ○ Interactive Object Grasping(IOG):ロボットが人間と対話することで物体を把持する研究 ○ PROGrasp:IOGのため、ロボットが人間の意図を把握する Pragmatic(語用論)を学習 ○ Offline(物体を探索)とOnline(IOGによる物体を把持)実験で性能検証 75 https://arxiv.org/abs/2309.07759

Slide 76

Slide 76 text

論文まとめ(33/87) CLARA: Classifying and Disambiguating User Commands for Reliable Interactive Robotic Agents ● Jeongeun Park et al. ○ LLMを用いたロボット把持システムにおいて、言語指示の不明確さ、曖昧さ、実現不可能性の問題 を改善 ○ 言語指示の不確かさを確立モデルに基づいて推論、その不確実性を基準として言語指示の明確さ を判別 ○ 状況認識プロンプトを用いて曖昧さまたは実現可能性を判別、曖昧さに対して明確化を人間に要 求 76 LLMの不確実性予測の手法を比較 https://arxiv.org/abs/2306.10376

Slide 77

Slide 77 text

論文まとめ(34/87) DINOBot: Robot Manipulation Via Retrieval and Alignment with Vision Foundation Models ● Norman Di Palo et al. ○ DINO-ViTの意味的推論と空間的推論能力を活用し、デモ1個で模倣学習する枠組み DINOBotを 提案 ○ 探索段階:新しい物体に対して、意味的推論を活用し人間のデモ中に最も視覚的に類似した物体 を検索 ○ 整列段階:空間的推論を活用し、デモと類似な物体ーロボット姿勢になるように整列、 Demoを Replay ○ 77 https://www.robot-learning.uk/dinobot

Slide 78

Slide 78 text

Rank2Reward: Learning Shaped Reward Functions from Passive Video ● Daniel Yang et al. ○ Rank2Reward:デモ動画から報酬関数を推論し、ロボットの強化学習に活用 ○ 動画内のシーンを二つの条件で順位付ける報酬関数を提案:時間的に後半のシーン ↑+人間のデ モシーン↑ ○ ロボット有の動画とロボット無の動画(人間のみ)両方で提案手法を検証 論文まとめ(35/87) 78 https://rank2reward.github.io/

Slide 79

Slide 79 text

A Generalized Acquisition Function for Preference-Based Reward Learning ● Evan Ellis et al. ○ 既存の選好に基づいた報酬学習では、情報量最大化に着目しクエリーを選択 →大きなクエリーが必 要 ○ 本研究では、報酬アライメントメトリックを最適化するクエリを選択 →最適な報酬が得られる行動に着 目 ○ Synthetic, Robotic, NLP ドメインでの報酬学習において提案手法のクエリ効率性が確認 論文まとめ(36/87) 79 https://arxiv.org/abs/2403.06003v1

Slide 80

Slide 80 text

論文まとめ(37/87) Reinforcement Learning of Action and Query Policies with LTL Instructions under Uncertain Event Detector ● Wataru Hatanaka et al. ○ LTLを用いたロボットRL→未知環境での行動計画に効果的;完全な環境認識を前提 →不確実性に対 応不可 ○ 環境認識の不確実性による LTL命令の多様性を考慮し、タスク成功率をあげる RL枠組みLAQBLを 提案 ○ 2次元グリッドワールドと画像入力ロボット検査環境でのシミュレーションで LAQBLの有効性が確認 80 https://arxiv.org/abs/2309.02722

Slide 81

Slide 81 text

Learning to Shape by Grinding: Cutting-Surface-Aware Model-Based Reinforcement Learning ● Takumi Hachimine et al. ○ 「研削」は重要な産業プロセスで、ロボットの自動化には複雑な形状変化モデルが必要 ○ しかし、このモデルの学習には大量のデータが必要で、プロセスの不可逆性からデータ収集のコス トが高い ○ 予測の次元数が小さい切削表面の偏差モデルを使用し学習コストを低減したモデルベース RL手法 を提案 論文まとめ(38/87) 81 https://arxiv.org/abs/2308.02150

Slide 82

Slide 82 text

論文まとめ(39/87) Reinforcement Learning with Energy-Exchange Dynamics for Spring-Loaded Biped Robot Walking ● Cheng-Yu Kuo et al. ○ Springが付いている二足歩行ロボットはエネルギー効率性が高いが、動的モデルの設計が難しい ○ エネルギー交換に着目した動的モデルを設計・学習するモデルベース RL手法を提案 ○ 多様な地形に対して早い制御周期を持つロボットを On-siteで学習できることが確認 82 (PDF) Reinforcement Learning With Energy-Exchange Dynamics for Spring-Loaded Biped Robot Walking (researchgate.net)

Slide 83

Slide 83 text

論文まとめ(40/87) Deep Evidential Uncertainty Estimation for Semantic Segmentation under Out-Of-Distribution Obstacles ● Siddharth Ancha et al. ○ DNNを用いてPixel単位のEvidential不確実性(Epistemic+Aleatoric)を推論する手法の提案 ○ Epistemic Uncertainty: Normalizing flowでデータ分布を推論、分布外の Pixel判定に活用 ○ Aleatoric Uncertainty: Semantic 分類によって、データのバラツキ判定に活用 83 https://siddancha.github.io/projects/evidential-segmentation-uncertainty/

Slide 84

Slide 84 text

論文まとめ(41/87) Self-Supervised 6-DoF Robot Grasping by Demonstration Via Augmented Reality Teleoperation System ● Xiwen Dengxiong et al. ○ Real環境での人間教示が難しいシナリオに対して、 ARでの人間実演を活用するロボットの模倣学 習 ○ 人間のGraspingデモのPointCloudデータから上手く特徴抽出するため Contrastive学習を活用 ○ ARでのDemoから学習されたGraspingPose推論機でRobot Grasping Taskを自動化 84 https://arxiv.org/abs/2404.03067

Slide 85

Slide 85 text

論文まとめ(42/87) Towards Unifying Human Likeness: Evaluating Metrics for Human-Like Motion Retargeting on Bimanual Manipulation Tasks ● Andre Meixner et al. ○ 人間-ロボットの相互作用において、人間がロボットの動きを直感的に予測するためにはロボットが 人間のように動作をすることが重要 ○ 人間の動作との類似度を評価する標準的なメトリックが無 →既存メトリック11個を階層的に融合し標 準化 ○ Humanoidの双腕作業において、 人間のような動作を生成する様々な手法 に対する評価が分散し ないことが確認 85 提案メトリック 提案メトリック https://h2t.iar.kit.edu/pdf/Meixner2024.pdf

Slide 86

Slide 86 text

論文まとめ(43/87) Visual-Policy Learning through Multi-Camera View to Single-Camera View Knowledge Distillation for Robot Manipulation Tasks ● Cihan Acar et al. ○ 未知の視点入力に対応できる Policyのがくしゅう.多視点のデータをシミュレーションで入力して学 習する.Studentでは1つの視点のみで学習しておき,任意の視点で行動生成が可能になる ○ Zero-shotで現実環境のPolicyが動き,視点の変化にロバスト 86 https://arxiv.org/html/2303.07026v2

Slide 87

Slide 87 text

論文まとめ(44/87) Pseudo-Labeling and Contextual Curriculum Learning for Online Grasp Learning in Robotic Bin Picking ● Huy Le, Philipp Schillinger, Miroslav Gabriel, Alexander Qualmann, Ngo Anh Vien (TU Dormund, Bosch Center for Artificial Intelligence) ○ ピクセルごとに把持可能性が疎にラベル付けされている二次元画像から,密にラベル付けされた 画像を生成する ○ semi-supervised learning (SSL)とConvolutional Soft-Actor Critic (SSL-ConvSAC)を合わせた手 法を提案している 87 https://arxiv.org/abs/2403.02495

Slide 88

Slide 88 text

論文まとめ(45/87) One-Shot Learning for Task-Oriented Grasping ● Valerija Holomjova, Andrew Joe Starkey, Bruno Yun, Pascal Meissner (University of Aberdeen, Université Claude Bernard, Lyon, Wuerzburg-Schweinfurt Technical University of Applied Sciences) ○ タスクに応じた把持位置を one-shotで計算するための手法を提案している ○ 物体ごとに把持位置や作用位置のラベル付きデータを 1つずつデータセットとして保持しておき, NN でそれとのマッチングを計算することで把持位置を決定する 88 https://hal.science/hal-04317959v2/document

Slide 89

Slide 89 text

論文まとめ(46/87) Multi-Level Reasoning for Robotic Assembly: From Sequence Inference to Contact Selection ● Xinghao Zhu, Devesh Jha, Diego Romeres, Lingfeng Sun, Masayoshi Tomizuka, Anoop Cherian (University of California, Berkeley, Mitsubishi Electric Research Laboratories) ○ ロボットによる組立の学習ベースの計画手法を提案している ○ 動力学シミュレータ上で組み立て済みのパーツに力を加えてパーツを分離させることができれば分解成功という基準 で組立順序のデータセットを構築し,Transformerを学習する ○ パーツの組立順序,パーツの動き,パーツの把持位置の順番に計算する.パーツの組立順序はNNベースに決定し, それ以外はモデルベース(RRT, 摩擦制約下での最適化)に計算する 89 https://arxiv.org/pdf/2312.10571

Slide 90

Slide 90 text

論文まとめ(47/87) Learning to Design 3D Printable Adaptations on Everyday Objects for Robot Manipulation ● Michelle Guo, Ziang Liu, Stephen Tian, Zhaoming Xie, Jiajun Wu, Karen Liu (Stanford University, Cornell University) ○ ロボットが物体を扱いやすくなるように物体に付加する把持部位の形状とそれに応じた動作を強化 学習で生成している ○ メッシュの頂点位置やプリミティブ形状の寸法を探索変数として,把持部位の形状とロボットの運動 を同時に決定するポリシーを PPOで学習している 90 https://object-adaptation.github.io/

Slide 91

Slide 91 text

論文まとめ(48/87) DeRi-Bot: Learning to Collaboratively Manipulate Rigid Objects Via Deformable Objects ● Zixing Wang, Ahmed H. Qureshi (Purdue University) ○ 物体に複数のロープを付け複数台のロボットがロープを引っ張ることで物体を操作する動作を NN ベースに計画する手法を提案している ○ Action Prediction Network (APN)とConfiguration Prediction Network (CPN)と呼ばれるNNを学 習している 91 https://arxiv.org/abs/2305.13183

Slide 92

Slide 92 text

論文まとめ(49/87) STOPNet: Multiview-Based 6-DoF Suction Detection for Transparent Objects on Production Lines ● Yuxuan Kuang, Qin Han, Danshi Li, Qiyu Dai, Lian Ding, Dong Sun, Hanlin Zhao, He Wang (Peking University, New York University, Huawei Cloud Computing Technologies Co., Ltd.) ○ コンベアで流れる透明な物体を吸着で把持する NNベースの吸着位置計画手法を提案している ○ 2方向から撮影した時系列の RGB画像を入力として,3次元点群や法線方向を推定する NNを介し て吸着の候補位置を決定している 92 https://arxiv.org/pdf/2310.05717v1

Slide 93

Slide 93 text

論文まとめ(50/87) RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation ● Mel Vecerik, Carl Doersch, Yi Yang, Todor Bozhinov Davchev, Yusuf Aytar, Guangyao Zhou, Raia Hadsell, Lourdes Agapito, Jonathan Scholz (Google DeepMind, University College London) ○ ビジョンベースの模倣学習を少ない訓練データから行うためにカメラ画像の密な特徴点のトラッキングに基づく手法を 提案している ○ 訓練データからトラッキング可能な全ての点を物体ごとにセグメンテーションし,タスクの各フェーズにおいて対象とな るセグメントに属する点のセットが目標位置に到達するようにビジュアルトラッキングをする 93 https://arxiv.org/abs/2308.15975

Slide 94

Slide 94 text

論文まとめ(51/87) Learning Extrinsic Dexterity with Parameterized Manipulation Primitives ● Shih-Min Yang, Martin Magnusson, Johannes A. Stork, Todor Stoyanov (Örebro University, Orebro University) ○ 卓上でのマニピュレーションタスクを,プリミティブ操作 (Flip, Grasp, Push)を適切な順番と位置で適 用する手法を提案している ○ 上から見下ろした画像から High-level agent NNによりどのプリミティブ操作をどの位置に適用する かを決定し,それに応じて Low-level agent NNによりロボットの動作指令を生成する 94 https://shihminyang.github.io/ED-PMP/

Slide 95

Slide 95 text

GAMMA: Generalizable Articulation Modeling and Manipulation for Articulated Objects ● Qiaojun Yu, Junbo Wang, Wenhai Liu, Ce Hao, Liu Liu, Lin Shao, Weiming Wang, Cewu Lu (Shanghai Jiao Tong University, University of California, Berkeley, Hefei University of Technology, National University of Singapore) ○ 可動関節をもつ物体 (引き出しや扉付きの家具等 )を汎用的にモデル化し動作計画するための NN ベースの手法を提案している ○ 物体の点群からPointNet++によりセグメントや可動関節軸を抽出し, GraspNetにより生成された把 持候補位置から適切な把持位置を決定する 論文まとめ(52/87) 95 https://sites.google.com/view/gamma-articulation

Slide 96

Slide 96 text

Efficient End-To-End Detection of 6-DoF Grasps for Robotic Bin Picking ● Yushi Liu, Alexander Qualmann, Zehao Yu, Miroslav Gabriel, Philipp Schillinger, Markus Spies, Ngo Anh Vien, Andreas Geiger (Robert Bosch GmbH, University of Tübingen) ○ バラ積みピッキングにおいて,物体ごとに複数候補の 6DoFの把持位置を出力する NNベースの手 法を提案している ○ pybullet上で収集したデータから 3D U-Netで候補領域を抽出し Convolution層で6DoF把持候補位 置を出力する 論文まとめ(53/87) 96 https://arxiv.org/abs/2405.06336

Slide 97

Slide 97 text

Contact Energy Based Hindsight Experience Prioritization ● Erdi Sayar, Zhenshan Bing, Carlo D’Eramo, Ozgur S. Oguz, Zhenshan Bing (Technical University of Munich, University of Würzburg, Bilkent University) ○ マニピュレーションの強化学習において,報酬が疎である問題を緩和するために, replay bufferか ら接触が多く含まれる試行を重点的に選択する Contact Energy Based Prioritization (CEBP)と呼 ばれる手法を提案している 論文まとめ(54/87) 97 https://arxiv.org/abs/2312.02677

Slide 98

Slide 98 text

ASGrasp: Generalizable Transparent Object Reconstruction and 6-DoF Grasp Detection from RGB-D Active Stereo Camera ● Jun Shi, Yong A, Yixiang Jin, Dingzhe Li, Haoyu Niu, Zhezhu Jin, He Wang (Samsung R&D Institute Beijing, Beihang University, University of Chinese Academy of Sciences, Peking University) ○ 透明な物体の6DoF把持位置をステレオ画像から NNベースに計画する手法を提案している ○ ステレオ画像から3次元点群を復元する NNと把持候補位置を生成する NN(GSNet)を順番に適用し ている 論文まとめ(55/87) 98 https://arxiv.org/abs/2405.05648

Slide 99

Slide 99 text

Learning to Catch Reactive Objects with a Behavior Predictor ● Kai Lu, Jia-xing Zhong, Bo Yang, Bing Wang, Andrew Markham (University of Oxford, The Hong Kong Polytechnic University) ○ 腕付きの四脚ロボットが蛇のように動く物体をハンドで掴む動作を学習する手法を提案 ○ 物体の運動を予測するモデルを教師有り学習で学習し,それを利用してロボットの運動を決定する モデルをPPOで強化学習している 論文まとめ(56/87) 99 https://kl-research.github.io/dyncatch

Slide 100

Slide 100 text

Enhancing Task Performance of Learned Simplified Models Via Reinforcement Learning ● Hien Bui, Michael Posa (University of Pennsylvania) ○ 強化学習のサンプル効率を高める手法を提案している ○ モデルをデータから学習してそのモデルを用いて MPCを解く 論文まとめ(57/87) 100 https://arxiv.org/abs/2310.09714

Slide 101

Slide 101 text

Generalize by Touching: Tactile Ensemble Skill Transfer for Robotic Furniture Assembly ● Haohong Lin, Radu Ioan Corcodel, Ding Zhao (Carnegie Mellon University, Mitsubishi Electric Research Labs) ○ 複数のスキルを順番に使い分けるマニピュレーションにおいて,触覚センサ情報を利用することで スキルの順番とその作用位置を計画する手法を提案している 論文まとめ(58/87) 101 https://arxiv.org/abs/2404.17684

Slide 102

Slide 102 text

Sim2Real Manipulation on Unknown Objects with Tactile-Based Reinforcement Learning ● Entong Su, Chengzhe Jia, Yuzhe Qin, Wenxuan Zhou, Annabella Macaluso, Binghao Huang, Xiaolong Wang (University of California San Diego, Carnegie Mellon University) ○ マニピュレーション強化学習の sim2realにおいて指の表面に付けた触覚センサを利用 ○ SAPIENというシミュレーションを用いて,触覚センサデータを RGB画像,Diff画像,Binary画像とし て表現してobservationに入れている 論文まとめ(59/87) 102 https://arxiv.org/abs/2403.12170

Slide 103

Slide 103 text

Synchronized Dual-Arm Rearrangement Via Cooperative MTSP ● Wenhao Li, Shishun Zhang, Sisi Dai, Hui Huang, Ruizhen Hu, Xiaohong Chen, Kai Xu (National University of Defense Technology, Shenzhen University, Hunan University of Technology and Business) ○ 強化学習により2台のロボットで連携して卓上の物体の並べ替えをする手法を提案している ○ 問題をmultiple Traveling Salesmen Problemとして定式化しPPOを適用して解いている 論文まとめ(60/87) 103 https://arxiv.org/pdf/2403.08191

Slide 104

Slide 104 text

Multi Actor-Critic DDPG for Robot Action Space Decomposition: A Framework to Control Large 3D Deformation of Soft Linear Objects ● Mélodie Daniel, Aly Magassouba, Miguel Aranda, Laurent Lequièvre, Juan Antonio Corrales Ramón, Roberto Iglesias Rodriguez, Youcef Mezouar (Université de bordeaux, University of Nottingham, Universidad de Zaragoza, CNRS - Institut Pascal - Université Clermont Auvergne, Universidade de Santiago de Compostela) ○ 線状の柔軟物を指定形状に変形させるためのマニピュレーションを強化学習で行っている ○ pybullet上で柔軟物を操作するデータを収集し,エンドエフェクタの並進速度と角速度をそれぞれ 異なるDDPGで制御するポリシーを学習して,実機で柔軟物操作を実現している 論文まとめ(61/87) 104 https://arxiv.org/abs/2312.04308

Slide 105

Slide 105 text

ForceSight: Text-Guided Mobile Manipulation with Visual-Force Goals ● Jeremy Collins, Cody Houff, You Liang Tan, Charlie Kemp (Georgia Institute of Technology, Hello Robot Inc.) ○ タスク指令のテキストと RGBD画像から学習ベースにモバイルマニピュレーションを実現 ○ LLMでプリミティブ動作の型を決定し RGBD画像から作用点と仮想操作力を出力しモデルベースの コントローラで関節角指令を生成する 論文まとめ(62/87) 105 https://arxiv.org/abs/2309.12312

Slide 106

Slide 106 text

The Grasp Loop Signature: A Topological Representation for Manipulation Planning with Ropes and Cables ● Peter Mitrano, Dmitry Berenson (University of Michigan) ○ 環境に空いた穴にケーブルをくぐらせるタスクにおいて,ロボット・ケーブル・穴のトポロジーに着目 したモデルベースの動作計画手法を提案している ○ ループの交差ごとに状態をグループ分けして,グループ内では MPCの一種であるMPPIで軌道を計 画し,グループ間では regraspの動作計画をしている 論文まとめ(63/87) 106 https://arxiv.org/abs/2403.01611

Slide 107

Slide 107 text

Articulated Object Manipulation with Coarse-To-Fine Affordance for Mitigating the Effect of Point Cloud Noise ● Suhan Ling, Yian Wang, Ruihai Wu, Shiguang Wu, Yuzheng Zhuang, Tianyi Xu, Yu Li, Chang Liu, Hao Dong (Peking University, Umass Amherst, Chinese Academy of Sciences Beijing, China, Huawei Technologies Company) ○ articulated objectのアフォーダンス認識 (引き出しのつまみ等の認識 )をロバスト化 ○ まずロボットのhand-eyeカメラで離れた位置から全体のポイントクラウドを計測し, PointNet++を利 用したNNによりアフォーダンス領域を粗く認識し,次に handを認識された領域に近づけて再認識し てアフォーダンス点を決定する 論文まとめ(64/87) 107 https://arxiv.org/abs/2402.18699

Slide 108

Slide 108 text

Preprocessing-Based Kinodynamic Motion Planning Framework for Intercepting Projectiles Using a Robot Manipulator ● Ramkumar Natarajan, Hanlan Yang, Qintong Xie, Yash Oza, Manash Pratim Das, Fahad Islam, Muhammad Suhail Saleem, Howie Choset, Maxim Likhachev (Carnegie Mellon University, University of Oxford, Amazon) ○ 飛んでくるボールをエンドエフェクタに付けられた板で遮るような動作計画を,オフラインの動作計 画で生成された動作ライブラリにより高速化する手法を提案している ○ 離散化された位置に対して事前にロボットの軌道を計画しておき,ポイントクラウドからモデルベー スにオンラインで予測された物体到達位置にエンドエフェクタを移動させる 論文まとめ(65/87) 108 https://arxiv.org/pdf/2401.08022

Slide 109

Slide 109 text

HumanMimic: Learning Natural Locomotion and Transitions for Humanoid Robot Via Wasserstein Adversarial Imitation ● Annan Tang, Takuma Hiraoka, Naoki Hiraoka, Fan Shi, Kento Kawaharazuka, Kunio Kojima, Kei Okada, Masayuki Inaba (The University of Tokyo, ETH Zürich) ○ 人間の歩行データをリファレンスにした報酬により強化学習することでヒューマノイドの自然なスタイ ルの歩行動作をJAXONで実現している ○ adversarial motion priorにおける分布の距離計算に Wasserstein-1 distanceを用いることで,高 次元空間においても学習を効率的に行っている 論文まとめ(66/87) 109 https://arxiv.org/abs/2309.14225

Slide 110

Slide 110 text

Fall Prediction for Bipedal Robots: The Standing Phase ● Margaret Eva Mungai, J.W Grizzle, Gokul Prabhakaran (University of Michigan) ○ ロボットが転倒しそうかどうかを予測する判定器とその学習のための実機データセットを提案してい る ○ Digit実機で収集されたデータから, CoM, ZMP, 関節角度等のデータを入力して転倒の有無と時間 を出力する1D CNNを学習する 論文まとめ(67/87) 110 https://arxiv.org/pdf/2309.14546

Slide 111

Slide 111 text

UKF-Based Sensor Fusion for Joint-Torque Sensorless Humanoid Robots ● Ines Sorrentino, Giulio Romualdi, Daniele Pucci (Istituto Italiano di Tecnologia) ○ 関節トルクセンサなしにヒューマノイドの関節トルク制御を実現する手法を提案している ○ 関節トルク等を状態として,関節速度, 6軸力覚センサ,IMUデータを観測として, UKFにより関節ト ルクを推定して,外力に馴染む制御を実現している 論文まとめ(68/87) 111 https://arxiv.org/abs/2402.18380

Slide 112

Slide 112 text

Reactive Landing Controller for Quadruped Robots ● Francesco Roscia, Michele Focchi, Andrea Del Prete, Darwin G. Caldwell, Claudio Semini (Istituto Italiano di Tecnologia, Università di Trento) ○ 空中に放り出された四脚ロボットを着地させるコントローラを提案している ○ 空中期は単純なキネマティクスベースのコントローラを適用し,着地以降は capture pointベースの MPCを適用する 論文まとめ(69/87) 112 https://arxiv.org/abs/2305.07748

Slide 113

Slide 113 text

Hierarchical Optimization-Based Control for Whole-Body Loco-Manipulation of Heavy Objects ● Alberto Rigo, Muqun Hu, Satyandra K. Gupta, Quan Nguyen (University of Southern California) ○ 四脚ロボットの背中に装着する 1DoFアームで物体を持ち上げて運ぶ動作の制御を提案 ○ 物体を計画するフェーズで手先軌道と手先力軌道を決定し,ロボットの単一剛体モデルを用いた MPCで手先の制約を考慮している 論文まとめ(70/87) 113 https://arxiv.org/abs/2311.00112

Slide 114

Slide 114 text

Representing Robot Geometry As Distance Fields: Applications to Whole-Body Manipulation ● Yiming Li, Yan Zhang, Amirreza Razmjoo, Sylvain Calinon (Idiap Research Institute and EPFL) ○ ロボットのsigned distance fields (SDF)をデータドリブンに表現する手法を提案している ○ ロボットの関節角と空間上の点を入力として SDFの値を出力する関数をスプライン関数でフィッティ ングしている 論文まとめ(71/87) 114 https://arxiv.org/pdf/2307.00533

Slide 115

Slide 115 text

Learning Force Control for Legged Manipulation ● Tifanny Portela, Gabriel Margolis, Yandong Ji, Pulkit Agrawal (EPFL, MIT, UCSD) ○ 背中に腕の付いた四脚ロボットのエンドエフェクタの力制御やインピーダンス制御を強化学習で実 現している ○ ベースリンクの位置姿勢とエンドエフェクタの力を指令値としてロボットの状態とともにポリシーに入 力し,IsaacGym上でPPOを適用している 論文まとめ(72/87) 115 https://arxiv.org/html/2405.01402v1

Slide 116

Slide 116 text

A Study of Shared-Control with Bilateral Feedback for Obstacle Avoidance in Whole-Body Telelocomotion of a Wheeled Humanoid ● Donghoon Baek, Yu-chen (johnny) Chang, Joao Ramos (University of Illinois at Urbana Champaign) ○ 車輪付きの足をもつヒューマノイドをテレオペレーションするシステムを提案している ○ 操縦者の体の傾きをロボット全体の目標速度に対応させ,ロボットが受けている外力を操縦者の体 幹に力覚提示している 論文まとめ(73/87) 116 https://arxiv.org/pdf/2209.03994

Slide 117

Slide 117 text

論文まとめ(74/87) Robot Synesthesia: In-Hand Manipulation with Visuotactile Sensing ● Ying Yuan et al. ・FSRで取得した触覚情報と,カメラで取得した視覚情報を同一の3次元空間内で点群として統合す ることで異なるモダリティを取り扱う手法を提案. ・2つのボールを同時に手中で転がすことに成功 117 https://arxiv.org/abs/2312.01853

Slide 118

Slide 118 text

論文まとめ(75/87) Sim-Suction: Learning a Suction Grasp Policy for Cluttered Environments Using a SyntheticBenchmark ● Juncheng Li et al. ○ 吸引グリッパによって乱雑な環境から未知物体を吸引するシステムの提案 ○ 提案手法はSim-Suction-Dataset(吸引把持の為のデータセット )とSim-Suction-PointNetから構成 ○ 実験にて,動的環境でも複雑な物体のピッキングを高い成功率で達成できることを示した 118 https://arxiv.org/abs/2305.16378

Slide 119

Slide 119 text

論文まとめ(76/87) Learning Hierarchical Interactive Multi-Object Search for Mobile Manipulation ● Fabian Schmalstieg et al. ○ ロボットが自律的に環境を探索して物体を探す階層型強化学習アプローチの提案 ○ セマンティックマップに基づいて,ローカル orグローバル探索, 物体への直接移動などを行う ○ 各ポリシーの選択に強化学習を使用( High-Level Policyの部分) 119 https://arxiv.org/abs/2307.06125

Slide 120

Slide 120 text

論文まとめ(77/87) GAMMA: Graspability-Aware Mobile MAnipulation Policy Learning based on Online Grasping Pose Fusion ● Jiazhao Zhang et al. ○ 把持可能性(有効な把持姿勢の集合)を考慮した移動操作手法の提案 ○ 推定した把持可能性を状態としてエンコードし,強化学習 ○ 乱雑な環境でも物体への注視 /把持で高い性能を発揮 120 https://pku-epic.github.io/GAMMA/

Slide 121

Slide 121 text

論文まとめ(78/87) Wearable Haptics for a Marionette-Inspired Teleoperation of Highly Redundant Robotic Systems ● Davide Torielli et al. ○ 人差し指と前腕に振動デバイスを取り付けて、従来の牽引型(論文では ”Marionette” type)遠隔 操作の引張力や手先の接触力をフィードバックする ○ 12人の被験者による実験によって、作業時間、 NASA-TLX、アンケートによって評価。 ○ 明確な優位性は得られていないが、指標によっては優位な傾向が見える場合もある 121 https://www.researchgate.net/publication/379670125_Wearable_ Haptics_for_a_Marionette-inspired_Teleoperation_of_Highly_Re dundant_Robotic_Systems

Slide 122

Slide 122 text

論文まとめ(79/87) Intelligent Mode-Switching Framework for Teleoperation ● Burak Kizilkaya et al. ○ Shared Controlにおける遠隔と自律の切り替えを事前に学習した通信負荷とタスク達成確率の推 定器に基づいて行う。 ○ CNNを使ったユーザー意図推定(動作クラス分類)、深層強化学習を用いた達成確立制約のもの での自動化を最大化する切替器を設定 ○ データセットによる検証で通信負荷の削減とタスク達成確率の向上を確認 122 https://arxiv.org/html/2402.06047v1

Slide 123

Slide 123 text

論文まとめ(80/87) A Probabilistic Approach for Learning and Adapting Shared Control Skills with the Human in the Loop ● Gabriel Quere et al. ○ 以前にactive constraintを用いてタスク動作を支援する Shared Controlを提案していた ○ 今回は、このconstraintをKernelized Movement Primitives (KMP)によって学習し、constraintを ユーザーの3Dマウスによる入力によって後から更新できるようになった ○ 非専門家でも個々の状況に合わせて直感的に適応化が可能に 123 https://elib.dlr.de/203010/1/quere_poster.pdf

Slide 124

Slide 124 text

論文まとめ(81/87) Synchronized Human-Humanoid Motion Imitation ● Antonin Dallard et al. ○ ヒューマノイドの移動やアーム操作の遠隔操作における時間遅れを補償する方法の提案 ○ 移動では、深層学習を用いて歩行周期を推定し、ヒューマノイドの歩行タイミングを制御 ○ アーム動作は、躍度最小モデルと逐次最小二乗法によって軌道を予測することで遅れを低減 124 https://hal.science/hal-04094385v1/file/root_HAL.pdf

Slide 125

Slide 125 text

論文まとめ(82/87) SPOTS: Stable Placement of Objects with Reasoning in Semi-Autonomous Teleoperation Systems ● Joonhyung Lee et al. ○ 物理的な安定性と意味的な妥当性を満たす物体の設置位置を物理シミュレーションと LLMから獲 得する ○ LLMのプロンプトによって形状やカテゴリなど指定し、予め登録した物体候補から周辺に置くことが ふさわしい箇所を選定する 125 https://joonhyung-lee.github.io/spots/

Slide 126

Slide 126 text

論文まとめ(83/87) IRoCo: Intuitive Robot Control from Anywhere Using a Smartwatch ● Fabian Clemens Weigend et al. ○ スマートフォンとスマートウォッチに搭載されたセンサから人の左腕姿勢・体の向きを推定 ○ Differentiable Ensemble Kalman Filterを利用して精度向上( NNを使って微分可能に) ○ モーションキャプチャを使って End-To-Endで学習 ○ 推定した姿勢からロボット・ドローンを遠隔操作。 ○ 屋外でも使用できる。メンタル負荷減少 126 https://arxiv.org/html/2403.07199v1

Slide 127

Slide 127 text

論文まとめ(84/87) Hierarchical Deep Learning for Intention Estimation of Teleoperation Manipulation in Assembly Tasks ● Mingyu Cai et al. ○ Shared Controlのためのタスク・アクションの階層的深層学習による推定 ○ 13人で6種類のアセンブリタスクデータセットを構築  ○ 個別のモデルよりも階層化によって精度向上、 不要な情報をマスクする multi-windowにより精度向上、 リアルタイムの推定が可能。 127 https://arxiv.org/abs/2403.19770

Slide 128

Slide 128 text

論文まとめ(85/87) Transformer-Based Prediction of Human Motions and Contact Forces for Physical Human-Robot Interaction ● Alessia Fusco et al. ○ モーションキャプチャスーツを着た人とロボットが pHRIを行って得られたデータから、 Transducerと transformerで構成されるNNによって人動作のみから接触力を予測する ○ transformerのみのNNよりも予測精度が向上する ○ 128 https://theses.hal.science/LAAS-RIS/hal-04215765v1

Slide 129

Slide 129 text

論文まとめ(86/87) EMG-Based Intention Detection Using Deep Learning for Shared Control in Upper-Limb Assistive Exoskeletons ● Paniz Sedighi , Xingyu Li , and Mahdi Tavakoli ○ 筋電によりユーザの意図を推定&初期位置・重量等の特徴から,関節軌道を推定しアシストする 手法(IBPA:Intention-Based Predictive Assistance)を提案 ○ IBPAによって,従来の重力補償( GC)よりも小さい筋電(→楽な動作で)でアシスト可能 129 http://www.ece.ualberta.ca/~tbs/pmwiki/pdf/RAL-Sedighi-2023.pdf

Slide 130

Slide 130 text

論文まとめ(87/87) NoMaD: Goal Masking Diffusion Policies for Navigation and Exploration ● Ajay Sridhar, Dhruv Shah, Catherine Glossop and Sergey Levine ○ 拡散モデルを使った目的依存/非依存なナビゲーションを両立 ○ ゴール依存/非依存を確率でマスクし、同時に学習させる ○ 拡散モデルはロボットがナビゲーション中に衝突しないような軌道を生成するように訓練、 特にゴール非依存な条件下で探索的なナビゲーションに貢献 130 https://general-navigation-models.github.io/nomad/

Slide 131

Slide 131 text

今後の展望 今後,我々としてはどうすればいいか? 131

Slide 132

Slide 132 text

今後の展望(1/1) ICRAは研究者にとって大きなチャンス! ● 日本の企業や研究機関がCompetitionやWorkshopのオーガナイザであったこと に注目。日本開催で国内研究界隈の盛り上がりが期待。 → 追従するように研究を創発していく! ● Cookingなど面白い着眼点での取り組みにフォーカスしよう! ● 国際学会で日本からの参加が少なくなったとの声もある(経済状況や開催地のバ イアスもあるが)が、国内の研究のレベルは十分に高い。 例:CoRL(ロボット学習のトップカンファレンス)のように北米の研究者中心の学会 にも投稿数を増やそう! 例:日本企業がヒューマノイド開発など高い技術力を次世代に繋げてようと試みて いる。→アカデミックは連携を強めていくべき。 132