IROS2023 報告

牧原昂志（大阪大，産総研），元田智大（産総研），花井亮（産総研），堂前幸康（産総研） IROS2023 報告 1

概要：IROS2023の動向，気づきロボティクストップ国際会議IROS2023のサーベイ報告 • 今回どんな研究が流行っていた？ • 海外研究者は何をしている？ • 「動向」や「気付き」をまとめました 2

IROS2023の動向，気づき（1/53） Robotics分野のトップ会議 • Google Scholar Subcategory @Robotics分野にて第4位 (2023.10時点) h-5
index: 78 h-5 median: 137 • 採択率は毎回4割前後会場：Detroit • 開催期間は10月1日～10月5日 3

IROS2023の動向，気づき（2/53）開催地 • 2022：京都（Asia） • 2023：デトロイト（NA）←今回 • 2024：アブダビ（Europe）←次回 • 2025：杭州（Asia）
• 2026：ピッツバーグ（NA） • 2027：フィレンツェ（Europe）40周年 • … 4

IROS2023の動向，気づき（3/53）参加者・投稿数の推移 5 ※2020年はVirtual 開催のため不特定多数の参加者がいた論文数参加人数採択→約1,200本投稿数→約2,700本

IROS2023の動向，気づき（4/53）採択論文の統計値* • https://github.com/ryanbgriﬃths/IROS2023PaperList 6 （Late breaking Abstractsを含む） *非公式のため参考程度に確認されたい

IROS2023の動向，気づき（5/53）会場 • Huntington Place, Detroit, Michigan, U.S ◦ デトロイトの都市部中心に位置。
◦ 対岸にカナダが見える。 7

IROS2023の動向，気づき（6/53）企業ブース • LIONSBOTの自動掃除ロボット • Unitree等複数の企業が2or4足歩行ロボットを展示。常時デモ。 ◦ 小規模研究室でも入手可能なコストと魅力的な動作に、多くの観客が立ち止まる。 8

IROS2023の動向，気づき（7/53）競技会 • F1TENTH ◦ 小型自動走行車（1/10スケールのFormula Oneを謳う）によるレース競技。 IROSやICRA毎度のように開催されている模様。 ◦ IROS期間中にフリー走行
→予選→決勝、と本家F1さながらに開催。 ◦ ポスター発表会場の近くで運営され、多くの来場者が立ち寄って観覧。 9 https://f1tenth.org/ https://iros2023-race.f1tenth.org/index.html

IROS2023の動向，気づき（8/53） Farewell Partyの様子 • ヘンリー・フォード博物館を貸切った立食形式のパーティ ◦ 会場からの無料送迎付き（バスで約 20分） 10 https://www.thehenryford.org/

IROS2023の動向，気づき（9/53）研究のアウトリーチ活動 • 学会開始前から宣伝・アピールの必須化傾向加速 ◦ 他の学会（特にCV分野）の状況と同様であるが … →　arXiv/ Researchgate等への事前投稿* →　プロジェクト紹介用の
webページ →　YouTube等の動画公開 →　研究者個人SNS IROS側もSNSの投稿を推奨する姿勢を見せている。 * なお、近年のIROS、ICRAはProceedingsが一般公開となるケースが多いが、 ArXivなどのアクセスの容易さは敵わない… ◦ 著名研究グループは元より注目が集中しやすい上、宣伝の練度が高い印象（鬼に金棒） →　注目度を高めたい場合は ”特に”適切な前準備が必須 ◦ 当然、優れた研究成果・インパクトのある口頭発表やポスター発表の重要性は不変 11 研究者の負担は増加 ↑

IROS2023の動向，気づき（10/53） Plenary 1 Marcie O’Malley (Rice University) • Robots that
teach and learn with a human touch 12

IROS2023の動向，気づき（11/53） Plenary 2 Yuto Nakanishi (GITAI) • Challenge to Develop
Space Robots for Building a Moonbase • 元JSK(東大), SCHAFT • これまでに開発された二足歩行ロボットの成功と失敗をユーモアやブラックジョークとともに披露 • スペースロボットの取り組みの紹介 13

IROS2023の動向，気づき（12/53） Plenary 3 Matthew Johnson-Roberson (CMU) • Merging Paths: The
Shared History and Convergent Future of AI and Robotics • AIとロボティクスの歴史、当時の研究者同士の議論について時系列順に解説 14

IROS2023の動向，気づき（13/53） Workshop: RoboTac 2023 (October 1st, Full-Day) • 招待講演：Nima Fazeli
(ミシガン大学) ◦ Manipulation via Membranes: High-Resolution and Highly Deformable Tactile Sensing and Control (CoRL’22) ▪ deformable素材のsensorで細かい作業をしようとすると，変形を考慮した制御が必要 ▪ 膜ハンド（Soft Bubble）のMPC（Model Predictive Control） 15 ねじ締め https://www.robotact.de/robotac-2023 https://arxiv.org/abs/2209.13432

IROS2023の動向，気づき（14/53） Workshop: World Models and Predictive Coding in Cognitive Robotics
(October 5th, Full-Day) • Invited Talk 1: Masahiro Suzuki (University of Tokyo, Japan) ◦ "Perspectives on World Models and Predictive Codings in Cognitive Robotics" ▪ Interaction-based Disentanglement of Entities for Object-centric World　 Models[Nakano+ ICLR’23] • World modelの課題：large amount of dataを必要とする • 物体ごとにlatentを分離，さらにinteractionに関するものとそうでないものを分離 • 物体ごとのsupervisionは不要 • downstream tasks (planning task, causal understanding tasks) の性能が向上 • 16 https://openreview.net/forum?id=JQc2VowqCzz https://world-model.emergent-symbol.systems/

(October 5th, Full-Day) • Oral: “World-Model-Based Control for Industrial box-packing of Multiple Objects using NewtonianVAE” ◦ Yusuke Kato, Ryo Okumura, Tadahiro Taniguchi ▪ GelSightでconditioningされたNewtonian VAEのvariationでbox packing ▪ image cropping: repeat taskで，既に詰めたboxは重要でないので，そこを無視する ▪ vacuum gripperには指に触覚がつかないので，把持姿勢の推定を in-hand cameraの画像に置き換えた 17 https://arxiv.org/abs/2308.02136

(October 5th, Full-Day) • Spot light: Tactile In-Hand Pose Estimation through Perceptual Inference ◦ Tatsuya Kamijo, Tomoshi Iiyama, Yuta Oshima, Gentiane Venture, Tatsuya Matsushima, Yutaka Matsuo and Yusuke Iwasawa ▪ free energy最小化で視触覚センサによる in-hand姿勢推定 ▪ 物体の違いについて汎化（全然違うものでも） ▪ 矩形の棒だけで学習 => 断面がZ字などになってもそれっぽく inference ▪ actionも入れようとしたが，視触覚センサ（ gelsight mini, DIGIT)の表面がすぐに削れる） 18 https://world-model.emergent-symbol.systems/

IROS2023の動向，気づき（17/53） Haptics(Tactile)系の研究の進歩 • これまでピッキングレベルの簡易なタスクや物体ポーズ推定などが主流 • 状態認識からロボットの行動生成までを一気通貫でおこなうレベル • Peg-in-HoleやIn-Handマニピュレーションなどの高度なタスク 19

IROS2023の動向，気づき（18/53）基盤モデル関連研究の動向 • 既存の認識や行動計画の課題を言語モデルを用いて工夫、解決 ◦ 「言語ラベル↔ゴール状態」や「言語ラベル ↔アフォーダンス」等を導くことが目的 ◦ CLIPモデルによるZero-shotの認識やアフォーダンスを発見は操作に強いメリット。少ないデータでも識別の実用性が向上
し、流行となっている。 ◦ ただし、基盤モデルではモーション生成向けに確立した手法がないため、 GraspやPickingなどは既存の方法を用い、両者を組み合わせて使うのが主。 ◦ 現状、言語モデルが使うだけで優遇される訳でない！何が出来たか？が重要 → いかに流行とはいえ、セクションが基盤モデル関連で占拠する様子は無し → ロボティクス分野では検証の段階ではないか → 次年度以降に成熟したモデルの活用が増える …？ 20 https://arxiv.org/abs/2210.02438

IROS2023の動向，気づき（19/53） Interactiveな認識手法が増えてきている • 押して見えない部分の形状をとる • 押して物理量を推定する • 動いているものに対して連続的な把持姿勢を生成する • つまんで見て失敗していたら少し調整して持ち直す
• In-handの姿勢を推定しつつ道具を使う　　　　　　　　　など 21

IROS2023の動向，気づき（20/53） One-Shot Aﬀordance Learning (OSAL): Learning to Manipulate Articulated Objects
by Observing Once • Roumeng Fan, Taohan Wang, Masahiro, Yuji Yamakawa ◦ １回の人のデモ（手の動き）からアフォーダンスを獲得。物体を基準とした操作 ◦ 物体の表面と指（Keypoints）のインタラクションを学習し、操作可能性を獲得。 → エンドエフェクタに依存しない（人の動きをロボットに転用できる！） ◦ 道具や家具の操作を人のデモ獲得した検証を実施 → BCで未対応な動きを高い成功率で達成 22 https://www.youtube.com/watch?v=Ostgp527Dm0

IROS2023の動向，気づき（21/53） FRoGGeR: Fast Robust Grasp Generation via the Min-Weight Metric
• Albert H. Li, Preston Culbertson, Joel W. Burdick, Aaron D. Ames ◦ フォースクロージャの高速かつロバストな計算手法。 → 従来法の計算速度の課題に、 Min-Weight Metricという近似手法を提案。 ◦ ①重みの非負条件（制約項）を緩和し最適化。②サンプリングした把持を調整 ◦ 検証：YCBデータセットに対し把持実験。約 0.8 secで計算可能 23 https://arxiv.org/abs/2302.13687

IROS2023の動向，気づき（22/53） Self-Supervised Instance Segmentation by Grasping • YuXuan Liu, Xi
Chen, Pieter Abbeel ◦ 自己教師付きのデータ収集とデータ拡張によって Instance segmentationを行う ◦ 最初に適当にピッキングして前後の画像の差分から Segmentationマスクを生成する ◦ 生成された少量のマスクで学習した後，物体のみ切り取って別の背景に貼り付けルようにしてデータ拡張をして学習する ◦ 実環境で修正していくのでエラー率がかなり小さくなる 24 https://arxiv.org/abs/2305.06305

IROS2023の動向，気づき（23/53） Constrained Generative Sampling of 6-DoF Grasps • Jens Lundell,
Francesco Verdoja, Tran Nguyen Le, Arsalan Mousavian, Dieter Fox, Ville Kyrki ◦ 点群データを対象とし６次元の把持位置検出手法。 ◦ 点群のセグメンテーションを主体にしたデータセットを提供。 ◦ アフォーダンスに準拠した効果的な対象領域のサンプリング。 25 https://arxiv.org/abs/2302.10745

IROS2023の動向，気づき（24/53） TidyBot: Personalized Robot Assistance with Large Language Models •
Jimmy Wu et al. ◦ 片付けのルールを導く LLM（大規模言語モデル）の効果的な利用法の提示。 ◦ 対象のカテゴリ・収納場所・動作を複数の基盤的モデル（ ViLD, CLIP等）から決定。例：缶　→　ゴミ箱に入れる　→　TOSS動作（プリミティブ動作を用意） ◦ Sim：識別成功率91.2%, Real：タスク成功率85% (8シーンで検証) 26 https://tidybot.cs.princeton.edu/

IROS2023の動向，気づき（25/53） DALL-E-Bot: Introducing Web-Scale Diﬀusion Models to Robotics • Ivan
Kapelyukh, Vitalis Vosylius, Edward Johns ◦ ロボットに対するウェブスケール拡散モデルを初めて探索に利用。 ◦ 物体のテキスト記述をもとに画像を生成し、その目標画像に基づいて物体を配置。 ◦ DALL-Eを用いて、追加のデータやトレーニングなしに、ゼロショットでこの作業が可能。 ◦ 見た目や働きの評価をユーザへのアンケートによって実施、手法の正当性を確認。 27 https://arxiv.org/abs/2210.02438

IROS2023の動向，気づき（26/53） GelSight Svelte: A Human Finger-shaped Single-camera Tactile Robot Finger
with Large Sensing Coverage and Proprioceptive Sensing • Jialiang Zhao and Edward H. Adelson ◦ デザイン：人間の指サイズ，人間のような丸みのある sensing surface，外装や外に取り付けたカメラが無い ◦ 計測能力：ﬁnger tipだけでなく指全体に渡る広い sensing area，指全体にかかるforce/torque （proprioceptive information）を計測可能 28 https://arxiv.org/pdf/2309.10885.pdf

IROS2023の動向，気づき（27/53） Task-Oriented Grasp Prediction with Visual-Language Inputs • Chao Tang,
Dehao Huang, Lingxiao Meng, Weiyu Liu, Hong Zhang ◦ instruction（language）で与えられるtaskに応じたgraspの生成 ◦ objectのgrasp生成（object-grounding）から taskに応じたgrasp生成（task-grounding)をする two-stageのcoarse-to-ﬁneな方法 29 https://arxiv.org/abs/2302.14355

IROS2023の動向，気づき（28/53） Push to Know! - Visuo-Tactile based Active Object Parameter
Inference with Dual Diﬀerentiable Filtering • Anirvan Dutta, Etienne Burdet and Mohsen Kaboli ◦ 押してphysical propertyを推定（vision and tactile sensing） ◦ various known objectsを押してinteraction modelを学習 ◦ novel objectに対してposterior beliefを更新しつつ，active action selectionを行う 30 https://arxiv.org/abs/2308.01001

IROS2023の動向，気づき（29/53） Visual Contact Pressure Estimation for Grippers in the Wild
• Jeremy A. Collins, Cody Houﬀ, Patrick Grady, Charles C. Kemp ◦ ﬁnger tipが加える力をsingle RGB imageから推定 ◦ uncontrolled settings, lighting, surfaces and other factors vary widelyでの推定 ◦ multi-headの構造でWeak labelとしてForce/Torque sensorも学習時にのみ利用 31 https://arxiv.org/abs/2303.07344

IROS2023の動向，気づき（30/53） 3D-Aware Object Localization Using Gaussian Implicit Occupancy Function •
Vincent Gudillière et al. ◦ 楕円球推定に基づく物体の検出に関する提案。 ◦ バウンディングボックスより精度に優れる楕円での検出（マスク）を行う。 ◦ ガウス分布に基づくパラメータベースの楕円表現。 →暗黙的な三次元認識を導くネットワーク構造を提案し、従来法からの精度向上を実現。 32 https://arxiv.org/abs/2303.02058

IROS2023の動向，気づき（31/53） Learning to Grasp Clothing Structural Regions for Garment Manipulation
Tasks • Wei Chen, Dongmyoung Lee, Digby Chappell, Nicolas Rojas ◦ 衣服の襟の部分に検出し把持・操作するための認識の手法。 ◦ 人間のデモ動作（衣服をランダムに動かせる）から襟の部分のマスクを生成。 → デプスデータから検出するモデルを構築。検出に基づき有効な把持姿勢、位置を算出。 ◦ 数種の襟付き衣服から検証。 Hanging動作で70~80%の成功率。 33 https://arxiv.org/abs/2306.14553

IROS2023の動向，気づき（32/53） Open-Vocabulary Aﬀordance Detection in 3D Point Clouds • Toan
Nguyen, Minh Nhat Vu, An Vuong, Dzung Nguyen, Thieu Vo, Ngan Le, Ang Nguyen ◦ 点群データに言語ラベルの入力によって特定のアフォーダンス（≒対応範囲）を検出 ◦ CLIPのモデルがベースであり、点群データと言語ラベル（アフォーダンスラベル）の対照学習を展開。→Zero-shotでの検出を実現。100ms未満で高速に推論可能なモデル。 34 https://arxiv.org/abs/2303.02401

IROS2023の動向，気づき（33/53） Force Map: Learning to Predict Contact Force Distribution from
Vision • Ryo Hanai, Yukiyasu Domae, Ixchel G. Ramirez-Alpizar, Bruno Leme and Tetsuya Ogata ◦ 物体にかかる力の分布を視覚（ RGB画像）から推定 ◦ シミュレーションでシーン画像と接触力の空間的な分布を計算することで学習データを生成 ◦ 実環境で１枚の画像を入力として大まかな分布を推定可能にした 35 https://arxiv.org/abs/2304.05803

IROS2023の動向，気づき（34/53） Touch if it’s transparent! ACTOR: Active Tactile-based Category-Level Transparent
Object Reconstruction • Prajval Kumar Murali, Bernd Porr, and Mohsen Kaboli ◦ 未知の透明物体からの触覚データを Activeに取得して姿勢推定を行う ◦ 物体の3D形状の再構成の学習のデータをシミュレーションでの大規模に生成する ◦ 物体の形状と姿勢を認識するための部分的な点群を TouchやPinchで取得する 36 https://arxiv.org/abs/2307.16254

IROS2023の動向，気づき（35/53） Bagging by Learning to Singulate Layers Using Interactive Perception
• Lawrence Yunliang Chen, Baiyu Shi, Roy Lin, Daniel Seita, Ayah Ahmad, Richard Cheng, Thomas Kollar, David Held, Ken Goldberg ◦ 袋の最上層を把持して物体を詰める袋を開封するタスク ◦ つまみ上げて0枚 or 1枚 or 2枚を学習したモデルで判別 ◦ その結果によって，次につまみ上げる高さを（固定値）変更する 37 https://arxiv.org/abs/2303.16898

IROS2023の動向，気づき（36/53） Real-time Simultaneous Multi-Object 3D Shape Reconstruction, 6DoF Pose Estimation
and Dense Grasp Prediction • Shubham Agrawal, Nikhil Chavan-Daﬂe, Isaac Kasahara, Selim Engin, Jinwook Huh, Volkan Isler ◦ RGBDからの6DoF pose estimation ◦ grasp detectionは，shape reconstructionをマルチヘッドでやると成功率が上がる ◦ 物体の構造理解と，どう把持するかは linkした概念になっている 38 https://arxiv.org/abs/2305.09510

IROS2023の動向，気づき（37/53） Flexible Handover with Real-Time Robust Dynamic Grasp Trajectory Generation
• Gu Zhang, Hao-Shu Fang, Hongjie Fang, Cewu Lu ◦ いろいろなものを人からロボットに渡す（動かしながら） ◦ grasp detectionの拡張 ⇨ realtimeにgrasp trajectoryを生成 ◦ 時系列情報を入力とし， Transformerで安定把持と連続性を考慮して graspを生成 ◦ GraspNet-1Billion，for each scene, 256 camera viewpoints ◦ 擬似的に物体の位置が変わったような軌道を作って学習（ NeRFも使える？） 39 https://arxiv.org/abs/2308.15622

IROS2023の動向，気づき（38/53） HANDAL: A Dataset of Real-World Manipulable Object Categories with
Pose Annotations, Affordances, and Reconstructions • Andrew Guo, Bowen Wen, Jianhe Yuan, Jonathan Tremblay, Stephen Tyree, Jeffrey Smith, Stan Birchfield ◦ カテゴリレベルの姿勢とアフォーダンスを推定するためのデータセット． 17のカテゴリに分類された 212の物体，2200の動画から30.8万のアノテーションされた画像フレーム ◦ 静的なシーンにはCOLMAPとXMem, InstantNGPで，動的なシーンには BundleSDFを使って動画から3Dmeshを再構成して，アフォーダンスをアノテーションする 40 https://arxiv.org/abs/2308.01477

IROS2023の動向，気づき（39/53） Learning Robotic Powder Weighing from Simulation for Laboratory Automation
• Yuki Kadokawa, Masashi Hamaya, Kazutoshi Tanaka ◦ ミリ単位の粒子の重みを調整しながら掬い上げるタスクを実現。 ◦ 粒子のシミュレーション学習 →Sim2Realおよびドメイン乱択化を調整 →　特に粒子（粉末）の計量シミュレータによって、データ収集の負担を減らす。 ◦ リカレントニューラルネットワークをベースとしたポリシー学習により動作を生成。 41 https://omron-sinicx.github.io/powder-weighing/

IROS2023の動向，気づき（40/53） SoftGPT: Learn Goal-oriented Soft Object Manipulation Skills by Generative
Pre-trained Heterogeneous Graph Transformer • Junjia Liu, Wanyu Lin, Sylvain Calinon, Kay Chen Tan, Fei Chen ◦ GPT（本提案ではSoftGPT）を用いた柔軟物体のダイナミクスモデルとポリシー学習 ◦ 点群入力をグラフ表現（≃ GNN）し時系列データ学習 → 強化学習によってゴール状態を目指す。 ◦ 検証：学習安定化/効率向上（柔軟物表現の効果を確認） 42 タスク一覧 https://arxiv.org/abs/2306.12677

IROS2023の動向，気づき（41/53） Probabilistic Slide-support Manipulation Planning in Clutter • Shusei Nagato,
Tomohiro Motoda, Takao Nishi, Petit Damien, Takuya Kiyokawa, Weiwei Wan, Kensuke Harada ◦ スタックする物体のための双腕アプローチ（サポート付き引き出し）を提案。 ◦ 崩れや落下を防ぐサポート動作によって環境の変化を最小化。 → NNを用いたダイナミクスの推論から安全性および効率性を考慮した行動計画 ◦ 検証：スタックシーンを対象としたピッキングを物体移動量と動作数評価 43 https://arxiv.org/abs/2306.12649

IROS2023の動向，気づき（42/53） Foldsformer: Learning Sequential Multi-Step Cloth Manipulation with Space-Time Attention
• Kai Mo, Chongkun Xia, Xueqian Wang, Yuhong Deng, Xuehai Gao, Bin Liang ◦ 画像（現在の状態、中間状態）を入力とする TransformerによるPick-Place動作の推論。 ◦ シミュレーションにによってデータ収集（ 1Kシーン、6K軌道データに基づく） ◦ 近年の布の折り畳みタスクと比較して精度を評価。推論速度もほぼ問題ない程度に高速。 44 https://arxiv.org/abs/2301.03003

IROS2023の動向，気づき（43/53） Development of a Whole-Body Work Imitation Learning System by
a Biped and Bi-Armed Humanoid • Yutaro Matsuura, Kento Kawaharazuka, Naoki Hiraoka, Kunio Kojima, Kei Okada, Masayuki Inaba ◦ 浮遊関節付きのヒューマノイド（ JAXON）における模倣学習システムの開発 ◦ 遠隔操作デバイスTABLISにより模倣学習を実現。姿勢最適化によって長時間のデータ収集 ◦ 検証：脚を使った作業（物を持ち上げる）等の実験により効果を確認 45 https://arxiv.org/abs/2309.15756

IROS2023の動向，気づき（44/53） Semantic Scene Diﬀerence Detection in Daily Life Patroling by
Mobile Robots Using Pre-Trained Large-Scale Vision-Language Model • Yoshiki Obinata, Kento Kawaharazuka, Naoaki Kanazawa, Naoya Yamaguchi, Naoto Tsukamoto, Iori Yanokura, Shingo Kitagawa, Koki Shinjo, Kei Okada, Masayuki Inaba ◦ Visual Question Answering (VQA) modelにより対話的にzero-shotで環境の変化を検出 ◦ 移動ロボットの巡回タスクに適用し検証 → 環境の違いをScene Distanceとして評価 → 46 https://arxiv.org/pdf/2309.16552v1.pdf

IROS2023の動向，気づき（45/53） Bag All You Need: Learning a Generalizable Bagging Strategy
for Heterogeneous Objects • Arpit Bahety, Shreeya Jain, Huy Ha, Nathalie Hager, Benjamin Burchﬁel, Eric Cousineau, Siyuan Feng, Shuran Song ◦ 学習型の袋詰めのマニピュレーションの提案。 ◦ 画像ベースに袋の”口”を検出→はみ出る物体の移動、持ち上げる際の最適な把持点を導出。 ◦ Sim及びRealで検証：物体個数には影響するが Baselineとの比較によって高い成功率。 47 https://arxiv.org/abs/2210.09997

IROS2023の動向，気づき（46/53） Transparent Object Tracking with Enhanced Fusion Module • Kalyan
Garigapati, Erik Blasch, Jie Wei, Haibin Ling ◦ 画像における透明物体をトラッキングするアルゴリズムの提案。 ◦ 特徴空間内に透明度情報を追加。学習済の Trans2Segによる特徴量を利用。 ◦ Fusion Module（Transformerベース）という特徴量を組み合わせる手法がポイント。 ◦ 検証：他の最先端トラッキング手法にも劣らない結果。 48 https://arxiv.org/pdf/2309.06701v1.pdf

IROS2023の動向，気づき（47/53） Multimodal Diffusion Segmentation Model for Object Segmentation from Manipulation
Instructions • Yui Iioka, Yu Yoshida, Yuiga Wada, Shumpei Hatanaka, Komei Sugiura ◦ 言語指示に対して重要な対象物を画像中で segmentation ◦ 対象を2つの方法（CLIP特徴とDiffusion model）で綺麗に切り出す ◦ diffusionモデルのdenoise過程におけるfeatureを足し合わせてMLPでdecodeすると，単純に convolution-based U-netのようなこれまでの階層的 featureをdecodeするよりsegmentationの品質が良くなることが知られている 49 https://arxiv.org/abs/2307.08597

IROS2023の動向，気づき（48/53） Learning to Eﬃciently Plan Robust Frictional Multi-Object Grasps •
Wisdom C. Agboh, Satvik Sharma, Kishore Srinivas, Mallika Parulekar, Gaurav Datta, Tianshuang Qiu, Jeﬀrey Ichnowski3, Eugen Solowjow, Mehmet Dogar, Ken Goldberg ◦ 摩擦を考慮して複数物体の同時把持を画像から行う．把持するグループを抽出して，グループごとに把持した時の安定の度合いを解析し，ピックする数を推定する ◦ 成功率が13.7%増加し1時間あたりのピック数が 1.6倍増加し，把持計画時間が 6.3倍減少． 50 https://arxiv.org/abs/2210.07420

IROS2023の動向，気づき（49/53） Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models • Xufeng Zhao, Mengdi Li, Cornelius Weber, Muhammad Burhan Hafez, and Stefan Wermter ◦ LLMで様々な認識のための行動を指示し，その結果得られるマルチモーダルな情報をベースにして対話的にタスクを完了する ◦ Interactionしないと得られない対象物体の特性を LLMの常識をベースに認識していく． 51 https://arxiv.org/abs/2303.08268

IROS2023の動向，気づき（50/53） Active Acoustic Sensing for Robot Manipulation • Shihan Lu
and Heather Culbertson ◦ 指から音波（振動）その共鳴情報から把持状態（材質，形状，内部構造，把持位置）の様々な推定 ◦ simulatorで学習（音響モデルのパラメータは実環境に合わせて調整） ◦ PyBulletのcontact informationを利用してiscous contact dampingモデルでgripperとﬁngerの間のcollision impulseを計算し，modal analysisで音響波形を生成 52 https://arxiv.org/abs/2308.01600

IROS2023の動向，気づき（51/53） Learning Bifunctional Push-grasping Synergistic Strategy for Goal-agnostic and Goal-oriented
Tasks • Dafa Ren, Shuang Wu, Xiaofan Wang, Yan Peng and Xiaoqiang Ren ◦ Goal指向型とそうでない操作戦略を組み合わせることで両方のタスクに１つのモデルで適用可能にする ◦ Goal指向型でないDQNを学習した後に，その Q-Mapを利用して対象物体のマスクで処理された Q-mapを利用して階層的に Policyを学習するようにすると効果的に学習できる 53 https://arxiv.org/abs/2212.01763

IROS2023の動向，気づき（52/53） Autonomous Power Line Inspection with Drones Via Perception-Aware MPC
• Jiaxu Xing, Giovanni Cioﬃ, Javier Hidalgo Carrio, Davide Scaramuzza ◦ ドローンによる送電線点検のための MPC（モデル予測制御）手法。 ◦ 送電線などへの衝突を回避および可視性が最大となるように MPCを構成した点が重要。 ◦ 学習型の障害物（送電線）の識別は、環境毎にパラメータ調整が必須な従来法（ Canny等）に比べ汎化に機能する利点あり。 ◦ 学習型認識をMPCに組み合わせた事で、検証した環境すべてで性能が向上 54 IROS 2023 Best Overall Paper Award🎉 https://arxiv.org/abs/2304.00959

IROS2023の動向，気づき（53/53） Controlling Powered Prosthesis Kinematics over Continuous Transitions Between Walk
and Stair Ascent • Shihao Cheng, Curt A. Laubscher, Robert D. Gregg ◦ 階段を昇る（段差をこえる）能力を有する義足の研究。 ◦ 歩行および昇降のモードの切り替えを連続かつ生体模倣的な遷移を利用。 ◦ データ駆動型の運動モデルによる関節角度トラッキング。状態を連続的に補完。 ◦ 検証：2名の被験者（義足が必要な方）を対象にてシステムを評価 55 IROS 2023 ABB Best Student Paper Award🎉 https://locolab.robotics.umich.edu/documents/ChengGregg-IROS2023.pdf

今後の展望今後，我々としてはどうすればいいか？ 56

今後の展望（1/2）国際学会で発表、その前に… • Demo or die ◦ プロジェクトページ・デモ動画 • 伝統的な手法・タスクの競争は激しい
◦ Picking/Pushing/Grasp等は差分、新規性、付加価値が必須 → 目の肥えた研究者・技術者は沢山いる！ ◦ タスクに新規性があっても、完成度が高いデモを！ • 採択への道のり ◦ 流行に自身の基盤技術に組み込む（e.g. 認識にCVの技術を利用） ◦ 専有する独自技術の発展（e.g. グリッパやセンサの開発） 57

今後の展望（2/2） IROSを盛り上げる！ • IROSはIEEEと日本ロボット学会（RSJ）の共催の国際学会であり、「日本的*な独創性のある研究を発表する」場として創設** → ブレずに研究を育てる！国際学会とはいえ、日本の組織・研究者が運営に関わる以上、日本発の投稿・発表がもっと増やすよう努めなければならない 58
** 福田敏男, ロボットと私の研究ノート , 日本ロボット学会誌 , 2006, 24 巻, 3 号, p. 333-337 * 創設当時の日本では、独自のメカニズムを持つアクチュエータやセンサを用い、よく工夫された研究が主流であったため、皆同じ機材を用い、数学的定式化による解決を好む米国の研究者からは「統一感がない」風に見えた。そのため、採択されにくいという面があった。

IROS2023 報告

IROS2023 報告

More Decks by robotpaper.challenge

Other Decks in Research

Featured

Transcript