Upgrade to Pro — share decks privately, control downloads, hide ads and more …

IROS2023 報告

IROS2023 報告

10/1-10/5にデトロイトで開催されたIROS2023での参加報告をrobotpaper.challengeメンバーで行いました.動向や気づき,論文まとめなどを載せています.

robotpaper.challenge

October 20, 2023
Tweet

More Decks by robotpaper.challenge

Other Decks in Research

Transcript

  1. 牧原昂志(大阪大,産総研),元田智大(産総研),
    花井亮(産総研),堂前幸康(産総研)
    IROS2023 報告
    1

    View full-size slide

  2. 概要:IROS2023の動向,気づき
    ロボティクストップ国際会議IROS2023のサーベイ報告
    ● 今回どんな研究が流行っていた?
    ● 海外研究者は何をしている?
    ● 「動向」や「気付き」をまとめました
    2

    View full-size slide

  3. IROS2023の動向,気づき(1/53)
    Robotics分野のトップ会議
    ● Google Scholar Subcategory @Robotics分野
    にて第4位 (2023.10時点)
    h-5 index: 78
    h-5 median: 137
    ● 採択率は毎回4割前後
    会場:Detroit
    ● 開催期間は10月1日~10月5日
    3

    View full-size slide

  4. IROS2023の動向,気づき(2/53)
    開催地
    ● 2022:京都(Asia)
    ● 2023:デトロイト(NA)←今回
    ● 2024:アブダビ(Europe)←次回
    ● 2025:杭州(Asia)
    ● 2026:ピッツバーグ(NA)
    ● 2027:フィレンツェ(Europe)40周年
    ● …
    4

    View full-size slide

  5. IROS2023の動向,気づき(3/53)
    参加者・投稿数の推移
    5
    ※2020年はVirtual 開催のため
    不特定多数の参加者がいた
    論文数 参加人数
    採択→約1,200本
    投稿数→約2,700本

    View full-size slide

  6. IROS2023の動向,気づき(4/53)
    採択論文の統計値*
    ● https://github.com/ryanbgriffiths/IROS2023PaperList
    6
    (Late breaking Abstractsを含む)
    *非公式のため参考程度に確認されたい

    View full-size slide

  7. IROS2023の動向,気づき(5/53)
    会場
    ● Huntington Place, Detroit, Michigan, U.S
    ○ デトロイトの都市部中心に位置。
    ○ 対岸にカナダが見える。
    7

    View full-size slide

  8. IROS2023の動向,気づき(6/53)
    企業ブース
    ● LIONSBOTの自動掃除ロボット
    ● Unitree等複数の企業が2or4足歩行ロボットを展示。常時デモ。
    ○ 小規模研究室でも入手可能なコストと魅力的な動作に、多くの観客が立ち止まる。
    8

    View full-size slide

  9. IROS2023の動向,気づき(7/53)
    競技会
    ● F1TENTH
    ○ 小型自動走行車(1/10スケールのFormula Oneを謳う)によるレース競技。
    IROSやICRA毎度のように開催されている模様。
    ○ IROS期間中にフリー走行 →予選→決勝、と本家F1さながらに開催。
    ○ ポスター発表会場の近くで運営され、多くの来場者が立ち寄って観覧。
    9
    https://f1tenth.org/
    https://iros2023-race.f1tenth.org/index.html

    View full-size slide

  10. IROS2023の動向,気づき(8/53)
    Farewell Partyの様子
    ● ヘンリー・フォード博物館を貸切った立食形式のパーティ
    ○ 会場からの無料送迎付き(バスで約 20分)
    10
    https://www.thehenryford.org/

    View full-size slide

  11. IROS2023の動向,気づき(9/53)
    研究のアウトリーチ活動
    ● 学会開始前から宣伝・アピールの必須化傾向加速
    ○ 他の学会(特にCV分野)の状況と同様であるが …
    → arXiv/ Researchgate等への事前投稿*
    → プロジェクト紹介用の webページ
    → YouTube等の動画公開
    → 研究者個人SNS
    IROS側もSNSの投稿を推奨する姿勢を見せている。
    * なお、近年のIROS、ICRAはProceedingsが一般公開となるケースが多いが、
    ArXivなどのアクセスの容易さは敵わない…
    ○ 著名研究グループは元より注目が集中しやすい上、宣伝の練度が高い印象(鬼に金棒)
    → 注目度を高めたい場合は ”特に”適切な前準備が必須
    ○ 当然、優れた研究成果・インパクトのある口頭発表やポスター発表の重要性は不変
    11
    研究者の負担は増加 ↑

    View full-size slide

  12. IROS2023の動向,気づき(10/53)
    Plenary 1 Marcie O’Malley (Rice University)
    ● Robots that teach and learn with a human touch
    12

    View full-size slide

  13. IROS2023の動向,気づき(11/53)
    Plenary 2 Yuto Nakanishi (GITAI)
    ● Challenge to Develop Space Robots for Building a Moonbase
    ● 元JSK(東大), SCHAFT
    ● これまでに開発された二足歩行
    ロボットの成功と失敗をユーモアや
    ブラックジョークとともに披露
    ● スペースロボットの取り組みの
    紹介
    13

    View full-size slide

  14. IROS2023の動向,気づき(12/53)
    Plenary 3 Matthew Johnson-Roberson (CMU)
    ● Merging Paths: The Shared History and Convergent Future of AI and
    Robotics
    ● AIとロボティクスの歴史、当時の研究者同士の議論について
    時系列順に解説
    14

    View full-size slide

  15. IROS2023の動向,気づき(13/53)
    Workshop: RoboTac 2023 (October 1st, Full-Day)
    ● 招待講演:Nima Fazeli (ミシガン大学)
    ○ Manipulation via Membranes: High-Resolution and Highly Deformable Tactile Sensing and
    Control (CoRL’22)
    ■ deformable素材のsensorで細かい作業をしようとすると,変形を考慮した制御が必要
    ■ 膜ハンド(Soft Bubble)のMPC(Model Predictive Control)
    15
    ねじ締め
    https://www.robotact.de/robotac-2023
    https://arxiv.org/abs/2209.13432

    View full-size slide

  16. IROS2023の動向,気づき(14/53)
    Workshop: World Models and Predictive Coding in Cognitive
    Robotics (October 5th, Full-Day)
    ● Invited Talk 1: Masahiro Suzuki (University of Tokyo, Japan)
    ○ "Perspectives on World Models and Predictive Codings in Cognitive Robotics"
    ■ Interaction-based Disentanglement of Entities for Object-centric World 
    Models[Nakano+ ICLR’23]
    ● World modelの課題:large amount of dataを必要とする
    ● 物体ごとにlatentを分離,さらにinteractionに関するものとそうでないものを分離
    ● 物体ごとのsupervisionは不要
    ● downstream tasks (planning task, causal understanding tasks) の性能が向上

    16
    https://openreview.net/forum?id=JQc2VowqCzz
    https://world-model.emergent-symbol.systems/

    View full-size slide

  17. IROS2023の動向,気づき(15/53)
    Workshop: World Models and Predictive Coding in Cognitive
    Robotics (October 5th, Full-Day)
    ● Oral: “World-Model-Based Control for Industrial box-packing of Multiple
    Objects using NewtonianVAE”
    ○ Yusuke Kato, Ryo Okumura, Tadahiro Taniguchi
    ■ GelSightでconditioningされたNewtonian VAEのvariationでbox packing
    ■ image cropping: repeat taskで,既に詰めたboxは重要でないので,そこを無視する
    ■ vacuum gripperには指に触覚がつかないので,把持姿勢の推定を in-hand cameraの画像
    に置き換えた
    17
    https://arxiv.org/abs/2308.02136

    View full-size slide

  18. IROS2023の動向,気づき(16/53)
    Workshop: World Models and Predictive Coding in Cognitive
    Robotics (October 5th, Full-Day)
    ● Spot light: Tactile In-Hand Pose Estimation through Perceptual Inference
    ○ Tatsuya Kamijo, Tomoshi Iiyama, Yuta Oshima, Gentiane Venture, Tatsuya Matsushima,
    Yutaka Matsuo and Yusuke Iwasawa
    ■ free energy最小化で視触覚センサによる in-hand姿勢推定
    ■ 物体の違いについて汎化(全然違うものでも)
    ■ 矩形の棒だけで学習 => 断面がZ字などになってもそれっぽく inference
    ■ actionも入れようとしたが,視触覚センサ( gelsight mini, DIGIT)の表面がすぐに削れる)
    18
    https://world-model.emergent-symbol.systems/

    View full-size slide

  19. IROS2023の動向,気づき(17/53)
    Haptics(Tactile)系の研究の進歩
    ● これまでピッキングレベルの簡易なタスクや物体ポーズ推定などが主流
    ● 状態認識からロボットの行動生成までを一気通貫でおこなうレベル
    ● Peg-in-HoleやIn-Handマニピュレーションなどの高度なタスク
    19

    View full-size slide

  20. IROS2023の動向,気づき(18/53)
    基盤モデル関連研究の動向
    ● 既存の認識や行動計画の課題を言語モデルを用いて工夫、解決
    ○ 「言語ラベル↔ゴール状態」や「言語ラベル ↔アフォーダンス」等を導くことが目的
    ○ CLIPモデルによるZero-shotの認識やアフォーダンスを発見は操作に強いメリット。
    少ないデータでも識別の実用性が向上 し、流行となっている。
    ○ ただし、基盤モデルではモーション生成向けに確立した手法がないため、
    GraspやPickingなどは既存の方法を用い、両者を組み合わせて使う のが主。
    ○ 現状、言語モデルが使うだけで優遇される訳でない!何が出来たか?が重要
    → いかに流行とはいえ、セクションが基盤モデル関連で占拠する様子は無し
    → ロボティクス分野では検証の段階 ではないか
    → 次年度以降に成熟したモデルの活用が増える …?
    20
    https://arxiv.org/abs/2210.02438

    View full-size slide

  21. IROS2023の動向,気づき(19/53)
    Interactiveな認識手法が増えてきている
    ● 押して見えない部分の形状をとる
    ● 押して物理量を推定する
    ● 動いているものに対して連続的な把持姿勢を生成する
    ● つまんで見て失敗していたら少し調整して持ち直す
    ● In-handの姿勢を推定しつつ道具を使う         など
    21

    View full-size slide

  22. IROS2023の動向,気づき(20/53)
    One-Shot Affordance Learning (OSAL): Learning to
    Manipulate Articulated Objects by Observing Once
    ● Roumeng Fan, Taohan Wang, Masahiro, Yuji Yamakawa
    ○ 1回の人のデモ(手の動き)からアフォーダンスを獲得。物体を基準とした操作
    ○ 物体の表面と指(Keypoints)のインタラクションを学習し、操作可能性を獲得。
    → エンドエフェクタに依存しない
    (人の動きをロボットに転用できる!)
    ○ 道具や家具の操作を人のデモ獲得した検証を実施
    → BCで未対応な動きを高い成功率で達成
    22
    https://www.youtube.com/watch?v=Ostgp527Dm0

    View full-size slide

  23. IROS2023の動向,気づき(21/53)
    FRoGGeR: Fast Robust Grasp Generation via the Min-Weight
    Metric
    ● Albert H. Li, Preston Culbertson, Joel W. Burdick, Aaron D. Ames
    ○ フォースクロージャの高速かつロバストな計算手法。
    → 従来法の計算速度の課題に、 Min-Weight Metricという近似手法を提案。
    ○ ①重みの非負条件(制約項)を緩和し最適化。②サンプリングした把持を調整
    ○ 検証:YCBデータセットに対し把持実験。約 0.8 secで計算可能
    23
    https://arxiv.org/abs/2302.13687

    View full-size slide

  24. IROS2023の動向,気づき(22/53)
    Self-Supervised Instance Segmentation by Grasping
    ● YuXuan Liu, Xi Chen, Pieter Abbeel
    ○ 自己教師付きのデータ収集とデータ拡張によって Instance segmentationを行う
    ○ 最初に適当にピッキングして前後の画像の差分から Segmentationマスクを生成する
    ○ 生成された少量のマスクで学習した後,物体のみ切り取って別の背景に貼り付けルようにしてデー
    タ拡張をして学習する
    ○ 実環境で修正していくのでエラー率がかなり小さくなる
    24
    https://arxiv.org/abs/2305.06305

    View full-size slide

  25. IROS2023の動向,気づき(23/53)
    Constrained Generative Sampling of 6-DoF Grasps
    ● Jens Lundell, Francesco Verdoja, Tran Nguyen Le, Arsalan Mousavian,
    Dieter Fox, Ville Kyrki
    ○ 点群データを対象とし6次元の把持位置検出手法。
    ○ 点群のセグメンテーションを主体にしたデータセットを提供。
    ○ アフォーダンスに準拠した効果的な対象領域のサンプリング。
    25
    https://arxiv.org/abs/2302.10745

    View full-size slide

  26. IROS2023の動向,気づき(24/53)
    TidyBot: Personalized Robot Assistance with Large
    Language Models
    ● Jimmy Wu et al.
    ○ 片付けのルールを導く LLM(大規模言語モデル)の効果的な利用法の提示。
    ○ 対象のカテゴリ・収納場所・動作を複数の基盤的モデル( ViLD, CLIP等)から決定。
    例:缶 → ゴミ箱に入れる → TOSS動作(プリミティブ動作を用意)
    ○ Sim:識別成功率91.2%, Real:タスク成功率85% (8シーンで検証)
    26
    https://tidybot.cs.princeton.edu/

    View full-size slide

  27. IROS2023の動向,気づき(25/53)
    DALL-E-Bot: Introducing Web-Scale Diffusion Models to
    Robotics
    ● Ivan Kapelyukh, Vitalis Vosylius, Edward Johns
    ○ ロボットに対するウェブスケール拡散モデルを初めて探索に利用。
    ○ 物体のテキスト記述をもとに画像を生成し、その目標画像に基づいて物体を配置。
    ○ DALL-Eを用いて、追加のデータやトレーニングなしに、ゼロショットでこの作業が可能。
    ○ 見た目や働きの評価をユーザへのアンケートによって実施、手法の正当性を確認。
    27
    https://arxiv.org/abs/2210.02438

    View full-size slide

  28. IROS2023の動向,気づき(26/53)
    GelSight Svelte: A Human Finger-shaped Single-camera
    Tactile Robot Finger with Large Sensing Coverage and
    Proprioceptive Sensing
    ● Jialiang Zhao and Edward H. Adelson
    ○ デザイン:人間の指サイズ,人間のような丸みのある sensing surface,外装や外に取り付けたカメ
    ラが無い
    ○ 計測能力:finger tipだけでなく指全体に渡る広い sensing area,指全体にかかるforce/torque
    (proprioceptive information)を計測可能
    28
    https://arxiv.org/pdf/2309.10885.pdf

    View full-size slide

  29. IROS2023の動向,気づき(27/53)
    Task-Oriented Grasp Prediction with Visual-Language
    Inputs
    ● Chao Tang, Dehao Huang, Lingxiao Meng, Weiyu Liu, Hong Zhang
    ○ instruction(language)で与えられるtaskに応じたgraspの生成
    ○ objectのgrasp生成(object-grounding)から taskに応じたgrasp生成(task-grounding)をする
    two-stageのcoarse-to-fineな方法
    29
    https://arxiv.org/abs/2302.14355

    View full-size slide

  30. IROS2023の動向,気づき(28/53)
    Push to Know! - Visuo-Tactile based Active Object
    Parameter Inference with Dual Differentiable Filtering
    ● Anirvan Dutta, Etienne Burdet and Mohsen Kaboli
    ○ 押してphysical propertyを推定(vision and tactile sensing)
    ○ various known objectsを押してinteraction modelを学習
    ○ novel objectに対してposterior beliefを更新しつつ,active action selectionを行う
    30
    https://arxiv.org/abs/2308.01001

    View full-size slide

  31. IROS2023の動向,気づき(29/53)
    Visual Contact Pressure Estimation for Grippers in the Wild
    ● Jeremy A. Collins, Cody Houff, Patrick Grady, Charles C. Kemp
    ○ finger tipが加える力をsingle RGB imageから推定
    ○ uncontrolled settings, lighting, surfaces and other factors vary widelyでの推定
    ○ multi-headの構造でWeak labelとしてForce/Torque sensorも学習時にのみ利用
    31
    https://arxiv.org/abs/2303.07344

    View full-size slide

  32. IROS2023の動向,気づき(30/53)
    3D-Aware Object Localization Using Gaussian Implicit
    Occupancy Function
    ● Vincent Gudillière et al.
    ○ 楕円球推定に基づく物体の検出に関する提案。
    ○ バウンディングボックスより精度に優れる楕円での検出(マスク)を行う。
    ○ ガウス分布に基づくパラメータベースの楕円表現。
    →暗黙的な三次元認識を導くネットワーク構造を提案し、従来法からの精度向上を実現。
    32
    https://arxiv.org/abs/2303.02058

    View full-size slide

  33. IROS2023の動向,気づき(31/53)
    Learning to Grasp Clothing Structural Regions for Garment
    Manipulation Tasks
    ● Wei Chen, Dongmyoung Lee, Digby Chappell, Nicolas Rojas
    ○ 衣服の襟の部分に検出し把持・操作するための認識の手法。
    ○ 人間のデモ動作(衣服をランダムに動かせる)から襟の部分のマスクを生成。
    → デプスデータから検出するモデルを構築。検出に基づき有効な把持姿勢、位置を算出。
    ○ 数種の襟付き衣服から検証。 Hanging動作で70~80%の成功率。
    33
    https://arxiv.org/abs/2306.14553

    View full-size slide

  34. IROS2023の動向,気づき(32/53)
    Open-Vocabulary Affordance Detection in 3D Point Clouds
    ● Toan Nguyen, Minh Nhat Vu, An Vuong, Dzung Nguyen, Thieu Vo, Ngan Le,
    Ang Nguyen
    ○ 点群データに言語ラベルの入力によって特定のアフォーダンス(≒対応範囲)を検出
    ○ CLIPのモデルがベースであり、点群データと言語ラベル(アフォーダンスラベル)の
    対照学習を展開。→Zero-shotでの検出を実現。100ms未満で高速に推論可能なモデル。
    34
    https://arxiv.org/abs/2303.02401

    View full-size slide

  35. IROS2023の動向,気づき(33/53)
    Force Map: Learning to Predict Contact Force Distribution
    from Vision
    ● Ryo Hanai, Yukiyasu Domae, Ixchel G. Ramirez-Alpizar, Bruno Leme and
    Tetsuya Ogata
    ○ 物体にかかる力の分布を視覚( RGB画像)から推定
    ○ シミュレーションでシーン画像と接触力の空間的な分布を計算することで学習データを生成
    ○ 実環境で1枚の画像を入力として大まかな分布を推定可能にした
    35
    https://arxiv.org/abs/2304.05803

    View full-size slide

  36. IROS2023の動向,気づき(34/53)
    Touch if it’s transparent! ACTOR: Active Tactile-based
    Category-Level Transparent Object Reconstruction
    ● Prajval Kumar Murali, Bernd Porr, and Mohsen Kaboli
    ○ 未知の透明物体からの触覚データを Activeに取得して姿勢推定を行う
    ○ 物体の3D形状の再構成の学習のデータをシミュレーションでの大規模に生成する
    ○ 物体の形状と姿勢を認識するための部分的な点群を TouchやPinchで取得する
    36
    https://arxiv.org/abs/2307.16254

    View full-size slide

  37. IROS2023の動向,気づき(35/53)
    Bagging by Learning to Singulate Layers Using Interactive
    Perception
    ● Lawrence Yunliang Chen, Baiyu Shi, Roy Lin, Daniel Seita, Ayah Ahmad,
    Richard Cheng, Thomas Kollar, David Held, Ken Goldberg
    ○ 袋の最上層を把持して物体を詰める袋を開封するタスク
    ○ つまみ上げて0枚 or 1枚 or 2枚を学習したモデルで判別
    ○ その結果によって,次につまみ上げる高さを(固定値)変更する
    37
    https://arxiv.org/abs/2303.16898

    View full-size slide

  38. IROS2023の動向,気づき(36/53)
    Real-time Simultaneous Multi-Object 3D Shape
    Reconstruction, 6DoF Pose Estimation and Dense Grasp
    Prediction
    ● Shubham Agrawal, Nikhil Chavan-Dafle, Isaac Kasahara, Selim Engin,
    Jinwook Huh, Volkan Isler
    ○ RGBDからの6DoF pose estimation
    ○ grasp detectionは,shape reconstructionをマルチヘッドでやると成功率が上がる
    ○ 物体の構造理解と,どう把持するかは linkした概念になっている
    38
    https://arxiv.org/abs/2305.09510

    View full-size slide

  39. IROS2023の動向,気づき(37/53)
    Flexible Handover with Real-Time Robust Dynamic Grasp
    Trajectory Generation
    ● Gu Zhang, Hao-Shu Fang, Hongjie Fang, Cewu Lu
    ○ いろいろなものを人からロボットに渡す(動かしながら)
    ○ grasp detectionの拡張 ⇨ realtimeにgrasp trajectoryを生成
    ○ 時系列情報を入力とし, Transformerで安定把持と連続性を考慮して graspを生成
    ○ GraspNet-1Billion,for each scene, 256 camera viewpoints
    ○ 擬似的に物体の位置が変わったような軌道を作って学習( NeRFも使える?)
    39
    https://arxiv.org/abs/2308.15622

    View full-size slide

  40. IROS2023の動向,気づき(38/53)
    HANDAL: A Dataset of Real-World Manipulable Object
    Categories with Pose Annotations, Affordances, and
    Reconstructions
    ● Andrew Guo, Bowen Wen, Jianhe Yuan, Jonathan Tremblay, Stephen Tyree,
    Jeffrey Smith, Stan Birchfield
    ○ カテゴリレベルの姿勢とアフォーダンスを推定するためのデータセット. 17のカテゴリに分類された
    212の物体,2200の動画から30.8万のアノテーションされた画像フレーム
    ○ 静的なシーンにはCOLMAPとXMem, InstantNGPで,動的なシーンには BundleSDFを使って動画
    から3Dmeshを再構成して,アフォーダンスをアノテーションする
    40
    https://arxiv.org/abs/2308.01477

    View full-size slide

  41. IROS2023の動向,気づき(39/53)
    Learning Robotic Powder Weighing from Simulation for
    Laboratory Automation
    ● Yuki Kadokawa, Masashi Hamaya, Kazutoshi Tanaka
    ○ ミリ単位の粒子の重みを調整しながら掬い上げるタスクを実現。
    ○ 粒子のシミュレーション学習 →Sim2Realおよびドメイン乱択化を調整
    → 特に粒子(粉末)の計量シミュレータによって、データ収集の負担を減らす。
    ○ リカレントニューラルネットワークをベースとしたポリシー学習により動作を生成。
    41
    https://omron-sinicx.github.io/powder-weighing/

    View full-size slide

  42. IROS2023の動向,気づき(40/53)
    SoftGPT: Learn Goal-oriented Soft Object Manipulation Skills
    by Generative Pre-trained Heterogeneous Graph
    Transformer
    ● Junjia Liu, Wanyu Lin, Sylvain Calinon, Kay Chen Tan, Fei Chen
    ○ GPT(本提案ではSoftGPT)を用いた柔軟物体のダイナミクスモデルとポリシー学習
    ○ 点群入力をグラフ表現(≃ GNN)し時系列データ学習
    → 強化学習によってゴール状態を目指す。
    ○ 検証:学習安定化/効率向上(柔軟物表現の効果を確認)
    42
    タスク一覧
    https://arxiv.org/abs/2306.12677

    View full-size slide

  43. IROS2023の動向,気づき(41/53)
    Probabilistic Slide-support Manipulation Planning in Clutter
    ● Shusei Nagato, Tomohiro Motoda, Takao Nishi, Petit Damien, Takuya
    Kiyokawa, Weiwei Wan, Kensuke Harada
    ○ スタックする物体のための双腕アプローチ(サポート付き引き出し)を提案。
    ○ 崩れや落下を防ぐサポート動作によって環境の変化を最小化。
    → NNを用いたダイナミクスの推論から安全性および効率性を考慮した行動計画
    ○ 検証:スタックシーンを対象としたピッキングを物体移動量と動作数評価
    43
    https://arxiv.org/abs/2306.12649

    View full-size slide

  44. IROS2023の動向,気づき(42/53)
    Foldsformer: Learning Sequential Multi-Step Cloth
    Manipulation with Space-Time Attention
    ● Kai Mo, Chongkun Xia, Xueqian Wang, Yuhong Deng, Xuehai Gao, Bin Liang
    ○ 画像(現在の状態、中間状態)を入力とする TransformerによるPick-Place動作の推論。
    ○ シミュレーションにによってデータ収集( 1Kシーン、6K軌道データに基づく)
    ○ 近年の布の折り畳みタスクと比較して精度を評価。推論速度もほぼ問題ない程度に高速。
    44
    https://arxiv.org/abs/2301.03003

    View full-size slide

  45. IROS2023の動向,気づき(43/53)
    Development of a Whole-Body Work Imitation Learning
    System by a Biped and Bi-Armed Humanoid
    ● Yutaro Matsuura, Kento Kawaharazuka, Naoki Hiraoka, Kunio Kojima, Kei
    Okada, Masayuki Inaba
    ○ 浮遊関節付きのヒューマノイド( JAXON)における模倣学習システムの開発
    ○ 遠隔操作デバイスTABLISにより模倣学習を実現。姿勢最適化によって長時間のデータ収集
    ○ 検証:脚を使った作業(物を持ち上げる)等の実験により効果を確認
    45
    https://arxiv.org/abs/2309.15756

    View full-size slide

  46. IROS2023の動向,気づき(44/53)
    Semantic Scene Difference Detection in Daily Life Patroling
    by Mobile Robots Using Pre-Trained Large-Scale
    Vision-Language Model
    ● Yoshiki Obinata, Kento Kawaharazuka, Naoaki Kanazawa, Naoya
    Yamaguchi, Naoto Tsukamoto, Iori Yanokura, Shingo Kitagawa, Koki Shinjo,
    Kei Okada, Masayuki Inaba
    ○ Visual Question Answering (VQA) modelにより対話的にzero-shotで環境の変化を検出
    ○ 移動ロボットの巡回タスクに適用し検証
    → 環境の違いをScene Distanceとして評価

    46
    https://arxiv.org/pdf/2309.16552v1.pdf

    View full-size slide

  47. IROS2023の動向,気づき(45/53)
    Bag All You Need: Learning a Generalizable Bagging
    Strategy for Heterogeneous Objects
    ● Arpit Bahety, Shreeya Jain, Huy Ha, Nathalie Hager, Benjamin Burchfiel, Eric
    Cousineau, Siyuan Feng, Shuran Song
    ○ 学習型の袋詰めのマニピュレーションの提案。
    ○ 画像ベースに袋の”口”を検出→はみ出る物体の移動、持ち上げる際の最適な把持点を導出。
    ○ Sim及びRealで検証:物体個数には影響するが Baselineとの比較によって高い成功率。
    47
    https://arxiv.org/abs/2210.09997

    View full-size slide

  48. IROS2023の動向,気づき(46/53)
    Transparent Object Tracking with Enhanced Fusion Module
    ● Kalyan Garigapati, Erik Blasch, Jie Wei, Haibin Ling
    ○ 画像における透明物体をトラッキングするアルゴリズムの提案。
    ○ 特徴空間内に透明度情報を追加。学習済の Trans2Segによる特徴量を利用。
    ○ Fusion Module(Transformerベース)という特徴量を組み合わせる手法がポイント。
    ○ 検証:他の最先端トラッキング手法にも劣らない結果。
    48
    https://arxiv.org/pdf/2309.06701v1.pdf

    View full-size slide

  49. IROS2023の動向,気づき(47/53)
    Multimodal Diffusion Segmentation Model for Object
    Segmentation from Manipulation Instructions
    ● Yui Iioka, Yu Yoshida, Yuiga Wada, Shumpei Hatanaka, Komei Sugiura
    ○ 言語指示に対して重要な対象物を画像中で segmentation
    ○ 対象を2つの方法(CLIP特徴とDiffusion model)で綺麗に切り出す
    ○ diffusionモデルのdenoise過程におけるfeatureを足し合わせてMLPでdecodeすると,単純に
    convolution-based U-netのようなこれまでの階層的 featureをdecodeするよりsegmentationの品
    質が良くなることが知られている
    49
    https://arxiv.org/abs/2307.08597

    View full-size slide

  50. IROS2023の動向,気づき(48/53)
    Learning to Efficiently Plan Robust Frictional Multi-Object
    Grasps
    ● Wisdom C. Agboh, Satvik Sharma, Kishore Srinivas, Mallika Parulekar,
    Gaurav Datta, Tianshuang Qiu, Jeffrey Ichnowski3, Eugen Solowjow,
    Mehmet Dogar, Ken Goldberg
    ○ 摩擦を考慮して複数物体の同時把持を画像から行う.把持するグループを抽出して,グループごと
    に把持した時の安定の度合いを解析し,ピックする数を推定する
    ○ 成功率が13.7%増加し1時間あたりのピック数が 1.6倍増加し,把持計画時間が 6.3倍減少.
    50
    https://arxiv.org/abs/2210.07420

    View full-size slide

  51. IROS2023の動向,気づき(49/53)
    Chat with the Environment: Interactive Multimodal
    Perception Using Large Language Models
    ● Xufeng Zhao, Mengdi Li, Cornelius Weber, Muhammad Burhan Hafez, and
    Stefan Wermter
    ○ LLMで様々な認識のための行動を指示し,その結果得られるマルチモーダルな情報をベースにし
    て対話的にタスクを完了する
    ○ Interactionしないと得られない対象物体の特性を LLMの常識をベースに認識していく.
    51
    https://arxiv.org/abs/2303.08268

    View full-size slide

  52. IROS2023の動向,気づき(50/53)
    Active Acoustic Sensing for Robot Manipulation
    ● Shihan Lu and Heather Culbertson
    ○ 指から音波(振動)その共鳴情報から把持状態(材質,形状,内部構造,把持位置)の様々な推定
    ○ simulatorで学習(音響モデルのパラメータは実環境に合わせて調整)
    ○ PyBulletのcontact informationを利用してiscous contact dampingモデルでgripperとfingerの間
    のcollision impulseを計算し,modal analysisで音響波形を生成
    52
    https://arxiv.org/abs/2308.01600

    View full-size slide

  53. IROS2023の動向,気づき(51/53)
    Learning Bifunctional Push-grasping Synergistic Strategy for
    Goal-agnostic and Goal-oriented Tasks
    ● Dafa Ren, Shuang Wu, Xiaofan Wang, Yan Peng and Xiaoqiang Ren
    ○ Goal指向型とそうでない操作戦略を組み合わせることで両方のタスクに1つのモデルで適用可能
    にする
    ○ Goal指向型でないDQNを学習した後に,その Q-Mapを利用して対象物体のマスクで処理された
    Q-mapを利用して階層的に Policyを学習するようにすると効果的に学習できる
    53
    https://arxiv.org/abs/2212.01763

    View full-size slide

  54. IROS2023の動向,気づき(52/53)
    Autonomous Power Line Inspection with Drones Via
    Perception-Aware MPC
    ● Jiaxu Xing, Giovanni Cioffi, Javier Hidalgo Carrio, Davide Scaramuzza
    ○ ドローンによる送電線点検のための MPC(モデル予測制御)手法。
    ○ 送電線などへの衝突を回避および可視性が最大となるように MPCを構成した点が重要。
    ○ 学習型の障害物(送電線)の識別は、環境毎にパラメータ調整が必須な従来法( Canny等)に比べ
    汎化に機能する利点あり。
    ○ 学習型認識をMPCに組み合わせた事で、検証した環境すべてで性能が向上
    54
    IROS 2023 Best Overall Paper Award🎉
    https://arxiv.org/abs/2304.00959

    View full-size slide

  55. IROS2023の動向,気づき(53/53)
    Controlling Powered Prosthesis Kinematics over Continuous
    Transitions Between Walk and Stair Ascent
    ● Shihao Cheng, Curt A. Laubscher, Robert D. Gregg
    ○ 階段を昇る(段差をこえる)能力を有する義足の研究。
    ○ 歩行および昇降のモードの切り替えを連続かつ生体模倣的な遷移を利用。
    ○ データ駆動型の運動モデルによる関節角度トラッキング。状態を連続的に補完。
    ○ 検証:2名の被験者(義足が必要な方)を対象にてシステムを評価
    55
    IROS 2023 ABB Best Student Paper Award🎉
    https://locolab.robotics.umich.edu/documents/ChengGregg-IROS2023.pdf

    View full-size slide

  56. 今後の展望
    今後,我々としてはどうすればいいか?
    56

    View full-size slide

  57. 今後の展望(1/2)
    国際学会で発表、その前に…
    ● Demo or die
    ○ プロジェクトページ・デモ動画
    ● 伝統的な手法・タスクの競争は激しい
    ○ Picking/Pushing/Grasp等は差分、新規性、付加価値が必須
    → 目の肥えた研究者・技術者は沢山いる!
    ○ タスクに新規性があっても、完成度が高いデモを!
    ● 採択への道のり
    ○ 流行に自身の基盤技術に組み込む(e.g. 認識にCVの技術を利用)
    ○ 専有する独自技術の発展(e.g. グリッパやセンサの開発)
    57

    View full-size slide

  58. 今後の展望(2/2)
    IROSを盛り上げる!
    ● IROSはIEEEと日本ロボット学会(RSJ)の共催の国際学会であり、
    「日本的*な独創性のある研究を発表する」場として創設**
    → ブレずに研究を育てる!
    国際学会とはいえ、日本の組織・研究者が運営に関わる以上、
    日本発の投稿・発表がもっと増やすよう努めなければならない
    58
    ** 福田 敏男, ロボットと私の研究ノート
    , 日本ロボット学会誌
    , 2006, 24 巻, 3 号, p. 333-337
    * 創設当時の日本では、独自のメカニズムを持つアクチュエータやセンサを用い、よく工夫された研究が主流であったため、皆同じ機材を用
    い、数学的定式化による解決を好む米国の研究者からは「統一感がない」風に見えた。そのため、採択されにくいという面があった。

    View full-size slide