Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[JSAI24] DM2RM: Dual-Mode Multimodal Ranking for Target Objects and Receptacles Based on Open-Vocabulary Instructions

[JSAI24] DM2RM: Dual-Mode Multimodal Ranking for Target Objects and Receptacles Based on Open-Vocabulary Instructions

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 概要 - 2 - ▪ 背景 ✓ マルチモーダル検索に基づく, 生活支援ロボットによる物体操作 ▪

    提案 ✓ 大規模言語モデルによるSwitching機構 に基づき,対象物体および配置目標を 単一モデルで検索可能 ▪ 結果 ✓ 実機実験において,ゼロショット転移でタスク成功率82%を達成 発表資料
  2. 関連研究:fetch-and-carryタスクにおいて, マルチモーダル検索設定を扱う研究は少ない - 4 - OVMM 手法 概要 MultiRankIt [Kaneda+,

    RA-L24] human-in-the-loop設定において,指示文の対象物体を検索  配置目標の特定に非対応 RREx-BoT [Sigurdsson+, IROS23] 事前探索に基づく視覚言語ナビゲーション  候補の中からtop-1の物体のみに着目 OVMM [Yenamandra+, CoRL23] open-vocabularyな指示文に基づくfetch-and-carryタスク  SOTA手法でもタスク成功率:10%程度 MultiRankIt
  3. 提案手法: Dual-Mode Multimodal Ranking Model (DM2RM) - 6 - ▪

    新規性:大規模言語モデル・マルチモーダル基盤モデルを用いて, 対象物体および配置目標の両方を単一モデルで検索可能
  4. 提案手法: Dual-Mode Multimodal Ranking Model (DM2RM) - 7 - ▪

    新規性:大規模言語モデル・マルチモーダル基盤モデルを用いて, 対象物体および配置目標の両方を単一モデルで検索可能 言語/画像特徴量のコサイン類似度でランク付け 損失関数:InfoNCE [Oord+, 18]
  5. 提案手法: Dual-Mode Multimodal Ranking Model (DM2RM) - 8 - ▪

    新規性:大規模言語モデル・マルチモーダル基盤モデルを用いて, 対象物体および配置目標の両方を単一モデルで検索可能 ② ① ③
  6. 1/3. Switching Phrase Encoder (SPE): 予測対象に応じた,言語特徴量の埋め込み空間切替 - 9 - ▪

    Switching機構:大規模言語モデルにより指示文から関連度の高い参照表現 を特定し,予測対象(=Target/Receptacleモード)に応じて切替 ▪ 指示文例:”Aという物体をBという場所へ運んで” t-SNEによる 言語特徴量の可視化
  7. 2/3. Task Paraphraser (TP): 大規模言語モデルにより指示文を標準形に変換 - 10 - ▪ 文の冗長性や文法的な誤りを吸収

    ▪ 例:”Carry A to B.”  Could you, if you does not mind, to pick up the cardboard box in the room and move it over towards the couch next to the fireplace in the room? ☺ Carry the cardboard box to the couch next to the fireplace. 変換
  8. 3/3. Segment Anything Region Encoder (SARE): 物体の形状や輪郭の視覚特徴量を獲得 - 11 -

    ▪ ゼロショット汎化性能の高いSAM [Kirillov+, ICCV23] による セグメンテーションマスク重畳画像を並列に入力 元画像 重畳画像
  9. 実験設定:大規模な屋内環境で実画像を収集し, クラウドソーシングにより指示文をアノテーション - 12 - ▪ 画像:HM3D [Ramakrishnan+, NeurIPS21] およびMP3D

    [Chang+, 3DV17] から収集 ▪ 言語:対象物体を配置目標へ運搬するための参照表現を含む指示文 環境数 774 画像数 7,148 アノテータ数 226 指示文数 6,581
  10. 定量的結果:標準的な評価指標で既存手法を上回った - 13 - ▪ 評価指標:mean reciprocal rank (MRR)↑,recall@K (R@K)↑

    ☺ すべてのtest集合・評価指標において既存手法を上回った [%] 予測対象 HM3D-FCデータセット MP3D-FCデータセット 手法 Targ. Rec. MRR R@10 R@20 MRR R@10 R@20 CLIP [Radford+, ICML21] ✓ ✓ 10.8 24.9 49.5 15.0 28.5 59.9 MultiRankIt [Kaneda+, RA-L24] ✓ 20.5±2.3 48.2±1.4 73.2±2.8 26.7±2.4 52.8±5.3 71.1±2.7 ✓ 19.8±1.1 49.1±5.9 74.6±3.1 16.4±1.6 39.7±5.3 60.1±3.7 提案手法 ✓ ✓ 32.0±0.5 67.9±0.8 87.3±1.1 36.8±1.5 63.5±2.8 76.3±1.5
  11. Ablation Study: すべての新規モジュールが性能向上に寄与 - 14 - ☺ Switching Phrase Encoder

    (SPE) が最も有効 → モードに応じた埋め込み空間の切り替えが適切に作用 [%] HM3D-FCデータセット MP3D-FCデータセット 条件 MRR R@10 R@20 MRR R@10 R@20 提案手法 (full) 32.0±0.5 67.9±0.8 87.3±1.1 36.8±1.5 63.5±2.8 76.3±1.5 w/o SPE 22.5±1.4 53.0±2.5 78.9±2.7 21.3±0.9 42.0±1.7 63.2±1.0 w/o TP 28.4±1.4 66.3±0.7 85.2±1.1 31.4±2.2 56.8±3.8 75.0±0.7 w/o SARE 29.7±0.6 64.9±1.4 86.6±1.4 33.2±1.2 60.0±2.5 75.0±2.0
  12. 定性的結果(成功例):対象物体/配置目標ともに 望ましい画像を上位にランク付け - 15 - Take the white lamp on

    the desk near the bed, then move it to the white desk near the black chair. ▪ Targetモード ▪ Receptacleモード 提案手法 Ground-Truth Ground-Truth 提案手法 既存手法 既存手法 Rank: 1 Rank: 1 Rank: 2 Rank: 2 Rank: 1 Rank: 2 Rank: 1 Rank: 2
  13. 実機実験 (1/3):事前の探索により環境の画像を収集 - 16 - 観測画像 … … … …

    … … 16x ▪ 標準的な環境/日常物体/ロボットを使用
  14. 実機実験 (2/3):open-vocabularyな指示文に基づき, 対象物体を検索 & 把持(Targetモード) - 17 - Would you

    please take the bleach cleanser next to the scissors and put it in the black box? 4x ① ② ③ ④ ⑤ ⑥
  15. 実機実験 (3/3):同様に,配置目標を検索 & 配置 (Receptacleモード) - 18 - Would you

    please take the bleach cleanser next to the scissors and put it in the black box? 4x ① ② ③ ④ ⑤ ⑥
  16. 定量的結果(実機): ゼロショット転移条件において,タスク成功率82%を達成 - 19 - ▪ マルチモーダル検索:☺ 未知環境への頑健性を示唆 ▪ ユーザの認知負荷を考慮し,top-10のみを提示

    ▪ タスク成功率:☺ 検索,把持,および配置の一連動作を実施 ▪ 検索に成功した場合のみ動作を実行 MRR [%] Recall@10 [%] 39 96 把持 [%] 配置 [%] 全体 [%] 92 (89 / 97) 95 (82 / 86) 82 (82 / 100) 4x
  17. まとめ - 20 - ▪ 背景 ✓ マルチモーダル検索に基づく, 生活支援ロボットによる物体操作 ▪

    提案 ✓ 大規模言語モデルによるSwitching機構 に基づき,対象物体および配置目標を 単一モデルで検索可能 ▪ 結果 ✓ 実機実験において,ゼロショット転移でタスク成功率82%を達成 発表資料
  18. 評価指標:画像検索設定において標準的 - 22 - ▪ Mean Reciprocal Rank (MRR) ▪

    Recall@K :top-Kのサンプル集合 :指示文数 :正解サンプル集合 :GT画像の最高順位
  19. 定性的結果(失敗例): 曖昧な指示文に対し,類似画像を上位にランク付け - 23 - Could you please move the

    ceiling white light into the white shelf? ▪ Targetモード ▪ Receptacleモード Ground-Truth Ground-Truth 提案手法 提案手法 Rank: 1 Rank: 2 Rank: 1 Rank: 2
  20. エラー分析:曖昧な指示文による場合が最多 - 24 - 失敗要因 Targetモード Receptacleモード Ambiguous Instruction 8

    8 Referring Expression Comprehension error 7 2 Phrase Selection error 1 7 Object Grounding error 4 3 合計 20 20
  21. 実験設定(実機): マルチモーダル検索 + 移動マニピュレーション - 25 - ▪ 環境:WRS 2020

    Partner Robot Challenge/Real Spaceの標準環境に準拠 ▪ 実機:Human Support Robot [Yamamoto+, ROBOMECH J.19] ▪ 物体:YCBオブジェクト [Calli+, RAM15] + 一般的な日常物体(計50種類)
  22. 実機:Human Support Robot [Yamamoto+, ROBOMECH J.19] - 26 - https://global.toyota/jp/download/8725215

    ▪ HSR:トヨタ自動車製の生活支援ロボット ▪ 頭部搭載のAsus Xtion Proカメラを使用