[JSAI24] DM2RM: Dual-Mode Multimodal Ranking for Target Objects and Receptacles Based on Open-Vocabulary Instructions

慶應義塾大学是方諒介，兼田寛大，長嶋隼矢，今井悠人，杉浦孔明大規模言語モデルを用いたSwitching機構付きマルチモーダル検索モデルに基づく生活支援ロボットによる物体操作

概要 - 2 - ▪ 背景 ✓ マルチモーダル検索に基づく，生活支援ロボットによる物体操作 ▪
提案 ✓ 大規模言語モデルによるSwitching機構に基づき，対象物体および配置目標を単一モデルで検索可能 ▪ 結果 ✓ 実機実験において，ゼロショット転移でタスク成功率82%を達成発表資料

背景：生活支援ロボットにおけるマルチモーダル言語理解 ▪ 生活支援ロボット ▪ 高齢化社会における在宅介助者不足解消に期待 ▪ 自然言語による移動マニピュレーション指示 → 利便性が向上白い長机の上にある
ペンを持ってきてくれますか？ - 3 - open-vocabulary / 参照表現

関連研究：fetch-and-carryタスクにおいて，マルチモーダル検索設定を扱う研究は少ない - 4 - OVMM 手法概要 MultiRankIt [Kaneda+,
RA-L24] human-in-the-loop設定において，指示文の対象物体を検索  配置目標の特定に非対応 RREx-BoT [Sigurdsson+, IROS23] 事前探索に基づく視覚言語ナビゲーション  候補の中からtop-1の物体のみに着目 OVMM [Yenamandra+, CoRL23] open-vocabularyな指示文に基づくfetch-and-carryタスク  SOTA手法でもタスク成功率：10%程度 MultiRankIt

問題設定：open-vocabularyな指示文によるマルチモーダル検索に基づくfetch-and-carryタスク - 5 - ▪ 前提：環境中の画像群は事前の探索で収集済み ▪ 入力：対象物体を配置目標まで運搬するための指示文 ▪
出力：候補画像を対象物体および配置目標のそれぞれに関してランク付けた画像群 → ユーザが上位top-Nから選択可能

提案手法： Dual-Mode Multimodal Ranking Model (DM2RM) - 6 - ▪
新規性：大規模言語モデル・マルチモーダル基盤モデルを用いて，対象物体および配置目標の両方を単一モデルで検索可能

新規性：大規模言語モデル・マルチモーダル基盤モデルを用いて，対象物体および配置目標の両方を単一モデルで検索可能言語/画像特徴量のコサイン類似度でランク付け損失関数：InfoNCE [Oord+, 18]

新規性：大規模言語モデル・マルチモーダル基盤モデルを用いて，対象物体および配置目標の両方を単一モデルで検索可能 ② ① ③

1/3. Switching Phrase Encoder (SPE)：予測対象に応じた，言語特徴量の埋め込み空間切替 - 9 - ▪
Switching機構：大規模言語モデルにより指示文から関連度の高い参照表現を特定し，予測対象（=Target/Receptacleモード）に応じて切替 ▪ 指示文例：”Aという物体をBという場所へ運んで” t-SNEによる言語特徴量の可視化

2/3. Task Paraphraser (TP)：大規模言語モデルにより指示文を標準形に変換 - 10 - ▪ 文の冗長性や文法的な誤りを吸収
▪ 例：”Carry A to B.”  Could you, if you does not mind, to pick up the cardboard box in the room and move it over towards the couch next to the fireplace in the room? ☺ Carry the cardboard box to the couch next to the fireplace. 変換

3/3. Segment Anything Region Encoder (SARE)：物体の形状や輪郭の視覚特徴量を獲得 - 11 -
▪ ゼロショット汎化性能の高いSAM [Kirillov+, ICCV23] によるセグメンテーションマスク重畳画像を並列に入力元画像重畳画像

実験設定：大規模な屋内環境で実画像を収集し，クラウドソーシングにより指示文をアノテーション - 12 - ▪ 画像：HM3D [Ramakrishnan+, NeurIPS21] およびMP3D
[Chang+, 3DV17] から収集 ▪ 言語：対象物体を配置目標へ運搬するための参照表現を含む指示文環境数 774 画像数 7,148 アノテータ数 226 指示文数 6,581

定量的結果：標準的な評価指標で既存手法を上回った - 13 - ▪ 評価指標：mean reciprocal rank (MRR)↑，recall@K (R@K)↑
☺ すべてのtest集合・評価指標において既存手法を上回った [%] 予測対象 HM3D-FCデータセット MP3D-FCデータセット手法 Targ. Rec. MRR R@10 R@20 MRR R@10 R@20 CLIP [Radford+, ICML21] ✓ ✓ 10.8 24.9 49.5 15.0 28.5 59.9 MultiRankIt [Kaneda+, RA-L24] ✓ 20.5±2.3 48.2±1.4 73.2±2.8 26.7±2.4 52.8±5.3 71.1±2.7 ✓ 19.8±1.1 49.1±5.9 74.6±3.1 16.4±1.6 39.7±5.3 60.1±3.7 提案手法 ✓ ✓ 32.0±0.5 67.9±0.8 87.3±1.1 36.8±1.5 63.5±2.8 76.3±1.5

Ablation Study：すべての新規モジュールが性能向上に寄与 - 14 - ☺ Switching Phrase Encoder
(SPE) が最も有効 → モードに応じた埋め込み空間の切り替えが適切に作用 [%] HM3D-FCデータセット MP3D-FCデータセット条件 MRR R@10 R@20 MRR R@10 R@20 提案手法 (full) 32.0±0.5 67.9±0.8 87.3±1.1 36.8±1.5 63.5±2.8 76.3±1.5 w/o SPE 22.5±1.4 53.0±2.5 78.9±2.7 21.3±0.9 42.0±1.7 63.2±1.0 w/o TP 28.4±1.4 66.3±0.7 85.2±1.1 31.4±2.2 56.8±3.8 75.0±0.7 w/o SARE 29.7±0.6 64.9±1.4 86.6±1.4 33.2±1.2 60.0±2.5 75.0±2.0

定性的結果（成功例）：対象物体/配置目標ともに望ましい画像を上位にランク付け - 15 - Take the white lamp on
the desk near the bed, then move it to the white desk near the black chair. ▪ Targetモード ▪ Receptacleモード提案手法 Ground-Truth Ground-Truth 提案手法既存手法既存手法 Rank: 1 Rank: 1 Rank: 2 Rank: 2 Rank: 1 Rank: 2 Rank: 1 Rank: 2

実機実験 (1/3)：事前の探索により環境の画像を収集 - 16 - 観測画像 … … … …
… … 16x ▪ 標準的な環境/日常物体/ロボットを使用

実機実験 (2/3)：open-vocabularyな指示文に基づき，対象物体を検索 & 把持（Targetモード） - 17 - Would you
please take the bleach cleanser next to the scissors and put it in the black box? 4x ① ② ③ ④ ⑤ ⑥

実機実験 (3/3)：同様に，配置目標を検索 & 配置（Receptacleモード） - 18 - Would you
please take the bleach cleanser next to the scissors and put it in the black box? 4x ① ② ③ ④ ⑤ ⑥

定量的結果（実機）：ゼロショット転移条件において，タスク成功率82%を達成 - 19 - ▪ マルチモーダル検索：☺ 未知環境への頑健性を示唆 ▪ ユーザの認知負荷を考慮し，top-10のみを提示
▪ タスク成功率：☺ 検索，把持，および配置の一連動作を実施 ▪ 検索に成功した場合のみ動作を実行 MRR [%] Recall@10 [%] 39 96 把持 [%] 配置 [%] 全体 [%] 92 (89 / 97) 95 (82 / 86) 82 (82 / 100) 4x

まとめ - 20 - ▪ 背景 ✓ マルチモーダル検索に基づく，生活支援ロボットによる物体操作 ▪
提案 ✓ 大規模言語モデルによるSwitching機構に基づき，対象物体および配置目標を単一モデルで検索可能 ▪ 結果 ✓ 実機実験において，ゼロショット転移でタスク成功率82%を達成発表資料

Appendix

評価指標：画像検索設定において標準的 - 22 - ▪ Mean Reciprocal Rank (MRR) ▪
Recall@K ：top-Kのサンプル集合：指示文数：正解サンプル集合：GT画像の最高順位

定性的結果（失敗例）：曖昧な指示文に対し，類似画像を上位にランク付け - 23 - Could you please move the
ceiling white light into the white shelf? ▪ Targetモード ▪ Receptacleモード Ground-Truth Ground-Truth 提案手法提案手法 Rank: 1 Rank: 2 Rank: 1 Rank: 2

エラー分析：曖昧な指示文による場合が最多 - 24 - 失敗要因 Targetモード Receptacleモード Ambiguous Instruction 8
8 Referring Expression Comprehension error 7 2 Phrase Selection error 1 7 Object Grounding error 4 3 合計 20 20

実験設定（実機）：マルチモーダル検索 + 移動マニピュレーション - 25 - ▪ 環境：WRS 2020
Partner Robot Challenge/Real Spaceの標準環境に準拠 ▪ 実機：Human Support Robot [Yamamoto+, ROBOMECH J.19] ▪ 物体：YCBオブジェクト [Calli+, RAM15] + 一般的な日常物体（計50種類）

実機：Human Support Robot [Yamamoto+, ROBOMECH J.19] - 26 - https://global.toyota/jp/download/8725215
▪ HSR：トヨタ自動車製の生活支援ロボット ▪ 頭部搭載のAsus Xtion Proカメラを使用

[JSAI24] DM2RM: Dual-Mode Multimodal Ranking fo...

[JSAI24] DM2RM: Dual-Mode Multimodal Ranking for Target Objects and Receptacles Based on Open-Vocabulary Instructions

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学是方諒介，兼田寛大，長嶋隼矢，今井悠人，杉浦孔明大規模言語モデルを用いたSwitching機構付きマルチモーダル検索モデルに基づく生活支援ロボットによる物体操作

概要 - 2 - ▪ 背景 ✓ マルチモーダル検索に基づく，生活支援ロボットによる物体操作 ▪

背景：生活支援ロボットにおけるマルチモーダル言語理解 ▪ 生活支援ロボット ▪ 高齢化社会における在宅介助者不足解消に期待 ▪ 自然言語による移動マニピュレーション指示 → 利便性が向上白い長机の上にある

関連研究：fetch-and-carryタスクにおいて，マルチモーダル検索設定を扱う研究は少ない - 4 - OVMM 手法概要 MultiRankIt [Kaneda+,

問題設定：open-vocabularyな指示文によるマルチモーダル検索に基づくfetch-and-carryタスク - 5 - ▪ 前提：環境中の画像群は事前の探索で収集済み ▪ 入力：対象物体を配置目標まで運搬するための指示文 ▪

提案手法： Dual-Mode Multimodal Ranking Model (DM2RM) - 6 - ▪

提案手法： Dual-Mode Multimodal Ranking Model (DM2RM) - 7 - ▪

提案手法： Dual-Mode Multimodal Ranking Model (DM2RM) - 8 - ▪

1/3. Switching Phrase Encoder (SPE)：予測対象に応じた，言語特徴量の埋め込み空間切替 - 9 - ▪

2/3. Task Paraphraser (TP)：大規模言語モデルにより指示文を標準形に変換 - 10 - ▪ 文の冗長性や文法的な誤りを吸収

3/3. Segment Anything Region Encoder (SARE)：物体の形状や輪郭の視覚特徴量を獲得 - 11 -

実験設定：大規模な屋内環境で実画像を収集し，クラウドソーシングにより指示文をアノテーション - 12 - ▪ 画像：HM3D [Ramakrishnan+, NeurIPS21] およびMP3D

定量的結果：標準的な評価指標で既存手法を上回った - 13 - ▪ 評価指標：mean reciprocal rank (MRR)↑，recall@K (R@K)↑

Ablation Study：すべての新規モジュールが性能向上に寄与 - 14 - ☺ Switching Phrase Encoder

定性的結果（成功例）：対象物体/配置目標ともに望ましい画像を上位にランク付け - 15 - Take the white lamp on

実機実験 (1/3)：事前の探索により環境の画像を収集 - 16 - 観測画像 … … … …

実機実験 (2/3)：open-vocabularyな指示文に基づき，対象物体を検索 & 把持（Targetモード） - 17 - Would you

実機実験 (3/3)：同様に，配置目標を検索 & 配置（Receptacleモード） - 18 - Would you

定量的結果（実機）：ゼロショット転移条件において，タスク成功率82%を達成 - 19 - ▪ マルチモーダル検索：☺ 未知環境への頑健性を示唆 ▪ ユーザの認知負荷を考慮し，top-10のみを提示

まとめ - 20 - ▪ 背景 ✓ マルチモーダル検索に基づく，生活支援ロボットによる物体操作 ▪

Appendix

評価指標：画像検索設定において標準的 - 22 - ▪ Mean Reciprocal Rank (MRR) ▪

定性的結果（失敗例）：曖昧な指示文に対し，類似画像を上位にランク付け - 23 - Could you please move the

エラー分析：曖昧な指示文による場合が最多 - 24 - 失敗要因 Targetモード Receptacleモード Ambiguous Instruction 8

実験設定（実機）：マルチモーダル検索 + 移動マニピュレーション - 25 - ▪ 環境：WRS 2020

実機：Human Support Robot [Yamamoto+, ROBOMECH J.19] - 26 - https://global.toyota/jp/download/8725215