Slide 1

Slide 1 text

慶應義塾大学 是方諒介,兼田寛大,長嶋隼矢,今井悠人,杉浦孔明 大規模言語モデルを用いたSwitching機構付き マルチモーダル検索モデルに基づく 生活支援ロボットによる物体操作

Slide 2

Slide 2 text

概要 - 2 - ■ 背景 ✓ マルチモーダル検索に基づく, 生活支援ロボットによる物体操作 ■ 提案 ✓ 大規模言語モデルによるSwitching機構 に基づき,対象物体および配置目標を 単一モデルで検索可能 ■ 結果 ✓ 実機実験において,ゼロショット転移でタスク成功率82%を達成 発表資料

Slide 3

Slide 3 text

背景:生活支援ロボットにおけるマルチモーダル言語理解 ■ 生活支援ロボット ■ 高齢化社会における在宅介助者不足解消に期待 ■ 自然言語による移動マニピュレーション指示 → 利便性が向上 白い長机の上にある ペンを持ってきてく れますか? - 3 - open-vocabulary / 参照表現

Slide 4

Slide 4 text

関連研究:fetch-and-carryタスクにおいて, マルチモーダル検索設定を扱う研究は少ない - 4 - OVMM 手法 概要 MultiRankIt [Kaneda+, RA-L24] human-in-the-loop設定において,指示文の対象物体を検索  配置目標の特定に非対応 RREx-BoT [Sigurdsson+, IROS23] 事前探索に基づく視覚言語ナビゲーション  候補の中からtop-1の物体のみに着目 OVMM [Yenamandra+, CoRL23] open-vocabularyな指示文に基づくfetch-and-carryタスク  SOTA手法でもタスク成功率:10%程度 MultiRankIt

Slide 5

Slide 5 text

問題設定:open-vocabularyな指示文による マルチモーダル検索に基づくfetch-and-carryタスク - 5 - ■ 前提:環境中の画像群は事前の探索で収集済み ■ 入力:対象物体を配置目標まで運搬するための指示文 ■ 出力:候補画像を対象物体および配置目標のそれぞれに関して ランク付けた画像群 → ユーザが上位top-Nから選択可能

Slide 6

Slide 6 text

提案手法: Dual-Mode Multimodal Ranking Model (DM2RM) - 6 - ■ 新規性:大規模言語モデル・マルチモーダル基盤モデルを用いて, 対象物体および配置目標の両方を単一モデルで検索可能

Slide 7

Slide 7 text

提案手法: Dual-Mode Multimodal Ranking Model (DM2RM) - 7 - ■ 新規性:大規模言語モデル・マルチモーダル基盤モデルを用いて, 対象物体および配置目標の両方を単一モデルで検索可能 言語/画像特徴量のコサイン類似度でランク付け 損失関数:InfoNCE [Oord+, 18]

Slide 8

Slide 8 text

提案手法: Dual-Mode Multimodal Ranking Model (DM2RM) - 8 - ■ 新規性:大規模言語モデル・マルチモーダル基盤モデルを用いて, 対象物体および配置目標の両方を単一モデルで検索可能 ② ① ③

Slide 9

Slide 9 text

1/3. Switching Phrase Encoder (SPE): 予測対象に応じた,言語特徴量の埋め込み空間切替 - 9 - ■ Switching機構:大規模言語モデルにより指示文から関連度の高い参照表現 を特定し,予測対象(=Target/Receptacleモード)に応じて切替 ■ 指示文例:”Aという物体をBという場所へ運んで” t-SNEによる 言語特徴量の可視化

Slide 10

Slide 10 text

2/3. Task Paraphraser (TP): 大規模言語モデルにより指示文を標準形に変換 - 10 - ■ 文の冗長性や文法的な誤りを吸収 ■ 例:”Carry A to B.”  Could you, if you does not mind, to pick up the cardboard box in the room and move it over towards the couch next to the fireplace in the room? ☺ Carry the cardboard box to the couch next to the fireplace. 変換

Slide 11

Slide 11 text

3/3. Segment Anything Region Encoder (SARE): 物体の形状や輪郭の視覚特徴量を獲得 - 11 - ■ ゼロショット汎化性能の高いSAM [Kirillov+, ICCV23] による セグメンテーションマスク重畳画像を並列に入力 元画像 重畳画像

Slide 12

Slide 12 text

実験設定:大規模な屋内環境で実画像を収集し, クラウドソーシングにより指示文をアノテーション - 12 - ■ 画像:HM3D [Ramakrishnan+, NeurIPS21] およびMP3D [Chang+, 3DV17] から収集 ■ 言語:対象物体を配置目標へ運搬するための参照表現を含む指示文 環境数 774 画像数 7,148 アノテータ数 226 指示文数 6,581

Slide 13

Slide 13 text

定量的結果:標準的な評価指標で既存手法を上回った - 13 - ■ 評価指標:mean reciprocal rank (MRR)↑,recall@K (R@K)↑ ☺ すべてのtest集合・評価指標において既存手法を上回った [%] 予測対象 HM3D-FCデータセット MP3D-FCデータセット 手法 Targ. Rec. MRR R@10 R@20 MRR R@10 R@20 CLIP [Radford+, ICML21] ✓ ✓ 10.8 24.9 49.5 15.0 28.5 59.9 MultiRankIt [Kaneda+, RA-L24] ✓ 20.5±2.3 48.2±1.4 73.2±2.8 26.7±2.4 52.8±5.3 71.1±2.7 ✓ 19.8±1.1 49.1±5.9 74.6±3.1 16.4±1.6 39.7±5.3 60.1±3.7 提案手法 ✓ ✓ 32.0±0.5 67.9±0.8 87.3±1.1 36.8±1.5 63.5±2.8 76.3±1.5

Slide 14

Slide 14 text

Ablation Study: すべての新規モジュールが性能向上に寄与 - 14 - ☺ Switching Phrase Encoder (SPE) が最も有効 → モードに応じた埋め込み空間の切り替えが適切に作用 [%] HM3D-FCデータセット MP3D-FCデータセット 条件 MRR R@10 R@20 MRR R@10 R@20 提案手法 (full) 32.0±0.5 67.9±0.8 87.3±1.1 36.8±1.5 63.5±2.8 76.3±1.5 w/o SPE 22.5±1.4 53.0±2.5 78.9±2.7 21.3±0.9 42.0±1.7 63.2±1.0 w/o TP 28.4±1.4 66.3±0.7 85.2±1.1 31.4±2.2 56.8±3.8 75.0±0.7 w/o SARE 29.7±0.6 64.9±1.4 86.6±1.4 33.2±1.2 60.0±2.5 75.0±2.0

Slide 15

Slide 15 text

定性的結果(成功例):対象物体/配置目標ともに 望ましい画像を上位にランク付け - 15 - Take the white lamp on the desk near the bed, then move it to the white desk near the black chair. ■ Targetモード ■ Receptacleモード 提案手法 Ground-Truth Ground-Truth 提案手法 既存手法 既存手法 Rank: 1 Rank: 1 Rank: 2 Rank: 2 Rank: 1 Rank: 2 Rank: 1 Rank: 2

Slide 16

Slide 16 text

実機実験 (1/3):事前の探索により環境の画像を収集 - 16 - 観測画像 … … … … … … 16x ■ 標準的な環境/日常物体/ロボットを使用

Slide 17

Slide 17 text

実機実験 (2/3):open-vocabularyな指示文に基づき, 対象物体を検索 & 把持(Targetモード) - 17 - Would you please take the bleach cleanser next to the scissors and put it in the black box? 4x ① ② ③ ④ ⑤ ⑥

Slide 18

Slide 18 text

実機実験 (3/3):同様に,配置目標を検索 & 配置 (Receptacleモード) - 18 - Would you please take the bleach cleanser next to the scissors and put it in the black box? 4x ① ② ③ ④ ⑤ ⑥

Slide 19

Slide 19 text

定量的結果(実機): ゼロショット転移条件において,タスク成功率82%を達成 - 19 - ■ マルチモーダル検索:☺ 未知環境への頑健性を示唆 ■ ユーザの認知負荷を考慮し,top-10のみを提示 ■ タスク成功率:☺ 検索,把持,および配置の一連動作を実施 ■ 検索に成功した場合のみ動作を実行 MRR [%] Recall@10 [%] 39 96 把持 [%] 配置 [%] 全体 [%] 92 (89 / 97) 95 (82 / 86) 82 (82 / 100) 4x

Slide 20

Slide 20 text

まとめ - 20 - ■ 背景 ✓ マルチモーダル検索に基づく, 生活支援ロボットによる物体操作 ■ 提案 ✓ 大規模言語モデルによるSwitching機構 に基づき,対象物体および配置目標を 単一モデルで検索可能 ■ 結果 ✓ 実機実験において,ゼロショット転移でタスク成功率82%を達成 発表資料

Slide 21

Slide 21 text

Appendix

Slide 22

Slide 22 text

評価指標:画像検索設定において標準的 - 22 - ■ Mean Reciprocal Rank (MRR) ■ Recall@K :top-Kのサンプル集合 :指示文数 :正解サンプル集合 :GT画像の最高順位

Slide 23

Slide 23 text

定性的結果(失敗例): 曖昧な指示文に対し,類似画像を上位にランク付け - 23 - Could you please move the ceiling white light into the white shelf? ■ Targetモード ■ Receptacleモード Ground-Truth Ground-Truth 提案手法 提案手法 Rank: 1 Rank: 2 Rank: 1 Rank: 2

Slide 24

Slide 24 text

エラー分析:曖昧な指示文による場合が最多 - 24 - 失敗要因 Targetモード Receptacleモード Ambiguous Instruction 8 8 Referring Expression Comprehension error 7 2 Phrase Selection error 1 7 Object Grounding error 4 3 合計 20 20

Slide 25

Slide 25 text

実験設定(実機): マルチモーダル検索 + 移動マニピュレーション - 25 - ■ 環境:WRS 2020 Partner Robot Challenge/Real Spaceの標準環境に準拠 ■ 実機:Human Support Robot [Yamamoto+, ROBOMECH J.19] ■ 物体:YCBオブジェクト [Calli+, RAM15] + 一般的な日常物体(計50種類)

Slide 26

Slide 26 text

実機:Human Support Robot [Yamamoto+, ROBOMECH J.19] - 26 - https://global.toyota/jp/download/8725215 ■ HSR:トヨタ自動車製の生活支援ロボット ■ 頭部搭載のAsus Xtion Proカメラを使用