Slide 1

Slide 1 text

慶應義塾大学 長嶋隼矢,是方諒介,兼田寛大,杉浦孔明 マルチモーダル基盤モデルによる 対象物体抽出に基づく 日常物体検索および物体操作

Slide 2

Slide 2 text

背景:Open-Vocabulary設定に注目 - 2 - 少子高齢化社会における在宅介助者不足に対して生活支援ロボットに期待 L 全自動の設定での成功率 低 NeurIPS23 Open Vocabulary Mobile Manipulation Challenge n 自動化とオペレータによる介入を 組み合わせたhuman-in-the-loop設定 n Open-Vocabularyのユーザ指示文から 対象物体を検索・把持 L Closed-vocabulary設定では実用性 低 本手法のアプローチ L 成功率 約 30% [Qi+, CVPR20]

Slide 3

Slide 3 text

問題設定: Learning–to–Rank Physical Objects for Fetching (LTRPO-fetch)タスク - 3 - ■ 参照表現を含む指示文 ■ 周辺画像(正面・左右) ■ 対象物体候補(N個) 入力 8x 指示文:Go into the living room and pick up the yellow cup on the square table. Model ・・・ 巡回 Rank: 1 Rank: 2 Rank: N ・・・ ユーザによる選択 ・・・ 8x 出力 ■ 対象物体候補のランク付きリスト 入力と同じの長さのリスト(N個)

Slide 4

Slide 4 text

問題設定: Learning–to–Rank Physical Objects for Fetching (LTRPO-fetch)タスク - 4 - ・・・ 4~16x 巡回&画像収集 緑のカップを取ってください 16x 把持&運搬

Slide 5

Slide 5 text

関連研究:検索設定で実機評価を行う研究は少ない - 5 - 分野 手法 概要 クロスモーダ ル検索 DCNet [Kim+, AAAI21] 参照画像とターゲット画像の差分を用いることで 頑健なマルチモーダル表現を学習 COTS [Lu+, CVPR22] トークン・タスクレベルの相互作用を取り入れた 2ストリームモデルを提案 MultiRankIt [兼田+, JSAI23] Human-in-the-loop設定において、ユーザの指示文から 対象物体を特定する新しいアプローチを提案 ロボティクス SHeFU [Korekata+, IROS23] 物体領域候補から対象物体、配置目標を単一モデルで特定 DCNet SHeFU

Slide 6

Slide 6 text

既存⼿法の問題点:指⽰⽂からの対象物体表現の特定は困難 - 6 - MultiRankIt [兼田+, JSAI23] L 複数の候補を含む指示文からの対象物体表現の特定が困難 ■ 例) Go to the bathroom with two large paintings and a lot of red towels and clean the sink. L 指⽰⽂中の red towelsが上位に検索 指示文から正しく対象物体表現を抽出することができれば 性能向上が期待

Slide 7

Slide 7 text

提案⼿法の新規性: LLMとSAMの使⽤ - 7 - ■ Target Phrase Extractor ■ 大規模言語モデル(LLM)を用いて複雑な指示文から対象物体表現を抽出 ■ Object Segmentation Region Extractor ■ SAM [Kirillov+, 23]を用いて物体の輪郭および形状に関する情報を処理 the towel

Slide 8

Slide 8 text

提案⼿法(1/3): LLMを⽤いて対象物体表現を抽出するTPEを導⼊ - 8 - ■ Target Phrase Extractor (TPE) the towel n ChatGPT (GPT-3.5) を用いて複雑な指示文から 対象物体表現を抽出 n 複数の参照表現を含む指示文から参照表現を含 んだ対象物体表現を出力 the towel the towel

Slide 9

Slide 9 text

提案⼿法(1/3): LLMを⽤いて対象物体表現を抽出するTPEを導⼊ - 9 - ■ Target Phrase Extractor (TPE) the towel the towel the towel n ChatGPT (GPT-3.5) を用いて複雑な指示文から 対象物体表現を抽出 n 複数の参照表現を含む指示文から参照表現を含 んだ対象物体表現を出力

Slide 10

Slide 10 text

提案⼿法(1/3): LLMを⽤いて対象物体表現を抽出するTPEを導⼊ - 10 - ■ Target Phrase Extractor (TPE) the towel the towel the towel n ChatGPT (GPT-3.5) を用いて複雑な指示文から 対象物体表現を抽出 n 複数の参照表現を含む指示文から参照表現を含 んだ対象物体表現を出力

Slide 11

Slide 11 text

提案⼿法(2/3): 物体の形状や輪郭を扱うOSREを導⼊ - 11 - ■ Object Segmentation Region Extractor (OSRE) n SAMを用いてセグメンテーションマスク を獲得し、物体の形状や輪郭を学習 𝑥! (#) 𝑥% (#) … 物体領域候補と周辺画像

Slide 12

Slide 12 text

提案⼿法(2/3): 物体の形状や輪郭を扱うOSREを導⼊ - 12 - n SAMを用いてセグメンテーションマスク を獲得し、物体の形状や輪郭を学習 物体領域候補と周辺画像 𝑥! (#) 𝑥% (#) … ■ Object Segmentation Region Extractor (OSRE)

Slide 13

Slide 13 text

提案⼿法(2/3): 物体の形状や輪郭を扱うOSREを導⼊ - 13 - n SAMを用いてセグメンテーションマスク を獲得し、物体の形状や輪郭を学習 𝑥! (#) 𝑥% (#) … 物体領域候補と周辺画像 ■ Object Segmentation Region Extractor (OSRE)

Slide 14

Slide 14 text

提案⼿法(3/3):既存モジュールの詳細 - 14 - n 左右の周辺画像を扱う n 指示文中の参照表現を含む句と対象物体 領域との関係をモデル化 n 𝑳𝓑 = − 𝟏 𝓑 ∑ 𝒙𝒕 (𝒏) ∈𝓑 log %&' ( ∑ %&' 𝓑 *+, ( ※ 𝓑 はバッチサイズ 損失関数 n Crossmodal Region Feature Encoder(CRFE) n Crossmodal Noun Phrase Encoder(CNPE)

Slide 15

Slide 15 text

実験設定:LTRRIEデータセットと実機での実験 - 15 - 実機 n 環境:WRS 2020 Partner Robot Challenge / Real Space の標準環境に準拠 n 実機:Human Support Robot (HSR) n 物体:YCB Object [Calli+, RAM15] n 評価指標:MRR@10, 把持・タスク成功率 LTRRIE [兼田+, JSAI23] n REVERIE [Qi+, CVPR20] から指示 文を収集 n Matterport3D Simulator [Chang+, 3DV17] から画像を収集 図:https://yuankaiqi.github.io/REVERIE_Challenge/static/img/demo.gif 物体を移動させるような 英語の指示文 (5501文)

Slide 16

Slide 16 text

定量的結果: 全ての評価尺度においてベースライン手法を上回る - 16 - [%] MRR ↑ Recall@5 ↑ Recall@10 ↑ CLIP extended [Radford+, PMLR21] 41.5 ± 0.9 45.3 ± 1.7 63.8 ± 2.5 MultiRankIt [兼田+, JSAI23] 50.1 ± 0.8 52.2 ± 1.4 69.8 ± 1.5 提案手法 56.3 ± 1.3 58.7 ± 1.1 77.7 ± 1.1 +14.8 +13.4 +13.9 n 評価尺度 (2種類) n Mean Reciprocal Rank (MRR), Recall@K (K=1,5,10,20)

Slide 17

Slide 17 text

定性的結果: TPEの導⼊により複雑な指⽰⽂から適切に対象物体を特定 - 17 - 指示文: Turn off the chandelier in the bathroom with the tan marble wall and white oval tub. Rank 1 Rank 2 Rank 3 MultiRankIt Rank 1 提案⼿法 Rank 1 正解画像 正解画像

Slide 18

Slide 18 text

Ablation Studies:TPEの導⼊が最も性能向上に寄与 - 18 - J 新規モジュールの有効性を確認 J 対象物体表現を抽出するTPEの導入が最も性能向上に寄与 [%] MRR ↑ Recall@1 ↑ Recall@5 ↑ Recall@10 ↑ w/o TPE 52.6 ± 0.9 18.3 ± 0.6 55.1 ± 1.1 74.7 ± 1.0 w/o OSRE 55.7 ± 0.7 20.1 ± 0.4 60.1 ± 0.7 77.9 ± 0.9 提案手法 56.3 ± 1.3 20.7 ± 0.8 58.7 ± 1.1 77.7 ± 1.1 +3.7 +3.6 +2.4 +3.0

Slide 19

Slide 19 text

定量的結果(実機):実機においても有⽤な結果 - 19 - n 環境:5種類 n 指示文:10文/環境 n 対象物体候補:40個/指示文 [%] MRR@10↑ 把持成功率↑ タスク成功率↑ 提案 手法 44.7 87.5 80.0 J Zero-shotの実機環境においても 有用性を確認 16x

Slide 20

Slide 20 text

まとめ - 20 - ■ 背景 ■ Open-Vocabularyの自然言語指示から対象物体を検索するタスクに着目 ■ 提案 ■ 大規模言語モデルを用いて複雑な指示文 から対象物体表現を抽出するTPE n SAMを用いて物体の形状および輪郭を扱う OSRE ■ 結果 ■ 標準的な評価指標においてベースライン手法を上回った ■ 実機においても有用性を確認 8x

Slide 21

Slide 21 text

Appendix

Slide 22

Slide 22 text

the towel TPEモジュールで⽤いたプロンプト - 22 - ■ ChatGPTを用いた以下のプロンプトから対象物体表現を抽出 ■ プロンプト “[instruction]. Extract the portion of the above instruction that indicates the target object. Please enclose the information with #. Output the information only.” n 出力 n #the towel#

Slide 23

Slide 23 text

提案⼿法:既存モジュールの詳細 ① - 23 - n 左右の周辺画像を扱う n CLIP Image Encoderにより特徴量獲得 ■ Crossmodal Region Feature Encoder(CRFE)

Slide 24

Slide 24 text

- 24 - ■ Crossmodal Noun Phrase Encoder (CNPE) n 指示文中の参照表現を含む句と対象物体 領域との関係をモデル化 提案⼿法:既存モジュールの詳細 ②

Slide 25

Slide 25 text

- 25 - n 左右の周辺画像を扱う n CLIP Image Encoderにより特徴量獲得 n 指示文中の参照表現を含む句と対象物体 領域との関係をモデル化 損失関数 n𝑳𝓑 = − 𝟏 𝓑 ∑ 𝒙𝒕 (𝒏) ∈𝓑 log %&' ( ∑ %&' 𝓑 *+, ( ※ 𝓑 はバッチサイズ 分子:正しい画像と指示文の組の類似度 分母:全ての候補領域に対する指示文 との類似度 提案⼿法:既存モジュールの詳細 ③

Slide 26

Slide 26 text

LTRRIE データセットの詳細 - 26 - LTRRIE データセット [兼田+, JSAI23] n REVERIE [Qi+, CVPR20] から指示文を収集 n Matterport3D Simulator [Chang+, 3DV17] から画像を収集 複雑な参照表現を含む指示文と室内の実画像を含む LTRPO-fetch タスクのデータセット データセット分割 Train Validation Test 環境数 50 4 4 指示文数 4210 397 501 データセット概要 環境数 58 指示文数 5501 対象物体領域 4352 平均文長 18.78 語彙数 53118

Slide 27

Slide 27 text

評価尺度の詳細 - 27 - 評価尺度 ■ 𝐌𝐑𝐑 = 𝟏 𝑵𝐢𝐧𝐬𝐭 ∑ 𝒊/𝟏 𝑵𝐢𝐧𝐬𝐭 𝟏 𝒓 𝟏 (𝒊) ※ 𝑵𝐢𝐧𝐬𝐭, 𝒓𝟏 (𝒊) はそれぞれ指示文の数およびランク付きリストにおける対象物体領域のランク ■ 𝐑𝐞𝐜𝐚𝐥𝐥@𝑲 = 𝟏 𝑵𝐢𝐧𝐬𝐭 ∑ 𝒊/𝟏 𝑵𝐢𝐧𝐬𝐭 𝑨𝒊∩𝑩𝒊 𝑨𝒊 ※ 𝐴)および𝐵! はそれぞれ検索対象のサンプル集合および検索上位𝐾個のサンプル集合 n 𝐌𝐑𝐑@𝟏𝟎 = 𝟏 𝑵𝐢𝐧𝐬𝐭 ∑ 𝒊/𝟏, 𝒓 𝟏 (𝒊) 5𝟏𝟎 𝑵𝐢𝐧𝐬𝐭 𝟏 𝒓 𝟏 (𝒊)