Slide 1

Slide 1 text

マルチモーダル基盤モデルと緩和対照損失を用いた 大規模屋内検索エンジン 慶應義塾大学 今井悠人, 兼田 寛大, 是方 諒介, 杉浦 孔明

Slide 2

Slide 2 text

概要 - 2 - 大規模環境における実空間の物体検索エンジンは有用 新規性 - 画像/画素/位置関係/物体の観点から接地に有用な特徴を得るGREP - 大規模空間のための負例の対照性を緩和するMixed Contrastive Loss 結果 - 大規模空間データセットにおいて 既存手法を上回った 4~10x

Slide 3

Slide 3 text

4~10x ユースケース ■ ロボットに家庭内の物体を操作させる ■ 慣れない環境で物体を探す o 例:学会会場,ショッピングモール ■ 我々の身の回りのあらゆる物体の場所がただちに理解できれば便利 ■ モバイルロボットに物資の運搬を指示できれば倉庫・医療現場などで有用 Open-vocabularyな言語指示から環境中の物体を検索 - 3 - Where is the water dispenser/fire extinguisher/AED ? 背景: 実世界の任意の物体が検索できれば便利

Slide 4

Slide 4 text

4~10x ユースケース ■ ロボットに家庭内の物体を操作させる ■ 慣れない環境で物体を探す o 例:学会会場,ショッピングモール ■ 我々の身の回りのあらゆる物体の場所がただちに理解できれば便利 ■ モバイルロボットに物資の運搬を指示できれば倉庫・医療現場などで有用 Open-vocabularyな言語指示から環境中の物体を検索 - 4 - Where is the water dispenser/fire extinguisher/AED ? 背景: 実世界の任意の物体が検索できれば便利 ☺ 欲しい物の位置をすぐに知ることができると便利 water dispenser https://www.actcity.jp/user/exhibition/

Slide 5

Slide 5 text

背景: 実世界の任意の物体が検索できれば便利 - 5 - ■ 身の回りのあらゆる物体の場所が理解できれば便利 ■ 移動ロボットに物資の運搬を指示できれば倉庫・医療現場などで有用 Open-vocabularyな言語指示から環境中の物体を検索 ユースケース ■ 慣れない環境で物体を探す o 例:学会会場,ショッピングモール ■ 生活支援ロボットによる物体操作 4~10x

Slide 6

Slide 6 text

出力 ■ ランク付けされた対象物体の矩形領域 適切な物体が上位に提示される ことが望ましい - 6 - 入力 ■ 参照表現を含む指示文 ■ 画像群 問題設定: Learning-to-Rank Physical Objects(LTRPO) [Kaneda+, RA-L24]

Slide 7

Slide 7 text

出力 ■ ランク付けされた対象物体の矩形領域 適切な物体が上位に提示される ことが望ましい - 7 - 入力 ■ 参照表現を含む指示文 ■ 画像群 問題設定: Learning-to-Rank Physical Objects(LTRPO) [Kaneda+, RA-L24] 物体検出器によって自動抽出 (e.g., Detic [Zhou+, ECCV22])

Slide 8

Slide 8 text

出力 ■ ランク付けされた対象物体の矩形領域 適切な物体が上位に提示される ことが望ましい - 8 - 入力 ■ 参照表現を含む指示文 ■ 画像群 問題設定: Learning-to-Rank Physical Objects(LTRPO) [Kaneda+, RA-L24] Model "Check the white washing machine on the left is working" 画像群 Rank: 1 Rank: 2 Rank: 3 Rank: 4

Slide 9

Slide 9 text

関連研究: 既存研究は家庭内環境という限られた空間でのみ検証 FLAVA [Singh+, CVPR22] 言語と画像の交差注意から類似度を計算  環境中のすべての物体と指示文の注意計算 RREx-BoT [Siggurdson+, IROS23] 事前巡回を考慮したVLNタスクを扱う  Top-1の物体のみに着目 MultiRankIt [Kaneda+, RA-L24] Human-in-the-loop設定を想定し,Top-20を検索  家庭内環境など公共性が低く応用先が限定 RREx-BoT MultiRankIt - 9 -

Slide 10

Slide 10 text

提案手法: 対照学習に基づく大規模屋内空間の物体検索モデル - 10 -

Slide 11

Slide 11 text

提案手法: 対照学習に基づく大規模屋内空間の物体検索モデル - 11 - Instruction Noun Phrase Encoder (INPE) 参照表現中に含まれる対象物体に関する言語特徴抽出 Granular Representation from Entire to Pixels (GREP) 4つの粒度から接地に有用な画像特徴量を獲得 Relaxing Contrastive Similarity (RCS) 負例に対する対照性を緩和しつつ学習効率をバランス

Slide 12

Slide 12 text

提案手法 (1/3):GREP 4つの粒度から接地に有用な画像特徴量を抽出 - 12 - • 画像/画素/位置関係/物体の観点から 接地に有用な特徴を獲得 • CLIPから位置関係に関する特徴を得る →中間層特徴マップ(2D)を使用 • CLIPから画素単位で特徴を抽出 cf. SAN [Xu+, CVPR23]

Slide 13

Slide 13 text

提案手法 (1/3):GREP 4つの粒度から接地に有用な画像特徴量を抽出 - 13 - • 画像/画素/位置関係/物体の観点から 接地に有用な特徴を獲得 • CLIPから位置関係に関する特徴を得る →中間層特徴マップ(2D)を使用 • CLIPから画素単位で特徴を抽出 cf. SAN [Xu+, CVPR23]

Slide 14

Slide 14 text

■ 画像特徴との注意計算を行うCNPE [Kaneda+, RA-L24] から言語を独立化 → 事前巡回中にGREPによる特徴抽出が可能 ■ 推論時は言語-画像特徴間のコサイン類似度計算のみでランク付け可能 →実用上想定される数千以上の物体を扱う場合でも計算コストが低い 提案手法 (2/3):INPE 名詞句に基づく対象物体に関する言語特徴抽出 - 14 -

Slide 15

Slide 15 text

■ InfoNCE損失 [Oord+, 18] は,負例を全て均等に類似度を小さくする  難しい負例(例: 類似物体)と簡単な負例を同一視 ■ 大規模環境の場合,正例の類似物体が含まれる確率が高くなる ■ Relaxed Contrastive (ReCo) [Lin+, WACV23] 損失はこの問題を軽減  類似度が負の空間に対し計算が行われない 提案手法 3/3:RCS 大規模空間のための負例の対照性を緩和する損失設計 - 15 -

Slide 16

Slide 16 text

■ InfoNCE損失 [Oord+, 18] は,負例を全て均等に類似度を小さくする  難しい負例(例: 類似物体)と簡単な負例を同一視 ■ 大規模環境の場合,正例の類似物体が含まれる確率が高くなる ■ Relaxed Contrastive (ReCo) [Lin+, WACV23] 損失はこの問題を軽減  類似度が負の空間に対して計算が行われない Go to the yellow trash can in the center lined up near the windows. 提案手法 3/3:RCS 大規模空間のための負例の対照性を緩和する損失設計 - 16 -

Slide 17

Slide 17 text

■ InfoNCE損失 [] は,負例を全て均等に類似度を小さくする o :( 難しい負例(e.g. 類似物体)と簡単な負例を同一視 ■ 大規模環境の場合,正例との類似物体が含まれる確率が高くなる ■ ReCo(Relaxed Contrastive) [Lin+, WACV23] 損失はこの問題を軽減 :( 類似度が負の空間に対し計算が行われない 提案手法 3/3:RCS 大規模空間のための負例の対照性を緩和する損失設計 - 17 - [Lin+, WACV23] InfoNCEはすべての負例を均等に扱う ReCoは最初から類似度が負の領域を無視

Slide 18

Slide 18 text

■ InfoNCE損失 [] は,負例を全て均等に類似度を小さくする o :( 難しい負例(e.g. 類似物体)と簡単な負例を同一視 ■ 大規模環境の場合,正例との類似物体が含まれる確率が高くなる ■ ReCo(Relaxed Contrastive) [Lin+, WACV23] 損失はこの問題を軽減 :( 類似度が負の空間に対し計算が行われない 提案手法 3/3:RCS 大規模空間のための負例の対照性を緩和する損失設計 - 18 - [Lin+, WACV23] InfoNCEはすべての負例を均等に扱う ReCoは最初から類似度が負の領域を無視 これらを併用した損失(Mixed Contrastive Loss)を導入

Slide 19

Slide 19 text

実験設定: 2つの大規模環境データセットにおいて性能を評価 - 19 - ①YAGAMIデータセット(新規)を収集 ■ キャンパスレベルの屋内空間の実画像 + 参照表現を含む指示文で構成 ■ アノテータ:57名 ■ 3,000m2にわたる範囲から収集 ②LTRRIEデータセット [Kaneda+, RA-L24] を拡張 ■ 複数の環境を横断して検索 大規模空間を再現 語彙数 26,205 平均文長 13.17 指示文 1,990 物体領域 1,984 環境 11 YAGAMIデータセットの概要

Slide 20

Slide 20 text

定量的結果: 両データセットにおいて既存手法を上回る - 20 - ■ 評価尺度:Mean Reciprocal Rank (MRR), Recall@K (K=5,10) ☺ すべてのデータセットにおいて、提案手法が既存手法を上回った YAGAMIデータセット LTRRIE-2.0データセット [%] MRR ↑ Recall@5↑ Recall@10↑ MRR ↑ Recall@5↑ Recall@10↑ CLIP [Radford+,ICML21] 19.0 16.4 25.4 31.6 29.8 42.4 MultiRankIt [Kaneda+, RA-L24] 18.7 17.3 30.4 32.4 31.9 44.9 提案手法 25.7 24.5 36.2 37.4 35.3 50.4

Slide 21

Slide 21 text

定量的結果: 両データセットにおいて既存手法を上回る - 21 - ■ 評価尺度:Mean Reciprocal Rank (MRR), Recall@K (K=5,10) ☺ すべてのデータセットにおいて、提案手法が既存手法を上回った YAGAMIデータセット LTRRIE-2.0データセット [%] MRR ↑ Recall@5↑ Recall@10↑ MRR ↑ Recall@5↑ Recall@10↑ CLIP [Radford+,ICML21] 19.0 16.4 25.4 31.6 29.8 42.4 MultiRankIt [Kaneda+, RA-L24] 18.7 17.3 30.4 32.4 31.9 44.9 提案手法 25.7 24.5 36.2 37.4 35.3 50.4 +6.7 +8.1 +5.8 +5.5 +8.0 +10.8

Slide 22

Slide 22 text

定量的結果: 両データセットにおいて既存手法を上回る - 22 - ■ 評価尺度:Mean Reciprocal Rank (MRR), Recall@K (K=5,10) ☺ すべてのデータセットにおいて、提案手法が既存手法を上回った YAGAMIデータセット LTRRIE-2.0データセット [%] MRR ↑ Recall@5↑ Recall@10↑ MRR ↑ Recall@5↑ Recall@10↑ CLIP [Radford+,ICML21] 19.0 16.4 25.4 31.6 29.8 42.4 MultiRankIt [Kaneda+, RA-L24] 18.7 17.3 30.4 32.4 31.9 44.9 提案手法 25.7 24.5 36.2 37.4 35.3 50.4 +7.0 +7.2 +5.0 +3.4 +5.5 +5.8

Slide 23

Slide 23 text

定性的結果 (成功例)①: 類似物体に対しても適切な対象物体を上位に検索 - 23 - 指示文:”Please look at the leftmost of the three potted plants placed on the shelf.” 提案手法 MultiRankIt Rank: 1 Rank: 1 Ground-Truth 複数存在する観葉植物から適切に1位に ☺ 類似物体に関する損失設計

Slide 24

Slide 24 text

定性的結果(成功例) ②: 位置関係を適切に満たす対象物体を上位に検索 - 24 - 指示文:”Pick up the picture frame in the upper foreground and put it on the shelf” 提案手法 MultiRankIt Rank: 1 Rank: 2 Rank: 1 Rank: 2 Ground-Truth

Slide 25

Slide 25 text

定性的結果(成功例) ②: 位置関係を適切に満たす対象物体を上位に検索 - 25 - 指示文:”Pick up the picture frame in the upper foreground and put it on the shelf” 提案手法 MultiRankIt Rank: 1 Rank: 2 Rank: 1 Rank: 2 Ground-Truth 参照表現に合致する額縁を検索 ☺ GREP内でのCLIP中間特徴が寄与

Slide 26

Slide 26 text

指示文:”Please identify what looks like a schedule list attached to the wall at the back of the room.” - 26 - 提案手法 Rank: 1 Rank: 2 Ground-Truth 定性的結果(失敗例): 環境中のシーン情報が正しく認識されていない 上位20件全てが廊下で撮影した画像 → MLLMの持つ常識的知識の活用

Slide 27

Slide 27 text

まとめ - 27 - 大規模環境における実空間の物体検索エンジンは有用 新規性 - 画像/画素/位置関係/物体の観点から接地に有用な特徴を得るGREP - 大規模空間のための負例の対照性を緩和するMixed Contrastive Loss 結果 - 大規模空間データセットにおいて 既存手法を上回った 4~10x

Slide 28

Slide 28 text

Appendix - 28 -

Slide 29

Slide 29 text

Ablation Study: すべての新規性が性能向上に寄与 条件 ReCo 画素 空間 YAGAMIデータセット LTRRIE-2.0データセット MRR↑ R@5↑ R@10↑ MRR ↑ R@5↑ R@10↑ (i) ✓ ✓ ✓ 25.7 24.5 36.2 37.4 35.3 50.3 (ii) ✓ ✓ 24.9 23.6 35.2 36.8 34.8 51.3 (iii) ✓ ✓ 23.0 22.7 34.8 32.1 29.9 45.2 (iv) ✓ ✓ 22.3 21.0 31.5 35.0 35.0 51.5 ◼ 条件(i)が最良=すべての新規性が性能向上に寄与 ◼ 特に、GREPの2つの特徴の導入が両データセットで有効 - 29 -

Slide 30

Slide 30 text

エラー分析: 失敗例20件に関するエラー エラー要因 件数 物体の視覚的特徴の接地に関するエラー 6 指示文に含まれる別の物体を予測 4 多義的な指示によるエラー 4 参照表現理解に適さない物体を上位に検索 3 アノテーションに基づくエラー 2 - 30 -

Slide 31

Slide 31 text

■ Mean Reciprocal Rank ■ Recall@K 評価尺度 - 31 - :指示文の数 :検索されたサンプルの中で 最も高くランク付けされた GT 画像の順位 :正解サンプルの集合 :検索上位K個のサンプル集合

Slide 32

Slide 32 text

Appendix: SAN [Xu+, CVPR23]のネットワーク構造 - 32 -