Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[JSAI24] Large-Scale Indoor Search Engine with Multimodal Foundation Models and Relaxing Contrastive Loss

[JSAI24] Large-Scale Indoor Search Engine with Multimodal Foundation Models and Relaxing Contrastive Loss

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 4~10x ユースケース ▪ ロボットに家庭内の物体を操作させる ▪ 慣れない環境で物体を探す o 例:学会会場,ショッピングモール ▪ 我々の身の回りのあらゆる物体の場所がただちに理解できれば便利

    ▪ モバイルロボットに物資の運搬を指示できれば倉庫・医療現場などで有用 Open-vocabularyな言語指示から環境中の物体を検索 - 3 - Where is the water dispenser/fire extinguisher/AED ? 背景: 実世界の任意の物体が検索できれば便利
  2. 4~10x ユースケース ▪ ロボットに家庭内の物体を操作させる ▪ 慣れない環境で物体を探す o 例:学会会場,ショッピングモール ▪ 我々の身の回りのあらゆる物体の場所がただちに理解できれば便利

    ▪ モバイルロボットに物資の運搬を指示できれば倉庫・医療現場などで有用 Open-vocabularyな言語指示から環境中の物体を検索 - 4 - Where is the water dispenser/fire extinguisher/AED ? 背景: 実世界の任意の物体が検索できれば便利 ☺ 欲しい物の位置をすぐに知ることができると便利 water dispenser https://www.actcity.jp/user/exhibition/
  3. 出力 ▪ ランク付けされた対象物体の矩形領域 適切な物体が上位に提示される ことが望ましい - 6 - 入力 ▪

    参照表現を含む指示文 ▪ 画像群 問題設定: Learning-to-Rank Physical Objects(LTRPO) [Kaneda+, RA-L24]
  4. 出力 ▪ ランク付けされた対象物体の矩形領域 適切な物体が上位に提示される ことが望ましい - 7 - 入力 ▪

    参照表現を含む指示文 ▪ 画像群 問題設定: Learning-to-Rank Physical Objects(LTRPO) [Kaneda+, RA-L24] 物体検出器によって自動抽出 (e.g., Detic [Zhou+, ECCV22])
  5. 出力 ▪ ランク付けされた対象物体の矩形領域 適切な物体が上位に提示される ことが望ましい - 8 - 入力 ▪

    参照表現を含む指示文 ▪ 画像群 問題設定: Learning-to-Rank Physical Objects(LTRPO) [Kaneda+, RA-L24] Model "Check the white washing machine on the left is working" 画像群 Rank: 1 Rank: 2 Rank: 3 Rank: 4
  6. 関連研究: 既存研究は家庭内環境という限られた空間でのみ検証 FLAVA [Singh+, CVPR22] 言語と画像の交差注意から類似度を計算  環境中のすべての物体と指示文の注意計算 RREx-BoT [Siggurdson+,

    IROS23] 事前巡回を考慮したVLNタスクを扱う  Top-1の物体のみに着目 MultiRankIt [Kaneda+, RA-L24] Human-in-the-loop設定を想定し,Top-20を検索  家庭内環境など公共性が低く応用先が限定 RREx-BoT MultiRankIt - 9 -
  7. 提案手法: 対照学習に基づく大規模屋内空間の物体検索モデル - 11 - Instruction Noun Phrase Encoder (INPE)

    参照表現中に含まれる対象物体に関する言語特徴抽出 Granular Representation from Entire to Pixels (GREP) 4つの粒度から接地に有用な画像特徴量を獲得 Relaxing Contrastive Similarity (RCS) 負例に対する対照性を緩和しつつ学習効率をバランス
  8. 提案手法 (1/3):GREP 4つの粒度から接地に有用な画像特徴量を抽出 - 12 - • 画像/画素/位置関係/物体の観点から 接地に有用な特徴を獲得 •

    CLIPから位置関係に関する特徴を得る →中間層特徴マップ(2D)を使用 • CLIPから画素単位で特徴を抽出 cf. SAN [Xu+, CVPR23]
  9. 提案手法 (1/3):GREP 4つの粒度から接地に有用な画像特徴量を抽出 - 13 - • 画像/画素/位置関係/物体の観点から 接地に有用な特徴を獲得 •

    CLIPから位置関係に関する特徴を得る →中間層特徴マップ(2D)を使用 • CLIPから画素単位で特徴を抽出 cf. SAN [Xu+, CVPR23]
  10. ▪ InfoNCE損失 [Oord+, 18] は,負例を全て均等に類似度を小さくする  難しい負例(例: 類似物体)と簡単な負例を同一視 ▪ 大規模環境の場合,正例の類似物体が含まれる確率が高くなる

    ▪ Relaxed Contrastive (ReCo) [Lin+, WACV23] 損失はこの問題を軽減  類似度が負の空間に対し計算が行われない 提案手法 3/3:RCS 大規模空間のための負例の対照性を緩和する損失設計 - 15 -
  11. ▪ InfoNCE損失 [Oord+, 18] は,負例を全て均等に類似度を小さくする  難しい負例(例: 類似物体)と簡単な負例を同一視 ▪ 大規模環境の場合,正例の類似物体が含まれる確率が高くなる

    ▪ Relaxed Contrastive (ReCo) [Lin+, WACV23] 損失はこの問題を軽減  類似度が負の空間に対して計算が行われない Go to the yellow trash can in the center lined up near the windows. 提案手法 3/3:RCS 大規模空間のための負例の対照性を緩和する損失設計 - 16 -
  12. ▪ InfoNCE損失 [] は,負例を全て均等に類似度を小さくする o :( 難しい負例(e.g. 類似物体)と簡単な負例を同一視 ▪ 大規模環境の場合,正例との類似物体が含まれる確率が高くなる

    ▪ ReCo(Relaxed Contrastive) [Lin+, WACV23] 損失はこの問題を軽減 :( 類似度が負の空間に対し計算が行われない 提案手法 3/3:RCS 大規模空間のための負例の対照性を緩和する損失設計 - 17 - [Lin+, WACV23] InfoNCEはすべての負例を均等に扱う ReCoは最初から類似度が負の領域を無視
  13. ▪ InfoNCE損失 [] は,負例を全て均等に類似度を小さくする o :( 難しい負例(e.g. 類似物体)と簡単な負例を同一視 ▪ 大規模環境の場合,正例との類似物体が含まれる確率が高くなる

    ▪ ReCo(Relaxed Contrastive) [Lin+, WACV23] 損失はこの問題を軽減 :( 類似度が負の空間に対し計算が行われない 提案手法 3/3:RCS 大規模空間のための負例の対照性を緩和する損失設計 - 18 - [Lin+, WACV23] InfoNCEはすべての負例を均等に扱う ReCoは最初から類似度が負の領域を無視 これらを併用した損失(Mixed Contrastive Loss)を導入
  14. 実験設定: 2つの大規模環境データセットにおいて性能を評価 - 19 - ①YAGAMIデータセット(新規)を収集 ▪ キャンパスレベルの屋内空間の実画像 + 参照表現を含む指示文で構成

    ▪ アノテータ:57名 ▪ 3,000m2にわたる範囲から収集 ②LTRRIEデータセット [Kaneda+, RA-L24] を拡張 ▪ 複数の環境を横断して検索 大規模空間を再現 語彙数 26,205 平均文長 13.17 指示文 1,990 物体領域 1,984 環境 11 YAGAMIデータセットの概要
  15. 定量的結果: 両データセットにおいて既存手法を上回る - 20 - ▪ 評価尺度:Mean Reciprocal Rank (MRR),

    Recall@K (K=5,10) ☺ すべてのデータセットにおいて、提案手法が既存手法を上回った YAGAMIデータセット LTRRIE-2.0データセット [%] MRR ↑ Recall@5↑ Recall@10↑ MRR ↑ Recall@5↑ Recall@10↑ CLIP [Radford+,ICML21] 19.0 16.4 25.4 31.6 29.8 42.4 MultiRankIt [Kaneda+, RA-L24] 18.7 17.3 30.4 32.4 31.9 44.9 提案手法 25.7 24.5 36.2 37.4 35.3 50.4
  16. 定量的結果: 両データセットにおいて既存手法を上回る - 21 - ▪ 評価尺度:Mean Reciprocal Rank (MRR),

    Recall@K (K=5,10) ☺ すべてのデータセットにおいて、提案手法が既存手法を上回った YAGAMIデータセット LTRRIE-2.0データセット [%] MRR ↑ Recall@5↑ Recall@10↑ MRR ↑ Recall@5↑ Recall@10↑ CLIP [Radford+,ICML21] 19.0 16.4 25.4 31.6 29.8 42.4 MultiRankIt [Kaneda+, RA-L24] 18.7 17.3 30.4 32.4 31.9 44.9 提案手法 25.7 24.5 36.2 37.4 35.3 50.4 +6.7 +8.1 +5.8 +5.5 +8.0 +10.8
  17. 定量的結果: 両データセットにおいて既存手法を上回る - 22 - ▪ 評価尺度:Mean Reciprocal Rank (MRR),

    Recall@K (K=5,10) ☺ すべてのデータセットにおいて、提案手法が既存手法を上回った YAGAMIデータセット LTRRIE-2.0データセット [%] MRR ↑ Recall@5↑ Recall@10↑ MRR ↑ Recall@5↑ Recall@10↑ CLIP [Radford+,ICML21] 19.0 16.4 25.4 31.6 29.8 42.4 MultiRankIt [Kaneda+, RA-L24] 18.7 17.3 30.4 32.4 31.9 44.9 提案手法 25.7 24.5 36.2 37.4 35.3 50.4 +7.0 +7.2 +5.0 +3.4 +5.5 +5.8
  18. 定性的結果 (成功例)①: 類似物体に対しても適切な対象物体を上位に検索 - 23 - 指示文:”Please look at the

    leftmost of the three potted plants placed on the shelf.” 提案手法 MultiRankIt Rank: 1 Rank: 1 Ground-Truth 複数存在する観葉植物から適切に1位に ☺ 類似物体に関する損失設計
  19. 定性的結果(成功例) ②: 位置関係を適切に満たす対象物体を上位に検索 - 24 - 指示文:”Pick up the picture

    frame in the upper foreground and put it on the shelf” 提案手法 MultiRankIt Rank: 1 Rank: 2 Rank: 1 Rank: 2 Ground-Truth
  20. 定性的結果(成功例) ②: 位置関係を適切に満たす対象物体を上位に検索 - 25 - 指示文:”Pick up the picture

    frame in the upper foreground and put it on the shelf” 提案手法 MultiRankIt Rank: 1 Rank: 2 Rank: 1 Rank: 2 Ground-Truth 参照表現に合致する額縁を検索 ☺ GREP内でのCLIP中間特徴が寄与
  21. 指示文:”Please identify what looks like a schedule list attached to

    the wall at the back of the room.” - 26 - 提案手法 Rank: 1 Rank: 2 Ground-Truth 定性的結果(失敗例): 環境中のシーン情報が正しく認識されていない 上位20件全てが廊下で撮影した画像 → MLLMの持つ常識的知識の活用
  22. Ablation Study: すべての新規性が性能向上に寄与 条件 ReCo 画素 空間 YAGAMIデータセット LTRRIE-2.0データセット MRR↑

    R@5↑ R@10↑ MRR ↑ R@5↑ R@10↑ (i) ✓ ✓ ✓ 25.7 24.5 36.2 37.4 35.3 50.3 (ii) ✓ ✓ 24.9 23.6 35.2 36.8 34.8 51.3 (iii) ✓ ✓ 23.0 22.7 34.8 32.1 29.9 45.2 (iv) ✓ ✓ 22.3 21.0 31.5 35.0 35.0 51.5 ◼ 条件(i)が最良=すべての新規性が性能向上に寄与 ◼ 特に、GREPの2つの特徴の導入が両データセットで有効 - 29 -
  23. ▪ Mean Reciprocal Rank ▪ Recall@K 評価尺度 - 31 -

    :指示文の数 :検索されたサンプルの中で 最も高くランク付けされた GT 画像の順位 :正解サンプルの集合 :検索上位K個のサンプル集合