[JSAI24] Large-Scale Indoor Search Engine with Multimodal Foundation Models and Relaxing Contrastive Loss

マルチモーダル基盤モデルと緩和対照損失を用いた大規模屋内検索エンジン慶應義塾大学今井悠人, 兼田寛大, 是方諒介, 杉浦孔明

概要 - 2 - 大規模環境における実空間の物体検索エンジンは有用新規性 - 画像/画素/位置関係/物体の観点から接地に有用な特徴を得るGREP - 大規模空間のための負例の対照性を緩和するMixed
Contrastive Loss 結果 - 大規模空間データセットにおいて既存手法を上回った 4~10x

4~10x ユースケース ▪ ロボットに家庭内の物体を操作させる ▪ 慣れない環境で物体を探す o 例：学会会場，ショッピングモール ▪ 我々の身の回りのあらゆる物体の場所がただちに理解できれば便利
▪ モバイルロボットに物資の運搬を指示できれば倉庫・医療現場などで有用 Open-vocabularyな言語指示から環境中の物体を検索 - 3 - Where is the water dispenser/fire extinguisher/AED ? 背景：実世界の任意の物体が検索できれば便利

4~10x ユースケース ▪ ロボットに家庭内の物体を操作させる ▪ 慣れない環境で物体を探す o 例：学会会場，ショッピングモール ▪ 我々の身の回りのあらゆる物体の場所がただちに理解できれば便利
▪ モバイルロボットに物資の運搬を指示できれば倉庫・医療現場などで有用 Open-vocabularyな言語指示から環境中の物体を検索 - 4 - Where is the water dispenser/fire extinguisher/AED ? 背景：実世界の任意の物体が検索できれば便利 ☺ 欲しい物の位置をすぐに知ることができると便利 water dispenser https://www.actcity.jp/user/exhibition/

背景：実世界の任意の物体が検索できれば便利 - 5 - ▪ 身の回りのあらゆる物体の場所が理解できれば便利 ▪ 移動ロボットに物資の運搬を指示できれば倉庫・医療現場などで有用 Open-vocabularyな言語指示から環境中の物体を検索
ユースケース ▪ 慣れない環境で物体を探す o 例：学会会場，ショッピングモール ▪ 生活支援ロボットによる物体操作 4~10x

出力 ▪ ランク付けされた対象物体の矩形領域適切な物体が上位に提示されることが望ましい - 6 - 入力 ▪
参照表現を含む指示文 ▪ 画像群問題設定： Learning-to-Rank Physical Objects(LTRPO) [Kaneda+, RA-L24]

参照表現を含む指示文 ▪ 画像群問題設定： Learning-to-Rank Physical Objects(LTRPO) [Kaneda+, RA-L24] 物体検出器によって自動抽出 (e.g., Detic [Zhou+, ECCV22])

参照表現を含む指示文 ▪ 画像群問題設定： Learning-to-Rank Physical Objects(LTRPO) [Kaneda+, RA-L24] Model "Check the white washing machine on the left is working" 画像群 Rank: 1 Rank: 2 Rank: 3 Rank: 4

関連研究：既存研究は家庭内環境という限られた空間でのみ検証 FLAVA [Singh+, CVPR22] 言語と画像の交差注意から類似度を計算  環境中のすべての物体と指示文の注意計算 RREx-BoT [Siggurdson+,
IROS23] 事前巡回を考慮したVLNタスクを扱う  Top-1の物体のみに着目 MultiRankIt [Kaneda+, RA-L24] Human-in-the-loop設定を想定し，Top-20を検索  家庭内環境など公共性が低く応用先が限定 RREx-BoT MultiRankIt - 9 -

提案手法：対照学習に基づく大規模屋内空間の物体検索モデル - 10 -

提案手法：対照学習に基づく大規模屋内空間の物体検索モデル - 11 - Instruction Noun Phrase Encoder (INPE)
参照表現中に含まれる対象物体に関する言語特徴抽出 Granular Representation from Entire to Pixels (GREP) 4つの粒度から接地に有用な画像特徴量を獲得 Relaxing Contrastive Similarity (RCS) 負例に対する対照性を緩和しつつ学習効率をバランス

提案手法 (1/3)：GREP 4つの粒度から接地に有用な画像特徴量を抽出 - 12 - • 画像/画素/位置関係/物体の観点から接地に有用な特徴を獲得 •
CLIPから位置関係に関する特徴を得る →中間層特徴マップ（2D）を使用 • CLIPから画素単位で特徴を抽出 cf. SAN [Xu+, CVPR23]

提案手法 (1/3)：GREP 4つの粒度から接地に有用な画像特徴量を抽出 - 13 - • 画像/画素/位置関係/物体の観点から接地に有用な特徴を獲得 •
CLIPから位置関係に関する特徴を得る →中間層特徴マップ（2D）を使用 • CLIPから画素単位で特徴を抽出 cf. SAN [Xu+, CVPR23]

▪ 画像特徴との注意計算を行うCNPE [Kaneda+, RA-L24] から言語を独立化 → 事前巡回中にGREPによる特徴抽出が可能 ▪ 推論時は言語-画像特徴間のコサイン類似度計算のみでランク付け可能 →実用上想定される数千以上の物体を扱う場合でも計算コストが低い
提案手法 (2/3)：INPE 名詞句に基づく対象物体に関する言語特徴抽出 - 14 -

▪ InfoNCE損失 [Oord+, 18] は，負例を全て均等に類似度を小さくする  難しい負例(例：類似物体)と簡単な負例を同一視 ▪ 大規模環境の場合，正例の類似物体が含まれる確率が高くなる
▪ Relaxed Contrastive (ReCo) [Lin+, WACV23] 損失はこの問題を軽減  類似度が負の空間に対し計算が行われない提案手法 3/3：RCS 大規模空間のための負例の対照性を緩和する損失設計 - 15 -

▪ InfoNCE損失 [Oord+, 18] は，負例を全て均等に類似度を小さくする  難しい負例(例：類似物体)と簡単な負例を同一視 ▪ 大規模環境の場合，正例の類似物体が含まれる確率が高くなる
▪ Relaxed Contrastive (ReCo) [Lin+, WACV23] 損失はこの問題を軽減  類似度が負の空間に対して計算が行われない Go to the yellow trash can in the center lined up near the windows. 提案手法 3/3：RCS 大規模空間のための負例の対照性を緩和する損失設計 - 16 -

▪ InfoNCE損失 [] は，負例を全て均等に類似度を小さくする o :( 難しい負例(e.g. 類似物体)と簡単な負例を同一視 ▪ 大規模環境の場合，正例との類似物体が含まれる確率が高くなる
▪ ReCo(Relaxed Contrastive) [Lin+, WACV23] 損失はこの問題を軽減 :( 類似度が負の空間に対し計算が行われない提案手法 3/3：RCS 大規模空間のための負例の対照性を緩和する損失設計 - 17 - [Lin+, WACV23] InfoNCEはすべての負例を均等に扱う ReCoは最初から類似度が負の領域を無視

▪ InfoNCE損失 [] は，負例を全て均等に類似度を小さくする o :( 難しい負例(e.g. 類似物体)と簡単な負例を同一視 ▪ 大規模環境の場合，正例との類似物体が含まれる確率が高くなる
▪ ReCo(Relaxed Contrastive) [Lin+, WACV23] 損失はこの問題を軽減 :( 類似度が負の空間に対し計算が行われない提案手法 3/3：RCS 大規模空間のための負例の対照性を緩和する損失設計 - 18 - [Lin+, WACV23] InfoNCEはすべての負例を均等に扱う ReCoは最初から類似度が負の領域を無視これらを併用した損失（Mixed Contrastive Loss）を導入

実験設定： 2つの大規模環境データセットにおいて性能を評価 - 19 - ①YAGAMIデータセット（新規）を収集 ▪ キャンパスレベルの屋内空間の実画像 + 参照表現を含む指示文で構成
▪ アノテータ：57名 ▪ 3,000m2にわたる範囲から収集 ②LTRRIEデータセット [Kaneda+, RA-L24] を拡張 ▪ 複数の環境を横断して検索大規模空間を再現語彙数 26,205 平均文長 13.17 指示文 1,990 物体領域 1,984 環境 11 YAGAMIデータセットの概要

定量的結果：両データセットにおいて既存手法を上回る - 20 - ▪ 評価尺度：Mean Reciprocal Rank (MRR),
Recall@K (K=5,10) ☺ すべてのデータセットにおいて、提案手法が既存手法を上回った YAGAMIデータセット LTRRIE-2.0データセット [%] MRR ↑ Recall@5↑ Recall@10↑ MRR ↑ Recall@5↑ Recall@10↑ CLIP [Radford+,ICML21] 19.0 16.4 25.4 31.6 29.8 42.4 MultiRankIt [Kaneda+, RA-L24] 18.7 17.3 30.4 32.4 31.9 44.9 提案手法 25.7 24.5 36.2 37.4 35.3 50.4

Recall@K (K=5,10) ☺ すべてのデータセットにおいて、提案手法が既存手法を上回った YAGAMIデータセット LTRRIE-2.0データセット [%] MRR ↑ Recall@5↑ Recall@10↑ MRR ↑ Recall@5↑ Recall@10↑ CLIP [Radford+,ICML21] 19.0 16.4 25.4 31.6 29.8 42.4 MultiRankIt [Kaneda+, RA-L24] 18.7 17.3 30.4 32.4 31.9 44.9 提案手法 25.7 24.5 36.2 37.4 35.3 50.4 +6.7 +8.1 +5.8 +5.5 +8.0 +10.8

Recall@K (K=5,10) ☺ すべてのデータセットにおいて、提案手法が既存手法を上回った YAGAMIデータセット LTRRIE-2.0データセット [%] MRR ↑ Recall@5↑ Recall@10↑ MRR ↑ Recall@5↑ Recall@10↑ CLIP [Radford+,ICML21] 19.0 16.4 25.4 31.6 29.8 42.4 MultiRankIt [Kaneda+, RA-L24] 18.7 17.3 30.4 32.4 31.9 44.9 提案手法 25.7 24.5 36.2 37.4 35.3 50.4 +7.0 +7.2 +5.0 +3.4 +5.5 +5.8

定性的結果（成功例）①：類似物体に対しても適切な対象物体を上位に検索 - 23 - 指示文：”Please look at the
leftmost of the three potted plants placed on the shelf.” 提案手法 MultiRankIt Rank: 1 Rank: 1 Ground-Truth 複数存在する観葉植物から適切に1位に ☺ 類似物体に関する損失設計

定性的結果（成功例） ②：位置関係を適切に満たす対象物体を上位に検索 - 24 - 指示文：”Pick up the picture
frame in the upper foreground and put it on the shelf” 提案手法 MultiRankIt Rank: 1 Rank: 2 Rank: 1 Rank: 2 Ground-Truth

定性的結果（成功例） ②：位置関係を適切に満たす対象物体を上位に検索 - 25 - 指示文：”Pick up the picture
frame in the upper foreground and put it on the shelf” 提案手法 MultiRankIt Rank: 1 Rank: 2 Rank: 1 Rank: 2 Ground-Truth 参照表現に合致する額縁を検索 ☺ GREP内でのCLIP中間特徴が寄与

指示文：”Please identify what looks like a schedule list attached to
the wall at the back of the room.” - 26 - 提案手法 Rank: 1 Rank: 2 Ground-Truth 定性的結果（失敗例）：環境中のシーン情報が正しく認識されていない上位20件全てが廊下で撮影した画像 → MLLMの持つ常識的知識の活用

まとめ - 27 - 大規模環境における実空間の物体検索エンジンは有用新規性 - 画像/画素/位置関係/物体の観点から接地に有用な特徴を得るGREP - 大規模空間のための負例の対照性を緩和するMixed
Contrastive Loss 結果 - 大規模空間データセットにおいて既存手法を上回った 4~10x

Appendix - 28 -

Ablation Study：すべての新規性が性能向上に寄与条件 ReCo 画素空間 YAGAMIデータセット LTRRIE-2.0データセット MRR↑
R@5↑ R@10↑ MRR ↑ R@5↑ R@10↑ (i) ✓ ✓ ✓ 25.7 24.5 36.2 37.4 35.3 50.3 (ii) ✓ ✓ 24.9 23.6 35.2 36.8 34.8 51.3 (iii) ✓ ✓ 23.0 22.7 34.8 32.1 29.9 45.2 (iv) ✓ ✓ 22.3 21.0 31.5 35.0 35.0 51.5 ◼ 条件(i)が最良＝すべての新規性が性能向上に寄与 ◼ 特に、GREPの２つの特徴の導入が両データセットで有効 - 29 -

エラー分析：失敗例20件に関するエラーエラー要因件数物体の視覚的特徴の接地に関するエラー 6 指示文に含まれる別の物体を予測 4 多義的な指示によるエラー 4
参照表現理解に適さない物体を上位に検索 3 アノテーションに基づくエラー 2 - 30 -

▪ Mean Reciprocal Rank ▪ Recall@K 評価尺度 - 31 -
：指示文の数：検索されたサンプルの中で最も高くランク付けされた GT 画像の順位：正解サンプルの集合：検索上位K個のサンプル集合

Appendix: SAN [Xu+, CVPR23]のネットワーク構造 - 32 -

[JSAI24] Large-Scale Indoor Search Engine with ...

[JSAI24] Large-Scale Indoor Search Engine with Multimodal Foundation Models and Relaxing Contrastive Loss

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

マルチモーダル基盤モデルと緩和対照損失を用いた大規模屋内検索エンジン慶應義塾大学今井悠人, 兼田寛大, 是方諒介, 杉浦孔明

概要 - 2 - 大規模環境における実空間の物体検索エンジンは有用新規性 - 画像/画素/位置関係/物体の観点から接地に有用な特徴を得るGREP - 大規模空間のための負例の対照性を緩和するMixed

4~10x ユースケース ▪ ロボットに家庭内の物体を操作させる ▪ 慣れない環境で物体を探す o 例：学会会場，ショッピングモール ▪ 我々の身の回りのあらゆる物体の場所がただちに理解できれば便利

4~10x ユースケース ▪ ロボットに家庭内の物体を操作させる ▪ 慣れない環境で物体を探す o 例：学会会場，ショッピングモール ▪ 我々の身の回りのあらゆる物体の場所がただちに理解できれば便利

出力 ▪ ランク付けされた対象物体の矩形領域適切な物体が上位に提示されることが望ましい - 6 - 入力 ▪

出力 ▪ ランク付けされた対象物体の矩形領域適切な物体が上位に提示されることが望ましい - 7 - 入力 ▪

出力 ▪ ランク付けされた対象物体の矩形領域適切な物体が上位に提示されることが望ましい - 8 - 入力 ▪

関連研究：既存研究は家庭内環境という限られた空間でのみ検証 FLAVA [Singh+, CVPR22] 言語と画像の交差注意から類似度を計算  環境中のすべての物体と指示文の注意計算 RREx-BoT [Siggurdson+,

提案手法：対照学習に基づく大規模屋内空間の物体検索モデル - 10 -

提案手法：対照学習に基づく大規模屋内空間の物体検索モデル - 11 - Instruction Noun Phrase Encoder (INPE)

提案手法 (1/3)：GREP 4つの粒度から接地に有用な画像特徴量を抽出 - 12 - • 画像/画素/位置関係/物体の観点から接地に有用な特徴を獲得 •

提案手法 (1/3)：GREP 4つの粒度から接地に有用な画像特徴量を抽出 - 13 - • 画像/画素/位置関係/物体の観点から接地に有用な特徴を獲得 •

▪ InfoNCE損失 [Oord+, 18] は，負例を全て均等に類似度を小さくする  難しい負例(例：類似物体)と簡単な負例を同一視 ▪ 大規模環境の場合，正例の類似物体が含まれる確率が高くなる

▪ InfoNCE損失 [Oord+, 18] は，負例を全て均等に類似度を小さくする  難しい負例(例：類似物体)と簡単な負例を同一視 ▪ 大規模環境の場合，正例の類似物体が含まれる確率が高くなる

▪ InfoNCE損失 [] は，負例を全て均等に類似度を小さくする o :( 難しい負例(e.g. 類似物体)と簡単な負例を同一視 ▪ 大規模環境の場合，正例との類似物体が含まれる確率が高くなる

▪ InfoNCE損失 [] は，負例を全て均等に類似度を小さくする o :( 難しい負例(e.g. 類似物体)と簡単な負例を同一視 ▪ 大規模環境の場合，正例との類似物体が含まれる確率が高くなる

実験設定： 2つの大規模環境データセットにおいて性能を評価 - 19 - ①YAGAMIデータセット（新規）を収集 ▪ キャンパスレベルの屋内空間の実画像 + 参照表現を含む指示文で構成

定量的結果：両データセットにおいて既存手法を上回る - 20 - ▪ 評価尺度：Mean Reciprocal Rank (MRR),

定量的結果：両データセットにおいて既存手法を上回る - 21 - ▪ 評価尺度：Mean Reciprocal Rank (MRR),

定量的結果：両データセットにおいて既存手法を上回る - 22 - ▪ 評価尺度：Mean Reciprocal Rank (MRR),

定性的結果（成功例）①：類似物体に対しても適切な対象物体を上位に検索 - 23 - 指示文：”Please look at the

定性的結果（成功例） ②：位置関係を適切に満たす対象物体を上位に検索 - 24 - 指示文：”Pick up the picture

定性的結果（成功例） ②：位置関係を適切に満たす対象物体を上位に検索 - 25 - 指示文：”Pick up the picture

指示文：”Please identify what looks like a schedule list attached to

まとめ - 27 - 大規模環境における実空間の物体検索エンジンは有用新規性 - 画像/画素/位置関係/物体の観点から接地に有用な特徴を得るGREP - 大規模空間のための負例の対照性を緩和するMixed

Appendix - 28 -

Ablation Study：すべての新規性が性能向上に寄与条件 ReCo 画素空間 YAGAMIデータセット LTRRIE-2.0データセット MRR↑

エラー分析：失敗例20件に関するエラーエラー要因件数物体の視覚的特徴の接地に関するエラー 6 指示文に含まれる別の物体を予測 4 多義的な指示によるエラー 4

▪ Mean Reciprocal Rank ▪ Recall@K 評価尺度 - 31 -

Appendix: SAN [Xu+, CVPR23]のネットワーク構造 - 32 -