[Journal Club] Improving Cross-Modal Retrieval with Set of Diverse Embeddings

慶應義塾大学杉浦孔明研究室今井悠人 Improving Cross-Modal Retrieval with Set of Diverse
Embeddings Dongwon Kim1 Namyup Kim1 Suha Kwak1,2 (1.Dept. of CSE, POSTECH 2.Graduate School of AI, POSTECH) Kim, Dongwon, Namyup Kim, and Suha Kwak. "Improving Cross-Modal Retrieval with Set of Diverse Embeddings." CVPR. 2023. CVPR23 Highlight

• 背景 • マルチモーダル検索タスクでは多対多の関係を扱うべき • 近年主流である特徴空間ベースの手法では類似度計算が学習に影響 • 提案 • 異なるモダリティを共通の埋め込み空間に写すSet
Prediction Module • 点群間距離のChamfer距離に基づくsmooth-Chamfer similarity • 結果 • 4つのpublic benchmarkにおいて、多くの設定でSoTA 2 概要

3 背景：マルチモーダル検索タスクは多対多の対応を扱うべき • 画像にマッチするキャプションは複数存在（意味的曖昧性） • キャプションにマッチする画像に関しても然り • 画像・キャプションは物体間の関係性も表現している場合が多い  人手でのアノテーションはコスト大

• 入力から画像－言語対の類似度を直接計算 • Virtex [Desai+, CVPR21] CAAN [Zhang+, CVPR20]など 
画素単位の画像－言語注意による性能向上  計算効率が悪い • モダリティ間の注意計算が不可避 4 背景：ナイーブな解法は規模が大きい場合非現実的 Image 𝑿𝑿 boys wearing helmets carry a bicycle up a ramp at a skate park Text 𝒀𝒀 Cross-Attention Encoder 𝑔𝑔 Similarity : 𝑔𝑔(𝑿𝑿, 𝒀𝒀)

• 特徴空間に写像し、特徴量の類似度を計算 • 対照学習手法により学習  推論時は特徴空間でのサンプリング  学習が不安定である • Sparse
supervision • 埋め込み対が近づかない • Set Collapsing • 埋め込み対の分散が小さくなる • 前述した意味的曖昧さを失う 5 背景：特徴空間における手法は2つの問題が存在 Image 𝑿𝑿 boys wearing helmets carry a bicycle up a ramp at a skate park Text 𝒀𝒀 Image Encoder Similarity : Text Encoder

Method 概要 VSE ∞ [Chen+, CVPR21] DeViSE [Frome+, NIPS13] の後続研究
コスト計算時の特徴量集約に効果的なPoolingを利用 PVSE [Song+, CVPR19] 埋め込み空間における言語-画像間の最短距離を類似度指標とするMILを提案 PCME [Chun+, CVPR21] 異なるモダリティ間の埋め込み表現を共通の確率分布として埋め込む手法を提案 6 関連研究：近年は特徴空間ベースの手法が主流 [Chen+, CVPR21] [Chun+, CVPR21]

7 提案手法：共通の埋め込み空間で複数モダリティの関係を扱うDiVE 主要な新規性は2つ • 異なるモダリティを共通の埋め込み空間に写像するSet Prediction Module • Sparse supervision・Set
Collapsingを防ぐsmooth-Chamfer similarity

8 提案手法：共通の埋め込み空間で複数モダリティの関係を扱うDiVE 主要な新規性は2つ • 異なるモダリティを共通の埋め込み空間に写像するSet Prediction Module • Sparse supervision・Set
Collapsingを防ぐsmooth-Chamfer similarity

• PCME [Chun+, CVPR21] との比較のため、局所/大域特徴を作成 • Local feature = Backboneからの出力
• Global feature = 隠れ層出力の最大プーリングによって獲得 9 Step.1 入力から局所/大域特徴を抽出

10 Step 2. Slot Attention [Locatello+, NeurIPS20] による集合作成 • と
を入力として、埋め込み集合を作成 • 個のElement Slotの更新時にを合成 • Slot Attentionについて→Appendix • 第𝑖𝑖層のAggregation block • Query : Element Slot • Key-Value : 局所特徴 • Attention mapはSlot間で正規化

11 • Element Slotの更新式は以下：attention map ：学習可能な重み：次元数 • LN：LayerNormとして、
は以下 Step 2. Slot Attention [Locatello+, NeurIPS20] による集合作成

• 類似する埋め込み表現をどのように近づけるべきか？ (a) MIL [Song+, CVPR19] • 集合の要素の最短の組の距離 • ほとんどの要素は疎なまま
(b) Match Probability [Chun+, CVPR21] • 𝜎𝜎：シグモイド関数 • 直接最適化すると、集合が潰れる 12 Step. 3 Smooth-Chamfer similarityにより埋め込み間の類似度を計算

(c) smooth-Chamfer • この部分をLSE（Log-Sum-Exp）関数として置く • LSE -> MAXに置き換えると、点群間のChamfer距離と同じ • LSEは微分するとSoftmax関数になる関数であり、滑らかで最大値を持つと主張
• 詳細はAppendix 13 Step. 3 Smooth-Chamfer similarityにより埋め込み間の類似度を計算

Maximum Mean Discrepancy Loss 14 損失関数の設定 Triplet Ranking Loss Diversity
Regularizer • 確率分布間の距離を測定する手法の一つ • カーネル法から導出が可能 • Slotが同じ予測になることにペナルティを付加 • Triplet Lossにおいて、以下としたもの • 正例 = 各要素から類似度を最大化する例 • 負例= 対応があった例 https://suhakwak.github.io/papers/kccv2023_dive.pdf

• 4つのPublic Benchmarksにおいて検証 • COCO [Lin+, ECCV14]、Flickr30K [Plummer+, ICCV15]、ECCV caption
[Chun+, ECCV22]、CrissCrossed Caption [Parekh+, 2020] • 評価指標 • Recall@{1, 5, 10}、RSUM(Recallの和) 15 実験設定 Backbone Training Environment ResNet-152 + bi-GRU RTX3090×1 Faster-RCNN + bi-GRU RTX3090×1 ResNeXt-101 + BERT A100 PCIe GPU × 2

• COCO dataset • Test setのサンプル数1000と5000における実験結果 • Cross-Attention baseの手法を上回る実験結果 16
定量的結果：Image-to-Text, Text-to-ImageともにSoTA

17 Ablation Study：類似度関数・集合への埋め込み Smooth-Chamfer similarityが最も適しているという結果 Set Prediction Moduleが最も分散が大きかったという結果

• キャプション：埋め込み空間上で、画像に対して最も近かったもの • 下線：attention mapに対応するエンティティ • 緑：マッチングが成功したキャプション 18 定性的結果：
attention mapに対応したキャプションにマッチ

• キャプション：埋め込み空間上で、画像に対して最も近かったもの • 下線：attention mapに対応するエンティティ • 緑：マッチングが成功したキャプション 19 定性的結果：
attention mapに対応したキャプションにマッチ Attention scoreが大きい領域に対応するエンティティがキャプションに含まれている

• 背景 • マルチモーダル検索タスクでは多対多の関係を扱うべき • 近年主流である特徴空間ベースの手法では類似度計算が学習に影響 • 提案 • 異なるモダリティを共通の埋め込み空間に写すSet
Prediction Module • 点群間距離のChamfer距離に基づくsmooth-Chamfer similarity • 結果 • 4つのpublic benchmarkにおいて、多くの設定でSoTA 21 まとめ

Appendix

23 Appendix：t-SNEを用いた埋め込み空間の可視化 • モダリティ内でのばらつきは保ったまま、意味的に同じものと近くなるような類似度指標

• 概要 • unsupervised object detectionの文脈で提案 • 低レベルの知覚入力から、物体中心の埋め込み表現を得る • 画像から抽出された特徴のkey-value,
K個の出力ベクトル=Slotを用いて、物体中心表現を共通次元Dにマッピングする。 • Slotの初期値はガウス分布からサンプリング、分散と平均は学習可能 24 Appendix : Slot Attention Algorithm

25 Appendix：Smooth-Chemferが滑らかである主張 • LSEを微分した結果はSoftmaxである。ここで、c(x,y)に関しての勾配を考えると、 • この勾配は、（確率として正規化した）類似度スコアの和とみなすことも可能である。 • つまり、cos類似度の定数倍のsoftmaxの和であり、これはxとyが近いほど大きい。 • 近さに重みづけを行うことで、集合内で十分な分散を保つことができる

[Lin+, ECCV14]：Lin, Tsung-Yi, et al. "Microsoft COCO: Common Objects in
Context.“, ECCV14 [Plummer+, ICCV15]：Plummer, Bryan A., et al. "Flickr30k entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models.“, ICCV15 [Karan+, CVPR21]：Desai, Karan, and Justin Johnson. "Virtex: Learning Visual Representations from Textual Annotations.“, CVPR21 [Zhang+, CVPR20] ：Zhang, Qi, et al. "Context-Aware Attention Network for Image-Text Retrieval.“, CVPR20 [Chen+, CVPR21]：Chen, Jiacheng, et al. "Learning the Best Pooling Strategy for Visual Semantic Embedding.“, CVPR21 [Frome+, NIPS13]：Frome, Andrea, et al. "Devise: A Deep Visual-Semantic Embedding model.“, NIPS13 [Song+, CVPR19]：Song, Yale, and Mohammad Soleymani. "Polysemous visual-semantic embedding for cross-modal retrieval.“, CVPR19 [Chun+, CVPR21]：Chun, Sanghyuk, et al. "Probabilistic Embeddings for Cross-modal Retrieval.“, CVPR21 [Locatello+, NeurIPS20]：Locatello, Francesco, et al. "Object-Centric Learning with Slot Attention.“, NeurIPS20 [DL輪読会]Object-Centric Learning with Slot Attention https://www.slideshare.net/DeepLearningJP2016/dlobjectcentric-learning-with-slot-attention 26 参考文献

[Chun+, ECCV22]：Chun, Sanghyuk, et al. "Eccv Caption: Correcting False Negatives
by Collecting Machine-and-Human-Verified Image-Caption Associations for MS-COCO.“, ECCV22 [Parekh+, 2020]：Parekh, Zarana, et al. "Crisscrossed captions: Extended intramodal and intermodal semantic similarity judgments for MS-COCO.“, 2020 https://suhakwak.github.io/papers/kccv2023_dive.pdf 27 参考文献

[Journal Club] Improving Cross-Modal Retrieval ...

[Journal Club] Improving Cross-Modal Retrieval with Set of Diverse Embeddings

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

慶應義塾大学杉浦孔明研究室今井悠人 Improving Cross-Modal Retrieval with Set of Diverse

• 背景 • マルチモーダル検索タスクでは多対多の関係を扱うべき • 近年主流である特徴空間ベースの手法では類似度計算が学習に影響 • 提案 • 異なるモダリティを共通の埋め込み空間に写すSet

• 入力から画像－言語対の類似度を直接計算 • Virtex [Desai+, CVPR21] CAAN [Zhang+, CVPR20]など 

• 特徴空間に写像し、特徴量の類似度を計算 • 対照学習手法により学習  推論時は特徴空間でのサンプリング  学習が不安定である • Sparse

Method 概要 VSE ∞ [Chen+, CVPR21] DeViSE [Frome+, NIPS13] の後続研究

7 提案手法：共通の埋め込み空間で複数モダリティの関係を扱うDiVE 主要な新規性は2つ • 異なるモダリティを共通の埋め込み空間に写像するSet Prediction Module • Sparse supervision・Set

8 提案手法：共通の埋め込み空間で複数モダリティの関係を扱うDiVE 主要な新規性は2つ • 異なるモダリティを共通の埋め込み空間に写像するSet Prediction Module • Sparse supervision・Set

• PCME [Chun+, CVPR21] との比較のため、局所/大域特徴を作成 • Local feature = Backboneからの出力

10 Step 2. Slot Attention [Locatello+, NeurIPS20] による集合作成 • と

11 • Element Slotの更新式は以下：attention map ：学習可能な重み：次元数 • LN：LayerNormとして、

• 類似する埋め込み表現をどのように近づけるべきか？ (a) MIL [Song+, CVPR19] • 集合の要素の最短の組の距離 • ほとんどの要素は疎なまま

(c) smooth-Chamfer • この部分をLSE（Log-Sum-Exp）関数として置く • LSE -> MAXに置き換えると、点群間のChamfer距離と同じ • LSEは微分するとSoftmax関数になる関数であり、滑らかで最大値を持つと主張

Maximum Mean Discrepancy Loss 14 損失関数の設定 Triplet Ranking Loss Diversity

• 4つのPublic Benchmarksにおいて検証 • COCO [Lin+, ECCV14]、Flickr30K [Plummer+, ICCV15]、ECCV caption

• COCO dataset • Test setのサンプル数1000と5000における実験結果 • Cross-Attention baseの手法を上回る実験結果 16

17 Ablation Study：類似度関数・集合への埋め込み Smooth-Chamfer similarityが最も適しているという結果 Set Prediction Moduleが最も分散が大きかったという結果

• キャプション：埋め込み空間上で、画像に対して最も近かったもの • 下線：attention mapに対応するエンティティ • 緑：マッチングが成功したキャプション 18 定性的結果：

• キャプション：埋め込み空間上で、画像に対して最も近かったもの • 下線：attention mapに対応するエンティティ • 緑：マッチングが成功したキャプション 19 定性的結果：

• 背景 • マルチモーダル検索タスクでは多対多の関係を扱うべき • 近年主流である特徴空間ベースの手法では類似度計算が学習に影響 • 提案 • 異なるモダリティを共通の埋め込み空間に写すSet

Appendix

23 Appendix：t-SNEを用いた埋め込み空間の可視化 • モダリティ内でのばらつきは保ったまま、意味的に同じものと近くなるような類似度指標

• 概要 • unsupervised object detectionの文脈で提案 • 低レベルの知覚入力から、物体中心の埋め込み表現を得る • 画像から抽出された特徴のkey-value,

[Lin+, ECCV14]：Lin, Tsung-Yi, et al. "Microsoft COCO: Common Objects in

[Chun+, ECCV22]：Chun, Sanghyuk, et al. "Eccv Caption: Correcting False Negatives