Slide 1

Slide 1 text

慶應義塾大学 杉浦孔明研究室 今井悠人 Improving Cross-Modal Retrieval with Set of Diverse Embeddings Dongwon Kim1 Namyup Kim1 Suha Kwak1,2 (1.Dept. of CSE, POSTECH 2.Graduate School of AI, POSTECH) Kim, Dongwon, Namyup Kim, and Suha Kwak. "Improving Cross-Modal Retrieval with Set of Diverse Embeddings." CVPR. 2023. CVPR23 Highlight

Slide 2

Slide 2 text

• 背景 • マルチモーダル検索タスクでは多対多の関係を扱うべき • 近年主流である特徴空間ベースの手法では類似度計算が学習に影響 • 提案 • 異なるモダリティを共通の埋め込み空間に写すSet Prediction Module • 点群間距離のChamfer距離に基づくsmooth-Chamfer similarity • 結果 • 4つのpublic benchmarkにおいて、多くの設定でSoTA 2 概要

Slide 3

Slide 3 text

3 背景:マルチモーダル検索タスクは多対多の対応を扱うべき • 画像にマッチするキャプションは複数存在(意味的曖昧性) • キャプションにマッチする画像に関しても然り • 画像・キャプションは物体間の関係性も表現している場合が多い  人手でのアノテーションはコスト大

Slide 4

Slide 4 text

• 入力から画像-言語対の類似度を直接計算 • Virtex [Desai+, CVPR21] CAAN [Zhang+, CVPR20]など  画素単位の画像-言語注意による性能向上  計算効率が悪い • モダリティ間の注意計算が不可避 4 背景:ナイーブな解法は規模が大きい場合非現実的 Image 𝑿𝑿 boys wearing helmets carry a bicycle up a ramp at a skate park Text 𝒀𝒀 Cross-Attention Encoder 𝑔𝑔 Similarity : 𝑔𝑔(𝑿𝑿, 𝒀𝒀)

Slide 5

Slide 5 text

• 特徴空間に写像し、特徴量の類似度を計算 • 対照学習手法により学習  推論時は特徴空間でのサンプリング  学習が不安定である • Sparse supervision • 埋め込み対が近づかない • Set Collapsing • 埋め込み対の分散が小さくなる • 前述した意味的曖昧さを失う 5 背景:特徴空間における手法は2つの問題が存在 Image 𝑿𝑿 boys wearing helmets carry a bicycle up a ramp at a skate park Text 𝒀𝒀 Image Encoder Similarity : Text Encoder

Slide 6

Slide 6 text

Method 概要 VSE ∞ [Chen+, CVPR21] DeViSE [Frome+, NIPS13] の後続研究 コスト計算時の特徴量集約に効果的なPoolingを利用 PVSE [Song+, CVPR19] 埋め込み空間における言語-画像間の最短距離を 類似度指標とするMILを提案 PCME [Chun+, CVPR21] 異なるモダリティ間の埋め込み表現を 共通の確率分布として埋め込む手法を提案 6 関連研究:近年は特徴空間ベースの手法が主流 [Chen+, CVPR21] [Chun+, CVPR21]

Slide 7

Slide 7 text

7 提案手法:共通の埋め込み空間で複数モダリティの関係を扱うDiVE 主要な新規性は2つ • 異なるモダリティを共通の埋め込み空間に写像するSet Prediction Module • Sparse supervision・Set Collapsingを防ぐsmooth-Chamfer similarity

Slide 8

Slide 8 text

8 提案手法:共通の埋め込み空間で複数モダリティの関係を扱うDiVE 主要な新規性は2つ • 異なるモダリティを共通の埋め込み空間に写像するSet Prediction Module • Sparse supervision・Set Collapsingを防ぐsmooth-Chamfer similarity

Slide 9

Slide 9 text

• PCME [Chun+, CVPR21] との比較のため、局所/大域特徴を作成 • Local feature = Backboneからの出力 • Global feature = 隠れ層出力の最大プーリングによって獲得 9 Step.1 入力から局所/大域特徴を抽出

Slide 10

Slide 10 text

10 Step 2. Slot Attention [Locatello+, NeurIPS20] による集合作成 • と を入力として、埋め込み集合 を作成 • 個のElement Slotの更新時に を合成 • Slot Attentionについて→Appendix • 第𝑖𝑖層のAggregation block • Query : Element Slot • Key-Value : 局所特徴 • Attention mapはSlot間で正規化

Slide 11

Slide 11 text

11 • Element Slotの更新式は以下 :attention map :学習可能な重み :次元数 • LN:LayerNormとして、 は以下 Step 2. Slot Attention [Locatello+, NeurIPS20] による集合作成

Slide 12

Slide 12 text

• 類似する埋め込み表現をどのように近づけるべきか? (a) MIL [Song+, CVPR19] • 集合の要素の最短の組の距離 • ほとんどの要素は疎なまま (b) Match Probability [Chun+, CVPR21] • 𝜎𝜎:シグモイド関数 • 直接最適化すると、集合が潰れる 12 Step. 3 Smooth-Chamfer similarityにより埋め込み間の類似度を計算

Slide 13

Slide 13 text

(c) smooth-Chamfer • この部分をLSE(Log-Sum-Exp)関数として置く • LSE -> MAXに置き換えると、点群間のChamfer距離と同じ • LSEは微分するとSoftmax関数になる関数であり、滑らかで最大値を持つと主張 • 詳細はAppendix 13 Step. 3 Smooth-Chamfer similarityにより埋め込み間の類似度を計算

Slide 14

Slide 14 text

Maximum Mean Discrepancy Loss 14 損失関数の設定 Triplet Ranking Loss Diversity Regularizer • 確率分布間の距離を測定する手法の一つ • カーネル法から導出が可能 • Slotが同じ予測になることにペナルティを付加 • Triplet Lossにおいて、以下としたもの • 正例 = 各要素から類似度を最大化する例 • 負例= 対応があった例 https://suhakwak.github.io/papers/kccv2023_dive.pdf

Slide 15

Slide 15 text

• 4つのPublic Benchmarksにおいて検証 • COCO [Lin+, ECCV14]、Flickr30K [Plummer+, ICCV15]、ECCV caption [Chun+, ECCV22]、CrissCrossed Caption [Parekh+, 2020] • 評価指標 • Recall@{1, 5, 10}、RSUM(Recallの和) 15 実験設定 Backbone Training Environment ResNet-152 + bi-GRU RTX3090×1 Faster-RCNN + bi-GRU RTX3090×1 ResNeXt-101 + BERT A100 PCIe GPU × 2

Slide 16

Slide 16 text

• COCO dataset • Test setのサンプル数1000と5000における実験結果 • Cross-Attention baseの手法を上回る実験結果 16 定量的結果:Image-to-Text, Text-to-ImageともにSoTA

Slide 17

Slide 17 text

17 Ablation Study:類似度関数・集合への埋め込み Smooth-Chamfer similarityが 最も適しているという結果 Set Prediction Moduleが 最も分散が大きかったという結果

Slide 18

Slide 18 text

• キャプション:埋め込み空間上で、画像に対して最も近かったもの • 下線:attention mapに対応するエンティティ • 緑 :マッチングが成功したキャプション 18 定性的結果: attention mapに対応したキャプションにマッチ

Slide 19

Slide 19 text

• キャプション:埋め込み空間上で、画像に対して最も近かったもの • 下線:attention mapに対応するエンティティ • 緑 :マッチングが成功したキャプション 19 定性的結果: attention mapに対応したキャプションにマッチ Attention scoreが大きい領域に対応する エンティティがキャプションに含まれている

Slide 20

Slide 20 text

• 背景 • マルチモーダル検索タスクでは多対多の関係を扱うべき • 近年主流である特徴空間ベースの手法では類似度計算が学習に影響 • 提案 • 異なるモダリティを共通の埋め込み空間に写すSet Prediction Module • 点群間距離のChamfer距離に基づくsmooth-Chamfer similarity • 結果 • 4つのpublic benchmarkにおいて、多くの設定でSoTA 21 まとめ

Slide 21

Slide 21 text

Appendix

Slide 22

Slide 22 text

23 Appendix:t-SNEを用いた埋め込み空間の可視化 • モダリティ内でのばらつきは保ったまま、意味的に同じものと近くなるような類似度指標

Slide 23

Slide 23 text

• 概要 • unsupervised object detectionの文脈で提案 • 低レベルの知覚入力から、物体中心の埋め込み表現を得る • 画像から抽出された特徴のkey-value, K個の出力ベクトル=Slotを用いて、 物体中心表現を共通次元Dにマッピングする。 • Slotの初期値はガウス分布からサンプリング、分散と平均は学習可能 24 Appendix : Slot Attention Algorithm

Slide 24

Slide 24 text

25 Appendix:Smooth-Chemferが滑らかである主張 • LSEを微分した結果はSoftmaxである。ここで、c(x,y)に関しての勾配を考えると、 • この勾配は、(確率として正規化した)類似度スコアの和とみなすことも可能である。 • つまり、cos類似度の定数倍のsoftmaxの和であり、これはxとyが近いほど大きい。 • 近さに重みづけを行うことで、集合内で十分な分散を保つことができる

Slide 25

Slide 25 text

[Lin+, ECCV14]:Lin, Tsung-Yi, et al. "Microsoft COCO: Common Objects in Context.“, ECCV14 [Plummer+, ICCV15]:Plummer, Bryan A., et al. "Flickr30k entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models.“, ICCV15 [Karan+, CVPR21]:Desai, Karan, and Justin Johnson. "Virtex: Learning Visual Representations from Textual Annotations.“, CVPR21 [Zhang+, CVPR20] :Zhang, Qi, et al. "Context-Aware Attention Network for Image-Text Retrieval.“, CVPR20 [Chen+, CVPR21]:Chen, Jiacheng, et al. "Learning the Best Pooling Strategy for Visual Semantic Embedding.“, CVPR21 [Frome+, NIPS13]:Frome, Andrea, et al. "Devise: A Deep Visual-Semantic Embedding model.“, NIPS13 [Song+, CVPR19]:Song, Yale, and Mohammad Soleymani. "Polysemous visual-semantic embedding for cross-modal retrieval.“, CVPR19 [Chun+, CVPR21]:Chun, Sanghyuk, et al. "Probabilistic Embeddings for Cross-modal Retrieval.“, CVPR21 [Locatello+, NeurIPS20]:Locatello, Francesco, et al. "Object-Centric Learning with Slot Attention.“, NeurIPS20 [DL輪読会]Object-Centric Learning with Slot Attention https://www.slideshare.net/DeepLearningJP2016/dlobjectcentric-learning-with-slot-attention 26 参考文献

Slide 26

Slide 26 text

[Chun+, ECCV22]:Chun, Sanghyuk, et al. "Eccv Caption: Correcting False Negatives by Collecting Machine-and-Human-Verified Image-Caption Associations for MS-COCO.“, ECCV22 [Parekh+, 2020]:Parekh, Zarana, et al. "Crisscrossed captions: Extended intramodal and intermodal semantic similarity judgments for MS-COCO.“, 2020 https://suhakwak.github.io/papers/kccv2023_dive.pdf 27 参考文献