Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal Club] Improving Cross-Modal Retrieval with Set of Diverse Embeddings

[Journal Club] Improving Cross-Modal Retrieval with Set of Diverse Embeddings

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室 今井悠人 Improving Cross-Modal Retrieval with Set of Diverse

    Embeddings Dongwon Kim1 Namyup Kim1 Suha Kwak1,2 (1.Dept. of CSE, POSTECH 2.Graduate School of AI, POSTECH) Kim, Dongwon, Namyup Kim, and Suha Kwak. "Improving Cross-Modal Retrieval with Set of Diverse Embeddings." CVPR. 2023. CVPR23 Highlight
  2. • 背景 • マルチモーダル検索タスクでは多対多の関係を扱うべき • 近年主流である特徴空間ベースの手法では類似度計算が学習に影響 • 提案 • 異なるモダリティを共通の埋め込み空間に写すSet

    Prediction Module • 点群間距離のChamfer距離に基づくsmooth-Chamfer similarity • 結果 • 4つのpublic benchmarkにおいて、多くの設定でSoTA 2 概要
  3. • 入力から画像-言語対の類似度を直接計算 • Virtex [Desai+, CVPR21] CAAN [Zhang+, CVPR20]など 

    画素単位の画像-言語注意による性能向上  計算効率が悪い • モダリティ間の注意計算が不可避 4 背景:ナイーブな解法は規模が大きい場合非現実的 Image 𝑿𝑿 boys wearing helmets carry a bicycle up a ramp at a skate park Text 𝒀𝒀 Cross-Attention Encoder 𝑔𝑔 Similarity : 𝑔𝑔(𝑿𝑿, 𝒀𝒀)
  4. • 特徴空間に写像し、特徴量の類似度を計算 • 対照学習手法により学習  推論時は特徴空間でのサンプリング  学習が不安定である • Sparse

    supervision • 埋め込み対が近づかない • Set Collapsing • 埋め込み対の分散が小さくなる • 前述した意味的曖昧さを失う 5 背景:特徴空間における手法は2つの問題が存在 Image 𝑿𝑿 boys wearing helmets carry a bicycle up a ramp at a skate park Text 𝒀𝒀 Image Encoder Similarity : Text Encoder
  5. Method 概要 VSE ∞ [Chen+, CVPR21] DeViSE [Frome+, NIPS13] の後続研究

    コスト計算時の特徴量集約に効果的なPoolingを利用 PVSE [Song+, CVPR19] 埋め込み空間における言語-画像間の最短距離を 類似度指標とするMILを提案 PCME [Chun+, CVPR21] 異なるモダリティ間の埋め込み表現を 共通の確率分布として埋め込む手法を提案 6 関連研究:近年は特徴空間ベースの手法が主流 [Chen+, CVPR21] [Chun+, CVPR21]
  6. • PCME [Chun+, CVPR21] との比較のため、局所/大域特徴を作成 • Local feature = Backboneからの出力

    • Global feature = 隠れ層出力の最大プーリングによって獲得 9 Step.1 入力から局所/大域特徴を抽出
  7. 10 Step 2. Slot Attention [Locatello+, NeurIPS20] による集合作成 • と

    を入力として、埋め込み集合 を作成 • 個のElement Slotの更新時に を合成 • Slot Attentionについて→Appendix • 第𝑖𝑖層のAggregation block • Query : Element Slot • Key-Value : 局所特徴 • Attention mapはSlot間で正規化
  8. • 類似する埋め込み表現をどのように近づけるべきか? (a) MIL [Song+, CVPR19] • 集合の要素の最短の組の距離 • ほとんどの要素は疎なまま

    (b) Match Probability [Chun+, CVPR21] • 𝜎𝜎:シグモイド関数 • 直接最適化すると、集合が潰れる 12 Step. 3 Smooth-Chamfer similarityにより埋め込み間の類似度を計算
  9. Maximum Mean Discrepancy Loss 14 損失関数の設定 Triplet Ranking Loss Diversity

    Regularizer • 確率分布間の距離を測定する手法の一つ • カーネル法から導出が可能 • Slotが同じ予測になることにペナルティを付加 • Triplet Lossにおいて、以下としたもの • 正例 = 各要素から類似度を最大化する例 • 負例= 対応があった例 https://suhakwak.github.io/papers/kccv2023_dive.pdf
  10. • 4つのPublic Benchmarksにおいて検証 • COCO [Lin+, ECCV14]、Flickr30K [Plummer+, ICCV15]、ECCV caption

    [Chun+, ECCV22]、CrissCrossed Caption [Parekh+, 2020] • 評価指標 • Recall@{1, 5, 10}、RSUM(Recallの和) 15 実験設定 Backbone Training Environment ResNet-152 + bi-GRU RTX3090×1 Faster-RCNN + bi-GRU RTX3090×1 ResNeXt-101 + BERT A100 PCIe GPU × 2
  11. • キャプション:埋め込み空間上で、画像に対して最も近かったもの • 下線:attention mapに対応するエンティティ • 緑 :マッチングが成功したキャプション 19 定性的結果:

    attention mapに対応したキャプションにマッチ Attention scoreが大きい領域に対応する エンティティがキャプションに含まれている
  12. • 背景 • マルチモーダル検索タスクでは多対多の関係を扱うべき • 近年主流である特徴空間ベースの手法では類似度計算が学習に影響 • 提案 • 異なるモダリティを共通の埋め込み空間に写すSet

    Prediction Module • 点群間距離のChamfer距離に基づくsmooth-Chamfer similarity • 結果 • 4つのpublic benchmarkにおいて、多くの設定でSoTA 21 まとめ
  13. • 概要 • unsupervised object detectionの文脈で提案 • 低レベルの知覚入力から、物体中心の埋め込み表現を得る • 画像から抽出された特徴のkey-value,

    K個の出力ベクトル=Slotを用いて、 物体中心表現を共通次元Dにマッピングする。 • Slotの初期値はガウス分布からサンプリング、分散と平均は学習可能 24 Appendix : Slot Attention Algorithm
  14. [Lin+, ECCV14]:Lin, Tsung-Yi, et al. "Microsoft COCO: Common Objects in

    Context.“, ECCV14 [Plummer+, ICCV15]:Plummer, Bryan A., et al. "Flickr30k entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models.“, ICCV15 [Karan+, CVPR21]:Desai, Karan, and Justin Johnson. "Virtex: Learning Visual Representations from Textual Annotations.“, CVPR21 [Zhang+, CVPR20] :Zhang, Qi, et al. "Context-Aware Attention Network for Image-Text Retrieval.“, CVPR20 [Chen+, CVPR21]:Chen, Jiacheng, et al. "Learning the Best Pooling Strategy for Visual Semantic Embedding.“, CVPR21 [Frome+, NIPS13]:Frome, Andrea, et al. "Devise: A Deep Visual-Semantic Embedding model.“, NIPS13 [Song+, CVPR19]:Song, Yale, and Mohammad Soleymani. "Polysemous visual-semantic embedding for cross-modal retrieval.“, CVPR19 [Chun+, CVPR21]:Chun, Sanghyuk, et al. "Probabilistic Embeddings for Cross-modal Retrieval.“, CVPR21 [Locatello+, NeurIPS20]:Locatello, Francesco, et al. "Object-Centric Learning with Slot Attention.“, NeurIPS20 [DL輪読会]Object-Centric Learning with Slot Attention https://www.slideshare.net/DeepLearningJP2016/dlobjectcentric-learning-with-slot-attention 26 参考文献
  15. [Chun+, ECCV22]:Chun, Sanghyuk, et al. "Eccv Caption: Correcting False Negatives

    by Collecting Machine-and-Human-Verified Image-Caption Associations for MS-COCO.“, ECCV22 [Parekh+, 2020]:Parekh, Zarana, et al. "Crisscrossed captions: Extended intramodal and intermodal semantic similarity judgments for MS-COCO.“, 2020 https://suhakwak.github.io/papers/kccv2023_dive.pdf 27 参考文献