$30 off During Our Annual Pro Sale. View Details »

[Journal Club] Improving Cross-Modal Retrieval with Set of Diverse Embeddings

[Journal Club] Improving Cross-Modal Retrieval with Set of Diverse Embeddings

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 慶應義塾大学 杉浦孔明研究室
    今井悠人
    Improving Cross-Modal Retrieval with Set of
    Diverse Embeddings
    Dongwon Kim1 Namyup Kim1 Suha Kwak1,2
    (1.Dept. of CSE, POSTECH 2.Graduate School of AI, POSTECH)
    Kim, Dongwon, Namyup Kim, and Suha Kwak. "Improving Cross-Modal Retrieval with Set of Diverse Embeddings." CVPR. 2023.
    CVPR23 Highlight

    View Slide

  2. • 背景
    • マルチモーダル検索タスクでは多対多の関係を扱うべき
    • 近年主流である特徴空間ベースの手法では類似度計算が学習に影響
    • 提案
    • 異なるモダリティを共通の埋め込み空間に写すSet Prediction Module
    • 点群間距離のChamfer距離に基づくsmooth-Chamfer similarity
    • 結果
    • 4つのpublic benchmarkにおいて、多くの設定でSoTA
    2
    概要

    View Slide

  3. 3
    背景:マルチモーダル検索タスクは多対多の対応を扱うべき
    • 画像にマッチするキャプションは複数存在(意味的曖昧性)
    • キャプションにマッチする画像に関しても然り
    • 画像・キャプションは物体間の関係性も表現している場合が多い
     人手でのアノテーションはコスト大

    View Slide

  4. • 入力から画像-言語対の類似度を直接計算
    • Virtex [Desai+, CVPR21]
    CAAN [Zhang+, CVPR20]など
     画素単位の画像-言語注意による性能向上
     計算効率が悪い
    • モダリティ間の注意計算が不可避
    4
    背景:ナイーブな解法は規模が大きい場合非現実的
    Image 𝑿𝑿
    boys wearing helmets
    carry a bicycle up a
    ramp at a skate park
    Text 𝒀𝒀
    Cross-Attention Encoder
    𝑔𝑔
    Similarity : 𝑔𝑔(𝑿𝑿, 𝒀𝒀)

    View Slide

  5. • 特徴空間に写像し、特徴量の類似度を計算
    • 対照学習手法により学習
     推論時は特徴空間でのサンプリング
     学習が不安定である
    • Sparse supervision
    • 埋め込み対が近づかない
    • Set Collapsing
    • 埋め込み対の分散が小さくなる
    • 前述した意味的曖昧さを失う
    5
    背景:特徴空間における手法は2つの問題が存在
    Image 𝑿𝑿
    boys wearing helmets
    carry a bicycle up a
    ramp at a skate park
    Text 𝒀𝒀
    Image Encoder
    Similarity :
    Text Encoder

    View Slide

  6. Method 概要
    VSE

    [Chen+, CVPR21] DeViSE [Frome+, NIPS13] の後続研究
    コスト計算時の特徴量集約に効果的なPoolingを利用
    PVSE [Song+, CVPR19] 埋め込み空間における言語-画像間の最短距離を
    類似度指標とするMILを提案
    PCME [Chun+, CVPR21] 異なるモダリティ間の埋め込み表現を
    共通の確率分布として埋め込む手法を提案
    6
    関連研究:近年は特徴空間ベースの手法が主流
    [Chen+, CVPR21] [Chun+, CVPR21]

    View Slide

  7. 7
    提案手法:共通の埋め込み空間で複数モダリティの関係を扱うDiVE
    主要な新規性は2つ
    • 異なるモダリティを共通の埋め込み空間に写像するSet Prediction Module
    • Sparse supervision・Set Collapsingを防ぐsmooth-Chamfer similarity

    View Slide

  8. 8
    提案手法:共通の埋め込み空間で複数モダリティの関係を扱うDiVE
    主要な新規性は2つ
    • 異なるモダリティを共通の埋め込み空間に写像するSet Prediction Module
    • Sparse supervision・Set Collapsingを防ぐsmooth-Chamfer similarity

    View Slide

  9. • PCME [Chun+, CVPR21] との比較のため、局所/大域特徴を作成
    • Local feature = Backboneからの出力
    • Global feature = 隠れ層出力の最大プーリングによって獲得
    9
    Step.1 入力から局所/大域特徴を抽出

    View Slide

  10. 10
    Step 2. Slot Attention [Locatello+, NeurIPS20] による集合作成
    • と を入力として、埋め込み集合 を作成
    • 個のElement Slotの更新時に を合成
    • Slot Attentionについて→Appendix
    • 第𝑖𝑖層のAggregation block
    • Query : Element Slot
    • Key-Value : 局所特徴
    • Attention mapはSlot間で正規化

    View Slide

  11. 11
    • Element Slotの更新式は以下
    :attention map
    :学習可能な重み
    :次元数
    • LN:LayerNormとして、 は以下
    Step 2. Slot Attention [Locatello+, NeurIPS20] による集合作成

    View Slide

  12. • 類似する埋め込み表現をどのように近づけるべきか?
    (a) MIL [Song+, CVPR19]
    • 集合の要素の最短の組の距離
    • ほとんどの要素は疎なまま
    (b) Match Probability [Chun+, CVPR21]
    • 𝜎𝜎:シグモイド関数
    • 直接最適化すると、集合が潰れる
    12
    Step. 3 Smooth-Chamfer similarityにより埋め込み間の類似度を計算

    View Slide

  13. (c) smooth-Chamfer
    • この部分をLSE(Log-Sum-Exp)関数として置く
    • LSE -> MAXに置き換えると、点群間のChamfer距離と同じ
    • LSEは微分するとSoftmax関数になる関数であり、滑らかで最大値を持つと主張
    • 詳細はAppendix
    13
    Step. 3 Smooth-Chamfer similarityにより埋め込み間の類似度を計算

    View Slide

  14. Maximum Mean Discrepancy Loss
    14
    損失関数の設定
    Triplet Ranking Loss
    Diversity Regularizer
    • 確率分布間の距離を測定する手法の一つ
    • カーネル法から導出が可能
    • Slotが同じ予測になることにペナルティを付加
    • Triplet Lossにおいて、以下としたもの
    • 正例 = 各要素から類似度を最大化する例
    • 負例= 対応があった例
    https://suhakwak.github.io/papers/kccv2023_dive.pdf

    View Slide

  15. • 4つのPublic Benchmarksにおいて検証
    • COCO [Lin+, ECCV14]、Flickr30K [Plummer+, ICCV15]、ECCV
    caption [Chun+, ECCV22]、CrissCrossed Caption [Parekh+, 2020]
    • 評価指標
    • Recall@{1, 5, 10}、RSUM(Recallの和)
    15
    実験設定
    Backbone Training Environment
    ResNet-152 + bi-GRU RTX3090×1
    Faster-RCNN + bi-GRU RTX3090×1
    ResNeXt-101 + BERT A100 PCIe GPU × 2

    View Slide

  16. • COCO dataset
    • Test setのサンプル数1000と5000における実験結果
    • Cross-Attention baseの手法を上回る実験結果
    16
    定量的結果:Image-to-Text, Text-to-ImageともにSoTA

    View Slide

  17. 17
    Ablation Study:類似度関数・集合への埋め込み
    Smooth-Chamfer similarityが
    最も適しているという結果
    Set Prediction Moduleが
    最も分散が大きかったという結果

    View Slide

  18. • キャプション:埋め込み空間上で、画像に対して最も近かったもの
    • 下線:attention mapに対応するエンティティ
    • 緑 :マッチングが成功したキャプション
    18
    定性的結果: attention mapに対応したキャプションにマッチ

    View Slide

  19. • キャプション:埋め込み空間上で、画像に対して最も近かったもの
    • 下線:attention mapに対応するエンティティ
    • 緑 :マッチングが成功したキャプション
    19
    定性的結果: attention mapに対応したキャプションにマッチ
    Attention scoreが大きい領域に対応する
    エンティティがキャプションに含まれている

    View Slide

  20. • 背景
    • マルチモーダル検索タスクでは多対多の関係を扱うべき
    • 近年主流である特徴空間ベースの手法では類似度計算が学習に影響
    • 提案
    • 異なるモダリティを共通の埋め込み空間に写すSet Prediction Module
    • 点群間距離のChamfer距離に基づくsmooth-Chamfer similarity
    • 結果
    • 4つのpublic benchmarkにおいて、多くの設定でSoTA
    21
    まとめ

    View Slide

  21. Appendix

    View Slide

  22. 23
    Appendix:t-SNEを用いた埋め込み空間の可視化
    • モダリティ内でのばらつきは保ったまま、意味的に同じものと近くなるような類似度指標

    View Slide

  23. • 概要
    • unsupervised object detectionの文脈で提案
    • 低レベルの知覚入力から、物体中心の埋め込み表現を得る
    • 画像から抽出された特徴のkey-value, K個の出力ベクトル=Slotを用いて、
    物体中心表現を共通次元Dにマッピングする。
    • Slotの初期値はガウス分布からサンプリング、分散と平均は学習可能
    24
    Appendix : Slot Attention Algorithm

    View Slide

  24. 25
    Appendix:Smooth-Chemferが滑らかである主張
    • LSEを微分した結果はSoftmaxである。ここで、c(x,y)に関しての勾配を考えると、
    • この勾配は、(確率として正規化した)類似度スコアの和とみなすことも可能である。
    • つまり、cos類似度の定数倍のsoftmaxの和であり、これはxとyが近いほど大きい。
    • 近さに重みづけを行うことで、集合内で十分な分散を保つことができる

    View Slide

  25. [Lin+, ECCV14]:Lin, Tsung-Yi, et al. "Microsoft COCO: Common Objects in Context.“, ECCV14
    [Plummer+, ICCV15]:Plummer, Bryan A., et al. "Flickr30k entities: Collecting Region-to-Phrase
    Correspondences for Richer Image-to-Sentence Models.“, ICCV15
    [Karan+, CVPR21]:Desai, Karan, and Justin Johnson. "Virtex: Learning Visual Representations from
    Textual Annotations.“, CVPR21
    [Zhang+, CVPR20] :Zhang, Qi, et al. "Context-Aware Attention Network for Image-Text Retrieval.“,
    CVPR20
    [Chen+, CVPR21]:Chen, Jiacheng, et al. "Learning the Best Pooling Strategy for Visual Semantic
    Embedding.“, CVPR21
    [Frome+, NIPS13]:Frome, Andrea, et al. "Devise: A Deep Visual-Semantic Embedding model.“, NIPS13
    [Song+, CVPR19]:Song, Yale, and Mohammad Soleymani. "Polysemous visual-semantic embedding for
    cross-modal retrieval.“, CVPR19
    [Chun+, CVPR21]:Chun, Sanghyuk, et al. "Probabilistic Embeddings for Cross-modal Retrieval.“, CVPR21
    [Locatello+, NeurIPS20]:Locatello, Francesco, et al. "Object-Centric Learning with Slot Attention.“,
    NeurIPS20
    [DL輪読会]Object-Centric Learning with Slot Attention
    https://www.slideshare.net/DeepLearningJP2016/dlobjectcentric-learning-with-slot-attention
    26
    参考文献

    View Slide

  26. [Chun+, ECCV22]:Chun, Sanghyuk, et al. "Eccv Caption: Correcting False
    Negatives by Collecting Machine-and-Human-Verified Image-Caption
    Associations for MS-COCO.“, ECCV22
    [Parekh+, 2020]:Parekh, Zarana, et al. "Crisscrossed captions: Extended
    intramodal and intermodal semantic similarity judgments for MS-COCO.“, 2020
    https://suhakwak.github.io/papers/kccv2023_dive.pdf
    27
    参考文献

    View Slide