Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Generalized Contrastive Learning...

[Journal club] Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking 01 Tianyu

    Zhu*, Myong Chol Jung*, Jesse Clark* *marqo.ai WWW2025 慶應義塾大学 杉浦孔明研究室 木暮緋南 Tianyu Zhu, et al. "Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking." Companion Proceedings of the ACM on Web Conference 2025.
  2. 背景:対照学習でランキング情報が扱われていない 02 u既存手法のクエリとドキュメントとの関係は1対1 • 正例 or 負例のバイナリなラベル • 正例とみなせるが、正例としてラベル付け されていないサンプルは負例として扱われる

    ランキングのような連続的な 関連度情報を捉えることができない u 既存手法でランキングを考慮したい場合リランキングが必要 • 🙅二段階の処理が必要であり、推論に時間がかかる LAION-400M [Schuhmann+, 21]
  3. 関連研究:既存の対照学習手法はランキング情報を考慮していない 03 分野 手法 概要 対照学習手法 SimCLR [Chen+, PmLR20] データ拡張による画像ペアを利用した対照学習

    🙅ニ値分類が前提 E5 [Wang+, 22] 検索ログ由来のペアで文埋め込みを学習 🙅上位k件の検索に特化、順位の最適化が不十分 データセット TREC-COVID [Voorhees+, ACM SIGIR21] COVID-19関連の学術文献を集めたデータセット 🙅関連性が3段階の評価のみ TREC-NEWS [Craswell+, TREC20] MS MARCO [Nguyen+, NIPS16]に評価用ラベルを付与 🙅関連性が4段階の評価のみ TREC-COVID SimCLR
  4. 提案手法(2/5):ランキングを直接学習 05 u トリプレットの構成 • : ランキングスコア𝑠! をScore-to-Weight 関数 を用いて変換して得られる重み

    • 従来の対照学習手法で用いられるペアに重みを 加えることでモデルがランキングを直接学習できる より滑らかな類似度の学習が可能に
  5. 提案手法(3/5):ランキングスコアを重みに変換 06 STW関数名 式 概要 Constant 全てのドキュメントに同じ重み Linear スコアをそのまま重みとして利用 Inverse

    スコアと最大値の差に反比例する ような重み Inverse sqrt Inverseよりも緩やかに重みが変化 Piecewise 高スコアには一定値、それ以外 にはInverseの重み u Score-to-Weight関数
  6. 提案手法(5/5):複数のフィールドを学習に用いる u マルチフィールド構造を考慮した損失関数 • 青枠 : 全体的なペア類似度の損失 • 赤枠 :

    各視覚層と各言語層との局所的なペア類似度に着目した損失 • 𝑍"#$ : 複数のフィールドをまとめた平均ベクトルによる類似度スコア • 𝑍%& '( : クエリフィールド𝑗とドキュメントフィールド𝑘の組み合わせごとの 類似度スコア 08 u フィールド • 同じモダリティ内外を問わず、論理的に独立 させたい入力項目・属性 • 今回はテキストと画像 • 実世界の情報は多様なフィールドで構成
  7. データセット:MarqoGS-10M 09 uMarqoGS-10M • GSFashion-5M + GSHomeware-5M • ランキング付きの検索データを提供 u

    クエリ・ドキュメントの生成 ① Amazonの分類ツリーから Fashion / Homewareカテゴリを抽出 ② GPT-4で約12万件の検索クエリを生成 ③ ②のクエリで、Google Shoppingを検索、 ドキュメントを収集 ④ 商品名・画像・ランキング位置を含む ドキュメントを作成 ① ② ③ ④ uランキングスコア • Google Shoppingのランキング位置 を利用 • 𝑠 = 101 − 𝑟𝑎𝑛𝑘
  8. 実験設定 10 u学習環境 • GPU : NVIDIA A100 × 8台

    • 学習時間 : 24時間 u評価指標 • nDCG@K : 関連度の高い正解が上位にあるかどうかを測る指標 • ERR : 段階的関連度を考慮したランキング評価指標 • RBP : 関連度を重み付けして集計するランキング評価指標
  9. 定量的結果(1/2):提案手法はテキスト・画像の両方で既存手法を上回る • 提案手法はランキングを重視しているため、ERRが大きく上回っている • Zero-Shotでも既存手法を上回る 11 ドキュメント 手法 In-Domain Zero-Shot

    nDCG ERR RBP nDCG ERR RBP テキストのみ E5 0.335 0.095 0.289 0.258 0.090 0.213 提案手法 0.441 (+0.196) 0.404 (+0.309) 0.355 (+0.066) 0.441 (+0.196) 0.404 (+0.309) 0.355 (+0.066) 画像のみ CLIP 0.326 0.068 0.281 0.089 0.032 0.076 提案手法 0.489 (+0.163) 0.530 (+0.462) 0.362 (+0.081) 0.091 (+0.002) 0.036 (+0.004) 0.078 (+0.002) テキスト+画像 CLIP 0.310 0.093 0.252 0.199 0.079 0.159 提案手法 0.603 (+0.293) 0.562 (+0.469) 0.467 (+0.215) 0.272 (+0.073) 0.114 (+0.035) 0.224 (+0.065)
  10. Appendix:4分割で既知・未知それぞれの検索シナリオに対応 u Novel Corpus • 既知の検索文で未知の商品を検索する評価用の集合 • クエリ : Trainingと同じ

    • ドキュメント : Trainingとは別の20% uNovel Query • 未知の検索文で既知の商品を検索する評価用の集合 • クエリ : Trainingとは別の50% • ドキュメント : Trainingと同じ u Zero-Shot • 検索文も商品も初見で検索する評価用の集合 • クエリ : Trainingとは別の50% • ドキュメント : Trainingとは別の20% 22 u Training • クエリの80%、 ドキュメントの50%