[Journal club] Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking

Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking 01 Tianyu
Zhu*, Myong Chol Jung*, Jesse Clark* *marqo.ai WWW2025 慶應義塾大学杉浦孔明研究室木暮緋南 Tianyu Zhu, et al. "Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking." Companion Proceedings of the ACM on Web Conference 2025.

背景：対照学習でランキング情報が扱われていない 02 u既存手法のクエリとドキュメントとの関係は1対1 • 正例 or 負例のバイナリなラベル • 正例とみなせるが、正例としてラベル付けされていないサンプルは負例として扱われる
ランキングのような連続的な関連度情報を捉えることができない u 既存手法でランキングを考慮したい場合リランキングが必要 • 🙅二段階の処理が必要であり、推論に時間がかかる LAION-400M [Schuhmann+, 21]

関連研究：既存の対照学習手法はランキング情報を考慮していない 03 分野手法概要対照学習手法 SimCLR [Chen+, PmLR20] データ拡張による画像ペアを利用した対照学習
🙅ニ値分類が前提 E5 [Wang+, 22] 検索ログ由来のペアで文埋め込みを学習 🙅上位k件の検索に特化、順位の最適化が不十分データセット TREC-COVID [Voorhees+, ACM SIGIR21] COVID-19関連の学術文献を集めたデータセット 🙅関連性が3段階の評価のみ TREC-NEWS [Craswell+, TREC20] MS MARCO [Nguyen+, NIPS16]に評価用ラベルを付与 🙅関連性が4段階の評価のみ TREC-COVID SimCLR

提案手法(1/5)：Generalized Contrastive Learning (GCL) 04 u新規性 • ランキングスコアに応じた重み付けを行う損失の導入 • 全フィールド組を用いるマルチフィールド損失を利用

提案手法(2/5)：ランキングを直接学習 05 u トリプレットの構成 • : ランキングスコア𝑠! をScore-to-Weight 関数を用いて変換して得られる重み
• 従来の対照学習手法で用いられるペアに重みを加えることでモデルがランキングを直接学習できるより滑らかな類似度の学習が可能に

提案手法(3/5)：ランキングスコアを重みに変換 06 STW関数名式概要 Constant 全てのドキュメントに同じ重み Linear スコアをそのまま重みとして利用 Inverse
スコアと最大値の差に反比例するような重み Inverse sqrt Inverseよりも緩やかに重みが変化 Piecewise 高スコアには一定値、それ以外にはInverseの重み u Score-to-Weight関数

提案手法(4/5)：ランキングスコアを損失関数に利用 07 uランキングスコアを考慮した損失関数 • InfoNCE損失がベース • の値が大きいほど損失での重み付けが大きい • ランキングが上位のペアが正しく上位にランク付けされるように学習
• : クエリ𝑖と正解ドキュメントの類似度スコア • : クエリ𝑖とドキュメント𝑗の類似度スコア • : クエリ𝑗とドキュメント𝑖の類似度スコア

提案手法(5/5)：複数のフィールドを学習に用いる u マルチフィールド構造を考慮した損失関数 • 青枠 : 全体的なペア類似度の損失 • 赤枠 :
各視覚層と各言語層との局所的なペア類似度に着目した損失 • 𝑍"#$ : 複数のフィールドをまとめた平均ベクトルによる類似度スコア • 𝑍%& '( : クエリフィールド𝑗とドキュメントフィールド𝑘の組み合わせごとの類似度スコア 08 u フィールド • 同じモダリティ内外を問わず、論理的に独立させたい入力項目・属性 • 今回はテキストと画像 • 実世界の情報は多様なフィールドで構成

データセット：MarqoGS-10M 09 uMarqoGS-10M • GSFashion-5M + GSHomeware-5M • ランキング付きの検索データを提供 u
クエリ・ドキュメントの生成 ① Amazonの分類ツリーから Fashion / Homewareカテゴリを抽出 ② GPT-4で約12万件の検索クエリを生成 ③ ②のクエリで、Google Shoppingを検索、ドキュメントを収集 ④ 商品名・画像・ランキング位置を含むドキュメントを作成 ① ② ③ ④ uランキングスコア • Google Shoppingのランキング位置を利用 • 𝑠 = 101 − 𝑟𝑎𝑛𝑘

実験設定 10 u学習環境 • GPU : NVIDIA A100 × ８台
• 学習時間 : 24時間 u評価指標 • nDCG@K : 関連度の高い正解が上位にあるかどうかを測る指標 • ERR : 段階的関連度を考慮したランキング評価指標 • RBP : 関連度を重み付けして集計するランキング評価指標

定量的結果(1/2)：提案手法はテキスト・画像の両方で既存手法を上回る • 提案手法はランキングを重視しているため、ERRが大きく上回っている • Zero-Shotでも既存手法を上回る 11 ドキュメント手法 In-Domain Zero-Shot
nDCG ERR RBP nDCG ERR RBP テキストのみ E5 0.335 0.095 0.289 0.258 0.090 0.213 提案手法 0.441 (+0.196) 0.404 (+0.309) 0.355 (+0.066) 0.441 (+0.196) 0.404 (+0.309) 0.355 (+0.066) 画像のみ CLIP 0.326 0.068 0.281 0.089 0.032 0.076 提案手法 0.489 (+0.163) 0.530 (+0.462) 0.362 (+0.081) 0.091 (+0.002) 0.036 (+0.004) 0.078 (+0.002) テキスト+画像 CLIP 0.310 0.093 0.252 0.199 0.079 0.159 提案手法 0.603 (+0.293) 0.562 (+0.469) 0.467 (+0.215) 0.272 (+0.073) 0.114 (+0.035) 0.224 (+0.065)

定量的結果(2/2)：Zero-Shot以外で既存手法を上回る • eコマース実データでの実験結果 • 現実世界でのクリック・購入意図に基づいて評価したデータ • GCLが既存手法をどれだけ実用面で上回るかを評価 12 +0.054 +0.060
+0.037 +0.008 +0.007 +0.002 +0.030 +0.026 +0.004 -0.005 -0.004 -0.001

定性的結果：ランキングスコアを考慮した検索が可能 13 • 提案手法の方が既存手法よりscore-sumが大きい • 正解により近い画像を上位にランク付けできている

追試およびエラー分析：成功例および失敗例 14 • 🙆ボヘミアン柄のスカートが上位にランク付けされている • 🙅ニット素材ではない耳当てが上位にランク付けされている u成功例 u失敗例

まとめ 15 u背景 • クエリとドキュメントの関係を1対1として扱う • リランキングは2段階推論になるため計算コストが高い u提案手法 • ランキング情報を活用する対照学習GCLを提案
• ランキング付きのデータセットMarqoGS-10Mを構築 u結果 • MarqoGS-10Mおよび実データにおいて、既存手法を上回った

Appendix 16

Appendix：定量的結果(1) 提案手法はテキスト・画像の両方で既存手法を上回る 17

Appendix：定量的結果(2) Zero-Shot以外で既存手法を上回る 18 • eコマース実データでの実験結果 • 現実世界でのクリック・購入意図に基づいて評価したデータ • GCLが既存手法をどれだけ実用面で上回るかを評価

Appendix：Ablation Study(1) 提案手法におけるSTW関数の影響提案手法ではPiecewiseを使用 • 上位・中位・下位などの分類に対応 • 低スコアの影響を抑えられる 19 uSTW関数
• Constant • Linear • Inverse • Invers sqrt uSTW関数の影響

Appendix：Ablation Study(2) 提案手法におけるランキングスコアの重みの影響 20 • ランキングスコアの重みによる比較 • 提案手法でのIn-Domain • 画像とテキストのランキングスコアを両方用いる
• 提案手法でのZero-Shot • テキストのランキングスコアのみ用いる

Appendix：MarqoGS-10M 21 u分類ツリーファッションレディース服ワンピーストップスメンズ服スーツシャツ
u既存のデータセット

Appendix：4分割で既知・未知それぞれの検索シナリオに対応 u Novel Corpus • 既知の検索文で未知の商品を検索する評価用の集合 • クエリ : Trainingと同じ
• ドキュメント : Trainingとは別の20% uNovel Query • 未知の検索文で既知の商品を検索する評価用の集合 • クエリ : Trainingとは別の50% • ドキュメント : Trainingと同じ u Zero-Shot • 検索文も商品も初見で検索する評価用の集合 • クエリ : Trainingとは別の50% • ドキュメント : Trainingとは別の20% 22 u Training • クエリの80%、ドキュメントの50%

[Journal club] Generalized Contrastive Learning...

[Journal club] Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking 01 Tianyu

関連研究：既存の対照学習手法はランキング情報を考慮していない 03 分野手法概要対照学習手法 SimCLR [Chen+, PmLR20] データ拡張による画像ペアを利用した対照学習

提案手法(1/5)：Generalized Contrastive Learning (GCL) 04 u新規性 • ランキングスコアに応じた重み付けを行う損失の導入 • 全フィールド組を用いるマルチフィールド損失を利用

提案手法(2/5)：ランキングを直接学習 05 u トリプレットの構成 • : ランキングスコア𝑠! をScore-to-Weight 関数を用いて変換して得られる重み

提案手法(3/5)：ランキングスコアを重みに変換 06 STW関数名式概要 Constant 全てのドキュメントに同じ重み Linear スコアをそのまま重みとして利用 Inverse

提案手法(5/5)：複数のフィールドを学習に用いる u マルチフィールド構造を考慮した損失関数 • 青枠 : 全体的なペア類似度の損失 • 赤枠 :

データセット：MarqoGS-10M 09 uMarqoGS-10M • GSFashion-5M + GSHomeware-5M • ランキング付きの検索データを提供 u

実験設定 10 u学習環境 • GPU : NVIDIA A100 × ８台

定量的結果(1/2)：提案手法はテキスト・画像の両方で既存手法を上回る • 提案手法はランキングを重視しているため、ERRが大きく上回っている • Zero-Shotでも既存手法を上回る 11 ドキュメント手法 In-Domain Zero-Shot

定量的結果(2/2)：Zero-Shot以外で既存手法を上回る • eコマース実データでの実験結果 • 現実世界でのクリック・購入意図に基づいて評価したデータ • GCLが既存手法をどれだけ実用面で上回るかを評価 12 +0.054 +0.060

定性的結果：ランキングスコアを考慮した検索が可能 13 • 提案手法の方が既存手法よりscore-sumが大きい • 正解により近い画像を上位にランク付けできている

追試およびエラー分析：成功例および失敗例 14 • 🙆ボヘミアン柄のスカートが上位にランク付けされている • 🙅ニット素材ではない耳当てが上位にランク付けされている u成功例 u失敗例

まとめ 15 u背景 • クエリとドキュメントの関係を1対1として扱う • リランキングは2段階推論になるため計算コストが高い u提案手法 • ランキング情報を活用する対照学習GCLを提案

Appendix 16

Appendix：定量的結果(1) 提案手法はテキスト・画像の両方で既存手法を上回る 17

Appendix：定量的結果(2) Zero-Shot以外で既存手法を上回る 18 • eコマース実データでの実験結果 • 現実世界でのクリック・購入意図に基づいて評価したデータ • GCLが既存手法をどれだけ実用面で上回るかを評価

Appendix：Ablation Study(1) 提案手法におけるSTW関数の影響提案手法ではPiecewiseを使用 • 上位・中位・下位などの分類に対応 • 低スコアの影響を抑えられる 19 uSTW関数

Appendix：Ablation Study(2) 提案手法におけるランキングスコアの重みの影響 20 • ランキングスコアの重みによる比較 • 提案手法でのIn-Domain • 画像とテキストのランキングスコアを両方用いる

Appendix：MarqoGS-10M 21 u分類ツリーファッションレディース服ワンピーストップスメンズ服スーツシャツ

Appendix：4分割で既知・未知それぞれの検索シナリオに対応 u Novel Corpus • 既知の検索文で未知の商品を検索する評価用の集合 • クエリ : Trainingと同じ