Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation

[Journal club] Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation Bichen

    Wu1, Ruizhe Cheng2, Peizhao Zhang1, Peter Vajda1, Joseph E. Gonzalez2 1: Meta Reality Labs, 2: UC Berkeley 慶應義塾大学 杉浦孔明研究室 小槻誠太郎 ICLR2022 Poster B. Wu, R. Cheng, P. Zhang, T. Gao, J.E. Gonzalez, and P. Vajda, “Data efficient language-supervised zero-shot recognition with optimal transport distillation,” ICLR, 2022
  2. 概要 – OTTER 背景 CLIP[Radford+]は強力だが大量のデータが必要 画像とテキストのペアは弱く相関している 提案 画像とテキストのペアの弱い相関を考慮してInfoNCEを一般化 最適輸送を利用した画像-テキストペアの対照学習手法 OTTER

    結果 CLIPより100倍少ないデータで学習し、 Zero-shotの性能でCLIPを上回った 2
  3. 背景 – CLIP[Radford+]は強力だが大量のデータが必要 画像とテキストのペアで対照学習 幅広い応用 一方で大量のデータが必要 ➔ 400Mペア 3

  4. 背景 – 画像とテキストのペアは緩く相関している ある画像に対して代替となる文が存在 バッチ内で画像とテキストが1対1対応しないケースが存在 4 Dataset Batch Size Paired

    Unpaired Max CC 3M 512 0.565(↓) 0.215(↓) 2048 0.398(↓) 0.238(↑) YFCC 15M 512 0.628(↓) 0.197(↓) 2048 0.469(↓) 0.239(↑) CLIPで特徴量を計算 ペアとのコサイン類似度 バッチ内のペア以外との類似度の最大値
  5. 背景 – InfoNCE損失が不適切なケース バッチ内で画像とテキストが1対1対応しないケース ➔ 1対1対応を前提とするInfoNCEは不適切 CLIPはInfoNCE 5 Dataset Batch

    Size Paired Unpaired Max CC 3M 512 0.565(↓) 0.215(↓) 2048 0.398(↓) 0.238(↑) 1対1対応する → Paired は1.000に近づく 画像とテキストのペアはそうではない↑
  6. 関連・先行研究 – 画像-テキスト間の対照学習 6 手法 概要 CLIP [Radford+, ICML2021] (画像,

    テキスト) ペアで対照学習 ALIGN [Jia+, ICML2021] 10億の(画像, テキスト) ペアで対照学習
  7. 提案 – OTTER Step. 1 – MAIN IDEA ペアではない画像-テキスト間の一致を考慮してInfoNCEを一般化 Step.

    2 最適輸送(OT)の利用 Step. 3 Similarity Matrixの計算 7
  8. 提案0 – 定義 + InfoNCE再掲 • 𝒗𝑖 , 𝒕𝑖 𝑖=1:𝑁

    : バッチ. 分布𝑝(𝒗, 𝒕)に従う画像とテキストの組 x N • 𝑓𝑣 ⋅ : Image encoder. 𝒗𝑖 をL2ノルムで正規化されたベクトル𝒛𝑖 𝑣に写像 • 𝑓𝑡 (⋅) : Text encoder. 𝒕𝑖 をL2ノルムで正規化されたベクトル𝒛𝑖 𝑡に写像 • 𝐼𝑖𝑗 :単位行列の𝑖行𝑗列目の成分 InfoNCE↓ 𝐼𝑖𝑗 は教師信号. 𝑖番目の画像は𝑖番目のテキストとのみ一致するという情報を示唆. 8
  9. 提案1 – ペアではない画像-テキスト間の一致を考慮して InfoNCEを一般化 InfoNCE損失 OTTERで考える損失 InfoNCEの仮定 : 𝑖番目の画像は𝑖番目のテキストと100%一致 OTTERの仮定:

    𝑖番目の画像は𝑖番目のテキストと確率𝛼で一致 𝑀𝑖𝑗 𝑣 は𝑖番目の画像が𝑖番目のテキストと一致しない条件での条件付き確率 9
  10. 提案1 – ペアではない画像-テキスト間の一致を考慮して InfoNCEを一般化 OTTERで考える損失 OTTERの仮定 : 𝑖番目の画像は𝑖番目のテキストと確率𝛼で一致 𝑀𝑖𝑗 𝑣

    : 𝑖番目の画像が𝑖番目のテキストと一致しない条件での条件付き確率 例 : 10 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.10 0.10 0.05 0.10 0.00 0.05 0.10 0.10 0.05 0.00 0.10 0.05 0.10 0.10 0.00 𝑀𝑣: 𝐼 :
  11. 提案1 – ペアではない画像-テキスト間の一致を考慮して InfoNCEを一般化 OTTERで考える損失 𝐼𝑖𝑗 及び𝑀𝑖𝑗 𝑣 はどのペアがどれほど相関を持つかを示す教師信号 どうやって教師信号𝑀𝑣を取得する?

    → 最適輸送 11 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.10 0.10 0.05 0.10 0.00 0.05 0.10 0.10 0.05 0.00 0.10 0.05 0.10 0.10 0.00 𝑀𝑣: 𝐼 :
  12. 提案2 – 最適輸送(OT)の利用 𝑀𝑣の推定 以下の仮定を置く 1. どのテキストとも相関が無いような画像は含まれず, 全ての画像, テキストに対して平等に類似度を計算 2.

    画像𝒗𝑖 とテキスト𝒕𝑗 が一致する確率𝑀𝑖𝑗 𝑣 は𝒗𝑖 と𝒕𝑗 の類似度𝑆𝑖𝑗 𝑣 に依存 → 𝐴, 𝐵 𝐹 : フロベニウス内積. 𝐴, 𝐵をflattenしたベクトルの内積 𝐻 𝑀 = − σ𝑖𝑗 𝑀𝑖𝑗 log 𝑀𝑖𝑗 : エントロピー. Mが少ない要素に集中することを防ぐ罰則項 12
  13. 提案2 – 最適輸送(OT)の利用 以下の仮定を置く 1. どのテキストとも相関が無いような画像は含まれず, 全ての画像, テキストに対して平等に類似度を計算 2. 画像𝒗𝑖

    とテキスト𝒕𝑗 が一致する確率𝑀𝑖𝑗 𝑣 は𝒗𝑖 と𝒕𝑗 の類似度𝑆𝑖𝑗 𝑣 に依存 → 仮定1.を満たすようℳに制約を付ける. 13
  14. 提案2 – 最適輸送(OT)の利用 M𝑣∗は以下の形になることが証明されている[Cuturi+, NeurIPS13] ここで𝒓, 𝒄はSinkhorn-Knoppアルゴリズムで求まる. 14

  15. 提案3 – Similarity Matrixの計算 OTによるM𝑣∗の推定には 類似度𝑆𝑣が必要 → 𝑆𝑣を以下のように定義 ෨ Z𝑣

    = ෤ z0 𝑣; … ; ෤ z𝑁−1 𝑣 ∈ ℝ𝑑×𝑁, ෨ Z𝑡 = ෤ z0 𝑡; … ; ෤ z𝑁−1 𝑡 ∈ ℝ𝑑×𝑁 𝜂 : 十分に大きな定数 ෤ z𝑖 𝑣 = ሚ 𝑓𝑣 (𝒗𝑖 ), ෤ z𝑗 𝑡 = ሚ 𝑓𝑡 (𝒕𝑖 ) ሚ 𝑓𝑣 , ሚ 𝑓𝑡 は教師encoder. 𝑓𝑣 , 𝑓𝑡 のEMAや, 𝑓𝑣 , 𝑓𝑡 そのものなど (極端な話CLIPでも良い) 15
  16. 提案3 – Similarity Matrixの計算 OTによるM𝑣∗の推定には 類似度𝑆𝑣が必要 → 𝑆𝑣を以下のように定義 初項, 第2項

    : 画像同士, テキスト同士の類似度 画像同士が似ていればそれぞれに割り振られたテキスト同士も似ている →両者の画像-テキスト間の類似度も高いはず 第4項 : exp(S𝑣/𝜆)によってM𝑣∗の対角行列を0にする 16
  17. 提案 – Overview 17 InfoNCEの場合↑

  18. 知識蒸留との関連 - OTTERは知識蒸留(KD)の拡張 OTTERの損失は教師分布M𝑣とモデルの予測による生徒分布のcross entropy. KDの教師分布𝐐𝑣 OTTERの教師分布𝐌𝑣∗ 18

  19. 定量的結果 – Zero-shotでCLIP超え CLIPより100倍小さい CCでPretrainingして CLIPを超えた [email protected]: flat hit @

    k top-kの予測が GTを含む画像の割合 19
  20. 定性的結果 – InfoNCEで見落とす弱い一致 OTTERにおいて512ペアの中でtop-8でマッチしているが、 InfoNCEでは負例として扱われてしまうペアの例↓ 20

  21. まとめ – OTTER 背景 CLIP[Radford+]は強力だが大量のデータが必要 画像とテキストのペアは弱く相関している 提案 画像とテキストのペアの弱い相関を考慮してInfoNCEを一般化 最適輸送を利用した画像-テキストペアの対照学習手法 OTTER

    結果 CLIPより100倍少ないデータで学習し、 Zero-shotの性能でCLIPを上回った 21
  22. Appendix – Links • Official Implementation (PyTorch) • Paper (ICLR2022)

    22
  23. Appendix – Pseudo Code 23

  24. Appendix – Sinkhorn-Knopp Algorithm Pseudo Code 24