[Journal club] Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation

Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation Bichen
Wu1, Ruizhe Cheng2, Peizhao Zhang1, Peter Vajda1, Joseph E. Gonzalez2 1: Meta Reality Labs, 2: UC Berkeley 慶應義塾大学杉浦孔明研究室小槻誠太郎 ICLR2022 Poster B. Wu, R. Cheng, P. Zhang, T. Gao, J.E. Gonzalez, and P. Vajda, “Data efficient language-supervised zero-shot recognition with optimal transport distillation,” ICLR, 2022

概要 – OTTER 背景 CLIP[Radford+]は強力だが大量のデータが必要画像とテキストのペアは弱く相関している提案画像とテキストのペアの弱い相関を考慮してInfoNCEを一般化最適輸送を利用した画像-テキストペアの対照学習手法 OTTER
結果 CLIPより100倍少ないデータで学習し、 Zero-shotの性能でCLIPを上回った 2

背景 – CLIP[Radford+]は強力だが大量のデータが必要画像とテキストのペアで対照学習幅広い応用一方で大量のデータが必要 ➔ 400Mペア 3

背景 – 画像とテキストのペアは緩く相関しているある画像に対して代替となる文が存在バッチ内で画像とテキストが1対1対応しないケースが存在 4 Dataset Batch Size Paired
Unpaired Max CC 3M 512 0.565(↓) 0.215(↓) 2048 0.398(↓) 0.238(↑) YFCC 15M 512 0.628(↓) 0.197(↓) 2048 0.469(↓) 0.239(↑) CLIPで特徴量を計算ペアとのコサイン類似度バッチ内のペア以外との類似度の最大値

背景 – InfoNCE損失が不適切なケースバッチ内で画像とテキストが1対1対応しないケース ➔ 1対1対応を前提とするInfoNCEは不適切 CLIPはInfoNCE 5 Dataset Batch
Size Paired Unpaired Max CC 3M 512 0.565(↓) 0.215(↓) 2048 0.398(↓) 0.238(↑) 1対1対応する → Paired は1.000に近づく画像とテキストのペアはそうではない↑

関連・先行研究 – 画像-テキスト間の対照学習 6 手法概要 CLIP [Radford+, ICML2021] (画像,
テキスト) ペアで対照学習 ALIGN [Jia+, ICML2021] 10億の(画像, テキスト) ペアで対照学習

提案 – OTTER Step. 1 – MAIN IDEA ペアではない画像-テキスト間の一致を考慮してInfoNCEを一般化 Step.
2 最適輸送(OT)の利用 Step. 3 Similarity Matrixの計算 7

提案0 – 定義 + InfoNCE再掲 • 𝒗𝑖 , 𝒕𝑖 𝑖=1:𝑁
: バッチ. 分布𝑝(𝒗, 𝒕)に従う画像とテキストの組 x N • 𝑓𝑣 ⋅ : Image encoder. 𝒗𝑖 をL2ノルムで正規化されたベクトル𝒛𝑖 𝑣に写像 • 𝑓𝑡 (⋅) : Text encoder. 𝒕𝑖 をL2ノルムで正規化されたベクトル𝒛𝑖 𝑡に写像 • 𝐼𝑖𝑗 :単位行列の𝑖行𝑗列目の成分 InfoNCE↓ 𝐼𝑖𝑗 は教師信号. 𝑖番目の画像は𝑖番目のテキストとのみ一致するという情報を示唆. 8

提案1 – ペアではない画像-テキスト間の一致を考慮して InfoNCEを一般化 InfoNCE損失 OTTERで考える損失 InfoNCEの仮定 : 𝑖番目の画像は𝑖番目のテキストと100%一致 OTTERの仮定:
𝑖番目の画像は𝑖番目のテキストと確率𝛼で一致 𝑀𝑖𝑗 𝑣 は𝑖番目の画像が𝑖番目のテキストと一致しない条件での条件付き確率 9

提案1 – ペアではない画像-テキスト間の一致を考慮して InfoNCEを一般化 OTTERで考える損失 OTTERの仮定 : 𝑖番目の画像は𝑖番目のテキストと確率𝛼で一致 𝑀𝑖𝑗 𝑣
: 𝑖番目の画像が𝑖番目のテキストと一致しない条件での条件付き確率例 : 10 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.10 0.10 0.05 0.10 0.00 0.05 0.10 0.10 0.05 0.00 0.10 0.05 0.10 0.10 0.00 𝑀𝑣: 𝐼 :

提案1 – ペアではない画像-テキスト間の一致を考慮して InfoNCEを一般化 OTTERで考える損失 𝐼𝑖𝑗 及び𝑀𝑖𝑗 𝑣 はどのペアがどれほど相関を持つかを示す教師信号どうやって教師信号𝑀𝑣を取得する?
→ 最適輸送 11 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.10 0.10 0.05 0.10 0.00 0.05 0.10 0.10 0.05 0.00 0.10 0.05 0.10 0.10 0.00 𝑀𝑣: 𝐼 :

提案2 – 最適輸送(OT)の利用 𝑀𝑣の推定以下の仮定を置く 1. どのテキストとも相関が無いような画像は含まれず, 全ての画像, テキストに対して平等に類似度を計算 2.
画像𝒗𝑖 とテキスト𝒕𝑗 が一致する確率𝑀𝑖𝑗 𝑣 は𝒗𝑖 と𝒕𝑗 の類似度𝑆𝑖𝑗 𝑣 に依存 → 𝐴, 𝐵 𝐹 : フロベニウス内積. 𝐴, 𝐵をflattenしたベクトルの内積 𝐻 𝑀 = − σ𝑖𝑗 𝑀𝑖𝑗 log 𝑀𝑖𝑗 : エントロピー. Mが少ない要素に集中することを防ぐ罰則項 12

提案2 – 最適輸送(OT)の利用以下の仮定を置く 1. どのテキストとも相関が無いような画像は含まれず, 全ての画像, テキストに対して平等に類似度を計算 2. 画像𝒗𝑖
とテキスト𝒕𝑗 が一致する確率𝑀𝑖𝑗 𝑣 は𝒗𝑖 と𝒕𝑗 の類似度𝑆𝑖𝑗 𝑣 に依存 → 仮定1.を満たすようℳに制約を付ける. 13

提案2 – 最適輸送(OT)の利用 M𝑣∗は以下の形になることが証明されている[Cuturi+, NeurIPS13] ここで𝒓, 𝒄はSinkhorn-Knoppアルゴリズムで求まる. 14

提案3 – Similarity Matrixの計算 OTによるM𝑣∗の推定には類似度𝑆𝑣が必要 → 𝑆𝑣を以下のように定義 ෨ Z𝑣
= ෤ z0 𝑣; … ; ෤ z𝑁−1 𝑣 ∈ ℝ𝑑×𝑁, ෨ Z𝑡 = ෤ z0 𝑡; … ; ෤ z𝑁−1 𝑡 ∈ ℝ𝑑×𝑁 𝜂 : 十分に大きな定数 ෤ z𝑖 𝑣 = ሚ 𝑓𝑣 (𝒗𝑖 ), ෤ z𝑗 𝑡 = ሚ 𝑓𝑡 (𝒕𝑖 ) ሚ 𝑓𝑣 , ሚ 𝑓𝑡 は教師encoder. 𝑓𝑣 , 𝑓𝑡 のEMAや, 𝑓𝑣 , 𝑓𝑡 そのものなど (極端な話CLIPでも良い) 15

提案3 – Similarity Matrixの計算 OTによるM𝑣∗の推定には類似度𝑆𝑣が必要 → 𝑆𝑣を以下のように定義初項, 第2項
: 画像同士, テキスト同士の類似度画像同士が似ていればそれぞれに割り振られたテキスト同士も似ている →両者の画像-テキスト間の類似度も高いはず第4項 : exp(S𝑣/𝜆)によってM𝑣∗の対角行列を0にする 16

提案 – Overview 17 InfoNCEの場合↑

知識蒸留との関連 - OTTERは知識蒸留(KD)の拡張 OTTERの損失は教師分布M𝑣とモデルの予測による生徒分布のcross entropy. KDの教師分布𝐐𝑣 OTTERの教師分布𝐌𝑣∗ 18

定量的結果 – Zero-shotでCLIP超え CLIPより100倍小さい CCでPretrainingして CLIPを超えた FH@K: flat hit @
k top-kの予測が GTを含む画像の割合 19

定性的結果 – InfoNCEで見落とす弱い一致 OTTERにおいて512ペアの中でtop-8でマッチしているが、 InfoNCEでは負例として扱われてしまうペアの例↓ 20

まとめ – OTTER 背景 CLIP[Radford+]は強力だが大量のデータが必要画像とテキストのペアは弱く相関している提案画像とテキストのペアの弱い相関を考慮してInfoNCEを一般化最適輸送を利用した画像-テキストペアの対照学習手法 OTTER
結果 CLIPより100倍少ないデータで学習し、 Zero-shotの性能でCLIPを上回った 21

Appendix – Links • Official Implementation (PyTorch) • Paper (ICLR2022)
22

Appendix – Pseudo Code 23

Appendix – Sinkhorn-Knopp Algorithm Pseudo Code 24

[Journal club] Data Efficient Language-Supervis...

[Journal club] Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation Bichen

背景 – CLIP[Radford+]は強力だが大量のデータが必要画像とテキストのペアで対照学習幅広い応用一方で大量のデータが必要 ➔ 400Mペア 3

背景 – 画像とテキストのペアは緩く相関しているある画像に対して代替となる文が存在バッチ内で画像とテキストが1対1対応しないケースが存在 4 Dataset Batch Size Paired

背景 – InfoNCE損失が不適切なケースバッチ内で画像とテキストが1対1対応しないケース ➔ 1対1対応を前提とするInfoNCEは不適切 CLIPはInfoNCE 5 Dataset Batch

関連・先行研究 – 画像-テキスト間の対照学習 6 手法概要 CLIP [Radford+, ICML2021] (画像,

提案 – OTTER Step. 1 – MAIN IDEA ペアではない画像-テキスト間の一致を考慮してInfoNCEを一般化 Step.

提案0 – 定義 + InfoNCE再掲 • 𝒗𝑖 , 𝒕𝑖 𝑖=1:𝑁

提案1 – ペアではない画像-テキスト間の一致を考慮して InfoNCEを一般化 InfoNCE損失 OTTERで考える損失 InfoNCEの仮定 : 𝑖番目の画像は𝑖番目のテキストと100%一致 OTTERの仮定:

提案1 – ペアではない画像-テキスト間の一致を考慮して InfoNCEを一般化 OTTERで考える損失 OTTERの仮定 : 𝑖番目の画像は𝑖番目のテキストと確率𝛼で一致 𝑀𝑖𝑗 𝑣

提案1 – ペアではない画像-テキスト間の一致を考慮して InfoNCEを一般化 OTTERで考える損失 𝐼𝑖𝑗 及び𝑀𝑖𝑗 𝑣 はどのペアがどれほど相関を持つかを示す教師信号どうやって教師信号𝑀𝑣を取得する?

提案2 – 最適輸送(OT)の利用 𝑀𝑣の推定以下の仮定を置く 1. どのテキストとも相関が無いような画像は含まれず, 全ての画像, テキストに対して平等に類似度を計算 2.

提案2 – 最適輸送(OT)の利用以下の仮定を置く 1. どのテキストとも相関が無いような画像は含まれず, 全ての画像, テキストに対して平等に類似度を計算 2. 画像𝒗𝑖

提案2 – 最適輸送(OT)の利用 M𝑣∗は以下の形になることが証明されている[Cuturi+, NeurIPS13] ここで𝒓, 𝒄はSinkhorn-Knoppアルゴリズムで求まる. 14

提案3 – Similarity Matrixの計算 OTによるM𝑣∗の推定には類似度𝑆𝑣が必要 → 𝑆𝑣を以下のように定義 ෨ Z𝑣

提案3 – Similarity Matrixの計算 OTによるM𝑣∗の推定には類似度𝑆𝑣が必要 → 𝑆𝑣を以下のように定義初項, 第2項

提案 – Overview 17 InfoNCEの場合↑

知識蒸留との関連 - OTTERは知識蒸留(KD)の拡張 OTTERの損失は教師分布M𝑣とモデルの予測による生徒分布のcross entropy. KDの教師分布𝐐𝑣 OTTERの教師分布𝐌𝑣∗ 18

定量的結果 – Zero-shotでCLIP超え CLIPより100倍小さい CCでPretrainingして CLIPを超えた FH@K: flat hit @

定性的結果 – InfoNCEで見落とす弱い一致 OTTERにおいて512ペアの中でtop-8でマッチしているが、 InfoNCEでは負例として扱われてしまうペアの例↓ 20

Appendix – Links • Official Implementation (PyTorch) • Paper (ICLR2022)

Appendix – Pseudo Code 23

Appendix – Sinkhorn-Knopp Algorithm Pseudo Code 24