Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Data Efficient Language-Supervis...

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

[Journal club] Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation Bichen

    Wu1, Ruizhe Cheng2, Peizhao Zhang1, Peter Vajda1, Joseph E. Gonzalez2 1: Meta Reality Labs, 2: UC Berkeley 慶應矩塟倧孊 杉浊孔明研究宀 小槻誠倪郎 ICLR2022 Poster B. Wu, R. Cheng, P. Zhang, T. Gao, J.E. Gonzalez, and P. Vajda, “Data efficient language-supervised zero-shot recognition with optimal transport distillation,” ICLR, 2022
  2. 背景 – 画像ずテキストのペアは緩く盞関しおいる ある画像に察しお代替ずなる文が存圚 バッチ内で画像ずテキストが1察1察応しないケヌスが存圚 4 Dataset Batch Size Paired

    Unpaired Max CC 3M 512 0.565(↓) 0.215(↓) 2048 0.398(↓) 0.238(↑) YFCC 15M 512 0.628(↓) 0.197(↓) 2048 0.469(↓) 0.239(↑) CLIPで特城量を蚈算 ペアずのコサむン類䌌床 バッチ内のペア以倖ずの類䌌床の最倧倀
  3. 背景 – InfoNCE損倱が䞍適切なケヌス バッチ内で画像ずテキストが1察1察応しないケヌス ➔ 1察1察応を前提ずするInfoNCEは䞍適切 CLIPはInfoNCE 5 Dataset Batch

    Size Paired Unpaired Max CC 3M 512 0.565(↓) 0.215(↓) 2048 0.398(↓) 0.238(↑) 1察1察応する → Paired は1.000に近づく 画像ずテキストのペアはそうではない↑
  4. 関連・先行研究 – 画像-テキスト間の察照孊習 6 手法 抂芁 CLIP [Radford+, ICML2021] (画像,

    テキスト) ペアで察照孊習 ALIGN [Jia+, ICML2021] 10億の(画像, テキスト) ペアで察照孊習
  5. 提案0 – 定矩 + InfoNCE再掲 • 𝒗𝑖 , 𝒕𝑖 𝑖=1:𝑁

    : バッチ. 分垃𝑝(𝒗, 𝒕)に埓う画像ずテキストの組 x N • 𝑓𝑣 ⋅ : Image encoder. 𝒗𝑖 をL2ノルムで正芏化されたベクトル𝒛𝑖 𝑣に写像 • 𝑓𝑡 (⋅) : Text encoder. 𝒕𝑖 をL2ノルムで正芏化されたベクトル𝒛𝑖 𝑡に写像 • 𝐌𝑖𝑗 :単䜍行列の𝑖行𝑗列目の成分 InfoNCE↓ 𝐌𝑖𝑗 は教垫信号. 𝑖番目の画像は𝑖番目のテキストずのみ䞀臎するずいう情報を瀺唆. 8
  6. 提案1 – ペアではない画像-テキスト間の䞀臎を考慮しお InfoNCEを䞀般化 InfoNCE損倱 OTTERで考える損倱 InfoNCEの仮定 : 𝑖番目の画像は𝑖番目のテキストず100%䞀臎 OTTERの仮定:

    𝑖番目の画像は𝑖番目のテキストず確率𝛌で䞀臎 𝑀𝑖𝑗 𝑣 は𝑖番目の画像が𝑖番目のテキストず䞀臎しない条件での条件付き確率 9
  7. 提案1 – ペアではない画像-テキスト間の䞀臎を考慮しお InfoNCEを䞀般化 OTTERで考える損倱 OTTERの仮定 : 𝑖番目の画像は𝑖番目のテキストず確率𝛌で䞀臎 𝑀𝑖𝑗 𝑣

    : 𝑖番目の画像が𝑖番目のテキストず䞀臎しない条件での条件付き確率 䟋 : 10 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 1.00 0.00 0.10 0.10 0.05 0.10 0.00 0.05 0.10 0.10 0.05 0.00 0.10 0.05 0.10 0.10 0.00 𝑀𝑣: 𝐌 :
  8. 提案2 – 最適茞送(OT)の利甚 𝑀𝑣の掚定 以䞋の仮定を眮く 1. どのテキストずも盞関が無いような画像は含たれず, 党おの画像, テキストに察しお平等に類䌌床を蚈算 2.

    画像𝒗𝑖 ずテキスト𝒕𝑗 が䞀臎する確率𝑀𝑖𝑗 𝑣 は𝒗𝑖 ず𝒕𝑗 の類䌌床𝑆𝑖𝑗 𝑣 に䟝存 → 𝐎, 𝐵 𝐹 : フロベニりス内積. 𝐎, 𝐵をflattenしたベクトルの内積 𝐻 𝑀 = − σ𝑖𝑗 𝑀𝑖𝑗 log 𝑀𝑖𝑗 : ゚ントロピヌ. Mが少ない芁玠に集䞭するこずを防ぐ眰則項 12
  9. 提案2 – 最適茞送(OT)の利甚 以䞋の仮定を眮く 1. どのテキストずも盞関が無いような画像は含たれず, 党おの画像, テキストに察しお平等に類䌌床を蚈算 2. 画像𝒗𝑖

    ずテキスト𝒕𝑗 が䞀臎する確率𝑀𝑖𝑗 𝑣 は𝒗𝑖 ず𝒕𝑗 の類䌌床𝑆𝑖𝑗 𝑣 に䟝存 → 仮定1.を満たすようℳに制玄を付ける. 13
  10. 提案3 – Similarity Matrixの蚈算 OTによるM𝑣∗の掚定には 類䌌床𝑆𝑣が必芁 → 𝑆𝑣を以䞋のように定矩 à·š Z𝑣

    = à·€ z0 𝑣; 
 ; à·€ z𝑁−1 𝑣 ∈ ℝ𝑑×𝑁, à·š Z𝑡 = à·€ z0 𝑡; 
 ; à·€ z𝑁−1 𝑡 ∈ ℝ𝑑×𝑁 𝜂 : 十分に倧きな定数 à·€ z𝑖 𝑣 = ሚ 𝑓𝑣 (𝒗𝑖 ), à·€ z𝑗 𝑡 = ሚ 𝑓𝑡 (𝒕𝑖 ) ሚ 𝑓𝑣 , ሚ 𝑓𝑡 は教垫encoder. 𝑓𝑣 , 𝑓𝑡 のEMAや, 𝑓𝑣 , 𝑓𝑡 そのものなど (極端な話CLIPでも良い) 15
  11. 提案3 – Similarity Matrixの蚈算 OTによるM𝑣∗の掚定には 類䌌床𝑆𝑣が必芁 → 𝑆𝑣を以䞋のように定矩 初項, 第2項

    : 画像同士, テキスト同士の類䌌床 画像同士が䌌おいればそれぞれに割り振られたテキスト同士も䌌おいる →䞡者の画像-テキスト間の類䌌床も高いはず 第4項 : exp(S𝑣/𝜆)によっおM𝑣∗の察角行列を0にする 16