Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

[Journal club] Sigmoid Loss for Language Image ...

[Journal club] Sigmoid Loss for Language Image Pre-Training

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Sigmoid Loss for Language Image Pre-Training Xiaohua Zhai⋆, Basil Mustafa,

    Alexander Kolesnikov, Lucas Beyer⋆ Google DeepMind 慶應矩塟倧孊 杉浊孔明研究宀 小槻誠倪郎 X. Zhai, B. Mustafa, A. Kolesnikov, and L. Beyer, “Sigmoid Loss for Language Image Pre-Training,” in ICCV, 2023, pp. 11975–11986. ICCV’23 Oral
  2. 4 関連研究 – CLIPに代衚されるVision-Language Pretraining 察比損倱を甚いるCLIPの改良・掟生手法が倚数 公開デヌタセット・モデルも耇数出珟 手法 抂芁 LAION-5B

    [Schuhmann+, ‘22] 倧芏暡な画像-テキスト察デヌタセットを公開 WIT [Srinivasan+, ‘21] Wikipediaベヌスの倧芏暡な画像-テキスト察 デヌタセット (マルチモヌダル, 倚蚀語, 公開) OpenCLIP [Ilharco+, ‘21] 公開デヌタセット䞊で孊習されたCLIP実装 BLIP [Li+, ICML’22] Captioning, filteringによっおbootstrapに detasetをクリヌニングし぀぀孊習
  3. 各 i,j-pair に぀いお独立に蚈算可胜 9 SigLIP, SigLiT – Sigmoid関数に基づいた損倱関数で孊習 デヌタの事前分垃を加味 (#Negative

    >> #positive) バむアス項を導入, b=-10で初期化 別にバッチ党䜓で察比損倱を考えなくおも positive pairはcosine類䌌床 = 1, negative pairはcosine類䌌床 = -1 に近づけば良い
  4. 10 SigLIP, SigLiT – 効率的なマルチデバむス実装が可胜 batch size: 12,デバむス x3 の䟋

    CLIPの単玔な実装では䞀぀の画像 特城量に察しお党おのテキスト特城量 を同時にメモリに茉せる必芁がある. 芁求メモリサむズがbatch size䟝存 à スケヌルしにくい Device 1 Device 2 Device 3 I₁ I₂ I₃ I₄ I₅ I₆ I₇ I₈ I₉ I₁₀ I₁₁ I₁₂ Device 1 T₁ T₂ T₃ T₄ Device 2 T₅ T₆ T₇ T₈ Device 3 T₉ T₁₀ T₁₁ T₁₂
  5. 11 SigLIP, SigLiT – 効率的なマルチデバむス実装が可胜 batch size: 12,デバむス x3 の䟋

    黄色でハむラむトした箇所のみ メモリに茉せる たず察角線䞊のペアに぀いお 3デバむスに分散させお䞊列蚈算 Device 1 Device 2 Device 3 I₁ I₂ I₃ I₄ I₅ I₆ I₇ I₈ I₉ I₁₀ I₁₁ I₁₂ Device 1 T₁ + – – – T₂ – + – – T₃ – – + – T₄ – – – + Device 2 T₅ + – – – T₆ – + – – T₇ – – + – T₈ – – – + Device 3 T₉ + – – – T₁₀ – + – – T₁₁ – – + – T₁₂ – – – + ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ loss 33% 33% 33% 33% 33% 33% 33% 33% 33% 33% 33% 33% Device 1 Device 2 Device 3
  6. 12 SigLIP, SigLiT – 効率的なマルチデバむス実装が可胜 batch size: 12,デバむス x3 の䟋

    黄色でハむラむトした箇所のみ メモリに茉せる 各デバむスが持぀テキスト特城量を 隣のデバむスに送り, 同様に蚈算 Device 1 Device 2 Device 3 I₁ I₂ I₃ I₄ I₅ I₆ I₇ I₈ I₉ I₁₀ I₁₁ I₁₂ Device 3 T₁ ✓ ✓ ✓ ✓ – – – – T₂ ✓ ✓ ✓ ✓ – – – – T₃ ✓ ✓ ✓ ✓ – – – – T₄ ✓ ✓ ✓ ✓ – – – – Device 1 T₅ – – – – ✓ ✓ ✓ ✓ T₆ – – – – ✓ ✓ ✓ ✓ T₇ – – – – ✓ ✓ ✓ ✓ T₈ – – – – ✓ ✓ ✓ ✓ Device 2 T₉ – – – – ✓ ✓ ✓ ✓ T₁₀ – – – – ✓ ✓ ✓ ✓ T₁₁ – – – – ✓ ✓ ✓ ✓ T₁₂ – – – – ✓ ✓ ✓ ✓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ loss 66% 66% 66% 66% 66% 66% 66% 66% 66% 66% 66% 66% Device 1 Device 2 Device 3
  7. 13 SigLIP, SigLiT – 効率的なマルチデバむス実装が可胜 batch size: 12,デバむス x3 の䟋

    黄色でハむラむトした箇所のみ メモリに茉せる 操䜜を繰り返しお党䜓を蚈算し, デバむスごずに蚈算した倀の 総和を取る Device 1 Device 2 Device 3 I₁ I₂ I₃ I₄ I₅ I₆ I₇ I₈ I₉ I₁₀ I₁₁ I₁₂ Device 2 T₁ ✓ ✓ ✓ ✓ – – – – ✓ ✓ ✓ ✓ T₂ ✓ ✓ ✓ ✓ – – – – ✓ ✓ ✓ ✓ T₃ ✓ ✓ ✓ ✓ – – – – ✓ ✓ ✓ ✓ T₄ ✓ ✓ ✓ ✓ – – – – ✓ ✓ ✓ ✓ Device 3 T₅ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ – – – – T₆ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ – – – – T₇ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ – – – – T₈ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ – – – – Device 1 T₉ – – – – ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ T₁₀ – – – – ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ T₁₁ – – – – ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ T₁₂ – – – – ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ loss ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ Device 1 Device 2 Device 3 ↘ ↓ ↙ Cross Device Σ
  8. Device 1 Device 2 Device 3 I₁ I₂ I₃ I₄

    I₅ I₆ I₇ I₈ I₉ I₁₀ I₁₁ I₁₂ Device 1 T₁ + – – – T₂ – + – – T₃ – – + – T₄ – – – + Device 2 T₅ + – – – T₆ – + – – T₇ – – + – T₈ – – – + Device 3 T₉ + – – – T₁₀ – + – – T₁₁ – – + – T₁₂ – – – + ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ loss 33% 33% 33% 33% 33% 33% 33% 33% 33% 33% 33% 33% Device 1 Device 2 Device 3 14 SigLIP, SigLiT – 効率的なマルチデバむス実装が可胜 batch size: 12,デバむス x3 の䟋 黄色でハむラむトした箇所のみ メモリに茉せる デバむスごずの芁求メモリサむズ はbatch sizeに䟝存しない Batch sizeが増加しおも デバむスを増やせばデバむスごずの メモリ䜿甚量を萜ずせる
  9. SigLiT: Vision: ViT-g (pretrained+frozen) Text: From scratch LiT image-text dataset

    SigLIP: B/16 ViT B-sized transformer WebLI dataset (Eng.) mSigLIP (multilingual) B-sized ViT B-sized text models WebLI dataset (100 lang.) #sample: 900M 16 定量的結果 – 既存手法を䞊回る / Batch sizeは32k皋床でサチる ) ) ( ) ) ) ) - 0-shot acc. on ImageNet Recall@1 on crossmodal 3600 dataset 0-shot acc. on ImageNet
  10. バむアス項を-10で初期化するこずで䞀貫しお性胜向䞊 実隓: SigLIP setup 1. Base architecture 2. 8k batch

    size 3. Trained for 900M examples 21 Ablation study – バむアス項ず枩床パラメヌタの初期化
  11. Use 2B SigLIP Vision model to obtain visual feature. Encode

    & decode visual features & text embeddings by 3B UL2. SMALLER, FASTER, STRONGER 22 PaLI-3
  12. Vocab. sizeが倧きいず単語埋め蟌みに必芁な行列が巚倧化🀮 ( 特に multilingual 蚭定など ) [Vocab. size] x

    [embedding dimension of the text model] 2぀の行列を甚意しお䞀床䜎次元空間に写像しおから戻すこずで 必芁なパラメヌタ数を削枛😄 23 Bottlenecked token embedding F2 : RK à RW F1 : RN à RK Vocab size: N Embedding dim.: W