Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】Is CLIP ideal? No. Can we fix it?Yes! 第65...

Avatar for Shun Makino Shun Makino
November 16, 2025

【論文紹介】Is CLIP ideal? No. Can we fix it?Yes! 第65回 コンピュータビジョン勉強会@関東

第65回 コンピュータビジョン勉強会で使用したスライドです.

Avatar for Shun Makino

Shun Makino

November 16, 2025
Tweet

Other Decks in Science

Transcript

  1. 【論文紹介】 Is CLIP ideal? No. Can we fix it? Yes!

    第65回 コンピュータビジョン勉強会@関東 牧野 舜(@ShuN057721)
  2. 自己紹介 • 牧野 舜 (Makino Shun) ◦ AIエンジニア @株式会社 MIXI

    開発本部 • 簡単な経歴 ◦ 物理(物性理論)で修士 ◦ 企業(前職)でR&D ▪ トピック: 数理最適化,強化学習,GNNとか ▪ ML, 数理最適化のPoC ▪ 去年のIBISでポスター出したり ◦ 2025年4月からMIXI • 趣味など ◦ 釣り(オフショアメイン),麻雀,千葉ロッテマリーンズ
  3. 紹介する論文 • Is CLIP ideal? No. Can we fix it?

    Yes!., Kang et al. ◦ https://arxiv.org/abs/2503.08723 • 主なcontribution ◦ CLIPの特徴空間についてに数学的に考察 ▪ 既存のCLIPの構造的な問題を指摘 ◦ CLIPの中間層の出力を使用した手法を提案 ▪ 結果によると,これまでのCLIPの手法を上回る精度がでた
  4. • Contrastive Language-Image Pre-Training (CLIP)., 2021 ◦ Textとimageを同じ特徴空間にmapping ◦ 意味的に近いimageとtextのベクトルが特徴空間で近づくように学習する

    ▪ 原論文(Radford et al., 2021.)から引用 CLIP learns a multi-modal embedding space by jointly training an image encoder and text encoder to maximize the cosine similarity of the image and text embeddings of the N real pairs in the batch while minimizing the cosine similarity of the embeddings of the N*N − N incorrect pairings. 背景
  5. 課題 • 弱点が知られている ◦ 空間的な推論(spatial reasoning), 構成的理解(compositionality) ▪ 例: the

    cone is above the cylinder • the cone is below the cylinderにも高スコアを返す場合あり • 位置関係や語順の違いを反映できない ▪ 例: I saw this bird today • 特定の鳥であることの考慮がされずに鳥全般に反応する場合あり ◦ attribute bindings ▪ 例: sky is blue • sky is orangeにも高スコアを返す場合がある • 対象と属性の対応づけが曖昧
  6. 課題 • 弱点が知られている(続) ◦ 否定(negation) ▪ 例: yellow coat •

    not a yellow coatでも高スコアを返す場合がある • 否定語が上手く反映されない ◦ textとimageの複雑な複雑な相互作用を記述できない • これらの弱点は下流タスクにも影響する ◦ 例えば,基盤モデルの中核moduleになっている
  7. 先行研究 • 学習データや学習方法によるアプローチ ◦ 学習データを増やしてmodality gapを減らすなど ▪ CLIPの特徴空間が抱える根本的な課題にはアプローチできていない • 幾何学的なアプローチ

    ◦ CLIPの特徴空間の異方性を考察 ◦ CLIPの特徴空間をtext, imageから単位超球面上への写像と定義 (参考) ◦ 双曲空間に写像してローレンツ距離で類似度を測ったり (参考) ▪ CLIPの特徴空間に関する理論的な考察が不十分
  8. 理想的なCLIPの性質 • 例えば(一部抜粋) • ある物体 xの画像埋め込み,テキスト埋め込みの類似度は他の物体 yのテキスト埋め込み との類似度より大きい • 否定

    • xのテキスト埋め込みとxの否定のテキスト埋め込みの類似度はxの否定と任意のテキスト 埋め込みyとの類似度より小さい
  9. • 従来のcosine類似度ベースのCLIPではこの論文で考察した性質を満たすよう な特徴空間を作ることができない ◦ 列挙した条件を全て満たすことができない.条件同士で矛盾が生じる場合がある • 本文より引用 ◦ This means

    Conditions 3.1 and 3.2 cannot be simultaneously satisfied. ◦ This produces the following effect, violating Condition 4.3. ◦ ちなみに条件を満たせないのは以下に関連するもの ▪ Spatial Relationship ▪ Negation ▪ Attribute Binding 理想的なCLIPの空間は作れないと主張
  10. Rescuing the CLIP Latent Space • いまの特徴空間(単位超球面上への写像)のままでは構成的理解,否 定を上手く表現することができない • idea

    ◦ text token, image patchを残す(文末tokenに代表させたりしない) ▪ ここが幾何学的な性質に関わるはず ◦ cosine類似度ではなく,学習済みのscore関数を使用する ◦ 空間関係語(above, below, left ofなど)は学習で表現を得るのではなく,定数的な ベクトルとして扱う
  11. Functional Rows • functional words (例: left of, right of)

    ◦ 画像の中に直接対応するパッチがない ◦ CLIPの中間表現は直接対応するtokenに強く反応する傾向がある ▪ これがノイズになると主張 • functional wordsのtext tokenに対応するDCSMの行を定数化 ◦ functional wordは事前にリストアップ
  12. 実験 • 提案したパイプラインを2通りのデータセットで学習 ◦ around 20000 samples(CLIPのミニバッチの1/1.5倍) ▪ synthetic data

    created from Objaverse ▪ subset of COCO2017 ◦ ハイパラなど(詳細は論文の付録を参照) ▪ バッチサイズ: 8 -> CLIPの1/4000 (※ CLIPはpre-trainedの重みで frozen) ▪ loss: Binary cross-entropy • ペアが正解か不正解か
  13. 評価指標 • Attribute Binding ◦ 評価データセット: CLEVR-bind / NCD (Natural

    Colors Dataset) / VG_attribution (ARO) ◦ 適切な属性がbindされているオブジェクトに高スコアを与えるか • Spatial Reasoning ◦ 評価データセット: WhatsUp / COCO-QA / VG-QA ◦ 適切な位置関係のものに高スコアを与えるか • Negation ◦ 評価データセット: NegBench ◦ 否定文を正しく処理できるか
  14. まとめ • CLIPの課題に対してある程度しっかり数学的に考察 ◦ 理想的なCLIPが満たして欲しいconditionを列挙 ◦ CLIPではこれらのconditionを同時に満たせないことを示した • 局所的な構造を捉えられるように ◦

    text tokenとimage patchを全て考慮し,FWを定数で扱うDCSMをinputにscoreを 計算するCNNを学習する方法を提案 ▪ 結果として,Attribute Binding, 位置や構成的理解,否定に関するタスクで これまでのCLIPよりも良い精度が出る