Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(Preprint) Diffusion Classifiers Understand Co...

Avatar for Shumpei Takezaki Shumpei Takezaki
May 29, 2025
520

(Preprint) Diffusion Classifiers Understand Compositionality, but Conditions Apply

Avatar for Shumpei Takezaki

Shumpei Takezaki

May 29, 2025
Tweet

Transcript

  1. • Diffusion Classifiers Understand Compositionality, but Conditions Apply[Jeong+, arxiv preprint]

    • “画像生成”拡散モデルによる“画像認識”能力を包括的に調査 紹介する論文 1
  2. • 画像とテキストそれぞれの特徴ベクトルの類似度によって認識 • 苦手なタスクも存在 • 語順,空間的関係,カウント,構成認識など CLIPのZero-shot分類 2 [1] Radford+,ICML2021

    Shortcut (表面的)な学習と表現 ベクトルの一致度による学習が原因? ① 画像とテキストの ベクトルを獲得 ② ベクトルの一致度 を計算 ③ 一致度が高いクラスに 認識 事後確率の推定 テキストでクラスを指定 例: A photo of a “dog”
  3. • 条件付き推定ノイズの予測誤差を使って分類[1,2,3] • 拡散モデルを用いた事後確率の推定に当たる Diffusion Classifiers (DS): 拡散モデルZero-shot分類 3 [1]Li+,ICCV2023

    [2]Clark+,NeurIPS2023 [3]Krojer+,NeurIPS2023 [1]より抜粋 ① 時刻tに応じた ノイズを付加 ② テキストで条件つけて ノイズを推定 ③ 推定ノイズと付与ノイズの 誤差を計算 ④ 誤差が小さいクラスに 認識 ※ 全時刻tで平均 (等間隔でサンプリング) 空間や構成の認識に優れる? ピクセルレベルの再構成学習により
  4. • 仮説1: 拡散モデルの構成分類がCLIPより優れる • 包括的な構成分類タスクの検証 • 仮説2: 生成したものを(分類を通して)理解している • 新たなベンチマークであるSelfーBenchの提案

    • 生成/認識モデルが同じモデルによるGenerative AI Paradoxの検証 • 仮説3: ドメイン差はタイムステップの重み付けで緩和可能 • Diffusion Classifiersで用いるタイムステップの影響を調査 検証する仮説 4
  5. • 仮説1: 拡散モデルの構成分類がCLIPより優れる • 包括的な構成分類タスクの検証 • 仮説2: 生成したものを(分類を通して)理解している • 新たなベンチマークであるSelfーBenchの提案

    • 生成/認識モデルが同じモデルによるGenerative AI Paradoxの検証 • 仮説3: ドメイン差はタイムステップの重み付けで緩和可能 • Diffusion Classifiersで用いるタイムステップの影響を調査 検証する仮説 5
  6. • 仮説1: 拡散モデルの構成分類がCLIPより優れる • 包括的な構成分類タスクの検証 • 仮説2: 生成したものを(分類を通して)理解している • 新たなベンチマークであるSelfーBenchの提案

    • 生成/認識モデルが同じモデルによるGenerative AI Paradoxの検証 • 仮説3: ドメイン差はタイムステップの重み付けで緩和可能 • Diffusion Classifiersで用いるタイムステップの影響を調査 検証する仮説 7
  7. • 仮説1: 拡散モデルの構成分類がCLIPより優れる • 包括的な構成分類タスクの検証 • 仮説2: 生成したものを(認識を通して)理解している • 新たなベンチマークであるSelfーBenchの提案

    • 生成/認識モデルが同じモデルによるGenerative AI Paradoxの検証 • 仮説3: ドメイン差はタイムステップの重み付けで緩和可能 • Diffusion Classifiersで用いるタイムステップの影響を調査 検証する仮説 9
  8. • 仮説1: 拡散モデルの構成分類がCLIPより優れる • 包括的な構成分類タスクの検証 • 仮説2: 生成したものを(分類を通して)理解している • 新たなベンチマークであるSelfーBenchの提案

    • 生成/認識モデルが同じモデルによるGenerative AI Paradoxの検証 • 仮説3: ドメイン差はタイムステップの重み付けで緩和可能 • Diffusion Classifiersで用いるタイムステップの影響を調査 検証する仮説 10
  9. • 10個のベンチマーク,33個のタスクで包括的に検証 • 33タスクを大まかな4つに分けて評価 • 結果: 仮説1は部分的な支持のみ.また,「生成能力が高い≠認識能力が高い」 仮説1: 拡散モデルの構成分類がCLIPより優れる 11

    個数推定 属性 (色, 形状など)推定 物体認識 位置検出 Position ではDSが有効 Attributeは同程度 Counting, Objectは劣る 必ずしもSD3-m>SD1.5 or 2ではない 比較対象 低 高 生成能力
  10. • 仮説1: 拡散モデルの構成分類がCLIPより優れる • 包括的な構成分類タスクの検証 • 仮説2: 生成したものを(分類を通して)理解している • 新たなベンチマークであるSelfーBenchの提案

    • 生成/認識モデルが同じモデルによるGenerative AI Paradoxの検証 • 仮説3: ドメインギャップはタイムステップの重み付けで緩和可能 • Diffusion Classifiersで用いるタイムステップの影響を調査 検証する仮説 12
  11. • 作り方はとっても簡単 • 正例のPromptを作成 (GenEval[1] から拝借)し,画像生成 • Textとの整合性を考慮して生成画像に対して人手によるフィルタリング • NegativeなPromptを作成

    • 正例: a parking meter left of a teddy bear, 負例: a parking meter right of a teddy bear Self-Bench: 生成画像による構成分類評価のためのベンチマーク 14 [1]Ghosh+,NeurIPS2023 Filterに関して (Textとの整合性を考慮) - F: Filterなし - C: 人手によるフィルタリング SD3-mはテキストとの 整合性が高い
  12. • 仮説1: 拡散モデルの構成分類がCLIPより優れる • 包括的な構成分類タスクの検証 • 仮説2: 生成したものを(分類を通して)理解している • 新たなベンチマークであるSelfーBenchの提案

    • 生成/認識モデルが同じモデルによるGenerative AI Paradoxの検証 • 仮説3: ドメインギャップはタイムステップの重み付けで緩和可能 • Diffusion Classifiersで用いるタイムステップの影響を調査 検証する仮説 17
  13. • 時刻tのサンプリング方法を変化させることによる認識能力への影響を調査 • 等間隔ではなくより適した方法があるはず 時刻tのサンプリング方法を最適化することが重要か? 19 [1]Li+,ICCV2023 [2]Clark+,NeurIPS2023 [3]Krojer+,NeurIPS2023 [1]より抜粋

    ① 時刻tに応じた ノイズを付加 ② テキストで条件つけて ノイズを推定 ③ 推定ノイズと付与ノイズの 誤差を計算 ④ 誤差が小さいクラスに 認識 ※ 全時刻tで平均 (等間隔でサンプリング)
  14. • 目的: 拡散モデルによるZero-shot分類の包括的な調査 • 結果: • 拡散モデルの構成分類がCLIPより優れているわけではない (位置検出は得意) • In-domainで生成画像を認識

    (Cross-domainではドメイン差で精度が低下) • ドメイン差はタイムステップの重み付けで緩和可能 (ドメイン情報は適度に消す) • 感想 • 位置検出が得意なのはピクセルが保たれた学習をしているので納得 (CLIPでも空間情報を保存した学習が必要では?) • 時刻に応じて画像情報の「何が」「どれくらい」消えるのかを解析するのも面白そう Summary 24