Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(NeurIPS2024) Guiding a Diffusion Model with a ...

Avatar for Shumpei Takezaki Shumpei Takezaki
April 23, 2025
11

(NeurIPS2024) Guiding a Diffusion Model with a Bad Version of Itself

Avatar for Shumpei Takezaki

Shumpei Takezaki

April 23, 2025
Tweet

Transcript

  1. • Guiding a Diffusion Model with a Bad Version of

    Itself • なぜClassifier-free Guidance (CFG)で品質改善するのか解析 • 不完全なモデルを使ったガイダンスである Autoguidance (AG)を提案 紹介する論文と概要 1 NeurIPS2024 Oral 著者はTero Karrasら 𝒙𝑡 Poor model Base model 𝝐Base (𝒙𝑡 ) 𝝐Poor (𝒙𝑡 ) × 𝑤 × (1 − 𝑤) 𝝐AG (𝒙𝑡 ) 𝝐AG (𝒙𝑡 ) 𝝐Poor (𝒙𝑡 ) 𝝐Base (𝒙𝑡 ) 品質改善する方向にガイダンス → 多様性を損なわずに品質改善 !
  2. • 条件のあり/なしの推定ノイズに対して線形和をとって出力 Classifier-free Guidance (CFG) 2 𝒙𝑡 Condition 𝝐cond (𝒙𝑡

    ) 𝝐uncond (𝒙𝑡 ) × 𝑤 × (1 − 𝑤) 𝝐CFG (𝒙𝑡 ) “Dog” Uncondition ∇𝒙 log 𝑝CFG (𝒙|𝒄; 𝑡) = 𝑤 ∗ ∇𝒙 log 𝑝cond 𝒙 𝒄; 𝑡 + 1 − 𝑤 ∗ ∇𝒙 log 𝑝uncond 𝒙 𝑡 ∇𝒙 log 𝑝∎ (𝒙|𝑡) ∝ −𝝐∎ (𝒙𝑡 ) Score Noise 𝝐CFG (𝒙𝑡 ) 𝝐uncond (𝒙𝑡 ) 𝝐cond (𝒙𝑡 ) クラスを強調する方向にガイダンス Ho+, NeurIPSWS, 2021
  3. • ∇𝒙 log 𝑝CFG (𝒙|𝒄; 𝑡) を使うと,実際より狭い分布を生成する • 例: 「猫っぽい犬」のような曖昧なものが生成されなくなる

    CFGを使うと品質は改善するが多様性を失う 3 限られた領域だけ生成 →品質↑多様性↓ 2次元トイデータ - 2クラス (オレンジとグレー) - 実画像の性質を模倣 分布から外れた生成 → 品質↓
  4. • 性能差をつけたモデルでガイダンスを行えばよさそう • 性能差: 条件なし < 条件あり • タスクの難しさ: 条件なし

    > 条件あり (条件なしの方が学習する範囲が広いから) • 分布の広がり: 条件なし > 条件あり (条件なしの方がデータ分布から離れる方向に広がる) 分布中心側の生成を行うには? 5 ∇𝒙 log 𝑝CFG (𝒙|𝒄; 𝑡) = ∇𝒙 log 𝑝uncond 𝒙 𝑡 𝑝cond 𝒙 𝒄; 𝑡 𝑝uncond 𝒙 𝑡 𝑤 𝑝uncond 𝑝cond Τ 𝑝cond 𝑝uncond → Τ 𝑝cond 𝑝uncond を大きくする方向に生成が進む (よりデータ分布に沿うような生成を実現)
  5. • 「条件のあり/なし」→「性能が十分/不十分」に置き換え Autoguidance (AG): 不完全モデルでのガイダンス 6 ∇𝒙 log 𝑝AG (𝒙|𝑡)

    = 𝑤 ∗ ∇𝒙 log 𝑝Base (𝒙|𝑡) + 1 − 𝑤 ∗ ∇𝒙 log 𝑝Poor 𝒙 𝑡 𝒙𝑡 Poor model Base model 𝝐Base (𝒙𝑡 ) 𝝐Poor (𝒙𝑡 ) × 𝑤 × (1 − 𝑤) 𝝐AG (𝒙𝑡 ) 𝝐AG (𝒙𝑡 ) 𝝐Poor (𝒙𝑡 ) 𝝐Base (𝒙𝑡 ) 品質改善する方向にガイダンス 条件なしのみで動作するのも地味に嬉しい (もちろん,条件ありでもOK!)
  6. (余談) 他にも不完全モデルによるガイダンスが提案されていた ! 8 [Eguchi+, BMVC2024] Blurをかけた画像 [Hong+, ICCV2023] 劣化させたAttention

    低品質画像による学習 [Ahn+, ECCV2024] : 不完全モデル (or 予測) 紹介論文はこれらの一般化(?)
  7. • データ: ImageNet (条件付き) • 指標: FID • Bade model:

    EDM2[1] (当時のSOTA) • Poor model • 学習時間の短縮 • モデルサイズの縮小 • 上記の両方 ← これがOurs • 比較手法 • CFG • CFG + Guidance interval[2] ImageNetの画像生成タスクにおける品質評価 9 [1] Karras+, CVPR2024 [2] Kynkäänniemi+, NeurIPS2024 ※ FDDINOv2についても評価し同様の結果 ※ 一部条件なしでの 実験もあり
  8. • データ: ImageNet (条件付き) • 指標: FID • Bade model:

    EDM2[1] (当時のSOTA) • Poor model • 学習時間の短縮 • モデルサイズの縮小 • 上記の両方 • 比較手法 • CFG • CFG + Guidance interval ImageNetの画像生成タスクにおける品質評価 10 ※ FDDINOv2についても評価し同様の結果 ※ 一部条件なしでの 実験もあり Baseline&比較手法より優れた精度 学習時間の短縮,モデルサイズの縮小 だけでもCFGより品質改善 (両方が最も良い) 条件なし (unconditional)の生成でも 品質が改善 [1] Karras+, CVPR2024 [2] Kynkäänniemi+, NeurIPS2024
  9. • CFG, Oursともにwの増加に 伴い忠実な画像を生成 • CFGは別の画像に収束 • 多様性の欠如により典型的な 画像に収束している •

    Oursは大きく内容が変わらず • CFGの問題を克服している 定性評価: ガイダンス強さ𝒘の変化 12
  10. • DeepFloydIF[1]を使って生成 • 64x64を生成→超解像を2回 (下図) 定性評価: AGとCFGの組み合わせ 13 AG CFG

    × 2 [1] Stability AI. DeepFloyd IF. GitHub repository. https://github.com/deep-floyd/IF, 2023.
  11. • 目的: CFGによる品質改善の解析 & 解析を基にした手法の考案 • 手法: 不完全なモデルを使ったガイダンスである“Autoguidance”を提案 • 結果:

    多様性を保ちつつ,品質改善を実現 • 感想: • 汎用性の高そうな (どんな拡散モデルでも適用可能な)手法だった • 不完全モデルを変えたら色々な方法が試せそう (BMVCの論文がその良い例) • 論文の中でも触れていたが上手く行く組み合わせがあるらしいのでそこまで自由ではないかも • 理論的な理由付けが出てくることを期待 まとめ 14