Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
(NeurIPS2024) Guiding a Diffusion Model with a ...
Search
Shumpei Takezaki
April 23, 2025
38
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
(NeurIPS2024) Guiding a Diffusion Model with a Bad Version of Itself
Shumpei Takezaki
April 23, 2025
More Decks by Shumpei Takezaki
See All by Shumpei Takezaki
(IJCNN2026) SCoRe: Clean Image Generation from Diffusion Models Trained on Noisy Images
shumpei777
0
10
(CVPR2026) Back to Basics: Let Denoising Generative Models Denoise
shumpei777
0
140
(Preprint) Diffusion Transformers with Representation Autoencoders
shumpei777
1
1.2k
(Blog post) Diffusion is spectral autoregression
shumpei777
3
1.2k
(Preprint) Diffusion Classifiers Understand Compositionality, but Conditions Apply
shumpei777
1
650
(ICLR2021) Score-Based Generative Modeling through Stochastic Differential Equations
shumpei777
1
680
(ICLR2023) Improving Deep Regression with Ordinal Entropy
shumpei777
0
50
(ICML2023) I2SB: Image-to-Image Schrödinger Bridge
shumpei777
0
60
Featured
See All Featured
4 Signs Your Business is Dying
shpigford
187
22k
Building AI with AI
inesmontani
PRO
1
1.1k
The browser strikes back
jonoalderson
0
1.2k
Thoughts on Productivity
jonyablonski
76
5.2k
Discover your Explorer Soul
emna__ayadi
2
1.1k
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2.1k
Accessibility Awareness
sabderemane
1
140
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
Groundhog Day: Seeking Process in Gaming for Health
codingconduct
0
210
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
300
From Legacy to Launchpad: Building Startup-Ready Communities
dugsong
0
230
Transcript
不完全モデルが品質改善に貢献!! in 拡散モデル 2024/12/16@論文読み会 Shumpei Takezaki (D1, Uchida Lab.)
• Guiding a Diffusion Model with a Bad Version of
Itself • なぜClassifier-free Guidance (CFG)で品質改善するのか解析 • 不完全なモデルを使ったガイダンスである Autoguidance (AG)を提案 紹介する論文と概要 1 NeurIPS2024 Oral 著者はTero Karrasら 𝒙𝑡 Poor model Base model 𝝐Base (𝒙𝑡 ) 𝝐Poor (𝒙𝑡 ) × 𝑤 × (1 − 𝑤) 𝝐AG (𝒙𝑡 ) 𝝐AG (𝒙𝑡 ) 𝝐Poor (𝒙𝑡 ) 𝝐Base (𝒙𝑡 ) 品質改善する方向にガイダンス → 多様性を損なわずに品質改善 !
• 条件のあり/なしの推定ノイズに対して線形和をとって出力 Classifier-free Guidance (CFG) 2 𝒙𝑡 Condition 𝝐cond (𝒙𝑡
) 𝝐uncond (𝒙𝑡 ) × 𝑤 × (1 − 𝑤) 𝝐CFG (𝒙𝑡 ) “Dog” Uncondition ∇𝒙 log 𝑝CFG (𝒙|𝒄; 𝑡) = 𝑤 ∗ ∇𝒙 log 𝑝cond 𝒙 𝒄; 𝑡 + 1 − 𝑤 ∗ ∇𝒙 log 𝑝uncond 𝒙 𝑡 ∇𝒙 log 𝑝∎ (𝒙|𝑡) ∝ −𝝐∎ (𝒙𝑡 ) Score Noise 𝝐CFG (𝒙𝑡 ) 𝝐uncond (𝒙𝑡 ) 𝝐cond (𝒙𝑡 ) クラスを強調する方向にガイダンス Ho+, NeurIPSWS, 2021
• ∇𝒙 log 𝑝CFG (𝒙|𝒄; 𝑡) を使うと,実際より狭い分布を生成する • 例: 「猫っぽい犬」のような曖昧なものが生成されなくなる
CFGを使うと品質は改善するが多様性を失う 3 限られた領域だけ生成 →品質↑多様性↓ 2次元トイデータ - 2クラス (オレンジとグレー) - 実画像の性質を模倣 分布から外れた生成 → 品質↓
• 「データ分布の中心側のデータの生成」が行われているから • 同時に「クラス境界から離れたデータの生成」もしている なぜCFGで品質改善するのか? 4 分布から外れた生成 クラス境界から離す 分布中心側の生成 こっちだけほしい
→ 元々のCFGの目的 改善
• 性能差をつけたモデルでガイダンスを行えばよさそう • 性能差: 条件なし < 条件あり • タスクの難しさ: 条件なし
> 条件あり (条件なしの方が学習する範囲が広いから) • 分布の広がり: 条件なし > 条件あり (条件なしの方がデータ分布から離れる方向に広がる) 分布中心側の生成を行うには? 5 ∇𝒙 log 𝑝CFG (𝒙|𝒄; 𝑡) = ∇𝒙 log 𝑝uncond 𝒙 𝑡 𝑝cond 𝒙 𝒄; 𝑡 𝑝uncond 𝒙 𝑡 𝑤 𝑝uncond 𝑝cond Τ 𝑝cond 𝑝uncond → Τ 𝑝cond 𝑝uncond を大きくする方向に生成が進む (よりデータ分布に沿うような生成を実現)
• 「条件のあり/なし」→「性能が十分/不十分」に置き換え Autoguidance (AG): 不完全モデルでのガイダンス 6 ∇𝒙 log 𝑝AG (𝒙|𝑡)
= 𝑤 ∗ ∇𝒙 log 𝑝Base (𝒙|𝑡) + 1 − 𝑤 ∗ ∇𝒙 log 𝑝Poor 𝒙 𝑡 𝒙𝑡 Poor model Base model 𝝐Base (𝒙𝑡 ) 𝝐Poor (𝒙𝑡 ) × 𝑤 × (1 − 𝑤) 𝝐AG (𝒙𝑡 ) 𝝐AG (𝒙𝑡 ) 𝝐Poor (𝒙𝑡 ) 𝝐Base (𝒙𝑡 ) 品質改善する方向にガイダンス 条件なしのみで動作するのも地味に嬉しい (もちろん,条件ありでもOK!)
• 2次元トイデータで比較した結果 Autoguidance (AG): 不完全モデルでのガイダンス 7 多様性を損なわずに品質も改善!!
(余談) 他にも不完全モデルによるガイダンスが提案されていた ! 8 [Eguchi+, BMVC2024] Blurをかけた画像 [Hong+, ICCV2023] 劣化させたAttention
低品質画像による学習 [Ahn+, ECCV2024] : 不完全モデル (or 予測) 紹介論文はこれらの一般化(?)
• データ: ImageNet (条件付き) • 指標: FID • Bade model:
EDM2[1] (当時のSOTA) • Poor model • 学習時間の短縮 • モデルサイズの縮小 • 上記の両方 ← これがOurs • 比較手法 • CFG • CFG + Guidance interval[2] ImageNetの画像生成タスクにおける品質評価 9 [1] Karras+, CVPR2024 [2] Kynkäänniemi+, NeurIPS2024 ※ FDDINOv2についても評価し同様の結果 ※ 一部条件なしでの 実験もあり
• データ: ImageNet (条件付き) • 指標: FID • Bade model:
EDM2[1] (当時のSOTA) • Poor model • 学習時間の短縮 • モデルサイズの縮小 • 上記の両方 • 比較手法 • CFG • CFG + Guidance interval ImageNetの画像生成タスクにおける品質評価 10 ※ FDDINOv2についても評価し同様の結果 ※ 一部条件なしでの 実験もあり Baseline&比較手法より優れた精度 学習時間の短縮,モデルサイズの縮小 だけでもCFGより品質改善 (両方が最も良い) 条件なし (unconditional)の生成でも 品質が改善 [1] Karras+, CVPR2024 [2] Kynkäänniemi+, NeurIPS2024
• 学習時間,モデルサイズについて検証 • 学習時間&モデルサイズともにちょうど良く小さくしたときにFIDがよくなった Poor modelで品質がどのように変化するのかを検証 11 ※ 論文にはEMA lengthについての検証も掲載
FIDがもっとも良い Short Long Small Large
• CFG, Oursともにwの増加に 伴い忠実な画像を生成 • CFGは別の画像に収束 • 多様性の欠如により典型的な 画像に収束している •
Oursは大きく内容が変わらず • CFGの問題を克服している 定性評価: ガイダンス強さ𝒘の変化 12
• DeepFloydIF[1]を使って生成 • 64x64を生成→超解像を2回 (下図) 定性評価: AGとCFGの組み合わせ 13 AG CFG
× 2 [1] Stability AI. DeepFloyd IF. GitHub repository. https://github.com/deep-floyd/IF, 2023.
• 目的: CFGによる品質改善の解析 & 解析を基にした手法の考案 • 手法: 不完全なモデルを使ったガイダンスである“Autoguidance”を提案 • 結果:
多様性を保ちつつ,品質改善を実現 • 感想: • 汎用性の高そうな (どんな拡散モデルでも適用可能な)手法だった • 不完全モデルを変えたら色々な方法が試せそう (BMVCの論文がその良い例) • 論文の中でも触れていたが上手く行く組み合わせがあるらしいのでそこまで自由ではないかも • 理論的な理由付けが出てくることを期待 まとめ 14