(NeurIPS2024) Guiding a Diffusion Model with a Bad Version of Itself

不完全モデルが品質改善に貢献!! in 拡散モデル 2024/12/16@論文読み会 Shumpei Takezaki (D1, Uchida Lab.)

• Guiding a Diffusion Model with a Bad Version of
Itself • なぜClassifier-free Guidance (CFG)で品質改善するのか解析 • 不完全なモデルを使ったガイダンスである Autoguidance (AG)を提案紹介する論文と概要 1 NeurIPS2024 Oral 著者はTero Karrasら 𝒙𝑡 Poor model Base model 𝝐Base (𝒙𝑡 ) 𝝐Poor (𝒙𝑡 ) × 𝑤 × (1 − 𝑤) 𝝐AG (𝒙𝑡 ) 𝝐AG (𝒙𝑡 ) 𝝐Poor (𝒙𝑡 ) 𝝐Base (𝒙𝑡 ) 品質改善する方向にガイダンス → 多様性を損なわずに品質改善 !

• 条件のあり/なしの推定ノイズに対して線形和をとって出力 Classifier-free Guidance (CFG) 2 𝒙𝑡 Condition 𝝐cond (𝒙𝑡
) 𝝐uncond (𝒙𝑡 ) × 𝑤 × (1 − 𝑤) 𝝐CFG (𝒙𝑡 ) “Dog” Uncondition ∇𝒙 log 𝑝CFG (𝒙|𝒄; 𝑡) = 𝑤 ∗ ∇𝒙 log 𝑝cond 𝒙 𝒄; 𝑡 + 1 − 𝑤 ∗ ∇𝒙 log 𝑝uncond 𝒙 𝑡 ∇𝒙 log 𝑝∎ (𝒙|𝑡) ∝ −𝝐∎ (𝒙𝑡 ) Score Noise 𝝐CFG (𝒙𝑡 ) 𝝐uncond (𝒙𝑡 ) 𝝐cond (𝒙𝑡 ) クラスを強調する方向にガイダンス Ho+, NeurIPSWS, 2021

• ∇𝒙 log 𝑝CFG (𝒙|𝒄; 𝑡) を使うと，実際より狭い分布を生成する • 例: 「猫っぽい犬」のような曖昧なものが生成されなくなる
CFGを使うと品質は改善するが多様性を失う 3 限られた領域だけ生成 →品質↑多様性↓ 2次元トイデータ - 2クラス (オレンジとグレー) - 実画像の性質を模倣分布から外れた生成 → 品質↓

• 「データ分布の中心側のデータの生成」が行われているから • 同時に「クラス境界から離れたデータの生成」もしているなぜCFGで品質改善するのか？ 4 分布から外れた生成クラス境界から離す分布中心側の生成こっちだけほしい
→ 元々のCFGの目的改善

• 性能差をつけたモデルでガイダンスを行えばよさそう • 性能差: 条件なし < 条件あり • タスクの難しさ: 条件なし
> 条件あり (条件なしの方が学習する範囲が広いから) • 分布の広がり: 条件なし > 条件あり (条件なしの方がデータ分布から離れる方向に広がる) 分布中心側の生成を行うには？ 5 ∇𝒙 log 𝑝CFG (𝒙|𝒄; 𝑡) = ∇𝒙 log 𝑝uncond 𝒙 𝑡 𝑝cond 𝒙 𝒄; 𝑡 𝑝uncond 𝒙 𝑡 𝑤 𝑝uncond 𝑝cond Τ 𝑝cond 𝑝uncond → Τ 𝑝cond 𝑝uncond を大きくする方向に生成が進む (よりデータ分布に沿うような生成を実現)

• 「条件のあり/なし」→「性能が十分/不十分」に置き換え Autoguidance (AG): 不完全モデルでのガイダンス 6 ∇𝒙 log 𝑝AG (𝒙|𝑡)
= 𝑤 ∗ ∇𝒙 log 𝑝Base (𝒙|𝑡) + 1 − 𝑤 ∗ ∇𝒙 log 𝑝Poor 𝒙 𝑡 𝒙𝑡 Poor model Base model 𝝐Base (𝒙𝑡 ) 𝝐Poor (𝒙𝑡 ) × 𝑤 × (1 − 𝑤) 𝝐AG (𝒙𝑡 ) 𝝐AG (𝒙𝑡 ) 𝝐Poor (𝒙𝑡 ) 𝝐Base (𝒙𝑡 ) 品質改善する方向にガイダンス条件なしのみで動作するのも地味に嬉しい (もちろん，条件ありでもOK！)

• 2次元トイデータで比較した結果 Autoguidance (AG): 不完全モデルでのガイダンス 7 多様性を損なわずに品質も改善!!

(余談) 他にも不完全モデルによるガイダンスが提案されていた ! 8 [Eguchi+, BMVC2024] Blurをかけた画像 [Hong+, ICCV2023] 劣化させたAttention
低品質画像による学習 [Ahn+, ECCV2024] : 不完全モデル (or 予測) 紹介論文はこれらの一般化(？)

• データ: ImageNet (条件付き) • 指標: FID • Bade model:
EDM2[1] (当時のSOTA) • Poor model • 学習時間の短縮 • モデルサイズの縮小 • 上記の両方 ← これがOurs • 比較手法 • CFG • CFG + Guidance interval[2] ImageNetの画像生成タスクにおける品質評価 9 [1] Karras+, CVPR2024 [2] Kynkäänniemi+, NeurIPS2024 ※ FDDINOv2についても評価し同様の結果 ※ 一部条件なしでの実験もあり

• データ: ImageNet (条件付き) • 指標: FID • Bade model:
EDM2[1] (当時のSOTA) • Poor model • 学習時間の短縮 • モデルサイズの縮小 • 上記の両方 • 比較手法 • CFG • CFG + Guidance interval ImageNetの画像生成タスクにおける品質評価 10 ※ FDDINOv2についても評価し同様の結果 ※ 一部条件なしでの実験もあり Baseline&比較手法より優れた精度学習時間の短縮，モデルサイズの縮小だけでもCFGより品質改善 (両方が最も良い) 条件なし (unconditional)の生成でも品質が改善 [1] Karras+, CVPR2024 [2] Kynkäänniemi+, NeurIPS2024

• 学習時間，モデルサイズについて検証 • 学習時間＆モデルサイズともにちょうど良く小さくしたときにFIDがよくなった Poor modelで品質がどのように変化するのかを検証 11 ※ 論文にはEMA lengthについての検証も掲載
FIDがもっとも良い Short Long Small Large

• CFG, Oursともにwの増加に伴い忠実な画像を生成 • CFGは別の画像に収束 • 多様性の欠如により典型的な画像に収束している •
Oursは大きく内容が変わらず • CFGの問題を克服している定性評価: ガイダンス強さ𝒘の変化 12

• DeepFloydIF[1]を使って生成 • 64x64を生成→超解像を2回 (下図) 定性評価: AGとCFGの組み合わせ 13 AG CFG
× 2 [1] Stability AI. DeepFloyd IF. GitHub repository. https://github.com/deep-floyd/IF, 2023.

• 目的: CFGによる品質改善の解析 & 解析を基にした手法の考案 • 手法: 不完全なモデルを使ったガイダンスである“Autoguidance”を提案 • 結果:
多様性を保ちつつ，品質改善を実現 • 感想: • 汎用性の高そうな (どんな拡散モデルでも適用可能な)手法だった • 不完全モデルを変えたら色々な方法が試せそう (BMVCの論文がその良い例) • 論文の中でも触れていたが上手く行く組み合わせがあるらしいのでそこまで自由ではないかも • 理論的な理由付けが出てくることを期待まとめ 14

(NeurIPS2024) Guiding a Diffusion Model with a ...

(NeurIPS2024) Guiding a Diffusion Model with a Bad Version of Itself

Shumpei Takezaki

More Decks by Shumpei Takezaki

Featured

Transcript

不完全モデルが品質改善に貢献!! in 拡散モデル 2024/12/16@論文読み会 Shumpei Takezaki (D1, Uchida Lab.)

• Guiding a Diffusion Model with a Bad Version of

• 条件のあり/なしの推定ノイズに対して線形和をとって出力 Classifier-free Guidance (CFG) 2 𝒙𝑡 Condition 𝝐cond (𝒙𝑡

• ∇𝒙 log 𝑝CFG (𝒙|𝒄; 𝑡) を使うと，実際より狭い分布を生成する • 例: 「猫っぽい犬」のような曖昧なものが生成されなくなる

• 性能差をつけたモデルでガイダンスを行えばよさそう • 性能差: 条件なし < 条件あり • タスクの難しさ: 条件なし

• 「条件のあり/なし」→「性能が十分/不十分」に置き換え Autoguidance (AG): 不完全モデルでのガイダンス 6 ∇𝒙 log 𝑝AG (𝒙|𝑡)

• 2次元トイデータで比較した結果 Autoguidance (AG): 不完全モデルでのガイダンス 7 多様性を損なわずに品質も改善!!

(余談) 他にも不完全モデルによるガイダンスが提案されていた ! 8 [Eguchi+, BMVC2024] Blurをかけた画像 [Hong+, ICCV2023] 劣化させたAttention

• データ: ImageNet (条件付き) • 指標: FID • Bade model:

• データ: ImageNet (条件付き) • 指標: FID • Bade model:

• 学習時間，モデルサイズについて検証 • 学習時間＆モデルサイズともにちょうど良く小さくしたときにFIDがよくなった Poor modelで品質がどのように変化するのかを検証 11 ※ 論文にはEMA lengthについての検証も掲載

• CFG, Oursともにwの増加に伴い忠実な画像を生成 • CFGは別の画像に収束 • 多様性の欠如により典型的な画像に収束している •

• DeepFloydIF[1]を使って生成 • 64x64を生成→超解像を2回 (下図) 定性評価: AGとCFGの組み合わせ 13 AG CFG

• 目的: CFGによる品質改善の解析 & 解析を基にした手法の考案 • 手法: 不完全なモデルを使ったガイダンスである“Autoguidance”を提案 • 結果: