Upgrade to Pro — share decks privately, control downloads, hide ads and more …

拡散モデルチュートリアル

Taiji Suzuki
September 27, 2023

 拡散モデルチュートリアル

拡散モデルと確率微分方程式に関するチュートリアル.
理論研究の結果も含まれています.

Taiji Suzuki

September 27, 2023
Tweet

More Decks by Taiji Suzuki

Other Decks in Technology

Transcript

  1. 鈴木大慈 2 所属 ➢ 東京大学大学院情報理工学系研究科数理情報学専攻・准教授 ➢ 東大次世代知能科学研究センター研究部門研究者(研究知能部門) ➢ 理化学研究所 革新知能統合研究センター

    深層学習理論チーム チームリーダー 専門 ➢ 機械学習,数理統計学,統計的学習理論 解釈可能性: 説明可能性,データの可視化,メンテナ ンスの容易化 各種テクニックの解析: アーキテクチャの解析,損失関数の設計, 最適化技法の解析 深層学習の原理解明: 「表現理論」「汎化誤差理論」「最適化 理論」 学習の本質解明: “良い”学習手法の特徴付け,統一理論, 深層学習を優越する方法論の提唱 応用 基礎 鈴木大慈 情報理工学系研究科 確率論 幾何学 関数解析 最適化理論 数学 数理統計 スパース推定 関連する機械学習理論 特徴抽出 カーネル法 深層学習の理論 主な研究内容 ➢ 深層学習を含む様々な学習機構について理論的側面から研究を進め ています.学習理論を通じて各種学習手法の汎化性能や学習アルゴ リズムの収束性能を解明し複雑な学習過程の本質への理解を深め, 理論をもとに新しい機械学習手法の構築や応用への還元を行ってい ます.また,確率的最適化などの方法により大規模かつ複雑な機械 学習問題を効率的に解く手法の開発も行っています. 著書/授賞 ➢『確率的最適化(機械学習プロフェッショナルシリーズ)』講談社,2015年 8月8日. ➢金森敬文,鈴木大慈,竹内一郎,佐藤一誠:『機械学習のための連続最適化 (機械学習プロフェッショナルシリーズ)』講談社,2016年12月7日. ➢文部科学大臣表彰・若手科学者賞「深層学習の原理解明に向けた統計的学習 理論の研究」.文部科学省,2020年4月7日. ➢第11回日本統計学会研究業績賞 (2017年度).2017年9月5日. ➢Satoshi Hayakawa and Taiji Suzuki:日本神経回路学会論文賞.日本神経回 路学会,2021年9月23日. ➢日本応用数理学会,ベストオーサー賞(論文部門).2019年9月4日. 研究室URLとメール連絡先 ➢ http://ibis.t.u-tokyo.ac.jp/suzuki/ ➢ [email protected]
  2. DALL·E/DALL·E 2 3 「An astronaut riding a horse in a

    photorealistic style」 文章による説明から画像を生成するモデル DALL·E: [Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever: Zero-Shot Text-to-Image Generation. ICML2021.] DALL·E2:[Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen: Hierarchical Text- Conditional Image Generation with CLIP Latents. arXiv:2204.06125]
  3. 他の作例 5 Jason Allen "Théâtre D'opéra Spatial“ generated by Midjourney.

    Colorado State Fair’s fine art competition, 1st prize in digital art category Generated by NovelAI その他,たんぱく質の生成 (Baker’s lab (https://www.bakerlab.org/2023/07/11/diffusion- model-for-protein-design/)),音声合成など.
  4. 拡散モデルの概要 6 元の分布 潜在変数(ノイズ)の分布 (正規分布) 復元された分布 [Song et al.: SCORE-BASED

    GENERATIVE MODELING THROUGH STOCHASTIC DIFFERENTIAL EQUATIONS. ICLR2021. 順過程: 逆過程: 元の分布に徐々にノイズを混ぜてサンプリングが簡単な 潜在分布 (正規分布) に変換してゆく確率過程. 潜在分布(正規分布)から順過程を逆再生して元の分布を 生成する確率過程. ⇒ ノイズを除去しているように見えることからDenoising diffusion probability model (DDPM) とも言われる.
  5. VAEとの関係 10 元の分布 潜在変数(ノイズ)の分布 (正規分布) 復元された分布 ・・・ ・・・ VAE [Song

    et al.: SCORE-BASED GENERATIVE MODELING THROUGH STOCHASTIC DIFFERENTIAL EQUATIONS. ICLR2021.
  6. Denoising Diffusion Probabilistic Model • 離散時間の順過程・逆過程の導入 • 変分推論による推定法の導出 11 [Sohl-Dickstein

    et al.: Deep Unsupervised Learning using Nonequilibrium Thermodynamics. ICML2015] [Ho et al.: Denoising Diffusion Probabilistic Models. NeurIPS2020] [Song et al.: Score-Based Generative Modeling through Stochastic Differential Equations. ICLR2021] 徐々にノイズを添加する ノイズを除去する過程を近似
  7. 順過程 12 𝑥0 𝑥1 𝑥2 𝑥𝑡 • 1ステップ更新 • 𝒕ステップ更新の条件付分布

    (平均,分散) ➢ ➢ ➢ ➢ ത 𝛼𝑡 → 0 (𝑡 → ∞) とすることで,𝑥𝑡 は𝑁(0, 𝐼)に分布収束する. ⇒ 元の複雑な分布からサンプリングしやすい標準正規分布に変換 𝛽1 = 10−4, 𝛽𝑇 = 0.02 として,間を線形に補完 したものを用いたりする. 𝑡 = 0 𝑡 = 𝑇 (※𝑥1 の分散が1なら𝑥𝑡 の分散も1)
  8. 分布収束の様子 13 Fig from [Vahdat, Kreis, Kautz: Score-based Generative Modeling

    in Latent Space. arXiv:2106.05931] modified. 周辺分布 ほぼ正規分布 逆過程:ほぼ正規分布の𝑝(𝑥𝑇 )から元の分布に戻す.
  9. 逆過程 14 𝑥0 𝑥1 𝑥2 𝑥𝑡 これを陽に記述することは難しい ⇒ 𝛽𝑡 ≃

    0の極限では正規分布で近似できる. 逆過程の1ステップ分布更新式: 𝛽𝑡 = 2d𝑡とすると, (正規分布近似) の形で近似 学習可能ネットワークで推定 (U-Net等) 実際, (後で出てくる確率微分方程式による定式化と一致)
  10. 逆過程モデル (雑音除去モデル) の学習 • 変分推論による方法 [Sohl-Dickstein et al. (2015), Ho

    et al. (2020)] 15 負の対数尤度 変分上限 ➢ 𝑥0 , 𝑥𝑡 で条件付けた𝑥𝑡−1 の分布は正規分布: ただし ➢ 𝑝𝜃 (𝑥𝑡−1 |𝑥𝑡 )を正規分布でモデリング: ⇒ 𝐿𝑡 が陽に求まる! (次ページ)
  11. 変分上限の導出 16 • 真の平均: • 雑音予測ネットワーク (noise-prediction network): 学習可能ネットワーク (NPN)

    [Ho et al. (2020)] 特に,以下のように具体的に書き下せる: 𝑥𝑡 𝒙𝟎 は訓練データの経験分布,時刻𝒕は[𝟏, 𝑻]上の一様分布,𝝐は標準正規分布 からサンプリングして変分上限(の近似値)を求め,それを最小化すればよい. 𝑥𝑡 で条件付けているので, 𝑥𝑡 と相関がある. → 予測できる.
  12. 実際のネットワーク構造 • U-Net [Olaf, Fischer, Brox: U-Net: Convolutional Networks for

    Biomedical Image Segmentation. MICCAI 2015] 17 ➢ 画像のsegmentationなどで標準的なネットワーク ➢ 画像生成用の拡散モデルではスコア関数 𝑡, 𝑥 ↦ 𝜖𝜃 (𝑥, 𝑡)のモデ ルとして最も多く利用されている. U-Net 𝑥𝑡 𝜖𝜃 (𝑥, 𝑡) 𝑡 • 時刻𝑡の表現はsinusoidal position embeddingやFourier特徴量などを用いる. • 時刻の表現をFNNに通して,各Residual blockに足したり,adaptive group normalizationを適用したりする. 時刻の表現 FNN [Ho et al. (2020); Kingma et al. (2021)] [Dharivwal and Nichol (2021)] (拡散モデルで用いるU-NetはAttention layerが入ったりして修正されている)
  13. 「確率」微分方程式 • 各更新ステップで”ノイズ”を加える: 21 (スモールオーダーの項は無視) 𝜎𝑡 : ノイズの大きさを調整 :標準正規分布 (Δ𝑡

    → 0) ※ Δ𝑡 → 0として何らかの意味で “収束”するかは自明ではない. しかし,伊藤の等長性を用いて 「伊藤積分」として厳密に定義 できる. (正規分布の性質より) 𝑀個 • • (Δ𝑡 = 𝑡/𝑀) ➢ 𝑓 = 0, 𝜎𝑡 = 1の場合 𝑀の選び方によらず不変 ブラウン運動
  14. ブラウン運動 1. 𝐵0 = 0 2. 任意の0 = 𝑡0 <

    𝑡1 < ⋯ < 𝑡𝑛 に対して, 𝐵𝑡𝑘 − 𝐵𝑡𝑘−1 𝑘 = 1, … , 𝑛 は互いに独立 3. 任意の𝑡 > 𝑠 ≥ 0に対して, 𝐵𝑡 − 𝐵𝑠 ∼ 𝑁(0, 𝑡 − 𝑠) 22 さらに,「4. 標本路𝑡 ↦ 𝐵𝑡 は確率1で連続」を加えたものがブラウン運動の定義. 𝐵𝑡+Δ𝑡 − 𝐵𝑡 ∼ 𝑁(0, Δ𝑡) 𝐵𝑡+Δ𝑡 − 𝐵𝑡 = Δ𝑡𝜉𝑡 (𝜉𝑡 ∼ 𝑁(0,1)) 特に つまり
  15. 23

  16. 確率微分方程式 24 (Δ𝑡 → 0) (Δ𝑡 → 0; 𝑀 →

    ∞) (Δ𝑡 = 𝑡/𝑀) と書く と見做せるが,実際は微分できないので積分で定義. とも書く (伊藤積分)
  17. 生成作用素 25 𝑝𝑡 : 𝑋𝑡 の確率密度関数 期待値: ただし,𝜉 ∼ 𝑁(0,1)で𝑋𝑡

    とは独立. • • 1/2 期待値=0 期待値=1 テイラー展開 (二階微分が残るのがSDE特有)
  18. Ornstein–Uhlenbeck 過程 (OU-過程)28 (𝑣𝑡 (𝑥) = −𝑥, 𝜎𝑡 = 2)

    FP-方程式: 解 (平均: 𝑥0 𝑒−𝑡, 分散: 1 − 𝑒−2𝑡) 𝑋0 ∼ 𝑝0 の場合: • 初期値𝑥0 を指数関数的オーダーで忘れていく. • 指数関数的速さで標準正規分布𝑵(𝟎, 𝟏)に近づいていく. (これが拡散モデルの順過程に対応) (𝑋0 = 𝑥0 定数ではなく) ※ 実際,KL(𝒑𝒕 ||𝑵 𝟎, 𝑰 ) ≤ exp(−𝟐𝒕)KL(𝒑𝟎 ||𝑵 𝟎, 𝑰 )が成り立つ.(LSI条件)
  19. 一般化:勾配ランジュバン動力学 • 勾配ランジュバン動力学 (多次元版) 30 定常分布: (勾配ランジュバン動力学) 𝜆: 温度パラメータ [Gelfand

    and Mitter (1991); Borkar and Mitter (1999); Welling and Teh (2011)] Gradient Langevin Dynamics (GLD) 非凸最適化: サンプリング: なる分布からサンプリングしたい. 𝜇∗からのサンプリングはmin 𝑥 𝐿(𝑥)を近似的に解くことも出来る. 例:𝐿 𝑥 = 𝑥2 2 , 𝜆 = 1とすればOU-過程.
  20. GLDのFokker-Planck方程式 31 Vector field:𝑣𝑡 Mass: 𝜇𝑡 (𝑥) : 𝑋𝑡 の分布の確率密度関数

    Fokker-Planck方程式 次のように解釈できる: −𝑣𝑡 とおく [連続の方程式]
  21. 定常分布 32 実は,これは以下の目的関数を最小化するWasserstein勾配流である: 定常分布: 𝜕𝑡 𝜇𝑡 = 0 ⇒ 𝑣𝑡

    = 0 (分布がこれ以上動かない) 確かにこの最適解は定常分布と等しい: 𝐿を最小化 ガウスノイズによって 分布を拡散させる力 = 𝑣𝑡
  22. 対数ソボレフ不等式と幾何的エルゴード性 35 定常分布 [Bakry, Gentil, and Ledoux: Analysis and Geometry

    of Markov Diffusion Operators. Springer, 2014. Th. 5.2.1] 定義 (対数ソボレフ不等式 (𝝁∗の性質)) 幾何的エルゴード性 𝜇𝑡 : 𝑋𝑡 の周辺分布 定常分布へKL-divergenceの意味で線形収束 ある𝛼 > 0が存在して, 任意の(𝜇∗に対して絶対連続な)確率分布𝜈に対し, 例: • 二次関数+有界関数 • Weak Morse型関数 KL-div Fisher-div (対数ソボレフより)
  23. 対数ソボレフ不等式の十分条件 36 Bounded perturbation lemma (Hollley-Stroock): [R. Holley and D.

    Stroock. Logarithmic sobolev inequalities and stochastic Ising models. Journal of statistical physics, 46(5- 6):1159–1194, 1987.] 𝛻𝛻⊤𝐿 𝑥 ≽ 𝜇𝐼 ⇒ 強凸な場合: [Bakry and Émery, 1985] 例:OU-過程.𝐿 𝑥 = 𝑥2 2 , 𝜆 = 1なので,𝛼 = 1で成り立つ. 「𝛻𝛻⊤𝐿 𝑥 ≽ 𝜇𝐼」 ⇔ 「𝑢⊤𝛻𝛻⊤𝐿 𝑥 𝑢 ≽ 𝜇 𝑢 2」 (正定値対称行列)
  24. 密度推定してからGLD走らせれば? • 拡散モデルは多峰な分布からのサンプリングがしやすい. ➢「簡単な分布」→「難しい分布」へと変化していくことで偏りなくサ ンプリングできる. 38 EBMのように直接ターゲットの分布のスコ アを推定してからGLDなどでサンプリング しようとすると谷を乗り越えられない. •

    元の分布のスコアは複雑でも,拡散させた𝑋𝑡 の分布は滑らか →推定しやすい→汎化しやすい. • ノイズから元分布への写像を直接End-to-endで学習するのではなく中 間的な分布𝑝𝑡 の情報を用いるので学習が安定する. 例:Energy based model: 𝛻log(𝑝(𝑥0 ))を直接推定. [Gao et al. ICLR2021]
  25. 確率過程による定式化 40 順過程:所望の分布を正規分布に変換していく (OU-過程). 逆過程:正規分布 (ノイズの分布) から逆にたどって所望の分布に逆変換していく. [Vahdat, Kreis, Kautz:

    Score-based Generative Modeling in Latent Space. arXiv:2106.05931] (𝑌𝑡 ∼ 𝑋 𝑇−𝑡 ) [Sohl-Dickstein et al., 2015; Song & Ermon, 2019; Song et al., 2020; Ho et al., 2020; Vahdat et al., 2021]
  26. 順過程 41 順過程: ただし,𝜇𝑡 = exp −𝑡 , 𝜎𝑡 2

    = 1 − exp −2𝑡 . OU-過程 GLDの一般論より,順過程は指数関数的に標準正規分布に近づく. [Vahdat, Kreis, Kautz: Score-based Generative Modeling in Latent Space. arXiv:2106.05931] 𝑝𝑡 を𝑋𝑡 の確率密度関数とする. 形がわかっている! 𝒙𝟎 が与えられれば𝒙𝒕 の サンプリングも可能 元の分布 標準正規分布 OU-過程
  27. 逆過程 42 逆過程: [Haussmann & Pardoux, 1986] 事実:𝑌𝑡 の分布=𝑋ത 𝑇−𝑡

    の分布 順過程を逆にたどることによって,(ほぼ)正規分布に従う確率変数を 徐々に修正して元の画像の分布に従う確率変数を得ることができる. (𝑡 ∈ [0, ത 𝑇]) すなわち,𝑌𝑡 ∼ 𝑝 𝑇−𝑡 𝑌0 ∼ 𝑝 𝑇 こっちから始める こっちで終わる
  28. 45 これはドリフト項が − 𝑏 − 2𝛻𝑥 log 𝑝 𝑠, 𝑥

    = 𝑥 + 2𝛻𝑥 log(𝜇𝑠 (𝑥)) かつ𝜎𝑡 2 = 2の拡散過程の前向きFK-方程式に他ならない. 時間を反転させて,d ǁ 𝑠 ← −d𝑠とすると, まとめると, ǁ 𝑠 → 0とすることで,時刻0における分布を得ることができる. つまり,ドリフト項をデータから推定し,逆過程を走らせることでデータの分 布からのサンプリングができるようになる. 参考
  29. スコアの推定 46 逆過程: ⇒ 𝑌𝑡 ∼ 𝑝 𝑇−𝑡 [Haussmann &

    Pardoux, 1986] (未知) 定理 (Girsanov’s theorem) ⇒ スコア関数𝛻log(𝑝𝑡 )をできるだけ正確に推定できれば良い. 近似モデル (生成モデル): (未知) (𝑝 𝑇 は𝑁(0, 𝐼)に十分近い) ෠ 𝑌ത 𝑇 を生成画像として用いる. (𝑡 ∈ [0, ത 𝑇]) (𝑡 ∈ [0, ത 𝑇])
  30. スコアマッチング 49 観測値 (𝑛データ点, 𝐷𝑛 = 𝑥𝑖 𝑖=1 𝑛 ):

    経験スコアマッチング損失: 陽に求まる (正規分布の密度より) 条件付分布はOU過程からサンプリングできる を解けばよい. しかし,𝑋0 の分布を知らないので𝑋0 による期待値は取れない. → サンプル平均で代用する (有限データからの学習). (正規分布)
  31. 経験スコアマッチングとDDPMの関係 50 • スコア関数: • 推定モデル: (前ページ参照; 条件付分布はガウス分布) Denoising diffusion

    probability modelの変分上限と一致! [Vincent, Neural Computation 2011][Song and Ermon, NeurIPS2019][Song et al. ICLR2021.] とする.
  32. これまでのまとめ • 順過程: 51 (OU-過程) • 逆過程 (reverse SDE): Fokker-Planck方程式:

    ǁ 𝑡を逆向き時間として (𝑡 = ∞ → 𝑡 = 0へ向かう) 標準正規分布へ向かう勾配ランジュバン動力学 𝑡小 𝑡大 ǁ 𝑡大 ǁ 𝑡小 順 逆 d𝑡 = −d ǁ 𝑡 ➢ 変分推論による推定とスコア関数の推定 (Girsanovの定理経由) は一致する.
  33. Latent diffusion model • 低次元潜在変数の空間で拡散モデルを走らせる. ➢計算量を削減できる. ➢汎化誤差の意味でも意義があると考えられる. ➢Stable diffusionで用いられている. 52

    低次元潜在空間 [Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." CVPR2022.] 潜在空間にエンコード 潜在空間からもとの空間(画像)にデコード
  34. 逆向きSDEを走らせる代わりに, とし てこのODEを走らせても良い. ODEに変換 • Probability flow ODE (PF-ODE) 53

    逆向きSDEのFP-方程式 = −𝑣𝑡 (𝑦) この偏微分方程式は以下のODEに対応する連続の方程式である:
  35. PF-ODEを使った手法 54 1. Song, Meng, Ermon: Denoising Diffusion Implicit Models.

    ICLR2021. 2. Karas et al.: Elucidating the Design Space of Diffusion-Based Generative Models. NeurIPS2022 3. Lu et al.: DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps. NeurIPS2022. 4. Liu et al.: Pseudo Numerical Methods for Diffusion Models on Manifolds. ICLR2022. 5. Dockhorn, Vahdat, Kreis: GENIE: Higher-Order Denoising Diffusion Solvers. NeurIPS2022. 様々な解法が提案されている. • ナイーブに実装すると時間離散化誤差が強く影響 [2]. • 拡散モデル用に実装を工夫する必要がある [3,4,5]. ➢ 線形多段法 [4],Heun法 [2],変形exp-Runge-Kutta法 [3],高次漸近展開 [5] • スコアの推定誤差には鋭敏かもしれない. ← 計算を工夫したODE型の方法は ステップ数を減らしても誤差が発 散しにくい.
  36. • 理論:ODEベースの手法の方が「速い」 (離散化誤差が小さい) 55 ➢ Chen et al.: The probability

    flow ODE is provably fast. 2023. ➢ Li et al.: Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative Models. 2023. SDE手法:O(1/𝑇) ODE手法:O(1/𝑇2) (𝑇は離散化後のステップ数)
  37. 条件付き分布からの生成 57 「An astronaut riding a horse in a photorealistic

    style」 DALL·E: [Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever: Zero-Shot Text-to-Image Generation. ICML2021.] DALL·E2:[Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen: Hierarchical Text- Conditional Image Generation with CLIP Latents. arXiv:2204.06125]
  38. Classifier guidance 58 • クラスラベル𝑐で条件付けた拡散モデル 通常の拡散モデルで推定 判別器を学習して近似 Classifier guidanceありの雑音推定モデル [Dhariwal,

    Nichol: Diffusion Models Beat GANs on Image Synthesis. NeurIPS2021] (鈴木註: この導出は数学的に怪しい) 𝜔: scaling parameter 𝜔というスケーリングパ ラメータを入れることで クラスの個性をより強く 反映させられる.
  39. Classifier-free guidance 59 [Ho, Salimans: Classifier-Free Diffusion Guidance. 2021] 条件付けた拡散モデル

    条件付けない拡散モデル Classifier guidanceでは別途分類器𝑝𝜙 (𝑐|𝑥)を学習する必要があった. → 分類器を用意せずに単一のネットワークで何とかしたい. • スケールを入れたスコア関数 • 修正されたノイズ予測ネットワーク (Classifier-free guidance) ※ 条件付けない状況は𝑐 = 0として扱うことで単一モデルによる学習を実現 • 条件付モデルと非条件付モデル (𝜖𝜃 (𝑥, 𝑡, 𝑐)と𝜖𝜃 (𝑥, 𝑡, 0)) は𝑐をランダムに0にするこ とで同時に学習. → 分類器を別に学習する必要もないし,コードを少し変えるだけで済む.
  40. 文章での条件付け (概略) 60 画像 エンコーダ 画像 デコーダ 画像をエンコード したベクトル ベクトルから

    画像を復元 文章 「芝の上の犬」 文章 エンコーダ 文章をエンコード したベクトル 対応するように エンコーダを学習 画像生成時 [CLIP] 同様の考え方が翻訳など,ほとんどの 深層学習モデルで使われている. [Nichole et al: GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. 2021] (OpenAI) [拡散モデル]
  41. CLIP 61 テキスト 画像 テキスト1の埋め込み テキストNの埋め込み 画像Nの埋め込み 画像1の埋め込み [Radford et

    al.: Learning Transferable Visual Models From Natural Language Supervision. 2021] • Contrastive cross-entropy loss: これを最小化するようにエンコーダー𝑓, 𝑔を学習. 𝑓 𝑔 要は同じ内容を表す画像とテキストは内積が大きくなるようにエンコーダーを学習. (𝑁: ミニバッチサイズ)
  42. DALL·E 2 62 [Ramesh et al.: Hierarchical Text-Conditional Image Generation

    with CLIP Latents. 2022] [エンコーダーの学習] • 画像とテキストはCLIPでエンコード
  43. DALL·E 2 63 [Ramesh et al.: Hierarchical Text-Conditional Image Generation

    with CLIP Latents. 2022] [生成時] • Prior: テキストのCLIP埋め込みベクトル𝑦から画像のCLIP埋め込みベクトル𝑧を復元 ➢ ① 𝑦から離散的なコードの列を自己回帰的生成して量子化された𝑧を予測 ➢ ② 𝑦で条件付けた拡散モデルを用いて𝑧を生成 • Decoder: 復元されたzから本来の画像を生成 (③Cascade拡散モデル) ➢ (3-1) 通常の𝑧で条件付けた拡散モデル: 64x64 → 64x64 ➢ (3-2) Diffusion upsampler model: 64x64→256x256,256x256→1024x1024 (Classifier-free guidance) (←Super-Resolution via Repeated Refinement (SR3) [Saharia et al. 2021]) ① ② ③ 3-1 3-2 𝑦 𝑧 (Classifier-free guidance)
  44. Fine tuning • LoRA (Low-Rank Adaptation) 64 [Hu et al.

    LoRA: Low-rank adaptation of large language models. 2021] Stable diffusionでLoRAを用いた例 Cyberpunk 2077 Tarot card Shukezouma (中国の水彩画調) https://stable-diffusion-art.com/lora/
  45. Fine tuning • LoRA (Low-Rank Adaptation) 65 [Hu et al.

    LoRA: Low-rank adaptation of large language models. 2021] • もとはTransformer型大規模言語モデルの (自己注意機構の) fine tuning手法として提案された. • 元のネットワークの重みに低ランク行列を足すことで微調整. ෩ 𝑊 ← 𝑊 + 𝐴𝐵 元ネットワークの重みは固定して,低ランク行列A, Bのみ追加学習. ResNet Attention ResNet Attention ResNet Attention ResNet ResNet Attention ResNet Attention 時刻の埋め込み プロンプトの埋め込み • 右図のU-NetのAttention モジュールにLoRAを適用. より詳しくは「誰でもわかるStable Diffusion Kohya_ssを使ったLoRA学習設定を徹底解 説」が分かりやすい. https://hoshikat.hatenablog.com/entry/2023/05/26/223229#Lo RA%E3%81%AE%E4%BB%95%E7%B5%84%E3%81%BF%E3%82%92% E7%9F%A5%E3%82%8D%E3%81%86
  46. Flow matching 67 Lipman et al.: Flow Matching for Generative

    Modeling. ICLR2023. 𝑡 = 0 𝑡 = 1 • 𝑝1 𝑥 𝑥1 = 𝑁 0, 𝜎𝑥1 2 ≃ 𝛿𝑥1 (𝑥) • 𝑝0 𝑥 𝑥1 = 𝑁(0, 𝐼) ➢ 𝑢𝑡 (𝑥|𝑥1 ): 𝑝0 𝑥 𝑥1 と𝑝1 𝑥 𝑥1 を結ぶ(最適輸送)フロー(解析的に求まると仮定) (連続の方程式) 𝑥1 ෤ 𝑥1 𝑡 DNN 条件付分布のフローを用いて, “周辺分布”のフローが推定できる: 真の分布 “簡単な”分布 「Flow matching」 ➢ 𝑣𝑡 は𝑝0 (𝑥)から𝑝1 (𝑥)を結ぶフロー 𝑝0 で𝑥を生成して,𝑣𝑡 に従って𝑡 = 1まで 運ぶ→ 𝑝1 に従うサンプルが得られる. (正規分布である必要はない,輸送フローが計算できてサンプリングできれば良い. 𝑥1 に依存しない) 𝑝0 (𝑥) 𝑝1 (𝑥)
  47. 68

  48. 誤差解析の理論研究 • 拡散モデルの逆向きSDEとしての定式化: Song et al. (2021) [近似誤差解析] • KL-divergence

    bound via Girsanov’s theorem: Chen et al. (2022) • Error bound with LSI: Lee et al. (2022a) ➢ With smoothness: Chen et al. (2022) and Lee et al. (2022b) • Error propagation with manifold assumption: Pidstrigach (2022) [Generalization analysis] • Wasserstein dist bound (𝑛−1/𝑑) with manifold assumption: De Bortoli (2022) 70
  49. Minimax optimality of diffusion model 71 [Kazusato Oko, Shunta Akiyama,

    Taiji Suzuki: Diffusion Models are Minimax Optimal Distribution Estimators. ICML2023 (oral), arXiv:2303.01861] Kazusato Oko (The University of Tokyo) Shunta Akiyama (The University of Tokyo)
  50. (𝑌𝑡 ∼ 𝑋 𝑇−𝑡 ) 拡散モデルの統計理論 72 Stable diffusion, 2022.

    Forward process Backward process どちらも(ほぼ)ミニマックス最適 [Yang & Barron, 1999; Niles-Weed & Berthet, 2022]. 経験スコアマッチング推定量: (for any 𝛿 > 0). 定理 Let ෠ 𝑌 be the r.v. generated by the backward process w.r.t. Ƹ 𝑠, then (Estimator for 𝑊1 distance requires some modification) (𝑠: 密度関数の滑らかさ) [Kazusato Oko, Shunta Akiyama, Taiji Suzuki: Diffusion Models are Minimax Optimal Distribution Estimators. ICML2023]
  51. is sufficiently smooth on the edge of the support Problem

    setting 73 Assumption 1 The true distribution 𝑝0 is supported on −1,1 𝑑 and with 𝑠 > Τ 1 𝑝 − Τ 1 2 + as a density function on −1,1 𝑑. Assumption2 Very smooth Besov space Besov space (𝐵𝑝,𝑞 𝑠 (Ω)) Smoothness Spatial inhomogeneity
  52. is sufficiently smooth on the edge of the support Problem

    setting 74 Assumption 1 The true distribution 𝑝0 is supported on −1,1 𝑑 and with 𝑠 > Τ 1 𝑝 − Τ 1 2 + as a density function on −1,1 𝑑. Assumption2 Very smooth Besov space Besov space (𝐵𝑝,𝑞 𝑠 (Ω)) Smoothness Spatial inhomogeneity Intuition Smoothness Uniformity of smoothness
  53. Convergence rate result 75 Theorem (Estimation error in TV-distance) Let

    𝑇 = 𝑛−𝑂(1), 𝑇 = 𝑂(log(𝑛)). Then, the empirical risk minimizer Ƹ 𝑠 in DNN satisfies This is minimax optimal, that is, the worst case error is lower bounded as Although Ƹ 𝑠(𝑥, 𝑡) is a function with 𝑑 + 1-dimensional input, there appears “𝑑” in the bound instead of 𝑑 + 1. This is because Gaussian convolution makes the density smoother. 𝑇 𝑇
  54. B-spline basis decomposition 76 Cardinal B-spline of order : →

    Piece-wise polynomial of order m. • B-spline decomposition of a Besov function 𝑝0 Approximate each term by DNNs Tensor product B-spline:
  55. Cardinal B-spline interpolation (DeVore & Popov, 1988) • Atomic decomposition:

    77 such that (where ) (Norm equivalence) DNN can approximate each B-spline basis efficiently. (see also Bolcskei, Grohs, Kutyniok, Petersen: Optimal Approximation with Sparsely Connected Deep Neural Networks. 201 k=0 k=1 k=2 k=3 Scale j=1 j=1 j=2 j=1 j=2 j=3 j=4 𝛼0,1 𝛼1,1 𝛼1,2 𝛼2,1 𝛼2,4 𝛼2,3 𝛼2,2 Wavelet/multi-resolution expansion 𝑁 terms (should be appropriately chosen depending on 𝑓) 𝑓 ∈ 𝐵𝑝,𝑞 𝑠 can be decomposed into
  56. Proof outline (1) 78 • B-spline decomposition of a Besov

    function 𝑝0 Approximate each term by DNNs • Diffused B-spline basis expansion of 𝑝𝑡 Decompose =: 𝐸 𝑎𝑗,𝑏𝑗 (𝑥, 𝑡) Diffused B-spline ➢ We approximate Diffused B-splines by DNNs. 𝜇𝑡 = exp −𝑡 , 𝜎𝑡 2 = 1 − exp −2𝑡
  57. Approximation error of Diffused B-spline 79 There exists a deep

    neural network ෠ 𝜙: ℝ𝑑 × ℝ+ → ℝ𝑑 such that with depth 𝐿 = 𝑂 log4 𝜖−1 , width 𝑊𝑖 = 𝑂(log6(𝜖−1)), sparsity (# of non-zero parameters) 𝑆 = 𝑂(log(𝜖−1)), and ℓ∞-norm bound 𝐵 = 𝑂(exp(𝑂(log2 𝜖−1 ))) on parameters. Lemma (Approximation error of diffused B-spline) ≤ 𝑁−𝑠/𝑑 ≤ O(𝑒−𝐿) : Deep neural network
  58. Error bound of score 80 Non-smooth Smooth Very smooth 𝑡

    𝑇 𝑡∗ ത 𝑇 • Bound by diffused B-spline approximation • A tighter bound on the smooth part (𝑡 > 𝑡∗ ) (take 𝑘 = 𝑠 + 1) ➢ Similar argument is applied to 𝛻𝑝𝑡 : - Useful for W1 bound. - Smoothness around the edge (A2) is not requires.
  59. Error decomposition 81 Score matching loss Truncation loss at 𝑇.

    Truncation loss at 𝑇. 𝑇 𝑇 Bias Variance : Bias-variance trade off
  60. Low dimensional structure 82 The estimated distribution is never absolutely

    continuous to the target distribution. → Wasserstein distance The support of the target distribution is in a low dimensional subspace. ℝ𝑑 ℝ𝑑′
  61. 𝑾𝟏 -distance convergence rate 83 Theorem (Estimation error in W1-distance)

    For any fixed 𝛿 > 0, by slightly changing the estimator, the empirical risk minimizer Ƹ 𝑠 in DNN satisfies This is also known as minimax optimal (up to 𝛿) [Niles-Weed & Berthet (2022)]. • 𝑑′ appears instead of 𝑑: Diffusion model can avoid curse of dimensionality. • The minimax rate of Wasserstein distance is faster than that of TV distance, which makes it difficult to establish the bound. ➢ We need more precise estimate of the score around 𝑡 = 0. (TV) (W1)
  62. Bound for W1 distance 84 𝑡 𝑇 ത 𝑇 =

    2𝐾∗ 𝑡∗ 𝑡∗ 2𝑡∗ 4𝑡∗ 𝑌 𝑇−𝑡 𝑖 𝑡 Ƹ 𝑠 𝛻log(𝑝𝑡 ) 𝑡𝑖 (= 2𝑖𝑡∗) (negligible) (exp(−𝑇)) , (true score) (estimated score)
  63. Implementable discretization 85 Finite sample approximation • 𝑖𝑗 ∼ Unif({1,

    … , n}) • 𝑡𝑗 ∼ Unif([𝑇, 𝑇]) • 𝑥𝑡𝑗,𝑗 ∼ 𝑝𝑡𝑗 (⋅ |𝑥𝑖𝑗 ) Prop is sufficient to attain the same convergence rate.
  64. まとめ • 拡散モデルの概要を説明 ➢順過程・逆過程 ➢逆過程でスコア推定が必要 → 雑音予測ネット,スコアマッチング推定量を用いて対処 ➢変分上限による定式化と確率微分方程式による定式化は等 価 •

    理論解析 ➢スコア関数の推定誤差は真の分布と生成分布のKL- divergenceの上限を与える. ➢深層学習によるスコアマッチング推定量はミニマックス最 適性を満たす. ➢かつ,分布の低次元構造を特定し,次元の呪いを回避する. 拡散モデルは究極の手法か? → おそらくそうではない.”簡単な分布”から”真の分布“へつなぐ フローが構成できれば何でも良い (例: Flow matching, Schrodinger bridge). とはいえ,有効なアプローチは限られている. (a) 学習可能性,(b) 計算可能性,(c) 拡張性 86
  65. Wasserstein距離について 𝜇, 𝜈:距離空間(𝒳, 𝑐)上の確率測度(通常𝒳はPoland空間) 88 周辺分布を固定した同時分布の中で最小化 (双対表現: Kantorovich双対) • 分布のサポートがずれていてもwell-defined

    • 底空間の距離が反映されている ※KL-divergenceは距離が反映されない. Π 𝜇, 𝜈 : 周辺分布が𝜇, 𝜈である𝒳 × 𝒳上の同時分布の集合 「輸送距離」とも言われる
  66. 接ベクトル • 𝜌𝑡 = 𝑇𝑡# 𝜌0 • d𝑇𝑡 d𝑡 𝑤

    = 𝑣𝑡 𝑇𝑡 𝑤 • ある𝜙𝑡 を用いて𝑣𝑡 = 𝛻𝜙𝑡 と書けるとする. 89 この時,以下が成り立つ: 定理 詳細は以下を参照: Ambrosio, Gigli, and Savaré. Gradient Flows in Metric Spaces and in the Space of Probability Measures. Lectures in Mathematics. ETH Zürich. Birkhäuser Basel, 2008. 𝑇𝑡 𝑣𝑡
  67. 輸送写像 𝜌0 , 𝜌1 が確率密度関数を持つ時,以下が成り立つ: 90 • Infを達成する写像𝑇∗が存在する. • しかも,ある凸関数𝜓が存在して𝑇∗

    𝑥 ∈ 𝜕𝜓 𝑥 と書ける. • この𝑇∗を最適輸送写像という. ただし,infは𝜌0 から𝜌1 へ連続の方程式で“繋ぐ” 全ての速度ベクトル場𝑣𝑡 に関して取る. • 𝜌𝑡 = 𝑇𝑡# 𝜌0 • d𝑇𝑡 d𝑡 𝑤 = 𝑣𝑡 𝑇𝑡 𝑤 Brenierの定理 Benamou-Brenier formula (連続の方程式と𝑊2 距離の関係): 同条件のもと 𝑇𝑡 𝑣𝑡 𝜌0 𝜌1
  68. 連続の方程式 91 「連続の方程式」 (∀𝑓: コンパクトサポート,𝐶∞-級) • ベクトル場𝑣𝑡 で生成される写像を𝑇𝑡 とする: d𝑇𝑡

    d𝑡 𝑥 = 𝑣𝑡 𝑇𝑡 𝑥 . • 𝜇𝑡 は写像𝑇𝑡 : 𝑅𝑑 → 𝑅𝑑による𝜇0 の押し出し:𝜇𝑡 = 𝑇𝑡# 𝜇0 . つまり,𝒙 ∼ 𝝁𝟎 に対する𝑻𝒕 (𝒙)の分布が𝝁𝒕 . [連続の方程式] (分布) この方程式の意味 (𝑡 = 0で導出: 𝑇0 = 𝐼 (恒等写像))
  69. 連続の方程式 92 「連続の方程式」 (∀𝑓: コンパクトサポート,𝐶∞-級) • ベクトル場𝑣𝑡 で生成される写像を𝑇𝑡 とする: d𝑇𝑡

    d𝑡 𝑥 = 𝑣𝑡 𝑇𝑡 𝑥 . • 𝜇𝑡 は写像𝑇𝑡 : 𝑅𝑑 → 𝑅𝑑による𝜇0 の押し出し:𝜇𝑡 = 𝑇𝑡# 𝜇0 . つまり,𝒙 ∼ 𝝁𝟎 に対する𝑻𝒕 (𝒙)の分布が𝝁𝒕 . (分布) この方程式の意味 (一般の𝑡)
  70. ガウシアン対数Sobolev不等式 94 • OU-過程の収束を示す. 𝑝∗ 𝑥 ∝ exp(−𝑥2/2) (標準正規分布) (𝑈

    𝑥 = 𝑥2/2, 𝜆 = 1) 𝑝∗ 𝑥 ∝ exp(−𝑥2/2)とする (標準正規分布). 任意の確率密度関数𝑝に対して,次の不等式が成り立つ: 定理 (ガウシアン対数ソボレフ不等式) よって, 線形収束! 勾配流のところで 出たPL-条件に対応
  71. ガウシアン対数ソボレフ不等式の証明 95 :OU-過程の生成作用素 • 𝜕𝑡 𝑃𝑡 𝑓 = 𝑃𝑡 ℒ𝑓

    (生成作用素の性質) • 𝑃𝑡 𝑃𝑠 𝑓 = 𝑃𝑡+𝑠 𝑓 (半群性) 𝑝𝑡 (⋅ |𝑋0 = 𝑥)の形より, 特に,両辺絶対値を取って, 今,𝜓 𝑟 = 𝑟log(𝑟)に対して, とする. ⋯(1) 性質 証明の方法は何通りもある.ここでは,半群を用いた方法で示す.
  72. (証明続き) 97 よって,両辺を𝑠に関して[0, 𝑡]の間で積分すると, を得る. 𝑝𝑡 (⋅ |𝑋0 = 𝑥)の形から,(適当な可積分性のもと)

    なので,両辺𝑡 → ∞とすると, を得る. 最後に, を代入すれば,KL(𝑝| 𝑝∗ ≤ 1 2 𝐼(𝑝||𝑝∗)を得る. 証明終
  73. 離散時間ダイナミクスの収束レート 99 定理 (informal) [Raginsky, Rakhlin and Telgarsky, 2017; Xu,

    Chen, Zou, and Gu, 2018; Erdogdu, Mackey and Shamir, 2018] 過程: 𝐿 は𝑀-平滑: • ただし,一般には対数ソボレフ不等式は𝜆−1に指数的に依存することに注意. (そうでない場合もある:強凸目的関数,Weak Morse関数) • 温度パラメータ𝜆が十分小さければ,目的関数が非凸でも最適解の近くに到 達できる. where 𝑐, 𝑐𝐶𝐿𝑆,𝛽,𝑑 > 0 are constants. 幾何的エルゴード性 時間離散化の誤差 𝐸𝜋∞ 𝐿 𝑋 − 𝐿(𝑋∗) [Vempala and Wibisono, 2019] 定理 散逸性と平滑性の条件のもと (and other technical condition), 定常分布が最適解まわりにど れだけ集中しているか (𝜆 = 1としている)
  74. 時間離散化 + 確率的分散縮小勾配法 100 定常分布: 計算にO(n)かかる (大規模データで困る) → 確率的勾配を用いる ෨

    𝛻𝑘 = 1 𝐵 σ𝑖∈𝐼𝑘 𝛻𝑓𝑖 (𝑋𝑘 ) ➢ 全勾配は計算に時間がかかる→確率的勾配を用いる. ➢ 確率的勾配は分散が大きい→分散縮小法(SVRG,SARAH)と組み合わせる. 連続時間SDE: 離散時間近似 (Euler-Maruyama近似): 分散縮小型確率的勾配: GLDはノイズを加えつつ最適化するので,分散縮小とやや相性が悪い. SVRG: SARAH: ※ ෨ 𝑋, ෨ 𝛻𝑘 はm回に一回更新する.(𝑚 = 𝑛でOK) 研究紹介
  75. 分散縮小勾配法の収束レート 101 • Vempala&Wibisono (2019): 非確率的勾配 • Our result: 確率的勾配+分散縮小法

    : 𝒏倍高速 勾配計算量 勾配計算量 対数ソボレフ不等式 + 滑らかさの仮定の下, KL-divergenceの意味での収束が分散縮小型確率的勾配を用いることで 高速化できることを証明. ➢ KL-divergenceは“強いノルム”. ➢ 目的関数の性質を対数ソボレフ不等式の定数に集約できる. 結果: 意義: 𝐷(𝜇𝑡 | 𝜈 ≤ 𝜖までの計算量 “Weak Morse”条件における対数ソボレフ定数も導出 実は一般的に対数ソボレフ定数は逆温度パラメータ𝛾へ指数的に依存. → Weak Morse条件では多項式オーダーに緩和される. • 0 < ∃𝜆+ ≤(任意の停留点のHessianの固有値の絶対値) • 大域的最適解以外の停留点は全て鞍点かつ最小固有値が−𝜆+以下 研究紹介