拡散モデルチュートリアル

学術変革領域研究(A) 「学習物理学の創成」領域会議拡散モデルチュートリアル(+α) 1 鈴木大慈東京大学 / 理研AIP 2023年9月25日@東大小柴ホール

鈴木大慈 2 所属 ➢ 東京大学大学院情報理工学系研究科数理情報学専攻・准教授 ➢ 東大次世代知能科学研究センター研究部門研究者（研究知能部門） ➢ 理化学研究所革新知能統合研究センター
深層学習理論チームチームリーダー専門 ➢ 機械学習，数理統計学，統計的学習理論解釈可能性：説明可能性，データの可視化，メンテナンスの容易化各種テクニックの解析：アーキテクチャの解析，損失関数の設計，最適化技法の解析深層学習の原理解明：「表現理論」「汎化誤差理論」「最適化理論」学習の本質解明： “良い”学習手法の特徴付け，統一理論，深層学習を優越する方法論の提唱応用基礎鈴木大慈情報理工学系研究科確率論幾何学関数解析最適化理論数学数理統計スパース推定関連する機械学習理論特徴抽出カーネル法深層学習の理論主な研究内容 ➢ 深層学習を含む様々な学習機構について理論的側面から研究を進めています．学習理論を通じて各種学習手法の汎化性能や学習アルゴリズムの収束性能を解明し複雑な学習過程の本質への理解を深め，理論をもとに新しい機械学習手法の構築や応用への還元を行っています．また，確率的最適化などの方法により大規模かつ複雑な機械学習問題を効率的に解く手法の開発も行っています．著書/授賞 ➢『確率的最適化（機械学習プロフェッショナルシリーズ）』講談社，2015年 8月8日． ➢金森敬文，鈴木大慈，竹内一郎，佐藤一誠：『機械学習のための連続最適化 (機械学習プロフェッショナルシリーズ)』講談社，2016年12月7日. ➢文部科学大臣表彰・若手科学者賞「深層学習の原理解明に向けた統計的学習理論の研究」．文部科学省，2020年4月7日． ➢第11回日本統計学会研究業績賞 (2017年度)．2017年9月5日. ➢Satoshi Hayakawa and Taiji Suzuki:日本神経回路学会論文賞．日本神経回路学会，2021年9月23日． ➢日本応用数理学会，ベストオーサー賞（論文部門）．2019年9月4日．研究室URLとメール連絡先 ➢ http://ibis.t.u-tokyo.ac.jp/suzuki/ ➢ [email protected]

DALL·E/DALL·E 2 3 「An astronaut riding a horse in a
photorealistic style」文章による説明から画像を生成するモデル DALL·E: [Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever: Zero-Shot Text-to-Image Generation. ICML2021.] DALL·E2:[Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen: Hierarchical Text- Conditional Image Generation with CLIP Latents. arXiv:2204.06125]

4 「Teddy bears shopping for groceries in the style of
ukiyo-e」

他の作例 5 Jason Allen "Théâtre D'opéra Spatial“ generated by Midjourney.
Colorado State Fair’s fine art competition, 1st prize in digital art category Generated by NovelAI その他，たんぱく質の生成 (Baker’s lab (https://www.bakerlab.org/2023/07/11/diffusion- model-for-protein-design/))，音声合成など．

拡散モデルの概要 6 元の分布潜在変数(ノイズ)の分布 (正規分布) 復元された分布 [Song et al.: SCORE-BASED
GENERATIVE MODELING THROUGH STOCHASTIC DIFFERENTIAL EQUATIONS. ICLR2021. 順過程：逆過程：元の分布に徐々にノイズを混ぜてサンプリングが簡単な潜在分布 (正規分布) に変換してゆく確率過程．潜在分布（正規分布）から順過程を逆再生して元の分布を生成する確率過程． ⇒ ノイズを除去しているように見えることからDenoising diffusion probability model (DDPM) とも言われる．

拡散モデル = 分布推定 + サンプリング 7 出やすい（自然な画像）出にくい（不自然な画像）正規分布

トイデータ例 8 [https://github.com/Kei18/tiny-tiny-diffusion] 注意：最後の恐竜が生成された画像なのではなくて，各座標が一つの画像に対応．恐竜の形は分布のサポートの形．恐竜型の分布を再現

変分オートエンコーダとの関係 9 入力：𝑥 潜在変数：𝑧 出力：𝑦 𝑦の分布が𝑥の分布に近くなるようにネットワークを学習 [Kingma, Welling:
Auto-Encoding Variational Bayes. 2014.]

VAEとの関係 10 元の分布潜在変数(ノイズ)の分布 (正規分布) 復元された分布・・・・・・ VAE [Song
et al.: SCORE-BASED GENERATIVE MODELING THROUGH STOCHASTIC DIFFERENTIAL EQUATIONS. ICLR2021.

Denoising Diffusion Probabilistic Model • 離散時間の順過程・逆過程の導入 • 変分推論による推定法の導出 11 [Sohl-Dickstein
et al.: Deep Unsupervised Learning using Nonequilibrium Thermodynamics. ICML2015] [Ho et al.: Denoising Diffusion Probabilistic Models. NeurIPS2020] [Song et al.: Score-Based Generative Modeling through Stochastic Differential Equations. ICLR2021] 徐々にノイズを添加するノイズを除去する過程を近似

順過程 12 𝑥0 𝑥1 𝑥2 𝑥𝑡 • １ステップ更新 • 𝒕ステップ更新の条件付分布
(平均,分散) ➢ ➢ ➢ ➢ ത 𝛼𝑡 → 0 (𝑡 → ∞) とすることで，𝑥𝑡 は𝑁(0, 𝐼)に分布収束する． ⇒ 元の複雑な分布からサンプリングしやすい標準正規分布に変換 𝛽1 = 10−4, 𝛽𝑇 = 0.02 として，間を線形に補完したものを用いたりする． 𝑡 = 0 𝑡 = 𝑇 (※𝑥1 の分散が1なら𝑥𝑡 の分散も1)

分布収束の様子 13 Fig from [Vahdat, Kreis, Kautz: Score-based Generative Modeling
in Latent Space. arXiv:2106.05931] modified. 周辺分布ほぼ正規分布逆過程：ほぼ正規分布の𝑝(𝑥𝑇 )から元の分布に戻す．

逆過程 14 𝑥0 𝑥1 𝑥2 𝑥𝑡 これを陽に記述することは難しい ⇒ 𝛽𝑡 ≃
0の極限では正規分布で近似できる．逆過程の１ステップ分布更新式： 𝛽𝑡 = 2d𝑡とすると， (正規分布近似) の形で近似学習可能ネットワークで推定 (U-Net等) 実際，（後で出てくる確率微分方程式による定式化と一致）

逆過程モデル (雑音除去モデル) の学習 • 変分推論による方法 [Sohl-Dickstein et al. (2015), Ho
et al. (2020)] 15 負の対数尤度変分上限 ➢ 𝑥0 , 𝑥𝑡 で条件付けた𝑥𝑡−1 の分布は正規分布: ただし ➢ 𝑝𝜃 (𝑥𝑡−1 |𝑥𝑡 )を正規分布でモデリング: ⇒ 𝐿𝑡 が陽に求まる！ (次ページ)

変分上限の導出 16 • 真の平均： • 雑音予測ネットワーク (noise-prediction network)：学習可能ネットワーク (NPN)
[Ho et al. (2020)] 特に，以下のように具体的に書き下せる: 𝑥𝑡 𝒙𝟎 は訓練データの経験分布，時刻𝒕は[𝟏, 𝑻]上の一様分布，𝝐は標準正規分布からサンプリングして変分上限(の近似値)を求め，それを最小化すればよい． 𝑥𝑡 で条件付けているので， 𝑥𝑡 と相関がある． → 予測できる．

実際のネットワーク構造 • U-Net [Olaf, Fischer, Brox: U-Net: Convolutional Networks for
Biomedical Image Segmentation. MICCAI 2015] 17 ➢ 画像のsegmentationなどで標準的なネットワーク ➢ 画像生成用の拡散モデルではスコア関数 𝑡, 𝑥 ↦ 𝜖𝜃 (𝑥, 𝑡)のモデルとして最も多く利用されている． U-Net 𝑥𝑡 𝜖𝜃 (𝑥, 𝑡) 𝑡 • 時刻𝑡の表現はsinusoidal position embeddingやFourier特徴量などを用いる． • 時刻の表現をFNNに通して，各Residual blockに足したり，adaptive group normalizationを適用したりする．時刻の表現 FNN [Ho et al. (2020); Kingma et al. (2021)] [Dharivwal and Nichol (2021)] (拡散モデルで用いるU-NetはAttention layerが入ったりして修正されている)

確率微分方程式による特徴づけ 18 これまでの導出は比較的アドホックな導出で，数学的な背景が弱かった．しかし，確率微分方程式によるより一貫した特徴づけが可能である． [Song et al.: Score-Based Generative Modeling
through Stochastic Differential Equations. ICLR2021.]

微分方程式 • まずは「微分方程式」から始める． 19 意味： • 𝑁回和を取ると (Δ𝑡 = 𝑡/𝑀)：
• 𝑀 → ∞とすると：とも書く．積分表示

例：勾配流（勾配降下法） • 関数𝑈(𝑥)を最小化したい． 20 とする：再急降下方向．⇒ 「勾配流」勾配が0にならない限り𝑈(𝑥𝑡 )は減少し続ける． Polyak– Lojasiewicz
条件: 例：二次関数 𝑈(𝑥) = 𝑥2 (PL-条件) 線形収束 (𝛼 > 0)

「確率」微分方程式 • 各更新ステップで”ノイズ”を加える： 21 (スモールオーダーの項は無視) 𝜎𝑡 : ノイズの大きさを調整：標準正規分布 (Δ𝑡
→ 0) ※ Δ𝑡 → 0として何らかの意味で “収束”するかは自明ではない．しかし，伊藤の等長性を用いて「伊藤積分」として厳密に定義できる． (正規分布の性質より) 𝑀個 • • (Δ𝑡 = 𝑡/𝑀) ➢ 𝑓 = 0, 𝜎𝑡 = 1の場合 𝑀の選び方によらず不変ブラウン運動

ブラウン運動 1. 𝐵0 = 0 2. 任意の0 = 𝑡0 <
𝑡1 < ⋯ < 𝑡𝑛 に対して， 𝐵𝑡𝑘 − 𝐵𝑡𝑘−1 𝑘 = 1, … , 𝑛 は互いに独立 3. 任意の𝑡 > 𝑠 ≥ 0に対して， 𝐵𝑡 − 𝐵𝑠 ∼ 𝑁(0, 𝑡 − 𝑠) 22 さらに，「4. 標本路𝑡 ↦ 𝐵𝑡 は確率1で連続」を加えたものがブラウン運動の定義． 𝐵𝑡+Δ𝑡 − 𝐵𝑡 ∼ 𝑁(0, Δ𝑡) 𝐵𝑡+Δ𝑡 − 𝐵𝑡 = Δ𝑡𝜉𝑡 (𝜉𝑡 ∼ 𝑁(0,1)) 特につまり

確率微分方程式 24 (Δ𝑡 → 0) (Δ𝑡 → 0; 𝑀 →
∞) (Δ𝑡 = 𝑡/𝑀) と書くと見做せるが，実際は微分できないので積分で定義．とも書く（伊藤積分）

生成作用素 25 𝑝𝑡 : 𝑋𝑡 の確率密度関数期待値: ただし，𝜉 ∼ 𝑁(0,1)で𝑋𝑡
とは独立． • • 1/2 期待値=0 期待値=1 テイラー展開 (二階微分が残るのがSDE特有)

• 通常の微分方程式 26 の場合は，となる．⇒ 二階微分は出てこない． ➢ 二階微分はブラウン運動の確率的な揺らぎから出てくる．

Fokker-Planck方程式 27 でもある．部分積分 Fokker-Planck方程式 [𝑝𝑡 の時間発展を記述した偏微分方程式]：多変量の場合:

Ornstein–Uhlenbeck 過程 (OU-過程)28 (𝑣𝑡 (𝑥) = −𝑥, 𝜎𝑡 = 2)
FP-方程式：解 (平均: 𝑥0 𝑒−𝑡, 分散: 1 − 𝑒−2𝑡) 𝑋0 ∼ 𝑝0 の場合: • 初期値𝑥0 を指数関数的オーダーで忘れていく． • 指数関数的速さで標準正規分布𝑵(𝟎, 𝟏)に近づいていく． (これが拡散モデルの順過程に対応) (𝑋0 = 𝑥0 定数ではなく) ※ 実際，KL(𝒑𝒕 ||𝑵 𝟎, 𝑰 ) ≤ exp(−𝟐𝒕)KL(𝒑𝟎 ||𝑵 𝟎, 𝑰 )が成り立つ．(LSI条件)

数値実験 29

一般化：勾配ランジュバン動力学 • 勾配ランジュバン動力学 (多次元版) 30 定常分布： (勾配ランジュバン動力学) 𝜆: 温度パラメータ [Gelfand
and Mitter (1991); Borkar and Mitter (1999); Welling and Teh (2011)] Gradient Langevin Dynamics (GLD) 非凸最適化：サンプリング：なる分布からサンプリングしたい． 𝜇∗からのサンプリングはmin 𝑥 𝐿(𝑥)を近似的に解くことも出来る．例：𝐿 𝑥 = 𝑥2 2 , 𝜆 = 1とすればOU-過程．

GLDのFokker-Planck方程式 31 Vector field:𝑣𝑡 Mass: 𝜇𝑡 (𝑥) : 𝑋𝑡 の分布の確率密度関数
Fokker-Planck方程式次のように解釈できる: −𝑣𝑡 とおく [連続の方程式]

定常分布 32 実は，これは以下の目的関数を最小化するWasserstein勾配流である: 定常分布: 𝜕𝑡 𝜇𝑡 = 0 ⇒ 𝑣𝑡
= 0 (分布がこれ以上動かない) 確かにこの最適解は定常分布と等しい: 𝐿を最小化ガウスノイズによって分布を拡散させる力 = 𝑣𝑡

Wasserstein勾配流 33 以下，無視連続の方程式 𝜇𝑡 = −𝛻 ⋅ [𝑣𝑡 𝜇𝑡
] に従っているなら

Wasserstein勾配流 34 特には最急降下方向となり，以下が成り立つ．定常分布𝝁∗からのKL-divを最小化するWasserstein勾配流 (GLD) Fisher divergence: =: −𝑣𝑡

対数ソボレフ不等式と幾何的エルゴード性 35 定常分布 [Bakry, Gentil, and Ledoux: Analysis and Geometry
of Markov Diffusion Operators. Springer, 2014. Th. 5.2.1] 定義 (対数ソボレフ不等式 (𝝁∗の性質)) 幾何的エルゴード性 𝜇𝑡 : 𝑋𝑡 の周辺分布定常分布へKL-divergenceの意味で線形収束ある𝛼 > 0が存在して，任意の(𝜇∗に対して絶対連続な)確率分布𝜈に対し，例： • 二次関数+有界関数 • Weak Morse型関数 KL-div Fisher-div (対数ソボレフより)

対数ソボレフ不等式の十分条件 36 Bounded perturbation lemma (Hollley-Stroock): [R. Holley and D.
Stroock. Logarithmic sobolev inequalities and stochastic Ising models. Journal of statistical physics, 46(5- 6):1159–1194, 1987.] 𝛻𝛻⊤𝐿 𝑥 ≽ 𝜇𝐼 ⇒ 強凸な場合: [Bakry and Émery, 1985] 例：OU-過程．𝐿 𝑥 = 𝑥2 2 , 𝜆 = 1なので，𝛼 = 1で成り立つ. 「𝛻𝛻⊤𝐿 𝑥 ≽ 𝜇𝐼」 ⇔ 「𝑢⊤𝛻𝛻⊤𝐿 𝑥 𝑢 ≽ 𝜇 𝑢 2」 (正定値対称行列)

37 𝑈 𝑥 = 𝑥4 − 𝑥2, 𝜆 = 0.08

密度推定してからGLD走らせれば？ • 拡散モデルは多峰な分布からのサンプリングがしやすい． ➢「簡単な分布」→「難しい分布」へと変化していくことで偏りなくサンプリングできる． 38 EBMのように直接ターゲットの分布のスコアを推定してからGLDなどでサンプリングしようとすると谷を乗り越えられない． •
元の分布のスコアは複雑でも，拡散させた𝑋𝑡 の分布は滑らか →推定しやすい→汎化しやすい． • ノイズから元分布への写像を直接End-to-endで学習するのではなく中間的な分布𝑝𝑡 の情報を用いるので学習が安定する．例：Energy based model: 𝛻log(𝑝(𝑥0 ))を直接推定． [Gao et al. ICLR2021]

拡散モデルに話をもどす． 39

確率過程による定式化 40 順過程：所望の分布を正規分布に変換していく (OU-過程)．逆過程：正規分布 (ノイズの分布) から逆にたどって所望の分布に逆変換していく． [Vahdat, Kreis, Kautz:
Score-based Generative Modeling in Latent Space. arXiv:2106.05931] (𝑌𝑡 ∼ 𝑋 𝑇−𝑡 ) [Sohl-Dickstein et al., 2015; Song & Ermon, 2019; Song et al., 2020; Ho et al., 2020; Vahdat et al., 2021]

順過程 41 順過程: ただし，𝜇𝑡 = exp −𝑡 , 𝜎𝑡 2
= 1 − exp −2𝑡 . OU-過程 GLDの一般論より，順過程は指数関数的に標準正規分布に近づく． [Vahdat, Kreis, Kautz: Score-based Generative Modeling in Latent Space. arXiv:2106.05931] 𝑝𝑡 を𝑋𝑡 の確率密度関数とする．形がわかっている！ 𝒙𝟎 が与えられれば𝒙𝒕 のサンプリングも可能元の分布標準正規分布 OU-過程

逆過程 42 逆過程: [Haussmann & Pardoux, 1986] 事実：𝑌𝑡 の分布=𝑋ത 𝑇−𝑡
の分布順過程を逆にたどることによって，(ほぼ)正規分布に従う確率変数を徐々に修正して元の画像の分布に従う確率変数を得ることができる． (𝑡 ∈ [0, ത 𝑇]) すなわち，𝑌𝑡 ∼ 𝑝 𝑇−𝑡 𝑌0 ∼ 𝑝 𝑇 こっちから始めるこっちで終わる

前向き・後ろ向きFokker-Planck方程式43 (part1より) : 時刻𝑠での値を𝑋𝑠 = 𝑥で条件付けた時刻𝑡における𝑋𝑡 の確率密度． • 前向き方程式 •
後向き方程式 (後ろ向き方程式の確認) (∵生成作用素 (part1より)) 参考

逆向きSDEの導出 44 (𝑠 < 𝑡を想定) 参考

45 これはドリフト項が − 𝑏 − 2𝛻𝑥 log 𝑝 𝑠, 𝑥
= 𝑥 + 2𝛻𝑥 log(𝜇𝑠 (𝑥)) かつ𝜎𝑡 2 = 2の拡散過程の前向きFK-方程式に他ならない．時間を反転させて，d ǁ 𝑠 ← −d𝑠とすると，まとめると， ǁ 𝑠 → 0とすることで，時刻0における分布を得ることができる．つまり，ドリフト項をデータから推定し，逆過程を走らせることでデータの分布からのサンプリングができるようになる．参考

スコアの推定 46 逆過程: ⇒ 𝑌𝑡 ∼ 𝑝 𝑇−𝑡 [Haussmann &
Pardoux, 1986] (未知) 定理 (Girsanov’s theorem) ⇒ スコア関数𝛻log(𝑝𝑡 )をできるだけ正確に推定できれば良い. 近似モデル (生成モデル): (未知) (𝑝 𝑇 は𝑁(0, 𝐼)に十分近い) ෠ 𝑌ത 𝑇 を生成画像として用いる． (𝑡 ∈ [0, ത 𝑇]) (𝑡 ∈ [0, ത 𝑇])

スコアマッチング 47 未知，計算できない．計算できるものに置き換えたい． (𝑋ത 𝑇−𝑡 と𝑌𝑡 は同じ分布)

スコアマッチング 48 (前ページの導出より)

スコアマッチング 49 観測値 (𝑛データ点, 𝐷𝑛 = 𝑥𝑖 𝑖=1 𝑛 ):
経験スコアマッチング損失: 陽に求まる (正規分布の密度より) 条件付分布はOU過程からサンプリングできるを解けばよい．しかし，𝑋0 の分布を知らないので𝑋0 による期待値は取れない． → サンプル平均で代用する (有限データからの学習)． (正規分布)

経験スコアマッチングとDDPMの関係 50 • スコア関数： • 推定モデル： (前ページ参照; 条件付分布はガウス分布) Denoising diffusion
probability modelの変分上限と一致！ [Vincent, Neural Computation 2011][Song and Ermon, NeurIPS2019][Song et al. ICLR2021.] とする．

これまでのまとめ • 順過程： 51 （OU-過程） • 逆過程 (reverse SDE)： Fokker-Planck方程式：
ǁ 𝑡を逆向き時間として (𝑡 = ∞ → 𝑡 = 0へ向かう) 標準正規分布へ向かう勾配ランジュバン動力学 𝑡小 𝑡大 ǁ 𝑡大 ǁ 𝑡小順逆 d𝑡 = −d ǁ 𝑡 ➢ 変分推論による推定とスコア関数の推定 (Girsanovの定理経由) は一致する．

Latent diffusion model • 低次元潜在変数の空間で拡散モデルを走らせる． ➢計算量を削減できる． ➢汎化誤差の意味でも意義があると考えられる． ➢Stable diffusionで用いられている． 52
低次元潜在空間 [Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." CVPR2022.] 潜在空間にエンコード潜在空間からもとの空間(画像)にデコード

逆向きSDEを走らせる代わりに，としてこのODEを走らせても良い． ODEに変換 • Probability flow ODE (PF-ODE) 53
逆向きSDEのFP-方程式 = −𝑣𝑡 (𝑦) この偏微分方程式は以下のODEに対応する連続の方程式である：

PF-ODEを使った手法 54 1. Song, Meng, Ermon: Denoising Diffusion Implicit Models.
ICLR2021. 2. Karas et al.: Elucidating the Design Space of Diffusion-Based Generative Models. NeurIPS2022 3. Lu et al.: DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps. NeurIPS2022. 4. Liu et al.: Pseudo Numerical Methods for Diffusion Models on Manifolds. ICLR2022. 5. Dockhorn, Vahdat, Kreis: GENIE: Higher-Order Denoising Diffusion Solvers. NeurIPS2022. 様々な解法が提案されている． • ナイーブに実装すると時間離散化誤差が強く影響 [2]. • 拡散モデル用に実装を工夫する必要がある [3,4,5]． ➢ 線形多段法 [4]，Heun法 [2]，変形exp-Runge-Kutta法 [3]，高次漸近展開 [5] • スコアの推定誤差には鋭敏かもしれない． ← 計算を工夫したODE型の方法はステップ数を減らしても誤差が発散しにくい．

• 理論：ODEベースの手法の方が「速い」（離散化誤差が小さい） 55 ➢ Chen et al.: The probability
flow ODE is provably fast. 2023. ➢ Li et al.: Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative Models. 2023. SDE手法：O(1/𝑇) ODE手法：O(1/𝑇2) （𝑇は離散化後のステップ数）

条件付分布からの生成 56

条件付き分布からの生成 57 「An astronaut riding a horse in a photorealistic
style」 DALL·E: [Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever: Zero-Shot Text-to-Image Generation. ICML2021.] DALL·E2:[Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen: Hierarchical Text- Conditional Image Generation with CLIP Latents. arXiv:2204.06125]

Classifier guidance 58 • クラスラベル𝑐で条件付けた拡散モデル通常の拡散モデルで推定判別器を学習して近似 Classifier guidanceありの雑音推定モデル [Dhariwal,
Nichol: Diffusion Models Beat GANs on Image Synthesis. NeurIPS2021] (鈴木註: この導出は数学的に怪しい) 𝜔: scaling parameter 𝜔というスケーリングパラメータを入れることでクラスの個性をより強く反映させられる．

Classifier-free guidance 59 [Ho, Salimans: Classifier-Free Diffusion Guidance. 2021] 条件付けた拡散モデル
条件付けない拡散モデル Classifier guidanceでは別途分類器𝑝𝜙 (𝑐|𝑥)を学習する必要があった． → 分類器を用意せずに単一のネットワークで何とかしたい． • スケールを入れたスコア関数 • 修正されたノイズ予測ネットワーク (Classifier-free guidance) ※ 条件付けない状況は𝑐 = 0として扱うことで単一モデルによる学習を実現 • 条件付モデルと非条件付モデル (𝜖𝜃 (𝑥, 𝑡, 𝑐)と𝜖𝜃 (𝑥, 𝑡, 0)) は𝑐をランダムに0にすることで同時に学習． → 分類器を別に学習する必要もないし，コードを少し変えるだけで済む．

文章での条件付け (概略) 60 画像エンコーダ画像デコーダ画像をエンコードしたベクトルベクトルから
画像を復元文章「芝の上の犬」文章エンコーダ文章をエンコードしたベクトル対応するようにエンコーダを学習画像生成時 [CLIP] 同様の考え方が翻訳など，ほとんどの深層学習モデルで使われている． [Nichole et al: GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. 2021] (OpenAI) [拡散モデル]

CLIP 61 テキスト画像テキスト１の埋め込みテキストNの埋め込み画像Nの埋め込み画像１の埋め込み [Radford et
al.: Learning Transferable Visual Models From Natural Language Supervision. 2021] • Contrastive cross-entropy loss: これを最小化するようにエンコーダー𝑓, 𝑔を学習． 𝑓 𝑔 要は同じ内容を表す画像とテキストは内積が大きくなるようにエンコーダーを学習． (𝑁: ミニバッチサイズ)

DALL·E 2 62 [Ramesh et al.: Hierarchical Text-Conditional Image Generation
with CLIP Latents. 2022] [エンコーダーの学習] • 画像とテキストはCLIPでエンコード

DALL·E 2 63 [Ramesh et al.: Hierarchical Text-Conditional Image Generation
with CLIP Latents. 2022] [生成時] • Prior: テキストのCLIP埋め込みベクトル𝑦から画像のCLIP埋め込みベクトル𝑧を復元 ➢ ① 𝑦から離散的なコードの列を自己回帰的生成して量子化された𝑧を予測 ➢ ② 𝑦で条件付けた拡散モデルを用いて𝑧を生成 • Decoder: 復元されたzから本来の画像を生成 (③Cascade拡散モデル) ➢ (3-1) 通常の𝑧で条件付けた拡散モデル: 64x64 → 64x64 ➢ (3-2) Diffusion upsampler model: 64x64→256x256，256x256→1024x1024 (Classifier-free guidance) (←Super-Resolution via Repeated Refinement (SR3) [Saharia et al. 2021]) ① ② ③ 3-1 3-2 𝑦 𝑧 (Classifier-free guidance)

Fine tuning • LoRA (Low-Rank Adaptation) 64 [Hu et al.
LoRA: Low-rank adaptation of large language models. 2021] Stable diffusionでLoRAを用いた例 Cyberpunk 2077 Tarot card Shukezouma (中国の水彩画調) https://stable-diffusion-art.com/lora/

Fine tuning • LoRA (Low-Rank Adaptation) 65 [Hu et al.
LoRA: Low-rank adaptation of large language models. 2021] • もとはTransformer型大規模言語モデルの (自己注意機構の) fine tuning手法として提案された． • 元のネットワークの重みに低ランク行列を足すことで微調整． ෩ 𝑊 ← 𝑊 + 𝐴𝐵 元ネットワークの重みは固定して，低ランク行列A, Bのみ追加学習． ResNet Attention ResNet Attention ResNet Attention ResNet ResNet Attention ResNet Attention 時刻の埋め込みプロンプトの埋め込み • 右図のU-NetのAttention モジュールにLoRAを適用．より詳しくは「誰でもわかるStable Diffusion Kohya_ssを使ったLoRA学習設定を徹底解説」が分かりやすい． https://hoshikat.hatenablog.com/entry/2023/05/26/223229#Lo RA%E3%81%AE%E4%BB%95%E7%B5%84%E3%81%BF%E3%82%92% E7%9F%A5%E3%82%8D%E3%81%86

関連手法 66

Flow matching 67 Lipman et al.: Flow Matching for Generative
Modeling. ICLR2023. 𝑡 = 0 𝑡 = 1 • 𝑝1 𝑥 𝑥1 = 𝑁 0, 𝜎𝑥1 2 ≃ 𝛿𝑥1 (𝑥) • 𝑝0 𝑥 𝑥1 = 𝑁(0, 𝐼) ➢ 𝑢𝑡 (𝑥|𝑥1 ): 𝑝0 𝑥 𝑥1 と𝑝1 𝑥 𝑥1 を結ぶ(最適輸送)フロー（解析的に求まると仮定）（連続の方程式） 𝑥1 ෤ 𝑥1 𝑡 DNN 条件付分布のフローを用いて， “周辺分布”のフローが推定できる：真の分布 “簡単な”分布「Flow matching」 ➢ 𝑣𝑡 は𝑝0 (𝑥)から𝑝1 (𝑥)を結ぶフロー 𝑝0 で𝑥を生成して，𝑣𝑡 に従って𝑡 = 1まで運ぶ→ 𝑝1 に従うサンプルが得られる． (正規分布である必要はない，輸送フローが計算できてサンプリングできれば良い. 𝑥1 に依存しない) 𝑝0 (𝑥) 𝑝1 (𝑥)

理論解析 69

誤差解析の理論研究 • 拡散モデルの逆向きSDEとしての定式化: Song et al. (2021) [近似誤差解析] • KL-divergence
bound via Girsanov’s theorem: Chen et al. (2022) • Error bound with LSI: Lee et al. (2022a) ➢ With smoothness: Chen et al. (2022) and Lee et al. (2022b) • Error propagation with manifold assumption: Pidstrigach (2022) [Generalization analysis] • Wasserstein dist bound (𝑛−1/𝑑) with manifold assumption: De Bortoli (2022) 70

Minimax optimality of diffusion model 71 [Kazusato Oko, Shunta Akiyama,
Taiji Suzuki: Diffusion Models are Minimax Optimal Distribution Estimators. ICML2023 (oral), arXiv:2303.01861] Kazusato Oko (The University of Tokyo) Shunta Akiyama (The University of Tokyo)

(𝑌𝑡 ∼ 𝑋 𝑇−𝑡 ) 拡散モデルの統計理論 72 Stable diffusion, 2022.
Forward process Backward process どちらも（ほぼ）ミニマックス最適 [Yang & Barron, 1999; Niles-Weed & Berthet, 2022]. 経験スコアマッチング推定量: (for any 𝛿 > 0). 定理 Let ෠ 𝑌 be the r.v. generated by the backward process w.r.t. Ƹ 𝑠, then (Estimator for 𝑊1 distance requires some modification) (𝑠: 密度関数の滑らかさ) [Kazusato Oko, Shunta Akiyama, Taiji Suzuki: Diffusion Models are Minimax Optimal Distribution Estimators. ICML2023]

is sufficiently smooth on the edge of the support Problem
setting 73 Assumption 1 The true distribution 𝑝0 is supported on −1,1 𝑑 and with 𝑠 > Τ 1 𝑝 − Τ 1 2 + as a density function on −1,1 𝑑. Assumption2 Very smooth Besov space Besov space (𝐵𝑝,𝑞 𝑠 (Ω)) Smoothness Spatial inhomogeneity

is sufficiently smooth on the edge of the support Problem
setting 74 Assumption 1 The true distribution 𝑝0 is supported on −1,1 𝑑 and with 𝑠 > Τ 1 𝑝 − Τ 1 2 + as a density function on −1,1 𝑑. Assumption2 Very smooth Besov space Besov space (𝐵𝑝,𝑞 𝑠 (Ω)) Smoothness Spatial inhomogeneity Intuition Smoothness Uniformity of smoothness

Convergence rate result 75 Theorem (Estimation error in TV-distance) Let
𝑇 = 𝑛−𝑂(1), 𝑇 = 𝑂(log(𝑛)). Then, the empirical risk minimizer Ƹ 𝑠 in DNN satisfies This is minimax optimal, that is, the worst case error is lower bounded as Although Ƹ 𝑠(𝑥, 𝑡) is a function with 𝑑 + 1-dimensional input, there appears “𝑑” in the bound instead of 𝑑 + 1. This is because Gaussian convolution makes the density smoother. 𝑇 𝑇

B-spline basis decomposition 76 Cardinal B-spline of order : →
Piece-wise polynomial of order m. • B-spline decomposition of a Besov function 𝑝0 Approximate each term by DNNs Tensor product B-spline:

Cardinal B-spline interpolation (DeVore & Popov, 1988) • Atomic decomposition:
77 such that (where ) (Norm equivalence) DNN can approximate each B-spline basis efficiently. (see also Bolcskei, Grohs, Kutyniok, Petersen: Optimal Approximation with Sparsely Connected Deep Neural Networks. 201 k=0 k=1 k=2 k=3 Scale j=1 j=1 j=2 j=1 j=2 j=3 j=4 𝛼0,1 𝛼1,1 𝛼1,2 𝛼2,1 𝛼2,4 𝛼2,3 𝛼2,2 Wavelet/multi-resolution expansion 𝑁 terms (should be appropriately chosen depending on 𝑓) 𝑓 ∈ 𝐵𝑝,𝑞 𝑠 can be decomposed into

Proof outline (1) 78 • B-spline decomposition of a Besov
function 𝑝0 Approximate each term by DNNs • Diffused B-spline basis expansion of 𝑝𝑡 Decompose =: 𝐸 𝑎𝑗,𝑏𝑗 (𝑥, 𝑡) Diffused B-spline ➢ We approximate Diffused B-splines by DNNs. 𝜇𝑡 = exp −𝑡 , 𝜎𝑡 2 = 1 − exp −2𝑡

Approximation error of Diffused B-spline 79 There exists a deep
neural network ෠ 𝜙: ℝ𝑑 × ℝ+ → ℝ𝑑 such that with depth 𝐿 = 𝑂 log4 𝜖−1 , width 𝑊𝑖 = 𝑂(log6(𝜖−1)), sparsity (# of non-zero parameters) 𝑆 = 𝑂(log(𝜖−1)), and ℓ∞-norm bound 𝐵 = 𝑂(exp(𝑂(log2 𝜖−1 ))) on parameters. Lemma (Approximation error of diffused B-spline) ≤ 𝑁−𝑠/𝑑 ≤ O(𝑒−𝐿) : Deep neural network

Error bound of score 80 Non-smooth Smooth Very smooth 𝑡
𝑇 𝑡∗ ത 𝑇 • Bound by diffused B-spline approximation • A tighter bound on the smooth part (𝑡 > 𝑡∗ ) (take 𝑘 = 𝑠 + 1) ➢ Similar argument is applied to 𝛻𝑝𝑡 : - Useful for W1 bound. - Smoothness around the edge (A2) is not requires.

Error decomposition 81 Score matching loss Truncation loss at 𝑇.
Truncation loss at 𝑇. 𝑇 𝑇 Bias Variance : Bias-variance trade off

Low dimensional structure 82 The estimated distribution is never absolutely
continuous to the target distribution. → Wasserstein distance The support of the target distribution is in a low dimensional subspace. ℝ𝑑 ℝ𝑑′

𝑾𝟏 -distance convergence rate 83 Theorem (Estimation error in W1-distance)
For any fixed 𝛿 > 0, by slightly changing the estimator, the empirical risk minimizer Ƹ 𝑠 in DNN satisfies This is also known as minimax optimal (up to 𝛿) [Niles-Weed & Berthet (2022)]. • 𝑑′ appears instead of 𝑑: Diffusion model can avoid curse of dimensionality. • The minimax rate of Wasserstein distance is faster than that of TV distance, which makes it difficult to establish the bound. ➢ We need more precise estimate of the score around 𝑡 = 0. (TV) (W1)

Bound for W1 distance 84 𝑡 𝑇 ത 𝑇 =
2𝐾∗ 𝑡∗ 𝑡∗ 2𝑡∗ 4𝑡∗ 𝑌 𝑇−𝑡 𝑖 𝑡 Ƹ 𝑠 𝛻log(𝑝𝑡 ) 𝑡𝑖 (= 2𝑖𝑡∗) (negligible) (exp(−𝑇)) , (true score) (estimated score)

Implementable discretization 85 Finite sample approximation • 𝑖𝑗 ∼ Unif({1,
… , n}) • 𝑡𝑗 ∼ Unif([𝑇, 𝑇]) • 𝑥𝑡𝑗,𝑗 ∼ 𝑝𝑡𝑗 (⋅ |𝑥𝑖𝑗 ) Prop is sufficient to attain the same convergence rate.

まとめ • 拡散モデルの概要を説明 ➢順過程・逆過程 ➢逆過程でスコア推定が必要 → 雑音予測ネット，スコアマッチング推定量を用いて対処 ➢変分上限による定式化と確率微分方程式による定式化は等価 •
理論解析 ➢スコア関数の推定誤差は真の分布と生成分布のKL- divergenceの上限を与える． ➢深層学習によるスコアマッチング推定量はミニマックス最適性を満たす． ➢かつ，分布の低次元構造を特定し，次元の呪いを回避する．拡散モデルは究極の手法か？ → おそらくそうではない．”簡単な分布”から”真の分布“へつなぐフローが構成できれば何でも良い (例: Flow matching, Schrodinger bridge)．とはいえ，有効なアプローチは限られている． (a) 学習可能性，(b) 計算可能性，(c) 拡張性 86

補足資料 87

Wasserstein距離について 𝜇, 𝜈:距離空間(𝒳, 𝑐)上の確率測度(通常𝒳はPoland空間) 88 周辺分布を固定した同時分布の中で最小化（双対表現: Kantorovich双対） • 分布のサポートがずれていてもwell-defined
• 底空間の距離が反映されている ※KL-divergenceは距離が反映されない． Π 𝜇, 𝜈 : 周辺分布が𝜇, 𝜈である𝒳 × 𝒳上の同時分布の集合「輸送距離」とも言われる

接ベクトル • 𝜌𝑡 = 𝑇𝑡# 𝜌0 • d𝑇𝑡 d𝑡 𝑤
= 𝑣𝑡 𝑇𝑡 𝑤 • ある𝜙𝑡 を用いて𝑣𝑡 = 𝛻𝜙𝑡 と書けるとする． 89 この時，以下が成り立つ: 定理詳細は以下を参照: Ambrosio, Gigli, and Savaré. Gradient Flows in Metric Spaces and in the Space of Probability Measures. Lectures in Mathematics. ETH Zürich. Birkhäuser Basel, 2008. 𝑇𝑡 𝑣𝑡

輸送写像 𝜌0 , 𝜌1 が確率密度関数を持つ時，以下が成り立つ: 90 • Infを達成する写像𝑇∗が存在する． • しかも，ある凸関数𝜓が存在して𝑇∗
𝑥 ∈ 𝜕𝜓 𝑥 と書ける． • この𝑇∗を最適輸送写像という．ただし，infは𝜌0 から𝜌1 へ連続の方程式で“繋ぐ” 全ての速度ベクトル場𝑣𝑡 に関して取る． • 𝜌𝑡 = 𝑇𝑡# 𝜌0 • d𝑇𝑡 d𝑡 𝑤 = 𝑣𝑡 𝑇𝑡 𝑤 Brenierの定理 Benamou-Brenier formula (連続の方程式と𝑊2 距離の関係): 同条件のもと 𝑇𝑡 𝑣𝑡 𝜌0 𝜌1

連続の方程式 91 「連続の方程式」 (∀𝑓: コンパクトサポート，𝐶∞-級) • ベクトル場𝑣𝑡 で生成される写像を𝑇𝑡 とする: d𝑇𝑡
d𝑡 𝑥 = 𝑣𝑡 𝑇𝑡 𝑥 . • 𝜇𝑡 は写像𝑇𝑡 : 𝑅𝑑 → 𝑅𝑑による𝜇0 の押し出し：𝜇𝑡 = 𝑇𝑡# 𝜇0 . つまり，𝒙 ∼ 𝝁𝟎 に対する𝑻𝒕 (𝒙)の分布が𝝁𝒕 ． [連続の方程式] (分布) この方程式の意味 (𝑡 = 0で導出: 𝑇0 = 𝐼 (恒等写像))

連続の方程式 92 「連続の方程式」 (∀𝑓: コンパクトサポート，𝐶∞-級) • ベクトル場𝑣𝑡 で生成される写像を𝑇𝑡 とする: d𝑇𝑡
d𝑡 𝑥 = 𝑣𝑡 𝑇𝑡 𝑥 . • 𝜇𝑡 は写像𝑇𝑡 : 𝑅𝑑 → 𝑅𝑑による𝜇0 の押し出し：𝜇𝑡 = 𝑇𝑡# 𝜇0 . つまり，𝒙 ∼ 𝝁𝟎 に対する𝑻𝒕 (𝒙)の分布が𝝁𝒕 ． (分布) この方程式の意味 (一般の𝑡)

OU過程の収束 93

ガウシアン対数Sobolev不等式 94 • OU-過程の収束を示す． 𝑝∗ 𝑥 ∝ exp(−𝑥2/2) (標準正規分布) (𝑈
𝑥 = 𝑥2/2, 𝜆 = 1) 𝑝∗ 𝑥 ∝ exp(−𝑥2/2)とする (標準正規分布)．任意の確率密度関数𝑝に対して，次の不等式が成り立つ: 定理 (ガウシアン対数ソボレフ不等式) よって，線形収束！勾配流のところで出たPL-条件に対応

ガウシアン対数ソボレフ不等式の証明 95 ：OU-過程の生成作用素 • 𝜕𝑡 𝑃𝑡 𝑓 = 𝑃𝑡 ℒ𝑓
(生成作用素の性質) • 𝑃𝑡 𝑃𝑠 𝑓 = 𝑃𝑡+𝑠 𝑓 (半群性) 𝑝𝑡 (⋅ |𝑋0 = 𝑥)の形より，特に，両辺絶対値を取って，今，𝜓 𝑟 = 𝑟log(𝑟)に対して，とする． ⋯（１）性質証明の方法は何通りもある．ここでは，半群を用いた方法で示す．

(証明続き) 96 すると，生成作用素の性質より，𝑔 = 𝑃𝑡−𝑠 𝑓に対して，今，前ページの式(1)より，であるが，コーシーシュワルツの不等式からさらに右辺はと抑えられるので，式(2)の右辺は次のように抑えられる: ⋯（２）
(半群性)

(証明続き) 97 よって，両辺を𝑠に関して[0, 𝑡]の間で積分すると，を得る． 𝑝𝑡 (⋅ |𝑋0 = 𝑥)の形から，(適当な可積分性のもと)
なので，両辺𝑡 → ∞とすると，を得る．最後に，を代入すれば，KL(𝑝| 𝑝∗ ≤ 1 2 𝐼(𝑝||𝑝∗)を得る．証明終

GLDの離散時間収束 98

離散時間ダイナミクスの収束レート 99 定理 (informal) [Raginsky, Rakhlin and Telgarsky, 2017; Xu,
Chen, Zou, and Gu, 2018; Erdogdu, Mackey and Shamir, 2018] 過程: 𝐿 は𝑀-平滑: • ただし，一般には対数ソボレフ不等式は𝜆−1に指数的に依存することに注意．（そうでない場合もある：強凸目的関数，Weak Morse関数） • 温度パラメータ𝜆が十分小さければ，目的関数が非凸でも最適解の近くに到達できる． where 𝑐, 𝑐𝐶𝐿𝑆,𝛽,𝑑 > 0 are constants. 幾何的エルゴード性時間離散化の誤差 𝐸𝜋∞ 𝐿 𝑋 − 𝐿(𝑋∗) [Vempala and Wibisono, 2019] 定理散逸性と平滑性の条件のもと (and other technical condition), 定常分布が最適解まわりにどれだけ集中しているか (𝜆 = 1としている)

時間離散化 + 確率的分散縮小勾配法 100 定常分布: 計算にO(n)かかる (大規模データで困る) → 確率的勾配を用いる ෨
𝛻𝑘 = 1 𝐵 σ𝑖∈𝐼𝑘 𝛻𝑓𝑖 (𝑋𝑘 ) ➢ 全勾配は計算に時間がかかる→確率的勾配を用いる． ➢ 確率的勾配は分散が大きい→分散縮小法(SVRG,SARAH)と組み合わせる．連続時間SDE: 離散時間近似 (Euler-Maruyama近似): 分散縮小型確率的勾配: GLDはノイズを加えつつ最適化するので，分散縮小とやや相性が悪い． SVRG: SARAH: ※ ෨ 𝑋, ෨ 𝛻𝑘 はm回に一回更新する．(𝑚 = 𝑛でOK) 研究紹介

分散縮小勾配法の収束レート 101 • Vempala&Wibisono (2019): 非確率的勾配 • Our result: 確率的勾配+分散縮小法
： 𝒏倍高速勾配計算量勾配計算量対数ソボレフ不等式 + 滑らかさの仮定の下， KL-divergenceの意味での収束が分散縮小型確率的勾配を用いることで高速化できることを証明． ➢ KL-divergenceは“強いノルム”． ➢ 目的関数の性質を対数ソボレフ不等式の定数に集約できる．結果：意義： 𝐷(𝜇𝑡 | 𝜈 ≤ 𝜖までの計算量 “Weak Morse”条件における対数ソボレフ定数も導出実は一般的に対数ソボレフ定数は逆温度パラメータ𝛾へ指数的に依存． → Weak Morse条件では多項式オーダーに緩和される． • 0 < ∃𝜆+ ≤(任意の停留点のHessianの固有値の絶対値) • 大域的最適解以外の停留点は全て鞍点かつ最小固有値が−𝜆+以下研究紹介

102 研究紹介提案手法

拡散モデルチュートリアル

拡散モデルチュートリアル

More Decks by Taiji Suzuki

Other Decks in Technology

Featured

Transcript