Slide 1

Slide 1 text

学術変革領域研究(A) 「学習物理学の創成」領域会議 拡散モデルチュートリアル(+α) 1 鈴木大慈 東京大学 / 理研AIP 2023年9月25日@東大小柴ホール

Slide 2

Slide 2 text

鈴木大慈 2 所属 ➢ 東京大学大学院情報理工学系研究科数理情報学専攻・准教授 ➢ 東大次世代知能科学研究センター研究部門研究者(研究知能部門) ➢ 理化学研究所 革新知能統合研究センター 深層学習理論チーム チームリーダー 専門 ➢ 機械学習,数理統計学,統計的学習理論 解釈可能性: 説明可能性,データの可視化,メンテナ ンスの容易化 各種テクニックの解析: アーキテクチャの解析,損失関数の設計, 最適化技法の解析 深層学習の原理解明: 「表現理論」「汎化誤差理論」「最適化 理論」 学習の本質解明: “良い”学習手法の特徴付け,統一理論, 深層学習を優越する方法論の提唱 応用 基礎 鈴木大慈 情報理工学系研究科 確率論 幾何学 関数解析 最適化理論 数学 数理統計 スパース推定 関連する機械学習理論 特徴抽出 カーネル法 深層学習の理論 主な研究内容 ➢ 深層学習を含む様々な学習機構について理論的側面から研究を進め ています.学習理論を通じて各種学習手法の汎化性能や学習アルゴ リズムの収束性能を解明し複雑な学習過程の本質への理解を深め, 理論をもとに新しい機械学習手法の構築や応用への還元を行ってい ます.また,確率的最適化などの方法により大規模かつ複雑な機械 学習問題を効率的に解く手法の開発も行っています. 著書/授賞 ➢『確率的最適化(機械学習プロフェッショナルシリーズ)』講談社,2015年 8月8日. ➢金森敬文,鈴木大慈,竹内一郎,佐藤一誠:『機械学習のための連続最適化 (機械学習プロフェッショナルシリーズ)』講談社,2016年12月7日. ➢文部科学大臣表彰・若手科学者賞「深層学習の原理解明に向けた統計的学習 理論の研究」.文部科学省,2020年4月7日. ➢第11回日本統計学会研究業績賞 (2017年度).2017年9月5日. ➢Satoshi Hayakawa and Taiji Suzuki:日本神経回路学会論文賞.日本神経回 路学会,2021年9月23日. ➢日本応用数理学会,ベストオーサー賞(論文部門).2019年9月4日. 研究室URLとメール連絡先 ➢ http://ibis.t.u-tokyo.ac.jp/suzuki/ ➢ [email protected]

Slide 3

Slide 3 text

DALL·E/DALL·E 2 3 「An astronaut riding a horse in a photorealistic style」 文章による説明から画像を生成するモデル DALL·E: [Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever: Zero-Shot Text-to-Image Generation. ICML2021.] DALL·E2:[Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen: Hierarchical Text- Conditional Image Generation with CLIP Latents. arXiv:2204.06125]

Slide 4

Slide 4 text

4 「Teddy bears shopping for groceries in the style of ukiyo-e」

Slide 5

Slide 5 text

他の作例 5 Jason Allen "Théâtre D'opéra Spatial“ generated by Midjourney. Colorado State Fair’s fine art competition, 1st prize in digital art category Generated by NovelAI その他,たんぱく質の生成 (Baker’s lab (https://www.bakerlab.org/2023/07/11/diffusion- model-for-protein-design/)),音声合成など.

Slide 6

Slide 6 text

拡散モデルの概要 6 元の分布 潜在変数(ノイズ)の分布 (正規分布) 復元された分布 [Song et al.: SCORE-BASED GENERATIVE MODELING THROUGH STOCHASTIC DIFFERENTIAL EQUATIONS. ICLR2021. 順過程: 逆過程: 元の分布に徐々にノイズを混ぜてサンプリングが簡単な 潜在分布 (正規分布) に変換してゆく確率過程. 潜在分布(正規分布)から順過程を逆再生して元の分布を 生成する確率過程. ⇒ ノイズを除去しているように見えることからDenoising diffusion probability model (DDPM) とも言われる.

Slide 7

Slide 7 text

拡散モデル = 分布推定 + サンプリング 7 出やすい(自然な画像) 出にくい(不自然な画像) 正規分布

Slide 8

Slide 8 text

トイデータ例 8 [https://github.com/Kei18/tiny-tiny-diffusion] 注意:最後の恐竜が生成された画像なのではなくて,各座標が一つ の画像に対応.恐竜の形は分布のサポートの形. 恐竜型の分布を再現

Slide 9

Slide 9 text

変分オートエンコーダとの関係 9 入力:𝑥 潜在変数:𝑧 出力:𝑦 𝑦の分布が𝑥の分布に 近くなるようにネッ トワークを学習 [Kingma, Welling: Auto-Encoding Variational Bayes. 2014.]

Slide 10

Slide 10 text

VAEとの関係 10 元の分布 潜在変数(ノイズ)の分布 (正規分布) 復元された分布 ・・・ ・・・ VAE [Song et al.: SCORE-BASED GENERATIVE MODELING THROUGH STOCHASTIC DIFFERENTIAL EQUATIONS. ICLR2021.

Slide 11

Slide 11 text

Denoising Diffusion Probabilistic Model • 離散時間の順過程・逆過程の導入 • 変分推論による推定法の導出 11 [Sohl-Dickstein et al.: Deep Unsupervised Learning using Nonequilibrium Thermodynamics. ICML2015] [Ho et al.: Denoising Diffusion Probabilistic Models. NeurIPS2020] [Song et al.: Score-Based Generative Modeling through Stochastic Differential Equations. ICLR2021] 徐々にノイズを添加する ノイズを除去する過程を近似

Slide 12

Slide 12 text

順過程 12 𝑥0 𝑥1 𝑥2 𝑥𝑡 • 1ステップ更新 • 𝒕ステップ更新の条件付分布 (平均,分散) ➢ ➢ ➢ ➢ ത 𝛼𝑡 → 0 (𝑡 → ∞) とすることで,𝑥𝑡 は𝑁(0, 𝐼)に分布収束する. ⇒ 元の複雑な分布からサンプリングしやすい標準正規分布に変換 𝛽1 = 10−4, 𝛽𝑇 = 0.02 として,間を線形に補完 したものを用いたりする. 𝑡 = 0 𝑡 = 𝑇 (※𝑥1 の分散が1なら𝑥𝑡 の分散も1)

Slide 13

Slide 13 text

分布収束の様子 13 Fig from [Vahdat, Kreis, Kautz: Score-based Generative Modeling in Latent Space. arXiv:2106.05931] modified. 周辺分布 ほぼ正規分布 逆過程:ほぼ正規分布の𝑝(𝑥𝑇 )から元の分布に戻す.

Slide 14

Slide 14 text

逆過程 14 𝑥0 𝑥1 𝑥2 𝑥𝑡 これを陽に記述することは難しい ⇒ 𝛽𝑡 ≃ 0の極限では正規分布で近似できる. 逆過程の1ステップ分布更新式: 𝛽𝑡 = 2d𝑡とすると, (正規分布近似) の形で近似 学習可能ネットワークで推定 (U-Net等) 実際, (後で出てくる確率微分方程式による定式化と一致)

Slide 15

Slide 15 text

逆過程モデル (雑音除去モデル) の学習 • 変分推論による方法 [Sohl-Dickstein et al. (2015), Ho et al. (2020)] 15 負の対数尤度 変分上限 ➢ 𝑥0 , 𝑥𝑡 で条件付けた𝑥𝑡−1 の分布は正規分布: ただし ➢ 𝑝𝜃 (𝑥𝑡−1 |𝑥𝑡 )を正規分布でモデリング: ⇒ 𝐿𝑡 が陽に求まる! (次ページ)

Slide 16

Slide 16 text

変分上限の導出 16 • 真の平均: • 雑音予測ネットワーク (noise-prediction network): 学習可能ネットワーク (NPN) [Ho et al. (2020)] 特に,以下のように具体的に書き下せる: 𝑥𝑡 𝒙𝟎 は訓練データの経験分布,時刻𝒕は[𝟏, 𝑻]上の一様分布,𝝐は標準正規分布 からサンプリングして変分上限(の近似値)を求め,それを最小化すればよい. 𝑥𝑡 で条件付けているので, 𝑥𝑡 と相関がある. → 予測できる.

Slide 17

Slide 17 text

実際のネットワーク構造 • U-Net [Olaf, Fischer, Brox: U-Net: Convolutional Networks for Biomedical Image Segmentation. MICCAI 2015] 17 ➢ 画像のsegmentationなどで標準的なネットワーク ➢ 画像生成用の拡散モデルではスコア関数 𝑡, 𝑥 ↦ 𝜖𝜃 (𝑥, 𝑡)のモデ ルとして最も多く利用されている. U-Net 𝑥𝑡 𝜖𝜃 (𝑥, 𝑡) 𝑡 • 時刻𝑡の表現はsinusoidal position embeddingやFourier特徴量などを用いる. • 時刻の表現をFNNに通して,各Residual blockに足したり,adaptive group normalizationを適用したりする. 時刻の表現 FNN [Ho et al. (2020); Kingma et al. (2021)] [Dharivwal and Nichol (2021)] (拡散モデルで用いるU-NetはAttention layerが入ったりして修正されている)

Slide 18

Slide 18 text

確率微分方程式による特徴づけ 18 これまでの導出は比較的アドホックな導出で,数学的な背景が弱かった. しかし,確率微分方程式によるより一貫した特徴づけが可能である. [Song et al.: Score-Based Generative Modeling through Stochastic Differential Equations. ICLR2021.]

Slide 19

Slide 19 text

微分方程式 • まずは「微分方程式」から始める. 19 意味: • 𝑁回和を取ると (Δ𝑡 = 𝑡/𝑀): • 𝑀 → ∞とすると: とも書く. 積分表示

Slide 20

Slide 20 text

例:勾配流(勾配降下法) • 関数𝑈(𝑥)を最小化したい. 20 とする:再急降下方向.⇒ 「勾配流」 勾配が0にならない限り𝑈(𝑥𝑡 )は減少し続ける. Polyak– Lojasiewicz 条件: 例:二次関数 𝑈(𝑥) = 𝑥2 (PL-条件) 線形収束 (𝛼 > 0)

Slide 21

Slide 21 text

「確率」微分方程式 • 各更新ステップで”ノイズ”を加える: 21 (スモールオーダーの項は無視) 𝜎𝑡 : ノイズの大きさを調整 :標準正規分布 (Δ𝑡 → 0) ※ Δ𝑡 → 0として何らかの意味で “収束”するかは自明ではない. しかし,伊藤の等長性を用いて 「伊藤積分」として厳密に定義 できる. (正規分布の性質より) 𝑀個 • • (Δ𝑡 = 𝑡/𝑀) ➢ 𝑓 = 0, 𝜎𝑡 = 1の場合 𝑀の選び方によらず不変 ブラウン運動

Slide 22

Slide 22 text

ブラウン運動 1. 𝐵0 = 0 2. 任意の0 = 𝑡0 < 𝑡1 < ⋯ < 𝑡𝑛 に対して, 𝐵𝑡𝑘 − 𝐵𝑡𝑘−1 𝑘 = 1, … , 𝑛 は互いに独立 3. 任意の𝑡 > 𝑠 ≥ 0に対して, 𝐵𝑡 − 𝐵𝑠 ∼ 𝑁(0, 𝑡 − 𝑠) 22 さらに,「4. 標本路𝑡 ↦ 𝐵𝑡 は確率1で連続」を加えたものがブラウン運動の定義. 𝐵𝑡+Δ𝑡 − 𝐵𝑡 ∼ 𝑁(0, Δ𝑡) 𝐵𝑡+Δ𝑡 − 𝐵𝑡 = Δ𝑡𝜉𝑡 (𝜉𝑡 ∼ 𝑁(0,1)) 特に つまり

Slide 23

Slide 23 text

23

Slide 24

Slide 24 text

確率微分方程式 24 (Δ𝑡 → 0) (Δ𝑡 → 0; 𝑀 → ∞) (Δ𝑡 = 𝑡/𝑀) と書く と見做せるが,実際は微分できないので積分で定義. とも書く (伊藤積分)

Slide 25

Slide 25 text

生成作用素 25 𝑝𝑡 : 𝑋𝑡 の確率密度関数 期待値: ただし,𝜉 ∼ 𝑁(0,1)で𝑋𝑡 とは独立. • • 1/2 期待値=0 期待値=1 テイラー展開 (二階微分が残るのがSDE特有)

Slide 26

Slide 26 text

• 通常の微分方程式 26 の場合は, となる.⇒ 二階微分は出てこない. ➢ 二階微分はブラウン運動の確率的な揺らぎから出てくる.

Slide 27

Slide 27 text

Fokker-Planck方程式 27 でもある. 部分積分 Fokker-Planck方程式 [𝑝𝑡 の時間発展を記述した偏微分方程式]: 多変量の場合:

Slide 28

Slide 28 text

Ornstein–Uhlenbeck 過程 (OU-過程)28 (𝑣𝑡 (𝑥) = −𝑥, 𝜎𝑡 = 2) FP-方程式: 解 (平均: 𝑥0 𝑒−𝑡, 分散: 1 − 𝑒−2𝑡) 𝑋0 ∼ 𝑝0 の場合: • 初期値𝑥0 を指数関数的オーダーで忘れていく. • 指数関数的速さで標準正規分布𝑵(𝟎, 𝟏)に近づいていく. (これが拡散モデルの順過程に対応) (𝑋0 = 𝑥0 定数ではなく) ※ 実際,KL(𝒑𝒕 ||𝑵 𝟎, 𝑰 ) ≤ exp(−𝟐𝒕)KL(𝒑𝟎 ||𝑵 𝟎, 𝑰 )が成り立つ.(LSI条件)

Slide 29

Slide 29 text

数値実験 29

Slide 30

Slide 30 text

一般化:勾配ランジュバン動力学 • 勾配ランジュバン動力学 (多次元版) 30 定常分布: (勾配ランジュバン動力学) 𝜆: 温度パラメータ [Gelfand and Mitter (1991); Borkar and Mitter (1999); Welling and Teh (2011)] Gradient Langevin Dynamics (GLD) 非凸最適化: サンプリング: なる分布からサンプリングしたい. 𝜇∗からのサンプリングはmin 𝑥 𝐿(𝑥)を近似的に解くことも出来る. 例:𝐿 𝑥 = 𝑥2 2 , 𝜆 = 1とすればOU-過程.

Slide 31

Slide 31 text

GLDのFokker-Planck方程式 31 Vector field:𝑣𝑡 Mass: 𝜇𝑡 (𝑥) : 𝑋𝑡 の分布の確率密度関数 Fokker-Planck方程式 次のように解釈できる: −𝑣𝑡 とおく [連続の方程式]

Slide 32

Slide 32 text

定常分布 32 実は,これは以下の目的関数を最小化するWasserstein勾配流である: 定常分布: 𝜕𝑡 𝜇𝑡 = 0 ⇒ 𝑣𝑡 = 0 (分布がこれ以上動かない) 確かにこの最適解は定常分布と等しい: 𝐿を最小化 ガウスノイズによって 分布を拡散させる力 = 𝑣𝑡

Slide 33

Slide 33 text

Wasserstein勾配流 33 以下,無視 連続の方程式 𝜇𝑡 = −𝛻 ⋅ [𝑣𝑡 𝜇𝑡 ] に従っているなら

Slide 34

Slide 34 text

Wasserstein勾配流 34 特に は最急降下方向となり,以下が成り立つ. 定常分布𝝁∗からのKL-divを最小化するWasserstein勾配流 (GLD) Fisher divergence: =: −𝑣𝑡

Slide 35

Slide 35 text

対数ソボレフ不等式と幾何的エルゴード性 35 定常分布 [Bakry, Gentil, and Ledoux: Analysis and Geometry of Markov Diffusion Operators. Springer, 2014. Th. 5.2.1] 定義 (対数ソボレフ不等式 (𝝁∗の性質)) 幾何的エルゴード性 𝜇𝑡 : 𝑋𝑡 の周辺分布 定常分布へKL-divergenceの意味で線形収束 ある𝛼 > 0が存在して, 任意の(𝜇∗に対して絶対連続な)確率分布𝜈に対し, 例: • 二次関数+有界関数 • Weak Morse型関数 KL-div Fisher-div (対数ソボレフより)

Slide 36

Slide 36 text

対数ソボレフ不等式の十分条件 36 Bounded perturbation lemma (Hollley-Stroock): [R. Holley and D. Stroock. Logarithmic sobolev inequalities and stochastic Ising models. Journal of statistical physics, 46(5- 6):1159–1194, 1987.] 𝛻𝛻⊤𝐿 𝑥 ≽ 𝜇𝐼 ⇒ 強凸な場合: [Bakry and Émery, 1985] 例:OU-過程.𝐿 𝑥 = 𝑥2 2 , 𝜆 = 1なので,𝛼 = 1で成り立つ. 「𝛻𝛻⊤𝐿 𝑥 ≽ 𝜇𝐼」 ⇔ 「𝑢⊤𝛻𝛻⊤𝐿 𝑥 𝑢 ≽ 𝜇 𝑢 2」 (正定値対称行列)

Slide 37

Slide 37 text

37 𝑈 𝑥 = 𝑥4 − 𝑥2, 𝜆 = 0.08

Slide 38

Slide 38 text

密度推定してからGLD走らせれば? • 拡散モデルは多峰な分布からのサンプリングがしやすい. ➢「簡単な分布」→「難しい分布」へと変化していくことで偏りなくサ ンプリングできる. 38 EBMのように直接ターゲットの分布のスコ アを推定してからGLDなどでサンプリング しようとすると谷を乗り越えられない. • 元の分布のスコアは複雑でも,拡散させた𝑋𝑡 の分布は滑らか →推定しやすい→汎化しやすい. • ノイズから元分布への写像を直接End-to-endで学習するのではなく中 間的な分布𝑝𝑡 の情報を用いるので学習が安定する. 例:Energy based model: 𝛻log(𝑝(𝑥0 ))を直接推定. [Gao et al. ICLR2021]

Slide 39

Slide 39 text

拡散モデルに話をもどす. 39

Slide 40

Slide 40 text

確率過程による定式化 40 順過程:所望の分布を正規分布に変換していく (OU-過程). 逆過程:正規分布 (ノイズの分布) から逆にたどって所望の分布に逆変換していく. [Vahdat, Kreis, Kautz: Score-based Generative Modeling in Latent Space. arXiv:2106.05931] (𝑌𝑡 ∼ 𝑋 𝑇−𝑡 ) [Sohl-Dickstein et al., 2015; Song & Ermon, 2019; Song et al., 2020; Ho et al., 2020; Vahdat et al., 2021]

Slide 41

Slide 41 text

順過程 41 順過程: ただし,𝜇𝑡 = exp −𝑡 , 𝜎𝑡 2 = 1 − exp −2𝑡 . OU-過程 GLDの一般論より,順過程は指数関数的に標準正規分布に近づく. [Vahdat, Kreis, Kautz: Score-based Generative Modeling in Latent Space. arXiv:2106.05931] 𝑝𝑡 を𝑋𝑡 の確率密度関数とする. 形がわかっている! 𝒙𝟎 が与えられれば𝒙𝒕 の サンプリングも可能 元の分布 標準正規分布 OU-過程

Slide 42

Slide 42 text

逆過程 42 逆過程: [Haussmann & Pardoux, 1986] 事実:𝑌𝑡 の分布=𝑋ത 𝑇−𝑡 の分布 順過程を逆にたどることによって,(ほぼ)正規分布に従う確率変数を 徐々に修正して元の画像の分布に従う確率変数を得ることができる. (𝑡 ∈ [0, ത 𝑇]) すなわち,𝑌𝑡 ∼ 𝑝 𝑇−𝑡 𝑌0 ∼ 𝑝 𝑇 こっちから始める こっちで終わる

Slide 43

Slide 43 text

前向き・後ろ向きFokker-Planck方程式43 (part1より) : 時刻𝑠での値を𝑋𝑠 = 𝑥で条件付けた時刻𝑡における𝑋𝑡 の確率密度. • 前向き方程式 • 後向き方程式 (後ろ向き方程式の確認) (∵生成作用素 (part1より)) 参考

Slide 44

Slide 44 text

逆向きSDEの導出 44 (𝑠 < 𝑡を想定) 参考

Slide 45

Slide 45 text

45 これはドリフト項が − 𝑏 − 2𝛻𝑥 log 𝑝 𝑠, 𝑥 = 𝑥 + 2𝛻𝑥 log(𝜇𝑠 (𝑥)) かつ𝜎𝑡 2 = 2の拡散過程の前向きFK-方程式に他ならない. 時間を反転させて,d ǁ 𝑠 ← −d𝑠とすると, まとめると, ǁ 𝑠 → 0とすることで,時刻0における分布を得ることができる. つまり,ドリフト項をデータから推定し,逆過程を走らせることでデータの分 布からのサンプリングができるようになる. 参考

Slide 46

Slide 46 text

スコアの推定 46 逆過程: ⇒ 𝑌𝑡 ∼ 𝑝 𝑇−𝑡 [Haussmann & Pardoux, 1986] (未知) 定理 (Girsanov’s theorem) ⇒ スコア関数𝛻log(𝑝𝑡 )をできるだけ正確に推定できれば良い. 近似モデル (生成モデル): (未知) (𝑝 𝑇 は𝑁(0, 𝐼)に十分近い) ෠ 𝑌ത 𝑇 を生成画像として用いる. (𝑡 ∈ [0, ത 𝑇]) (𝑡 ∈ [0, ത 𝑇])

Slide 47

Slide 47 text

スコアマッチング 47 未知,計算できない.計算できるものに置き換えたい. (𝑋ത 𝑇−𝑡 と𝑌𝑡 は同じ分布)

Slide 48

Slide 48 text

スコアマッチング 48 (前ページの導出より)

Slide 49

Slide 49 text

スコアマッチング 49 観測値 (𝑛データ点, 𝐷𝑛 = 𝑥𝑖 𝑖=1 𝑛 ): 経験スコアマッチング損失: 陽に求まる (正規分布の密度より) 条件付分布はOU過程からサンプリングできる を解けばよい. しかし,𝑋0 の分布を知らないので𝑋0 による期待値は取れない. → サンプル平均で代用する (有限データからの学習). (正規分布)

Slide 50

Slide 50 text

経験スコアマッチングとDDPMの関係 50 • スコア関数: • 推定モデル: (前ページ参照; 条件付分布はガウス分布) Denoising diffusion probability modelの変分上限と一致! [Vincent, Neural Computation 2011][Song and Ermon, NeurIPS2019][Song et al. ICLR2021.] とする.

Slide 51

Slide 51 text

これまでのまとめ • 順過程: 51 (OU-過程) • 逆過程 (reverse SDE): Fokker-Planck方程式: ǁ 𝑡を逆向き時間として (𝑡 = ∞ → 𝑡 = 0へ向かう) 標準正規分布へ向かう勾配ランジュバン動力学 𝑡小 𝑡大 ǁ 𝑡大 ǁ 𝑡小 順 逆 d𝑡 = −d ǁ 𝑡 ➢ 変分推論による推定とスコア関数の推定 (Girsanovの定理経由) は一致する.

Slide 52

Slide 52 text

Latent diffusion model • 低次元潜在変数の空間で拡散モデルを走らせる. ➢計算量を削減できる. ➢汎化誤差の意味でも意義があると考えられる. ➢Stable diffusionで用いられている. 52 低次元潜在空間 [Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." CVPR2022.] 潜在空間にエンコード 潜在空間からもとの空間(画像)にデコード

Slide 53

Slide 53 text

逆向きSDEを走らせる代わりに, とし てこのODEを走らせても良い. ODEに変換 • Probability flow ODE (PF-ODE) 53 逆向きSDEのFP-方程式 = −𝑣𝑡 (𝑦) この偏微分方程式は以下のODEに対応する連続の方程式である:

Slide 54

Slide 54 text

PF-ODEを使った手法 54 1. Song, Meng, Ermon: Denoising Diffusion Implicit Models. ICLR2021. 2. Karas et al.: Elucidating the Design Space of Diffusion-Based Generative Models. NeurIPS2022 3. Lu et al.: DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps. NeurIPS2022. 4. Liu et al.: Pseudo Numerical Methods for Diffusion Models on Manifolds. ICLR2022. 5. Dockhorn, Vahdat, Kreis: GENIE: Higher-Order Denoising Diffusion Solvers. NeurIPS2022. 様々な解法が提案されている. • ナイーブに実装すると時間離散化誤差が強く影響 [2]. • 拡散モデル用に実装を工夫する必要がある [3,4,5]. ➢ 線形多段法 [4],Heun法 [2],変形exp-Runge-Kutta法 [3],高次漸近展開 [5] • スコアの推定誤差には鋭敏かもしれない. ← 計算を工夫したODE型の方法は ステップ数を減らしても誤差が発 散しにくい.

Slide 55

Slide 55 text

• 理論:ODEベースの手法の方が「速い」 (離散化誤差が小さい) 55 ➢ Chen et al.: The probability flow ODE is provably fast. 2023. ➢ Li et al.: Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative Models. 2023. SDE手法:O(1/𝑇) ODE手法:O(1/𝑇2) (𝑇は離散化後のステップ数)

Slide 56

Slide 56 text

条件付分布からの生成 56

Slide 57

Slide 57 text

条件付き分布からの生成 57 「An astronaut riding a horse in a photorealistic style」 DALL·E: [Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever: Zero-Shot Text-to-Image Generation. ICML2021.] DALL·E2:[Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen: Hierarchical Text- Conditional Image Generation with CLIP Latents. arXiv:2204.06125]

Slide 58

Slide 58 text

Classifier guidance 58 • クラスラベル𝑐で条件付けた拡散モデル 通常の拡散モデルで推定 判別器を学習して近似 Classifier guidanceありの雑音推定モデル [Dhariwal, Nichol: Diffusion Models Beat GANs on Image Synthesis. NeurIPS2021] (鈴木註: この導出は数学的に怪しい) 𝜔: scaling parameter 𝜔というスケーリングパ ラメータを入れることで クラスの個性をより強く 反映させられる.

Slide 59

Slide 59 text

Classifier-free guidance 59 [Ho, Salimans: Classifier-Free Diffusion Guidance. 2021] 条件付けた拡散モデル 条件付けない拡散モデル Classifier guidanceでは別途分類器𝑝𝜙 (𝑐|𝑥)を学習する必要があった. → 分類器を用意せずに単一のネットワークで何とかしたい. • スケールを入れたスコア関数 • 修正されたノイズ予測ネットワーク (Classifier-free guidance) ※ 条件付けない状況は𝑐 = 0として扱うことで単一モデルによる学習を実現 • 条件付モデルと非条件付モデル (𝜖𝜃 (𝑥, 𝑡, 𝑐)と𝜖𝜃 (𝑥, 𝑡, 0)) は𝑐をランダムに0にするこ とで同時に学習. → 分類器を別に学習する必要もないし,コードを少し変えるだけで済む.

Slide 60

Slide 60 text

文章での条件付け (概略) 60 画像 エンコーダ 画像 デコーダ 画像をエンコード したベクトル ベクトルから 画像を復元 文章 「芝の上の犬」 文章 エンコーダ 文章をエンコード したベクトル 対応するように エンコーダを学習 画像生成時 [CLIP] 同様の考え方が翻訳など,ほとんどの 深層学習モデルで使われている. [Nichole et al: GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. 2021] (OpenAI) [拡散モデル]

Slide 61

Slide 61 text

CLIP 61 テキスト 画像 テキスト1の埋め込み テキストNの埋め込み 画像Nの埋め込み 画像1の埋め込み [Radford et al.: Learning Transferable Visual Models From Natural Language Supervision. 2021] • Contrastive cross-entropy loss: これを最小化するようにエンコーダー𝑓, 𝑔を学習. 𝑓 𝑔 要は同じ内容を表す画像とテキストは内積が大きくなるようにエンコーダーを学習. (𝑁: ミニバッチサイズ)

Slide 62

Slide 62 text

DALL·E 2 62 [Ramesh et al.: Hierarchical Text-Conditional Image Generation with CLIP Latents. 2022] [エンコーダーの学習] • 画像とテキストはCLIPでエンコード

Slide 63

Slide 63 text

DALL·E 2 63 [Ramesh et al.: Hierarchical Text-Conditional Image Generation with CLIP Latents. 2022] [生成時] • Prior: テキストのCLIP埋め込みベクトル𝑦から画像のCLIP埋め込みベクトル𝑧を復元 ➢ ① 𝑦から離散的なコードの列を自己回帰的生成して量子化された𝑧を予測 ➢ ② 𝑦で条件付けた拡散モデルを用いて𝑧を生成 • Decoder: 復元されたzから本来の画像を生成 (③Cascade拡散モデル) ➢ (3-1) 通常の𝑧で条件付けた拡散モデル: 64x64 → 64x64 ➢ (3-2) Diffusion upsampler model: 64x64→256x256,256x256→1024x1024 (Classifier-free guidance) (←Super-Resolution via Repeated Refinement (SR3) [Saharia et al. 2021]) ① ② ③ 3-1 3-2 𝑦 𝑧 (Classifier-free guidance)

Slide 64

Slide 64 text

Fine tuning • LoRA (Low-Rank Adaptation) 64 [Hu et al. LoRA: Low-rank adaptation of large language models. 2021] Stable diffusionでLoRAを用いた例 Cyberpunk 2077 Tarot card Shukezouma (中国の水彩画調) https://stable-diffusion-art.com/lora/

Slide 65

Slide 65 text

Fine tuning • LoRA (Low-Rank Adaptation) 65 [Hu et al. LoRA: Low-rank adaptation of large language models. 2021] • もとはTransformer型大規模言語モデルの (自己注意機構の) fine tuning手法として提案された. • 元のネットワークの重みに低ランク行列を足すことで微調整. ෩ 𝑊 ← 𝑊 + 𝐴𝐵 元ネットワークの重みは固定して,低ランク行列A, Bのみ追加学習. ResNet Attention ResNet Attention ResNet Attention ResNet ResNet Attention ResNet Attention 時刻の埋め込み プロンプトの埋め込み • 右図のU-NetのAttention モジュールにLoRAを適用. より詳しくは「誰でもわかるStable Diffusion Kohya_ssを使ったLoRA学習設定を徹底解 説」が分かりやすい. https://hoshikat.hatenablog.com/entry/2023/05/26/223229#Lo RA%E3%81%AE%E4%BB%95%E7%B5%84%E3%81%BF%E3%82%92% E7%9F%A5%E3%82%8D%E3%81%86

Slide 66

Slide 66 text

関連手法 66

Slide 67

Slide 67 text

Flow matching 67 Lipman et al.: Flow Matching for Generative Modeling. ICLR2023. 𝑡 = 0 𝑡 = 1 • 𝑝1 𝑥 𝑥1 = 𝑁 0, 𝜎𝑥1 2 ≃ 𝛿𝑥1 (𝑥) • 𝑝0 𝑥 𝑥1 = 𝑁(0, 𝐼) ➢ 𝑢𝑡 (𝑥|𝑥1 ): 𝑝0 𝑥 𝑥1 と𝑝1 𝑥 𝑥1 を結ぶ(最適輸送)フロー(解析的に求まると仮定) (連続の方程式) 𝑥1 ෤ 𝑥1 𝑡 DNN 条件付分布のフローを用いて, “周辺分布”のフローが推定できる: 真の分布 “簡単な”分布 「Flow matching」 ➢ 𝑣𝑡 は𝑝0 (𝑥)から𝑝1 (𝑥)を結ぶフロー 𝑝0 で𝑥を生成して,𝑣𝑡 に従って𝑡 = 1まで 運ぶ→ 𝑝1 に従うサンプルが得られる. (正規分布である必要はない,輸送フローが計算できてサンプリングできれば良い. 𝑥1 に依存しない) 𝑝0 (𝑥) 𝑝1 (𝑥)

Slide 68

Slide 68 text

68

Slide 69

Slide 69 text

理論解析 69

Slide 70

Slide 70 text

誤差解析の理論研究 • 拡散モデルの逆向きSDEとしての定式化: Song et al. (2021) [近似誤差解析] • KL-divergence bound via Girsanov’s theorem: Chen et al. (2022) • Error bound with LSI: Lee et al. (2022a) ➢ With smoothness: Chen et al. (2022) and Lee et al. (2022b) • Error propagation with manifold assumption: Pidstrigach (2022) [Generalization analysis] • Wasserstein dist bound (𝑛−1/𝑑) with manifold assumption: De Bortoli (2022) 70

Slide 71

Slide 71 text

Minimax optimality of diffusion model 71 [Kazusato Oko, Shunta Akiyama, Taiji Suzuki: Diffusion Models are Minimax Optimal Distribution Estimators. ICML2023 (oral), arXiv:2303.01861] Kazusato Oko (The University of Tokyo) Shunta Akiyama (The University of Tokyo)

Slide 72

Slide 72 text

(𝑌𝑡 ∼ 𝑋 𝑇−𝑡 ) 拡散モデルの統計理論 72 Stable diffusion, 2022. Forward process Backward process どちらも(ほぼ)ミニマックス最適 [Yang & Barron, 1999; Niles-Weed & Berthet, 2022]. 経験スコアマッチング推定量: (for any 𝛿 > 0). 定理 Let ෠ 𝑌 be the r.v. generated by the backward process w.r.t. Ƹ 𝑠, then (Estimator for 𝑊1 distance requires some modification) (𝑠: 密度関数の滑らかさ) [Kazusato Oko, Shunta Akiyama, Taiji Suzuki: Diffusion Models are Minimax Optimal Distribution Estimators. ICML2023]

Slide 73

Slide 73 text

is sufficiently smooth on the edge of the support Problem setting 73 Assumption 1 The true distribution 𝑝0 is supported on −1,1 𝑑 and with 𝑠 > Τ 1 𝑝 − Τ 1 2 + as a density function on −1,1 𝑑. Assumption2 Very smooth Besov space Besov space (𝐵𝑝,𝑞 𝑠 (Ω)) Smoothness Spatial inhomogeneity

Slide 74

Slide 74 text

is sufficiently smooth on the edge of the support Problem setting 74 Assumption 1 The true distribution 𝑝0 is supported on −1,1 𝑑 and with 𝑠 > Τ 1 𝑝 − Τ 1 2 + as a density function on −1,1 𝑑. Assumption2 Very smooth Besov space Besov space (𝐵𝑝,𝑞 𝑠 (Ω)) Smoothness Spatial inhomogeneity Intuition Smoothness Uniformity of smoothness

Slide 75

Slide 75 text

Convergence rate result 75 Theorem (Estimation error in TV-distance) Let 𝑇 = 𝑛−𝑂(1), 𝑇 = 𝑂(log(𝑛)). Then, the empirical risk minimizer Ƹ 𝑠 in DNN satisfies This is minimax optimal, that is, the worst case error is lower bounded as Although Ƹ 𝑠(𝑥, 𝑡) is a function with 𝑑 + 1-dimensional input, there appears “𝑑” in the bound instead of 𝑑 + 1. This is because Gaussian convolution makes the density smoother. 𝑇 𝑇

Slide 76

Slide 76 text

B-spline basis decomposition 76 Cardinal B-spline of order : → Piece-wise polynomial of order m. • B-spline decomposition of a Besov function 𝑝0 Approximate each term by DNNs Tensor product B-spline:

Slide 77

Slide 77 text

Cardinal B-spline interpolation (DeVore & Popov, 1988) • Atomic decomposition: 77 such that (where ) (Norm equivalence) DNN can approximate each B-spline basis efficiently. (see also Bolcskei, Grohs, Kutyniok, Petersen: Optimal Approximation with Sparsely Connected Deep Neural Networks. 201 k=0 k=1 k=2 k=3 Scale j=1 j=1 j=2 j=1 j=2 j=3 j=4 𝛼0,1 𝛼1,1 𝛼1,2 𝛼2,1 𝛼2,4 𝛼2,3 𝛼2,2 Wavelet/multi-resolution expansion 𝑁 terms (should be appropriately chosen depending on 𝑓) 𝑓 ∈ 𝐵𝑝,𝑞 𝑠 can be decomposed into

Slide 78

Slide 78 text

Proof outline (1) 78 • B-spline decomposition of a Besov function 𝑝0 Approximate each term by DNNs • Diffused B-spline basis expansion of 𝑝𝑡 Decompose =: 𝐸 𝑎𝑗,𝑏𝑗 (𝑥, 𝑡) Diffused B-spline ➢ We approximate Diffused B-splines by DNNs. 𝜇𝑡 = exp −𝑡 , 𝜎𝑡 2 = 1 − exp −2𝑡

Slide 79

Slide 79 text

Approximation error of Diffused B-spline 79 There exists a deep neural network ෠ 𝜙: ℝ𝑑 × ℝ+ → ℝ𝑑 such that with depth 𝐿 = 𝑂 log4 𝜖−1 , width 𝑊𝑖 = 𝑂(log6(𝜖−1)), sparsity (# of non-zero parameters) 𝑆 = 𝑂(log(𝜖−1)), and ℓ∞-norm bound 𝐵 = 𝑂(exp(𝑂(log2 𝜖−1 ))) on parameters. Lemma (Approximation error of diffused B-spline) ≤ 𝑁−𝑠/𝑑 ≤ O(𝑒−𝐿) : Deep neural network

Slide 80

Slide 80 text

Error bound of score 80 Non-smooth Smooth Very smooth 𝑡 𝑇 𝑡∗ ത 𝑇 • Bound by diffused B-spline approximation • A tighter bound on the smooth part (𝑡 > 𝑡∗ ) (take 𝑘 = 𝑠 + 1) ➢ Similar argument is applied to 𝛻𝑝𝑡 : - Useful for W1 bound. - Smoothness around the edge (A2) is not requires.

Slide 81

Slide 81 text

Error decomposition 81 Score matching loss Truncation loss at 𝑇. Truncation loss at 𝑇. 𝑇 𝑇 Bias Variance : Bias-variance trade off

Slide 82

Slide 82 text

Low dimensional structure 82 The estimated distribution is never absolutely continuous to the target distribution. → Wasserstein distance The support of the target distribution is in a low dimensional subspace. ℝ𝑑 ℝ𝑑′

Slide 83

Slide 83 text

𝑾𝟏 -distance convergence rate 83 Theorem (Estimation error in W1-distance) For any fixed 𝛿 > 0, by slightly changing the estimator, the empirical risk minimizer Ƹ 𝑠 in DNN satisfies This is also known as minimax optimal (up to 𝛿) [Niles-Weed & Berthet (2022)]. • 𝑑′ appears instead of 𝑑: Diffusion model can avoid curse of dimensionality. • The minimax rate of Wasserstein distance is faster than that of TV distance, which makes it difficult to establish the bound. ➢ We need more precise estimate of the score around 𝑡 = 0. (TV) (W1)

Slide 84

Slide 84 text

Bound for W1 distance 84 𝑡 𝑇 ത 𝑇 = 2𝐾∗ 𝑡∗ 𝑡∗ 2𝑡∗ 4𝑡∗ 𝑌 𝑇−𝑡 𝑖 𝑡 Ƹ 𝑠 𝛻log(𝑝𝑡 ) 𝑡𝑖 (= 2𝑖𝑡∗) (negligible) (exp(−𝑇)) , (true score) (estimated score)

Slide 85

Slide 85 text

Implementable discretization 85 Finite sample approximation • 𝑖𝑗 ∼ Unif({1, … , n}) • 𝑡𝑗 ∼ Unif([𝑇, 𝑇]) • 𝑥𝑡𝑗,𝑗 ∼ 𝑝𝑡𝑗 (⋅ |𝑥𝑖𝑗 ) Prop is sufficient to attain the same convergence rate.

Slide 86

Slide 86 text

まとめ • 拡散モデルの概要を説明 ➢順過程・逆過程 ➢逆過程でスコア推定が必要 → 雑音予測ネット,スコアマッチング推定量を用いて対処 ➢変分上限による定式化と確率微分方程式による定式化は等 価 • 理論解析 ➢スコア関数の推定誤差は真の分布と生成分布のKL- divergenceの上限を与える. ➢深層学習によるスコアマッチング推定量はミニマックス最 適性を満たす. ➢かつ,分布の低次元構造を特定し,次元の呪いを回避する. 拡散モデルは究極の手法か? → おそらくそうではない.”簡単な分布”から”真の分布“へつなぐ フローが構成できれば何でも良い (例: Flow matching, Schrodinger bridge). とはいえ,有効なアプローチは限られている. (a) 学習可能性,(b) 計算可能性,(c) 拡張性 86

Slide 87

Slide 87 text

補足資料 87

Slide 88

Slide 88 text

Wasserstein距離について 𝜇, 𝜈:距離空間(𝒳, 𝑐)上の確率測度(通常𝒳はPoland空間) 88 周辺分布を固定した同時分布の中で最小化 (双対表現: Kantorovich双対) • 分布のサポートがずれていてもwell-defined • 底空間の距離が反映されている ※KL-divergenceは距離が反映されない. Π 𝜇, 𝜈 : 周辺分布が𝜇, 𝜈である𝒳 × 𝒳上の同時分布の集合 「輸送距離」とも言われる

Slide 89

Slide 89 text

接ベクトル • 𝜌𝑡 = 𝑇𝑡# 𝜌0 • d𝑇𝑡 d𝑡 𝑤 = 𝑣𝑡 𝑇𝑡 𝑤 • ある𝜙𝑡 を用いて𝑣𝑡 = 𝛻𝜙𝑡 と書けるとする. 89 この時,以下が成り立つ: 定理 詳細は以下を参照: Ambrosio, Gigli, and Savaré. Gradient Flows in Metric Spaces and in the Space of Probability Measures. Lectures in Mathematics. ETH Zürich. Birkhäuser Basel, 2008. 𝑇𝑡 𝑣𝑡

Slide 90

Slide 90 text

輸送写像 𝜌0 , 𝜌1 が確率密度関数を持つ時,以下が成り立つ: 90 • Infを達成する写像𝑇∗が存在する. • しかも,ある凸関数𝜓が存在して𝑇∗ 𝑥 ∈ 𝜕𝜓 𝑥 と書ける. • この𝑇∗を最適輸送写像という. ただし,infは𝜌0 から𝜌1 へ連続の方程式で“繋ぐ” 全ての速度ベクトル場𝑣𝑡 に関して取る. • 𝜌𝑡 = 𝑇𝑡# 𝜌0 • d𝑇𝑡 d𝑡 𝑤 = 𝑣𝑡 𝑇𝑡 𝑤 Brenierの定理 Benamou-Brenier formula (連続の方程式と𝑊2 距離の関係): 同条件のもと 𝑇𝑡 𝑣𝑡 𝜌0 𝜌1

Slide 91

Slide 91 text

連続の方程式 91 「連続の方程式」 (∀𝑓: コンパクトサポート,𝐶∞-級) • ベクトル場𝑣𝑡 で生成される写像を𝑇𝑡 とする: d𝑇𝑡 d𝑡 𝑥 = 𝑣𝑡 𝑇𝑡 𝑥 . • 𝜇𝑡 は写像𝑇𝑡 : 𝑅𝑑 → 𝑅𝑑による𝜇0 の押し出し:𝜇𝑡 = 𝑇𝑡# 𝜇0 . つまり,𝒙 ∼ 𝝁𝟎 に対する𝑻𝒕 (𝒙)の分布が𝝁𝒕 . [連続の方程式] (分布) この方程式の意味 (𝑡 = 0で導出: 𝑇0 = 𝐼 (恒等写像))

Slide 92

Slide 92 text

連続の方程式 92 「連続の方程式」 (∀𝑓: コンパクトサポート,𝐶∞-級) • ベクトル場𝑣𝑡 で生成される写像を𝑇𝑡 とする: d𝑇𝑡 d𝑡 𝑥 = 𝑣𝑡 𝑇𝑡 𝑥 . • 𝜇𝑡 は写像𝑇𝑡 : 𝑅𝑑 → 𝑅𝑑による𝜇0 の押し出し:𝜇𝑡 = 𝑇𝑡# 𝜇0 . つまり,𝒙 ∼ 𝝁𝟎 に対する𝑻𝒕 (𝒙)の分布が𝝁𝒕 . (分布) この方程式の意味 (一般の𝑡)

Slide 93

Slide 93 text

OU過程の収束 93

Slide 94

Slide 94 text

ガウシアン対数Sobolev不等式 94 • OU-過程の収束を示す. 𝑝∗ 𝑥 ∝ exp(−𝑥2/2) (標準正規分布) (𝑈 𝑥 = 𝑥2/2, 𝜆 = 1) 𝑝∗ 𝑥 ∝ exp(−𝑥2/2)とする (標準正規分布). 任意の確率密度関数𝑝に対して,次の不等式が成り立つ: 定理 (ガウシアン対数ソボレフ不等式) よって, 線形収束! 勾配流のところで 出たPL-条件に対応

Slide 95

Slide 95 text

ガウシアン対数ソボレフ不等式の証明 95 :OU-過程の生成作用素 • 𝜕𝑡 𝑃𝑡 𝑓 = 𝑃𝑡 ℒ𝑓 (生成作用素の性質) • 𝑃𝑡 𝑃𝑠 𝑓 = 𝑃𝑡+𝑠 𝑓 (半群性) 𝑝𝑡 (⋅ |𝑋0 = 𝑥)の形より, 特に,両辺絶対値を取って, 今,𝜓 𝑟 = 𝑟log(𝑟)に対して, とする. ⋯(1) 性質 証明の方法は何通りもある.ここでは,半群を用いた方法で示す.

Slide 96

Slide 96 text

(証明続き) 96 すると,生成作用素の性質より,𝑔 = 𝑃𝑡−𝑠 𝑓に対して, 今,前ページの式(1)より, であるが,コーシーシュワルツの不等式からさらに右辺は と抑えられるので,式(2)の右辺は次のように抑えられる: ⋯(2) (半群性)

Slide 97

Slide 97 text

(証明続き) 97 よって,両辺を𝑠に関して[0, 𝑡]の間で積分すると, を得る. 𝑝𝑡 (⋅ |𝑋0 = 𝑥)の形から,(適当な可積分性のもと) なので,両辺𝑡 → ∞とすると, を得る. 最後に, を代入すれば,KL(𝑝| 𝑝∗ ≤ 1 2 𝐼(𝑝||𝑝∗)を得る. 証明終

Slide 98

Slide 98 text

GLDの離散時間収束 98

Slide 99

Slide 99 text

離散時間ダイナミクスの収束レート 99 定理 (informal) [Raginsky, Rakhlin and Telgarsky, 2017; Xu, Chen, Zou, and Gu, 2018; Erdogdu, Mackey and Shamir, 2018] 過程: 𝐿 は𝑀-平滑: • ただし,一般には対数ソボレフ不等式は𝜆−1に指数的に依存することに注意. (そうでない場合もある:強凸目的関数,Weak Morse関数) • 温度パラメータ𝜆が十分小さければ,目的関数が非凸でも最適解の近くに到 達できる. where 𝑐, 𝑐𝐶𝐿𝑆,𝛽,𝑑 > 0 are constants. 幾何的エルゴード性 時間離散化の誤差 𝐸𝜋∞ 𝐿 𝑋 − 𝐿(𝑋∗) [Vempala and Wibisono, 2019] 定理 散逸性と平滑性の条件のもと (and other technical condition), 定常分布が最適解まわりにど れだけ集中しているか (𝜆 = 1としている)

Slide 100

Slide 100 text

時間離散化 + 確率的分散縮小勾配法 100 定常分布: 計算にO(n)かかる (大規模データで困る) → 確率的勾配を用いる ෨ 𝛻𝑘 = 1 𝐵 σ𝑖∈𝐼𝑘 𝛻𝑓𝑖 (𝑋𝑘 ) ➢ 全勾配は計算に時間がかかる→確率的勾配を用いる. ➢ 確率的勾配は分散が大きい→分散縮小法(SVRG,SARAH)と組み合わせる. 連続時間SDE: 離散時間近似 (Euler-Maruyama近似): 分散縮小型確率的勾配: GLDはノイズを加えつつ最適化するので,分散縮小とやや相性が悪い. SVRG: SARAH: ※ ෨ 𝑋, ෨ 𝛻𝑘 はm回に一回更新する.(𝑚 = 𝑛でOK) 研究紹介

Slide 101

Slide 101 text

分散縮小勾配法の収束レート 101 • Vempala&Wibisono (2019): 非確率的勾配 • Our result: 確率的勾配+分散縮小法 : 𝒏倍高速 勾配計算量 勾配計算量 対数ソボレフ不等式 + 滑らかさの仮定の下, KL-divergenceの意味での収束が分散縮小型確率的勾配を用いることで 高速化できることを証明. ➢ KL-divergenceは“強いノルム”. ➢ 目的関数の性質を対数ソボレフ不等式の定数に集約できる. 結果: 意義: 𝐷(𝜇𝑡 | 𝜈 ≤ 𝜖までの計算量 “Weak Morse”条件における対数ソボレフ定数も導出 実は一般的に対数ソボレフ定数は逆温度パラメータ𝛾へ指数的に依存. → Weak Morse条件では多項式オーダーに緩和される. • 0 < ∃𝜆+ ≤(任意の停留点のHessianの固有値の絶対値) • 大域的最適解以外の停留点は全て鞍点かつ最小固有値が−𝜆+以下 研究紹介

Slide 102

Slide 102 text

102 研究紹介 提案手法