Score-Based Generative Modeling through Stochastic Differential Equation

Score-Based Generative Modeling through Stochastic Differential Equation 確率微分方程式によるスコアベース生成モデリング Yang Song,
Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, Ben Poole 読：加藤真大

Score-Based Generative Modeling through Stochastic Differential Equation n 既存の拡散モデルによるアプローチを一般化． •
SDEを導入して，離散時間ノイズスケールを連続時間に拡張． • SMLDやDDPMなどの既存手法を体系的に位置付けられる． n 両者ともscore-based generative modelとして扱える． • つまり，拡散モデルからscore-based生成モデルへの一般化． • 既存のSDEの求解方法を発展させることで，新しい生成手法を提案． n 実験的にも良い性能． 2

Abstract n データからノイズを生み出すのは簡単． n ノイズからデータを生み出すのは生成モデリング． • ノイズを逐次的に加えることで複雑なデータ分布を既知の事前分布に滑らかに変換する確率微分方程式（SDE）． • ノイズを取り除くことで事前分布をデータ分布に再変換する逆時間SDE．
• 逆時間SDEは摂動されたデータ分布の時間依存勾配場（スコア）のみに依存． • ニューラルネットワークでスコアを正確に推定． • 数値SDEソルバーでサンプルを生成． 3

Abstract n提案する枠組み： • スコアベース生成モデリングと拡散確率モデリングを包含． • 新しいサンプリング手順と新しいモデリングを可能にする．特に，離散逆時間SDEにおける誤差を修正するための予測器-修正器手法． • 逆時間方程式と同じ分布からサンプリングするニューラルODEを導出． •
厳密な尤度計算を可能にし、サンプリング効率を改善する． 4

Abstract nクラス条件生成・画像補間・色付けなどの実験． nアーキテクチャの改善により， • CIFAR-10における無条件画像生成においてIS9.89，FID2.20を達成． • 2.99 bits/dimの尤度を実現． • スコアベース生成モデルから初めて1024×1024画像の高い品質の生成．
5

1. 導入 n徐々にスケールが大きくなるノイズを加えて訓練データを逐次的にノイズ化． • スケール：分散に対応． nデータの生成を行うためノイズ化を逆転させることを学習する． → この手順に則る確率的生成モデルの2つの手法： SMLDとDDPM． 6

1. 導入 nScore matching with Langevin dynamics (SMLD) • Song
& Ermon (2019)． • 各ノイズスケールにおけるスコアを推定．スコア：データに関する対数確率密度の勾配． • 生成：ランジュバン動力学を用いて，減少するノイズスケールの系列からサンプリング． 7

1. 導入 nDenoising 拡散確率モデリング（DDPM） • Sohl-Dickstein et al. (2015); Ho
et al. (2020)． • 訓練を扱いやすくするために逆分布の関数形の知識を用いて，ノイズ崩壊の各段階を逆にする一連の確率モデルを学習． • 連続状態空間の場合： DDPMの目的関数は各ノイズスケールでのスコアを暗黙的に計算． Øこの2つのモデルクラスをスコアベース生成モデルと呼ぶことにする． 8

1. 導入 n スコアベースの生成モデルと関連する技術（Bordes et al. , 2017; Goyal et
al. , 2017; Du & Mordatch, 2019）の有用性： • 画像生成（Song & Ermon, 2019; 2020; Ho et al. , 2020）． • 音声（Chen et al. , 2020; Kong et al. , 2020）． • グラフ（Niu et al. , 2020）． • Shapes（Cai et al. 2020)？ n 新しいサンプリング手法を可能にし、スコアベースの生成モデルの能力をさらに拡張するために，確率微分方程式（SDE）のレンズを通して，これまでの手法を一般化する統一的な枠組みを提案． 9

1. 導入 n 具体的な枠組みの説明： • 離散個のノイズ分布でデータを摂動する代わりに， • 拡散過程に従って時間的に進化する連続なノイズ（と分布）を考える． n 拡散過程：
• データ点をランダムなノイズに徐々に拡散． • データに依存せず，学習可能なパラメータを持たない所定のSDEによって与えられる． → この過程を逆転させ，ランダムなノイズを滑らかにデータとして成形し，サンプルを生成．＝逆時間拡散過程． 10

1. 導入 • 重要なこと：この逆時間過程が逆時間SDE (Anderson, 1982)を満たすこと． n 周辺確率密度のスコアを時間の関数として与えると順時間SDEから導出できる． •
時間依存のニューラルネットワークを学習させてスコアを推定． • 数値的なSDEソルバーでサンプルを生成することにより，逆時間SDEを近似． 11 n 逆時間SDEを解くスコアベース生成モデル： • データをサンプルノイズ分布に変換することは連続時間SDEで実行できる． • このSDEは中間時点の分布のスコア∇! log %" (')を知っていれば，逆にできる．

1. 導入柔軟なサンプリングと尤度計算 n汎用的なSDEソルバーを採用し，逆時間SDEをサンプリングに統合． n一般のSDEにはない方法を導入： • 予測器-補正器（PC）サンプラー． • 確率流常微分方程式（ODE）に基づく決定論的サンプラー． 12

1. 導入柔軟なサンプリングと尤度計算 ( i ) 予測器-補正器（PC）サンプラー： • 数値SDEソルバーとスコアベースのMCMCを組み合わせたもの． •
MCMCの例：Langevin MCMC (Parisi, 1981) やHMC (Neal et al. 2011)など．（ ii ）確率流常微分方程式（ODE）に基づく決定論的サンプラー． n前者：スコアベースのモデルに対する既存のサンプリング手法を統一・改良． n後者：ブラックボックスODEソルバーによる高速サンプリング，潜在コードによるデータ操作，一意に識別可能なエンコーディング，厳密な尤度計算が可能： 13

1. 導入制御可能な生成 n無条件スコアから条件付き逆時間SDEを効率的に推定できる． → 学習時には得られない情報を条件として生成過程を制御することが可能． • 学習時にラベルも必要ない？ nクラス条件付き生成・画像補間・色付けなどの逆問題． •
再学習することなく無条件スコアに基づく単一のモデルで実現できる． 14

1. 導入統一された枠組み n提案する枠組み： • スコアベース手法の改善ため様々なSDEを探索し調整する統一的方法を提供． nSMLDとDDPMの手法： • 2つの異なる連続時間のSDEを離散化したものとして，提案する枠組み（score- based
generative modeling）に統合させることができる． 15

1. 導入統一された枠組み nDDPM (Ho et al. , 2020) はSMLD
(Song & Ermon, 2019; 2020) よりも高いサンプル品質を達成することが最近報告された． n提案する枠組みでで許容されるより優れたアーキテクチャと新しいサンプリングアルゴリズムにより，後者の性能が前者に追いつけることを示す． • CIFAR-10： Inception score (9.89) と FID score (2.20) ． n新たなSDEを提案し，その手法のもとでの性能を検証． • CIFAR-10画像において尤度値2.99 bits/dimを達成し，新記録を樹立． 16

2. 背景 2.1 ランジュバン動力学によるノイズ除去スコアマッチング(SMLD) nSMLDの設定． • &! ' ( (
≔ *(' (; (, ."/)：摂動カーネル． • &! ' ( ≔ ∫ &#$%$ ( &! ' ( ( 2(. ここに数式を入力します。ここで，&#$%$(()はデータ分布を表す． • ノイズスケールの系列.&'( = .) < ." < ⋯ < .* = .&+, ． .&'( は十分小さく，&!!"# ( ≈ &-+.+(()であるようにする． .&+, は十分大きく，&!!$% ( ≈ *((; 0, .&+, " /)であるようにする． 17

2. 背景 2.1 ランジュバン動力学によるノイズ除去スコアマッチング(SMLD) nSong & Ermon (2019) ：ノイズ条件付きスコアネットワーク (NCSN)
を提案． nスコアを推定するネットワークを8/((, .)で表す． nノイズ除去スコアマッチングの加重和 (Vincent, 2011) を目標にして9を訓練． 9∗ = arg min / @ 12) * .1 "A3&$'$(5) A3()( 7 5|5) 8/ ' (, .1 − ∇7 5 log &!) ' ( ( " " . 式(1) n最適なスコアモデル8/∗((, .)の収束： • 十分なデータのもと. ∈ .1 12) * についてほとんど至る所で∇5 log &!(()に一致． 18

2. 背景 2.1 ランジュバン動力学によるノイズ除去スコアマッチング(SMLD) nサンプリング： • Song & Ermon (2019)はLangevin
MCMCをMステップ実行． • 各&!)(()について順次サンプルを取得： (1 9 = (1 9:) + H18/∗ (1 9:) , .1 + 2H1I1 9 , J = 1,2, … , L. 式(2) • ここで，H1 はステップサイズ， I1 9は標準正規分布の確率変数． • これを，M = N, N − 1, … , 1回繰り返す（(* ; ∼ * 0, .&+< " / ，(1 ; = (1=) > M < N）． • 正則条件のもと，? → ∞，かつ，B! → 0 ∀Eで，F" #はG$!"# F ≈ G%&'&(F)からの正確なサンプルに． 19

2. 背景 2.2 ノイズ除去拡散モデル（DDPM） nSohl-Dickstein et al. (2015)とHo et al.
(2020)： nノイズのスケール0 < P), P", ⋯ , P* < 1の列を考える． n各トレーニングデータ点(; ∼ &-+.+ に対する離散マルコフ連鎖： (;, (), ⋯ , (* , & (1 (1:)) = * (1; 1 − P1(1:), P1/ . nこれより， &I) (1 (; = * (1; Q1(;, 1 − Q1 / , Q1 ≔ R J2) 1 1 − PJ . 20

2. 背景 2.2 ノイズ除去拡散モデル（DDPM） nSMLDと同様に，摂動データ分布を&I) ' ( ≔ ∫ &-+.+
( &I+ ' ( ( 2(とする． n(* が近似的にN(0, /)からの分布であるようにノイズのスケールは一定． n逆方向の変分マルコフ連鎖は以下のようにパラメトライズされる： &/ (1:) (1 = * (1:); 1 1 − P1 (1 + P18/ (1, M , P1/ . nこのモデルは変分下限（ELBO）を再重み付けで変更したもので学習される： !∗ = arg min " ) # $ 1 − ,# -%#$%$(')-%&'() *|*) ." / 0, 2 − ∇) ' log 6*' / 0 0 + + . 式(3) 21

2. 背景 2.2 ノイズ除去拡散モデル（DDPM） n生成の手順： • 式（3）を解いて最適モデル8/∗((, M)を得た後． • 以下の逆マルコフ連鎖に従って，(*
∼ *(0, /)からサンプルを生成： (1:) = 1 1 − P1 (1 + P18/∗ (, M + P1I1, M = N, N − 1, ⋯ , 1. 式(4) nグラフィカルモデル∏12) * &/ (1:) (1 からの祖先サンプリングに相当： • 祖先サンプリングと呼ぶことにする． 22

2. 背景 2.2 ノイズ除去拡散モデル（DDPM） nDDPMの式（3）もノイズ除去スコアマッチング目的関数の加重和． • SLMDのスコアの学習式（1）と同様． n最適モデル8/∗(' (, M)が摂動したデータ分布のスコア∇5
log &I) (()と一致． n式（1）および式（3）のM番目の総和で使われている重み：.1 "および 1 − Q1 ． → 同じ関数で対応する摂動カーネルに関連づけられる： .1 " ∝ 1/A ∇5 log &!) ' ( ( " " ，かつ， 1 − Q1 ∝ 1/A ∇5 log &I) ' ( ( " " 23

3. SDEによるスコアベース生成モデリング n従来の手法： • 複数の離散個のノイズスケールでデータを摂動することが成功の鍵． nこの考え方をさらに一般化： • 無限の数のノイズスケールを持つようにし， • ノイズが大きくなるにつれて，
• 摂動されたデータ分布がSDEに従って進化することを提案． 24

n SDEによるスコアベース生成モデリングの概要： • データを雑音分布（事前分布）に写像する SDE（第3.1節）と， • この SDE を逆向きにした生成モデリング（第3.2節）．
• また，関連する確率流ODE（第4.3節）を逆向きにすることで，SDEと同じ分布からサンプリングする決定論的なプロセスを得る；逆時間 SDE と確率流ODEはともに，スコア∇! log 0" 1 を推定することで得られる（第3.3節）． 25

3. SDEによるスコアベース生成モデリング 3.1 SDEによる摂動データ nゴール：連続時間V ∈ [0, X]のもとでの拡散過程 ( V
%2; K を得ること． • 得られるデータセットがi.i.d.になるように初期値を( 0 ∼ &; とする． • また，( X ∼ &K ． • &; はデータ分布，&K は事前分布． 26

3. SDEによるスコアベース生成モデリング 3.1 SDEによる摂動データ n拡散過程は伊藤確率微分方程式の解としてモデル化される： 2( = Z (, V
2V + [ V 2\. 式(5) • ここで，\は標準ウィーナー過程（ブラウン運動）． • Z ⋅, V : ℝ# → ℝ#：((V)のドリフト係数と呼ばれるベクトル関数． • [ ⋅ : ℝ → ℝ： ((V)の拡散係数と呼ばれるスカラー関数． • 係数が状態と時間に大局的にリプシッツ連続である場合，唯一の強解を持つ． • G((F)をF(L)の密度関数とし，G)((F(L)|F(M))をF(M)からF(L)への遷移カーネルとする（0 ≤ M < L ≤ P）． 27

3. SDEによるスコアベース生成モデリング 3.1 SDEによる摂動データ n&K は&; の情報を含まない事前分布．（例）平均と分散が固定されたガウス分布． • 式（5）のSDEを設計し，データ分布を固定事前分布に拡散させる方法は様々．
• SMLDとDDPMの連続的な一般化から導かれるいくつかの例を第3.4節で後述． 28

3. SDEによるスコアベース生成モデリング 3.2 逆SDEによる生成サンプリング n逆時間SDEによる生成サンプリング：( X ∼ &K のサンプルから出発． n確率過程を逆にすることでサンプル(
0 ∼ &; が得られる． n拡散過程の逆も，時間を逆行する逆時間SDEの拡散過程（Anderson (1982) ）： 2( = Z (, V − [ V "∇5 log &% ( 2V + [ V 2b \. 式(6) • ; <は時間が=から0へ逆流するときの標準的なWiener過程． • 各周辺分布のスコア∇' log 6, 0 がすべてのtについて分かっている． → 式（6）から逆時間拡散過程を導き出し， 6-からサンプリングするシミュレーションを行える． 29

3. SDEによるスコアベース生成モデリング 3.3 SDEのためのスコアの推定 n 分布のスコア：スコアマッチングを行ったサンプルに対してスコアベースモデルを訓練することで推定することができる（Hyvärinen, 2005; Song et
al. 2019a）． n ∇' log 6,(0)を推定するため，式（1）及び式（3）の連続的な一般化により，時間依存スコアベースモデル."(0, ?)を訓練できる． !∗ = arg min " -, @ ? -' - -' , |'(-) ." 0 ? , ? − ∇' , log 6/, 0 ? 0 0 + + . 式(7) • ): 0, - → ℝ-.は正の重み関数，0は[0, -]からの一様サンプル，' 0 ∼ %. (')，かつ，' 0 ∼ %/" ('(0)|' 0 )． • 式（7）はノイズ除去スコアマッチングを用いている． • 十分なサンプルとモデル複雑度のもと，', 0のほとんどいたるところで50 ' 0 , 0 は∇! " log %/" ' 0 ' 0 ， • スライススコアマッチング（Song et al.,2019a）や有限差分スコアマッチング（Pang et al.,2020）なども適用可能 30

3. SDEによるスコアベース生成モデリング 3.3 SDEのためのスコアの推定 n 式(7)を効率的に解くために： • 一般的に遷移カーネル6-,(0(?)|0(0))を知る必要がある． • C(⋅,
?)がアフィンであるとき，遷移カーネルは常にガウス分布． → 平均と分散は閉形式．標準的な手法で得られる（Särkkä & Solin (2019)）． • より一般的なSDE：Kolmogorovの前進方程式（Øksendal，2003）を解く． n あるいは， 6-,(0(?)|0(0))からサンプリングするためにSDEをシミュレート． • 式（7）のノイズ除去スコアマッチングをスライススコアマッチングに置き換える． • ∇' , log 6-,( 0 ? 0 0 の計算を避けることができる（Appendix A参照）． 31

Appendix A 32

Appendix A 33

Score関数の学習 34

3. SDEによるスコアベース生成モデリング 3.3 VE SDEとVP SDE，およびその先 nSMLDとDDPMにおけるノイズによるデータの摂動： • 二つの異なる（連続時間の）SDEの離散化と見なすことができる． nSMLDの例：全体でN回のノイズスケールを用いる時．
→ それぞれのSMLDの摂動カーネルは以下のマルコフ連鎖の(% の分布に対応： (1 = (1:) + .1 " − .1:) " I1:), M = 1, ⋯ , N. 式(8) • I1:) ∼ N(0,1)，.; = 0． 35

3. SDEによるスコアベース生成モデリング 3.3 VE SDEとVP SDE，およびその先 nN → ∞の極限： •
.1 12) * は.(V)に，I1 はI(V)になる． • マルコフ連鎖 (1 12) * は連続確率過程 ( V %2; ) になる（Vは連続変数）． • 過程 ( V %2; ) は以下のSDE： 2( = 2[."(V)] 2V 2\. 式(9) 36

3. SDEによるスコアベース生成モデリング 3.3 VE SDEとVP SDE，およびその先 nDDPMの例： • DDPMの摂動カーネル &I)
( (; 12) * と同様に，離散マルコフ連鎖は (1 = 1 − P1(1:) + P1I1:), M = 1, … , N. 式(10) nN → ∞の極限：式（10）は以下のSDEに収束する： 2( = − 1 2 P V (2V + P V 2\. 式(11) • 以上のように，SMLDとDDPMで用いられるノイズ摂動は式(9)と式(11)のSDEの離散化に対応， 37

3. SDEによるスコアベース生成モデリング 3.3 VE SDEとVP SDE，およびその先 n式(9)のSDEはのV → ∞とき常に分散が爆発する過程． n式(11)のSDEは初期分布が単位分散なら分散が1で固定された過程
P 0 ？． nこの違いから式(9)と式(11)をそれぞれ以下のように呼ぶことにする： • 式（9）：分散爆発型（variance-exploding; VE） SDE • 式（11）：分散保存型（variance-preserving; VP）SDE 38

4. 逆SDEを解く n VP SDEに触発されて以下のような新しいタイプのSDEを提案： E0 = − 1 2
G ? 0E? + G ? 1 − exp −2 L - , G . E. E< 式(12) • 尤度最大化に対して特に良好な性能を示す． • 同じG(?)を用い，同じ初期分布から出発した場合： n 式(12)に誘導される確率過程の分散は．中間ステップごとに必ずVP SDEによりバウンド． • このため、式(12)を subVP SDE と呼ぶことにする。 39

4. 逆SDEを解く nVE SDE, VP SDE および subVP SDE はすべてアフィンドリフト係数を持つ．
• それらの摂動カーネル&;% ( V ( 0 はすべてガウス． → 第3.3節で議論したように閉形式で計算することができる． • このため，式(7)を用いた学習は特に効率的である。 40

4. 逆SDEを解く nサンプルの生成： • 時間依存のスコアベースモデル8/ を学習した後． • それを使って逆時間SDEを構築． • 数値的手法でシミュレーションを行う．
• &; からのサンプルを生成することができる。 41

4. 逆SDEを解く 4.1 汎用数値計算ソルバ n 数値解析ソルバ： • 確率微分方程式からの近似的な軌跡を得る． n SDEを解くための汎用的な数値計算法：
• オイラー・丸山法や確率的ルンゲクッタ法（Kloeden & Platen, 2013）． • 確率的ダイナミクスに異なる離散化をしたものが多く存在． • サンプル生成のための逆時間SDEにはそれらのいずれかを適用可能． n DDPM (式 (4)) のサンプリング法である祖先サンプリング： • 逆時間VP SDE (式 (11)) の離散化の一例． 42

4. 逆SDEを解く 4.1 汎用数値計算ソルバ n 新しいSDEに対する祖型サンプリングルールの導出は非自明 → 逆拡散サンプラーを提案． n 逆拡散サンプラー：
• 逆時間SDEを順時間SDEと同じように離散化． • 順時間の離散化があれば容易に導出可能． n 表1：CIFAR-10において，逆拡散サンプラーは祖先サンプリングよりもわずかに良い性能． • DDPMタイプの祖先サンプリングはSMLDモデルにも適用できる． 43

4. 逆SDEを解く 4.1 汎用数値計算ソルバ 44

4. 逆SDEを解く 4.2予測器-補正器サンプラー n追加的な情報による解の補正． n一般的なSDEとは異なる点： • 解の改善にスコアモデル8/∗ (, V ≈
∇5 log &%(()を追加情報として使える． • Langevin MCMC (Parisi, 1981; Grenander & Miller, 1994) やHMC (Neal et al. , 2011) などのスコアベースのMCMCアプローチで&% から直接サンプリング． • 数値SDEソルバーの解を修正することが可能．よく分からないが，共変量シフトっぽい考え方な気がする． 45

4. 逆SDEを解く 4.2予測器-補正器サンプラー n 手順：各タイムステップで， • 数値SDEソルバーが次のタイムステップのサンプルの推定値を与える＝「予測器」の役割． • 次に，スコアベースのMCMC：推定されたサンプルの周辺分布を補正＝「補正器」の役割． n
連立方程式を解くための技術である予測器-補正器法(Allgower & Georg, 2012)に類似． • 同様にこのハイブリッドアルゴリズムを予測器-補正器(PC)サンプラーと呼ぶことにする． n PCサンプラーはSMLDとDDPMのオリジナルのサンプリング手法を一般化したもの． • 前者は予測器として恒等関数を，補正器としてアニールされたLangevinダイナミクスを使用． • 後者は予測器として祖型サンプリングを，補正器として恒等関数を使用． 46

4. 逆SDEを解く 4.2予測器-補正器サンプラー n式(1)および(3)で与えられる離散目的関数によって訓練されたSMLDおよび DDPMモデルにおいてPCサンプラーを検証． • これは，PCサンプラーが固定された回数のノイズスケールで学習したスコアベースのモデルに適合することを示す． n実験結果を表1に掲載．FIDの平均と標準偏差 •
Pは予測器を，Cは補正器を，数字は計算ステップ数を表す． • 例：P1000は予測器のみを用いて1000ステップ計算． 47

4. 逆SDEを解く 4.2予測器-補正器サンプラー • 逆拡散サンプラーは常に祖先サンプリングより優れている． • 補正器のみの手法（C2000）は同じ計算量で他の競争相手（P2000，PC1000）より悪い． • 実際，他のサンプラーの性能に匹敵するには，ノイズスケールあたりはるかに多くの補正器ステップが必要． 48

4. 逆SDEを解く 4.2予測器-補正器サンプラー • すべての予測器について，予測器ステップごとに1つの補正器ステップを追加すると（PC1000），計算は2倍になるが．常に（P1000に対して）サンプル品質を向上させることができる． • さらに，補正器を加えることは，SMLD/DDPMモデルでノイズスケール間をアドホックに調整する必要がある，補正器を追加せずに予測器ステップの数を2倍にする（P2000）場合よりも一般的に優れている． 49

4. 逆SDEを解く 4.3 確率フローとニューラルODEへの接続 n スコアベースモデルは逆時間SDEを解くための別の数値的方法を可能にする． n すべての拡散過程についてそのSDEと同じ周辺確率密度を共有する決定論的過程が存在． n この決定論的過程はODEを満たす：
E0 = C 0, ? − 1 2 M+ ? ∇' log 6, 0 E?. 式(13) • これはスコアが分かればSDEから決定することができる．このODEを確率流ODEと名付ける． • スコア関数がニューラルネットワークの時間依存スコアベースモデルによって近似される場合，これはニューラルODEの一例（Chen et al.、2018）． 50

4. 逆SDEを解く 4.3 確率フローとニューラルODEへの接続厳密な尤度の計算 nニューラルODEへの接続を活用． • 式(13)で定義される密度を各期の変化の式を用いて計算(Chen et al.
, 2018)． • これにより，任意の入力データで正確な尤度を計算することができる．（例）CIFAR-10について，bit/dimで測定した負の対数尤度（NLL）を報告． 51

4. 逆SDEを解く 4.3 確率フローとニューラルODEへの接続厳密な尤度の計算 n 一様に量子化されたデータ（uniformly dequantized data？）で対数尤度を計算，ELBO値（*）が離散データで報告されているDDPM（L/Lsimple）を除き，
同じ方法で評価したモデルとのみ比較． n 変分量化？（Ho et al.、2019）または離散データでの評価モデルは除く． 52

4. 逆SDEを解く 4.3 確率フローとニューラルODEへの接続厳密な尤度の計算 n 主な結果： I. Hoら（2020）の同じDDPMモデルについて，提案法の尤度が厳密であるため，ELBOよりも優れたbits/dimを得る；
II. 同じアーキテクチャを用いて，式（7）の連続目的を有する別のDDPMモデルを訓練． III. sub VP SDEを用いると，VP SDEに比べて常に高い尤度が得られる． IV. 改良されたアーキテクチャ（DDPM++）とsub VP SDEにより，最尤訓練なしでもCIFAR-10のbits/dimの新記録 2.99を打ち立てることができる． 53

4. 逆SDEを解く 4.3 確率フローとニューラルODEへの接続潜在表現の操作 n 潜在表現の操作式(13)を積分→任意のデータポイント0(0)を潜在空間0 = にエンコード． n
デコーディングは逆時間SDEに対応するODEを積分することにより達成できる． n ニューラルODEや正規化フローなど他の可逆モデルで行われているように（Dinh et al. , 2016; Kingma & Dhariwal, 2018），画像編集などのためにこの潜在的表現を操作． Appendix読まないとよく分からない．．． 54

4. 逆SDEを解く 4.3 確率フローとニューラルODEへの接続一意に識別可能なエンコーディング nほとんどの可逆モデルとは異なり，このエンコーディングは一意に識別可能． nつまり，十分な学習データ・モデル容量・最適化精度があれば、ある入力に対するエンコーディングはデータ分布によって一意に決まる（Roeder et al.、2020）．
n順時間SDEの式（5）には学習可能なパラメータがなく，その関連する確率流が ODEである式(13)は，完全に推定されたスコアがある場合，同じ軌跡を提供． Appendix読まないとよく分からない．．． 55

n ニューラルODEと同様に，異なる最終条件0 0 ∼ 6-から式（13）を解くことによって0 = ∼ 60をサンプリングできる． n
固定離散化戦略を使用すると，特に補正器と組み合わせて使用した場合に、良い品質のサンプルを生成できる． 4. 逆SDEを解く 4.3 確率フローとニューラルODEへの接続効率的なサンプリング 56

nブラックボックスODEソルバー（Dormand & Prince, 1980）を使用：高品質のサンプルを生成できるだけでなく，精度と効率を明確にトレードオフできる． 4. 逆SDEを解く 4.3 確率フローとニューラルODEへの接続
効率的なサンプリング 57

n誤差の許容範囲を大きくする． → サンプル品質に影響を与えず，関数評価の回数を90%以上削減． 4. 逆SDEを解く 4.3 確率フローとニューラルODEへの接続効率的なサンプリング 58

4. 逆SDEを解く 4.4 アーキテクチャの改善 nVE SDEとVP SDEの両方を用いて，スコアベースのモデルのための新しいアーキテクチャ設計をいくつか検討． • SMLD/DDPMと同じ離散時間の目的関数を用いてモデルを学習．
→ VP SDEのアーキテクチャをそのままsub VP SDEに移行（両者が似ている）． • VE SDEに対する最適なアーキテクチャ（NCSN++）はPCサンプラーを用いた CIFAR-10において2.45のFIDを達成． • VP SDEに対する最適なアーキテクチャ（DDPM++）は2.78のFIDを達成． 59

4. 逆SDEを解く 4.4 アーキテクチャの改善 60

4. 逆SDEを解く 4.4 アーキテクチャの改善 n 式(7)の連続時間の目的関数に切り替える． n ネットワークの深さを増す． → すべてのモデルでサンプルの品質をさらに向上させることができる．
• 表3では，VEおよびVP/sub-VP SDEを，それぞれNCSN++ cont.およびDDPM++ cont.と表記． • 表3では，PCサンプラーで生成されたサンプルのうち，トレーニング期間中に最もFIDが小さくなったチェックポイントの結果を報告． • 表2のFIDスコアとNLL値は、最後のトレーニングチェックポイントについて報告されており，サンプルはブラックボックスODEソルバーで取得されている． 61

4. 逆SDEを解く 4.4 アーキテクチャの改善 62

4. 逆SDEを解く 4.4 アーキテクチャの改善 n VE SDEはVP/sub-VP SDEよりもサンプルの質が高い． • VP/sub-VP
SDEよりも尤度が低い． • 実務家はさまざまなドメインやアーキテクチャに対して，さまざまなSDEを試してみる必要がある． 63

4. 逆SDEを解く 4.4 アーキテクチャの改善 n サンプル品質に最も優れたモデルNCSN++ cont. (deep, VE)： •
ネットワークの深さを2倍に． • CIFAR-10の無条件生成において，ISとFIDの両方で新記録を達成． • ラベル付きデータを使わず，従来の生成モデルよりも，条件付き生成において優れたFID． • CelebA-HQ 1024×1024において，スコアベースのモデルによる高品質な生成． n 提案するモデルのなかで尤度に関する最良のモデルであるDDPM++ cont. (deep, sub-VP)： • 同様にネットワークの深さを2倍にし，式(7)の連続目的にて2.99 bits/dimの対数尤度を達成． • これは一様に量子化されたCIFAR-10における最高の尤度． 64

5. 制御可能な生成 n提案枠組みの連続的な構造： • &; からデータサンプルを生成するだけでなく，&%(g|((V))が既知であれば， &;(((0)|g)からもデータサンプルを生成することができる． • 式(5)のような順時間SDE が与えられると，
&K(((V)|g)から始めて，以下の条件付き逆時間SDEを解くことにより&%(((V)|g)からサンプルが可能： 2( = Z (, V − [" V [∇5 log &% ( + ∇5 log &% g ( ]}2V + [(V)2b \. 式(14) 65

5. 制御可能な生成 n順時間過程の勾配の推定値∇5 log &%(g|((V))が与えられれば，式（14）を用いてスコアベースの生成モデルによる逆問題の大きな問題を解ける． n場合によっては，順時間過程∇5 log &%(g|((V))を学習し，その勾配を計算するために，別のモデルを訓練することが可能．
nそうでない場合は，ヒューリスティックとドメイン知識で勾配を推定． 66

5. 制御可能な生成 nこの手法による制御可能生成の応用： • クラス条件付き生成・画像補間・色付け． • gがクラスラベルを表すとする． • クラス条件付きサンプリングのために，時間依存の分類器&%(g|((V))を訓練． •
順時間SDEは扱いやすいので，まずデータセットから (( 0 , g) をサンプリングし，次にx V ∼ &;% ( V ( 0 をサンプリングすれば，時間依存分類器のための学習データ(( V , g)を容易に作成することができる． 67

5. 制御可能な生成 n その後，時間依存の分類器を学習するために，式（7）のような異なる時間ステップにおけるクロスエントロピーの損失の混合を採用してもよい． • 下の左図がクラス条件付きCIFAR-10サンプルの結果． 68

5. 制御可能な生成 n補間は条件付きサンプリングの特殊な場合： • ある部分集合Ω(g)だけがわかっている不完全なデータ点gがあるとする． • 補間は& ( 0 Ω
g からのサンプリングに相当． • これは無条件モデルを使って達成できる． 69

5. 制御可能な生成 n 色付けは補間の特別な場合： • 直交線形変換によりこれらのデータ次元を切り離す．変換された空間で補間を行うことができる． • 下の右図は無条件時間依存スコアベースモデルによる補間と色付けの結果． 70

6. 結論 nSDEに基づくスコアベースの生成モデリングのための枠組みを提案： • 既存のアプローチのより良い理解． • 新しいサンプリングアルゴリズム． • 厳密な尤度計算． •
一意に識別可能なエンコーディング． • 潜在コードの操作． • スコアベースの生成モデルにおける新しい条件付き生成の能力 71

6. 結論 n 提案手法は生成を改善し，より効率的なサンプリングを可能にするが，同じデータセットにおけるGAN (Goodfellow et al. , 2014)よりもサンプリングが遅いことに変わりはない．
n スコアベースの生成モデルの安定した学習と，GANのような暗黙的モデルの高速なサンプリングを組み合わせる方法を特定することは，依然として重要な研究の方向性． n さらに，スコア関数へのアクセスが与えられたときに使用できるサンプラーの幅は，多くのハイパーパラメータを導入する． n 将来的には，これらのハイパーパラメータを自動的に選択・調整する方法を改善し，様々なサンプラーの利点と限界についてより広範に調査することが有益． 72

再現実験 nGithub：https://github.com/yang-song/score_sde_pytorch • とにかく重たい． • 訓練だけで10日ぐらいかかりそう．．． • テスト（FIDやISの計算）も5日ぐらいかかりそうな雰囲気． • GANにはない計算の重さ（つらい）．
• DDPMは特に重い．．．？ 73

Score-Based Generative Modeling through Stochas...

Score-Based Generative Modeling through Stochastic Differential Equation

More Decks by MasaKat0

Other Decks in Research

Featured

Transcript

Score-Based Generative Modelingthrough Stochas...