VAE; Auto-Encoding Variational Bayes

論文輪読会 #21 VAE; Auto-Encoding Variational Bayes 2019年4月3日(水) 矢農正紀 (Masanori
YANO)

論文の位置付け 2 VAEは、深層学習における生成モデルの一つ・論文では変分ベイズ学習の枠組みから、例として提唱・VAEで生成された画像は、ぼやけた画像になる・エンコーダの出力を特徴抽出に用いた応用事例が多い・World Modelsでは、環境のシミュレーターとして適用 https://worldmodels.github.io/

論文の構成 3 Abstract 1 Introduction → 導入 2 Method →
手法 2.1 Problem scenario 2.2 The variational bound 2.3 The SGVB estimator and AEVB algorithm 2.4 The reparameterization trick 3 Example: Variational Auto-Encoder → VAE 4 Related work → 関連研究 5 Experiments → 実験結果 6 Conclusion → 結論 7 Future work → 将来の課題 References (Appendix)

前提: オートエンコーダ(Auto-Encoder) 4 入力と出力が同じ構造のニューラルネットワーク・[入力] → [エンコーダ] → [デコーダ] →
[出力] の構造・学習に使用するデータへのアノテーション作業が不要・エンコーダの出力を、特徴量として使用可能 VAEの外形だけ見ると、違いは中間層と損失関数 [1] エンコーダの出力を、ガウス分布のパラメータに適用 [2] 損失関数に、符号(±)を逆にした「変分下限」を使用 (変分下限を最大化するので、－(変分下限) を最小化)

前提: ベイズの定理 5 条件付き分布 )は、以下のベイズの定理で求められる ) = ) × ⇒
を使って、事前分布から事後分布 )を計算 (事前分布: prior distribution 事後分布: posterior distribution) 観測データで、モデルパラメータの情報を得られたとき事前分布から事後分布 )を計算 ) = ) × ) : 尤度(likelihood) = ׬ , : 周辺尤度(marginal likelihood) , = × = ×

前提: KLダイバージェンス 6 二つの分布が「近いか近くないか」を測る尺度 [1] 離散型の確率分布 ()||() = ෍ log
[2] 連続型の確率分布 ()||() = න () log ・分布()から見たときに、分布()が近いか近くないか・ ()||() は常に0以上で、 0は同じ分布のときだけ・二つの分布が近いと小さな値、近くないと大きな値・距離に似ていて代用されるが、距離の公理は満たさない (対称性 ()||() = ()||() を満たさない)

Abstract (1/2) 7 有向な確率モデルにおける効率的な推論と学習・事後分布が推定困難な連続的な潜在変数に対し、大きなデータセットでも推定可能なアルゴリズム・アルゴリズムは、大きなデータセットにスケールする・微分可能であることを条件とする → やや緩やかな条件
・(事後分布が)推定困難な場合でも機能する How can we perform efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables with intractable posterior distributions, and large datasets? We introduce a stochastic variational inference and learning algorithm that scales to large datasets and, under some mild differentiablity conditions, even works in the intractable case.

Abstract (2/2) 8 貢献は二重構造?! [1] 変分下限のReparameterizationは、確率的勾配法でそのまま最適化できる下限の推定量 [2] 提案する下限の推定量は、近似的な推論モデル (認識モデルとも呼ぶ)に学習させることで
推定困難な事後分布であっても、効率的に推論可能 Our contributions is two-fold. First, we show that a reparameterization of the variational lower bound yields a lower bound estimator that can be straightforwardly optimized using standard stochastic gradient methods. Second, we show that for i.i.d. datasets with continuous latent variables per datapoint, posterior inference can be made especially efficient by fitting an approximate inference model (also called a recognition model) to the intractable posterior using the proposed lower bound estimator. Theoretical advantages are refleted in experimental results.

グラフィカルモデルとデータセット 9 対象とする有向グラフィカルモデル・実線: 生成モデル・点線: 推定困難なに対する近似∅ ・パラメータ∅は、生成モデルのパラメータと同時に学習想定する(大規模な)データセット
・i.i.d.(independent and identically distributed) ・データごとに独立で、同一の分布に従う

1 Introduction 10 ・事後分布が推定困難なときに、潜在変数やパラメータをどのように近似的に推論・学習させればよいか・変分ベイズのアプローチは、推定困難な事後分布に対し近似の最適化を可能とするが、共通的な平均場近似では期待値の解析解を必要とし、それも一般には推定困難・変分下限のReparameterizationは、下限の推定量を与えシンプルで微分可能で不偏
・SGVB推定量を使用するAEVBアルゴリズムを提案・MCMCのような、コストの高い反復的な推論は不要・推論モデルにニューラルネットワークを使用 ⇒ VAE ・AEVB: Auto-Encoding Variational Bayesian ・SGVB: Stochastic Gradient Variational Bayes ・w.r.t.(with respect to/with regard to): ～に関してはグラフィカルモデルの図中の

2 Method 11 2.1 Problem scenario 「データ: 潜在変数: パラメータ: 」でベイズの定理
) = ) × ・尤度 )と事前分布は微分可能であると仮定 PDF(s): Probability Density Function(確率密度関数) ・以下の場合の、一般的なアルゴリズムに関心 [1] 周辺尤度 = ׬ )は推定困難 [2] モンテカルロEMなどが非常に低速な大規模データ・パラメータを最尤推定(ML)か最大事後確率推定(MAP) ・認識モデル∅ ): エンコーダ ※ ∅はと同時に学習・ ): デコーダ

2 Method 12 2.2 The variational bound (周辺尤度の対数) = (KLダイバージェンス)＋(変分下限)
⇒ (周辺尤度の対数) ≧ (変分下限) 尤度を最大化する代わりに、変分下限を最大化すればよい ⇒ その結果、∅ () と推定困難な () が近付く変分下限の式を展開すると、以下の(3)の数式パラメータ∅とに対して、変分下限を微分して最適化ナイーブなモンテカルロ勾配の推定量では問題がある ⇒ バリアンスが非常に高くなってしまって、非実用的・RHS: Right-Hand Side(右辺) KLダイバージェンスは0以上なので

2 Method 13 2.3 The SGVB estimator and AEVB algorithm
・変分下限は、確率的勾配法のアルゴリズムで最大化可能 (SGDやAdagradといったオプティマイザを使用できる) ・SGVB推定量の、KLダイバージェンスを含む数式は(7) ⇒ 第一項は正則化項として機能、第二項は負の再構成誤差・KLダイバージェンスは、ガウス分布なら解析的に解ける (AppendixのB項に、ガウス分布のときの計算結果) ・実験では、ミニバッチが = 100などで十分大きければサンプル数 = 1でも学習可能であった

2 Method 14 2.4 The reparameterization trick [例] エンコーダの出力がとで、それぞれ一変数の場合そのままN(,
2)でサンプリングすると、逆伝播不可 ⇒ N(0, 1)でをサンプリングして、z = + を使えばデコーダからエンコーダへの逆伝播が可能 (zはN(, 2)の分布に従う) 多変数に一般化した = ∅ , を選択するアプローチ [1] inverse CDF(累積分布関数の逆関数)が推定可能・CDF: Cumulative Distribution Function [2] ガウス分布のように、標準の分布が存在 [3] Composition: 数式の変形で得られる組み合わせ上記のアプローチが不可でも、PDFより良い近似法が存在を微分することができるので

3 Example: Variational Auto-Encoder 15 ニューラルネットワークへのAEVBの適用 → VAE ・エンコーダの出力と標準ガウス分布を組み合わせて (逆伝播が可能となるようにしてから)デコーダへ入力
・論文では、エンコーダはガウス分布を仮定しデコーダはベルヌーイ分布またはガウス分布を仮定 (論文中に、ネットワークや分布を限定しないとの記述) －(ガウス分布のKLダイバージェンス) サンプル数Lのサンプリング近似要素ごとの積エンコーダの出力エンコーダの出力多変量の標準ガウス分布

4 Related work 16 ・Wake-sleepアルゴリズム: Hinton先生が考案・確率的変分推論・線形のオートエンコーダ(≒主成分分析:PCA)と線形ガウスモデルの特別な場合の最尤推定・オートエンコーダと変分下限の最大化との関係
・役立つ(中間)表現を得られるようにする正則化・予測スパース分解(PSD)オートエンコーダ・深層生成確率的ネットワーク・深層ボルツマンマシンの効果的な認識モデル・DARNメソッド: 二値の潜在変数に対する手法

5 Experiments 17 MNISTとFrey Face datasetsで実験・MNIST: 28×28ピクセルの白黒画像手書きの0～9の数字学習用6万枚、検証用1万枚
・Frey Face datasets: 20×28ピクセルの白黒画像約2千枚のBrendan J. Frey氏の顔以下の既存手法に対し優位 [1] Wake-sleepアルゴリズム [2] モンテカルロEMアルゴリズム生成モデルの可視化は、AppendixのA項にて提示現在はカナダのトロント大学の教授

6 Conclusion 18 Abstractと、ほとんど同様の内容・SGVBは、変分下限の新しい推定量・AEVBは、SGVB推定量を用いた近似の推論モデル・理論的な利点は、実験結果によって裏付けられている

7 Future work 19 SGVB推定量とAEVBアルゴリズムは広く応用可能 [1] CNNなど深いNNによる階層的な生成アーキテクチャ [2] 動的ベイジアンネットワークなどの時系列モデル [3]
グローバルなパラメータへのSGVBの適用 [4] 複雑なノイズの分布の学習に役立つ教師ありモデル

VAE論文のAppendix 20 A Visualisations B Solutions of − Φ ()||θ
() , Gaussian case ガウス分布(正規分布)の場合のKLダイバージェンスの計算 C MLP’s as probablistic encoders and decoders MLP(多層パーセプトロン)のエンコーダ及びデコーダの定義 D Marginal likelihood estimator 周辺尤度の推定量 E Monte Carlo EM モンテカルロEMアルゴリズム F Full VB パラメータと潜在変数の両方を変分推論する場合の数式・手順

参考文献 21 ・論文 [1] Kingma, D. P. and Welling, M.
Auto-encoding variational bayes. In International Conference on Learning Representations, 2014. [2] Ha, D. and Shumidhuber, J. Recurrent World Models Facilitate Policy Evolution. NeurIPS 2018. ・書籍 [1] 変分ベイズ学習中島伸一著(講談社) [2] ベイズ推論による機械学習入門須山敦志著(講談社)

参考情報 22 Pixyz ・PyTorchベースの深層生成モデル実装用ライブラリ・東大松尾研の鈴木雅大氏が中心となって開発・VAEやGANなどの実装を統一的に記述可能とのこと https://github.com/masa-su/pixyz

VAE; Auto-Encoding Variational Bayes

VAE; Auto-Encoding Variational Bayes

Masanori YANO

More Decks by Masanori YANO

Other Decks in Science

Featured

Transcript

論文輪読会 #21 VAE; Auto-Encoding Variational Bayes 2019年4月3日(水) 矢農正紀 (Masanori

論文の構成 3 Abstract 1 Introduction → 導入 2 Method →

前提: オートエンコーダ(Auto-Encoder) 4 入力と出力が同じ構造のニューラルネットワーク・[入力] → [エンコーダ] → [デコーダ] →

前提: ベイズの定理 5 条件付き分布 )は、以下のベイズの定理で求められる ) = ) × ⇒

前提: KLダイバージェンス 6 二つの分布が「近いか近くないか」を測る尺度 [1] 離散型の確率分布 ()||() = ෍ log

Abstract (2/2) 8 貢献は二重構造?! [1] 変分下限のReparameterizationは、確率的勾配法でそのまま最適化できる下限の推定量 [2] 提案する下限の推定量は、近似的な推論モデル (認識モデルとも呼ぶ)に学習させることで

グラフィカルモデルとデータセット 9 対象とする有向グラフィカルモデル・実線: 生成モデル・点線: 推定困難なに対する近似∅ ・パラメータ∅は、生成モデルのパラメータと同時に学習想定する(大規模な)データセット

2 Method 11 2.1 Problem scenario 「データ: 潜在変数: パラメータ: 」でベイズの定理

2 Method 12 2.2 The variational bound (周辺尤度の対数) = (KLダイバージェンス)＋(変分下限)

2 Method 13 2.3 The SGVB estimator and AEVB algorithm

2 Method 14 2.4 The reparameterization trick [例] エンコーダの出力がとで、それぞれ一変数の場合そのままN(,

3 Example: Variational Auto-Encoder 15 ニューラルネットワークへのAEVBの適用 → VAE ・エンコーダの出力と標準ガウス分布を組み合わせて (逆伝播が可能となるようにしてから)デコーダへ入力

4 Related work 16 ・Wake-sleepアルゴリズム: Hinton先生が考案・確率的変分推論・線形のオートエンコーダ(≒主成分分析:PCA)と線形ガウスモデルの特別な場合の最尤推定・オートエンコーダと変分下限の最大化との関係

5 Experiments 17 MNISTとFrey Face datasetsで実験・MNIST: 28×28ピクセルの白黒画像手書きの0～9の数字学習用6万枚、検証用1万枚

6 Conclusion 18 Abstractと、ほとんど同様の内容・SGVBは、変分下限の新しい推定量・AEVBは、SGVB推定量を用いた近似の推論モデル・理論的な利点は、実験結果によって裏付けられている

7 Future work 19 SGVB推定量とAEVBアルゴリズムは広く応用可能 [1] CNNなど深いNNによる階層的な生成アーキテクチャ [2] 動的ベイジアンネットワークなどの時系列モデル [3]

VAE論文のAppendix 20 A Visualisations B Solutions of − Φ ()||θ

参考文献 21 ・論文 [1] Kingma, D. P. and Welling, M.

参考情報 22 Pixyz ・PyTorchベースの深層生成モデル実装用ライブラリ・東大松尾研の鈴木雅大氏が中心となって開発・VAEやGANなどの実装を統一的に記述可能とのこと https://github.com/masa-su/pixyz