Upgrade to Pro — share decks privately, control downloads, hide ads and more …

VAE; Auto-Encoding Variational Bayes

VAE; Auto-Encoding Variational Bayes

論文輪読会で作成したVAE論文の説明資料です。

Masanori YANO

April 03, 2019
Tweet

More Decks by Masanori YANO

Other Decks in Science

Transcript

  1. 論文の構成 3 Abstract 1 Introduction → 導入 2 Method →

    手法 2.1 Problem scenario 2.2 The variational bound 2.3 The SGVB estimator and AEVB algorithm 2.4 The reparameterization trick 3 Example: Variational Auto-Encoder → VAE 4 Related work → 関連研究 5 Experiments → 実験結果 6 Conclusion → 結論 7 Future work → 将来の課題 References (Appendix)
  2. 前提: オートエンコーダ(Auto-Encoder) 4 入力と出力が同じ構造のニューラルネットワーク ・[入力] → [エンコーダ] → [デコーダ] →

    [出力] の構造 ・学習に使用するデータへのアノテーション作業が不要 ・エンコーダの出力を、特徴量として使用可能 VAEの外形だけ見ると、違いは中間層と損失関数 [1] エンコーダの出力を、ガウス分布のパラメータに適用 [2] 損失関数に、符号(±)を逆にした「変分下限」を使用 (変分下限を最大化するので、-(変分下限) を最小化)
  3. 前提: ベイズの定理 5 条件付き分布 )は、以下のベイズの定理で求められる ) = ) × ⇒

    を使って、事前分布 から事後分布 )を計算 (事前分布: prior distribution 事後分布: posterior distribution) 観測データで、モデルパラメータの情報を得られたとき 事前分布 から事後分布 )を計算 ) = ) × ) : 尤度(likelihood) = ׬ , : 周辺尤度(marginal likelihood) , = × = ×
  4. 前提: KLダイバージェンス 6 二つの分布が「近いか近くないか」を測る尺度 [1] 離散型の確率分布 ()||() = ෍ log

    [2] 連続型の確率分布 ()||() = න () log ・分布()から見たときに、分布()が近いか近くないか ・ ()||() は常に0以上で、 0は同じ分布のときだけ ・二つの分布が近いと小さな値、近くないと大きな値 ・距離に似ていて代用されるが、距離の公理は満たさない (対称性 ()||() = ()||() を満たさない)
  5. Abstract (1/2) 7 有向な確率モデルにおける効率的な推論と学習 ・事後分布が推定困難な連続的な潜在変数に対し、 大きなデータセットでも推定可能なアルゴリズム ・アルゴリズムは、大きなデータセットにスケールする ・微分可能であることを条件とする → やや緩やかな条件

    ・(事後分布が)推定困難な場合でも機能する How can we perform efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables with intractable posterior distributions, and large datasets? We introduce a stochastic variational inference and learning algorithm that scales to large datasets and, under some mild differentiablity conditions, even works in the intractable case.
  6. Abstract (2/2) 8 貢献は二重構造?! [1] 変分下限のReparameterizationは、確率的勾配法で そのまま最適化できる下限の推定量 [2] 提案する下限の推定量は、近似的な推論モデル (認識モデルとも呼ぶ)に学習させることで

    推定困難な事後分布であっても、効率的に推論可能 Our contributions is two-fold. First, we show that a reparameterization of the variational lower bound yields a lower bound estimator that can be straightforwardly optimized using standard stochastic gradient methods. Second, we show that for i.i.d. datasets with continuous latent variables per datapoint, posterior inference can be made especially efficient by fitting an approximate inference model (also called a recognition model) to the intractable posterior using the proposed lower bound estimator. Theoretical advantages are refleted in experimental results.
  7. 1 Introduction 10 ・事後分布が推定困難なときに、潜在変数やパラメータを どのように近似的に推論・学習させればよいか ・変分ベイズのアプローチは、推定困難な事後分布に対し 近似の最適化を可能とするが、共通的な平均場近似では 期待値の解析解を必要とし、それも一般には推定困難 ・変分下限のReparameterizationは、下限の推定量を与え シンプルで微分可能で不偏

    ・SGVB推定量を使用するAEVBアルゴリズムを提案 ・MCMCのような、コストの高い反復的な推論は不要 ・推論モデルにニューラルネットワークを使用 ⇒ VAE ・AEVB: Auto-Encoding Variational Bayesian ・SGVB: Stochastic Gradient Variational Bayes ・w.r.t.(with respect to/with regard to): ~に関しては グラフィカルモデルの図中の
  8. 2 Method 11 2.1 Problem scenario 「データ: 潜在変数: パラメータ: 」でベイズの定理

    ) = ) × ・尤度 )と事前分布 は微分可能であると仮定 PDF(s): Probability Density Function(確率密度関数) ・以下の場合の、一般的なアルゴリズムに関心 [1] 周辺尤度 = ׬ )は推定困難 [2] モンテカルロEMなどが非常に低速な大規模データ ・パラメータを最尤推定(ML)か最大事後確率推定(MAP) ・認識モデル∅ ): エンコーダ ※ ∅はと同時に学習 ・ ): デコーダ
  9. 2 Method 12 2.2 The variational bound (周辺尤度の対数) = (KLダイバージェンス)+(変分下限)

    ⇒ (周辺尤度の対数) ≧ (変分下限) 尤度を最大化する代わりに、変分下限を最大化すればよい ⇒ その結果、∅ () と推定困難な () が近付く 変分下限の式を展開すると、以下の(3)の数式 パラメータ∅とに対して、変分下限を微分して最適化 ナイーブなモンテカルロ勾配の推定量では問題がある ⇒ バリアンスが非常に高くなってしまって、非実用的 ・RHS: Right-Hand Side(右辺) KLダイバージェンスは0以上なので
  10. 2 Method 13 2.3 The SGVB estimator and AEVB algorithm

    ・変分下限は、確率的勾配法のアルゴリズムで最大化可能 (SGDやAdagradといったオプティマイザを使用できる) ・SGVB推定量の、KLダイバージェンスを含む数式は(7) ⇒ 第一項は正則化項として機能、第二項は負の再構成誤差 ・KLダイバージェンスは、ガウス分布なら解析的に解ける (AppendixのB項に、ガウス分布のときの計算結果) ・実験では、ミニバッチが = 100などで十分大きければ サンプル数 = 1でも学習可能であった
  11. 2 Method 14 2.4 The reparameterization trick [例] エンコーダの出力がとで、それぞれ一変数の場合 そのままN(,

    2)でサンプリングすると、逆伝播不可 ⇒ N(0, 1)でをサンプリングして、z = + を使えば デコーダからエンコーダへの逆伝播が可能 (zはN(, 2)の分布に従う) 多変数に一般化した = ∅ , を選択するアプローチ [1] inverse CDF(累積分布関数の逆関数)が推定可能 ・CDF: Cumulative Distribution Function [2] ガウス分布のように、標準の分布が存在 [3] Composition: 数式の変形で得られる組み合わせ 上記のアプローチが不可でも、PDFより良い近似法が存在 を微分することができるので
  12. 3 Example: Variational Auto-Encoder 15 ニューラルネットワークへのAEVBの適用 → VAE ・エンコーダの出力と標準ガウス分布を組み合わせて (逆伝播が可能となるようにしてから)デコーダへ入力

    ・論文では、エンコーダはガウス分布を仮定し デコーダはベルヌーイ分布またはガウス分布を仮定 (論文中に、ネットワークや分布を限定しないとの記述) -(ガウス分布のKLダイバージェンス) サンプル数Lのサンプリング近似 要素ごとの積 エンコーダの出力 エンコーダの出力 多変量の標準ガウス分布
  13. 4 Related work 16 ・Wake-sleepアルゴリズム: Hinton先生が考案 ・確率的変分推論 ・線形のオートエンコーダ(≒主成分分析:PCA)と 線形ガウスモデルの特別な場合の最尤推定 ・オートエンコーダと変分下限の最大化との関係

    ・役立つ(中間)表現を得られるようにする正則化 ・予測スパース分解(PSD)オートエンコーダ ・深層生成確率的ネットワーク ・深層ボルツマンマシンの効果的な認識モデル ・DARNメソッド: 二値の潜在変数に対する手法
  14. 5 Experiments 17 MNISTとFrey Face datasetsで実験 ・MNIST: 28×28ピクセルの白黒画像 手書きの0~9の数字 学習用6万枚、検証用1万枚

    ・Frey Face datasets: 20×28ピクセルの白黒画像 約2千枚のBrendan J. Frey氏の顔 以下の既存手法に対し優位 [1] Wake-sleepアルゴリズム [2] モンテカルロEMアルゴリズム 生成モデルの可視化は、AppendixのA項にて提示 現在はカナダの トロント大学の教授
  15. VAE論文のAppendix 20 A Visualisations B Solutions of − Φ ()||θ

    () , Gaussian case ガウス分布(正規分布)の場合のKLダイバージェンスの計算 C MLP’s as probablistic encoders and decoders MLP(多層パーセプトロン)のエンコーダ及びデコーダの定義 D Marginal likelihood estimator 周辺尤度の推定量 E Monte Carlo EM モンテカルロEMアルゴリズム F Full VB パラメータと潜在変数の両方を変分推論する場合の数式・手順
  16. 参考文献 21 ・論文 [1] Kingma, D. P. and Welling, M.

    Auto-encoding variational bayes. In International Conference on Learning Representations, 2014. [2] Ha, D. and Shumidhuber, J. Recurrent World Models Facilitate Policy Evolution. NeurIPS 2018. ・書籍 [1] 変分ベイズ学習 中島伸一著(講談社) [2] ベイズ推論による機械学習入門 須山敦志著(講談社)