$30 off During Our Annual Pro Sale. View Details »

VAE; Auto-Encoding Variational Bayes

VAE; Auto-Encoding Variational Bayes

論文輪読会で作成したVAE論文の説明資料です。

Masanori YANO

April 03, 2019
Tweet

More Decks by Masanori YANO

Other Decks in Science

Transcript

  1. 論文輪読会 #21
    VAE; Auto-Encoding Variational Bayes
    2019年4月3日(水)
    矢農 正紀 (Masanori YANO)

    View Slide

  2. 論文の位置付け
    2
    VAEは、深層学習における生成モデルの一つ
    ・論文では変分ベイズ学習の枠組みから、例として提唱
    ・VAEで生成された画像は、ぼやけた画像になる
    ・エンコーダの出力を特徴抽出に用いた応用事例が多い
    ・World Modelsでは、環境のシミュレーターとして適用
    https://worldmodels.github.io/

    View Slide

  3. 論文の構成
    3
    Abstract
    1 Introduction → 導入
    2 Method → 手法
    2.1 Problem scenario
    2.2 The variational bound
    2.3 The SGVB estimator and AEVB algorithm
    2.4 The reparameterization trick
    3 Example: Variational Auto-Encoder → VAE
    4 Related work → 関連研究
    5 Experiments → 実験結果
    6 Conclusion → 結論
    7 Future work → 将来の課題
    References
    (Appendix)

    View Slide

  4. 前提: オートエンコーダ(Auto-Encoder)
    4
    入力と出力が同じ構造のニューラルネットワーク
    ・[入力] → [エンコーダ] → [デコーダ] → [出力] の構造
    ・学習に使用するデータへのアノテーション作業が不要
    ・エンコーダの出力を、特徴量として使用可能
    VAEの外形だけ見ると、違いは中間層と損失関数
    [1] エンコーダの出力を、ガウス分布のパラメータに適用
    [2] 損失関数に、符号(±)を逆にした「変分下限」を使用
    (変分下限を最大化するので、-(変分下限) を最小化)

    View Slide

  5. 前提: ベイズの定理
    5
    条件付き分布 )は、以下のベイズの定理で求められる
    ) =
    ) ×

    ⇒ を使って、事前分布 から事後分布 )を計算
    (事前分布: prior distribution 事後分布: posterior distribution)
    観測データで、モデルパラメータの情報を得られたとき
    事前分布 から事後分布 )を計算
    ) =
    ) ×

    ) : 尤度(likelihood)
    = ׬ , : 周辺尤度(marginal likelihood)
    ,
    = ×
    = ×

    View Slide

  6. 前提: KLダイバージェンス
    6
    二つの分布が「近いか近くないか」を測る尺度
    [1] 離散型の確率分布

    ()||() = ෍

    log


    [2] 連続型の確率分布

    ()||() = න () log



    ・分布()から見たときに、分布()が近いか近くないか

    ()||() は常に0以上で、 0は同じ分布のときだけ
    ・二つの分布が近いと小さな値、近くないと大きな値
    ・距離に似ていて代用されるが、距離の公理は満たさない
    (対称性
    ()||() =
    ()||() を満たさない)

    View Slide

  7. Abstract (1/2)
    7
    有向な確率モデルにおける効率的な推論と学習
    ・事後分布が推定困難な連続的な潜在変数に対し、
    大きなデータセットでも推定可能なアルゴリズム
    ・アルゴリズムは、大きなデータセットにスケールする
    ・微分可能であることを条件とする → やや緩やかな条件
    ・(事後分布が)推定困難な場合でも機能する
    How can we perform efficient inference and learning
    in directed probabilistic models, in the presence of
    continuous latent variables with intractable posterior
    distributions, and large datasets?
    We introduce a stochastic variational inference and
    learning algorithm that scales to large datasets and,
    under some mild differentiablity conditions, even
    works in the intractable case.

    View Slide

  8. Abstract (2/2)
    8
    貢献は二重構造?!
    [1] 変分下限のReparameterizationは、確率的勾配法で
    そのまま最適化できる下限の推定量
    [2] 提案する下限の推定量は、近似的な推論モデル
    (認識モデルとも呼ぶ)に学習させることで
    推定困難な事後分布であっても、効率的に推論可能
    Our contributions is two-fold.
    First, we show that a reparameterization of the variational lower
    bound yields a lower bound estimator that can be
    straightforwardly optimized using standard stochastic gradient
    methods.
    Second, we show that for i.i.d. datasets with continuous latent
    variables per datapoint, posterior inference can be made
    especially efficient by fitting an approximate inference model
    (also called a recognition model) to the intractable posterior
    using the proposed lower bound estimator.
    Theoretical advantages are refleted in experimental results.

    View Slide

  9. グラフィカルモデルとデータセット
    9
    対象とする有向グラフィカルモデル
    ・実線: 生成モデル


    ・点線: 推定困難な
    に対する近似∅

    ・パラメータ∅は、生成モデルのパラメータと同時に学習
    想定する(大規模な)データセット
    ・i.i.d.(independent and identically distributed)
    ・データごとに独立で、同一の分布に従う

    View Slide

  10. 1 Introduction
    10
    ・事後分布が推定困難なときに、潜在変数やパラメータを
    どのように近似的に推論・学習させればよいか
    ・変分ベイズのアプローチは、推定困難な事後分布に対し
    近似の最適化を可能とするが、共通的な平均場近似では
    期待値の解析解を必要とし、それも一般には推定困難
    ・変分下限のReparameterizationは、下限の推定量を与え
    シンプルで微分可能で不偏
    ・SGVB推定量を使用するAEVBアルゴリズムを提案
    ・MCMCのような、コストの高い反復的な推論は不要
    ・推論モデルにニューラルネットワークを使用 ⇒ VAE
    ・AEVB: Auto-Encoding Variational Bayesian
    ・SGVB: Stochastic Gradient Variational Bayes
    ・w.r.t.(with respect to/with regard to): ~に関しては
    グラフィカルモデルの図中の

    View Slide

  11. 2 Method
    11
    2.1 Problem scenario
    「データ: 潜在変数: パラメータ: 」でベイズの定理

    ) =

    ) ×



    ・尤度
    )と事前分布
    は微分可能であると仮定
    PDF(s): Probability Density Function(確率密度関数)
    ・以下の場合の、一般的なアルゴリズムに関心
    [1] 周辺尤度
    = ׬

    )は推定困難
    [2] モンテカルロEMなどが非常に低速な大規模データ
    ・パラメータを最尤推定(ML)か最大事後確率推定(MAP)
    ・認識モデル∅
    ): エンコーダ ※ ∅はと同時に学習

    ): デコーダ

    View Slide

  12. 2 Method
    12
    2.2 The variational bound
    (周辺尤度の対数) = (KLダイバージェンス)+(変分下限)
    ⇒ (周辺尤度の対数) ≧ (変分下限)
    尤度を最大化する代わりに、変分下限を最大化すればよい
    ⇒ その結果、∅
    () と推定困難な
    () が近付く
    変分下限の式を展開すると、以下の(3)の数式
    パラメータ∅とに対して、変分下限を微分して最適化
    ナイーブなモンテカルロ勾配の推定量では問題がある
    ⇒ バリアンスが非常に高くなってしまって、非実用的
    ・RHS: Right-Hand Side(右辺)
    KLダイバージェンスは0以上なので

    View Slide

  13. 2 Method
    13
    2.3 The SGVB estimator and AEVB algorithm
    ・変分下限は、確率的勾配法のアルゴリズムで最大化可能
    (SGDやAdagradといったオプティマイザを使用できる)
    ・SGVB推定量の、KLダイバージェンスを含む数式は(7)
    ⇒ 第一項は正則化項として機能、第二項は負の再構成誤差
    ・KLダイバージェンスは、ガウス分布なら解析的に解ける
    (AppendixのB項に、ガウス分布のときの計算結果)
    ・実験では、ミニバッチが = 100などで十分大きければ
    サンプル数 = 1でも学習可能であった

    View Slide

  14. 2 Method
    14
    2.4 The reparameterization trick
    [例] エンコーダの出力がとで、それぞれ一変数の場合
    そのままN(, 2)でサンプリングすると、逆伝播不可
    ⇒ N(0, 1)でをサンプリングして、z = + を使えば
    デコーダからエンコーダへの逆伝播が可能
    (zはN(, 2)の分布に従う)
    多変数に一般化した = ∅
    , を選択するアプローチ
    [1] inverse CDF(累積分布関数の逆関数)が推定可能
    ・CDF: Cumulative Distribution Function
    [2] ガウス分布のように、標準の分布が存在
    [3] Composition: 数式の変形で得られる組み合わせ
    上記のアプローチが不可でも、PDFより良い近似法が存在
    を微分することができるので

    View Slide

  15. 3 Example: Variational Auto-Encoder
    15
    ニューラルネットワークへのAEVBの適用 → VAE
    ・エンコーダの出力と標準ガウス分布を組み合わせて
    (逆伝播が可能となるようにしてから)デコーダへ入力
    ・論文では、エンコーダはガウス分布を仮定し
    デコーダはベルヌーイ分布またはガウス分布を仮定
    (論文中に、ネットワークや分布を限定しないとの記述)
    -(ガウス分布のKLダイバージェンス) サンプル数Lのサンプリング近似
    要素ごとの積
    エンコーダの出力
    エンコーダの出力 多変量の標準ガウス分布

    View Slide

  16. 4 Related work
    16
    ・Wake-sleepアルゴリズム: Hinton先生が考案
    ・確率的変分推論
    ・線形のオートエンコーダ(≒主成分分析:PCA)と
    線形ガウスモデルの特別な場合の最尤推定
    ・オートエンコーダと変分下限の最大化との関係
    ・役立つ(中間)表現を得られるようにする正則化
    ・予測スパース分解(PSD)オートエンコーダ
    ・深層生成確率的ネットワーク
    ・深層ボルツマンマシンの効果的な認識モデル
    ・DARNメソッド: 二値の潜在変数に対する手法

    View Slide

  17. 5 Experiments
    17
    MNISTとFrey Face datasetsで実験
    ・MNIST: 28×28ピクセルの白黒画像
    手書きの0~9の数字
    学習用6万枚、検証用1万枚
    ・Frey Face datasets: 20×28ピクセルの白黒画像
    約2千枚のBrendan J. Frey氏の顔
    以下の既存手法に対し優位
    [1] Wake-sleepアルゴリズム
    [2] モンテカルロEMアルゴリズム
    生成モデルの可視化は、AppendixのA項にて提示
    現在はカナダの
    トロント大学の教授

    View Slide

  18. 6 Conclusion
    18
    Abstractと、ほとんど同様の内容
    ・SGVBは、変分下限の新しい推定量
    ・AEVBは、SGVB推定量を用いた近似の推論モデル
    ・理論的な利点は、実験結果によって裏付けられている

    View Slide

  19. 7 Future work
    19
    SGVB推定量とAEVBアルゴリズムは広く応用可能
    [1] CNNなど深いNNによる階層的な生成アーキテクチャ
    [2] 動的ベイジアンネットワークなどの時系列モデル
    [3] グローバルなパラメータへのSGVBの適用
    [4] 複雑なノイズの分布の学習に役立つ教師ありモデル

    View Slide

  20. VAE論文のAppendix
    20
    A Visualisations
    B Solutions of −
    Φ
    ()||θ
    () , Gaussian case
    ガウス分布(正規分布)の場合のKLダイバージェンスの計算
    C MLP’s as probablistic encoders and decoders
    MLP(多層パーセプトロン)のエンコーダ及びデコーダの定義
    D Marginal likelihood estimator
    周辺尤度の推定量
    E Monte Carlo EM
    モンテカルロEMアルゴリズム
    F Full VB
    パラメータと潜在変数の両方を変分推論する場合の数式・手順

    View Slide

  21. 参考文献
    21
    ・論文
    [1] Kingma, D. P. and Welling, M. Auto-encoding
    variational bayes. In International Conference on
    Learning Representations, 2014.
    [2] Ha, D. and Shumidhuber, J. Recurrent World
    Models Facilitate Policy Evolution. NeurIPS 2018.
    ・書籍
    [1] 変分ベイズ学習 中島伸一著(講談社)
    [2] ベイズ推論による機械学習入門 須山敦志著(講談社)

    View Slide

  22. 参考情報
    22
    Pixyz
    ・PyTorchベースの深層生成モデル実装用ライブラリ
    ・東大松尾研の鈴木雅大氏が中心となって開発
    ・VAEやGANなどの実装を統一的に記述可能とのこと
    https://github.com/masa-su/pixyz

    View Slide