Slide 1

Slide 1 text

Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness 論文紹介 yusumi

Slide 2

Slide 2 text

Motivation 2 ⚫ 近年、潜在空間を利用した生成モデルとして Variational Autoencoder (VAE) は大きな成功を収めている ⚫ しかしながら表現力豊かな Decoder を使用した場合, 情報量の少ない 潜在表現 (posterior collapse phenomenon) になる可能性がある

Slide 3

Slide 3 text

Posterior Collapse 3 潜在変数 𝒛 の事後分布 𝑞𝜙 𝒛|𝒙𝑛 が事前分布 𝑝 𝒛 と一致し, データの特性を捉えられない現象 尤度関数の NN の表現力が豊か 扱うデータが複雑 再構成誤差の最小化に対し, KL の最小化が優先される その結果, 近似事後分布と事前分布の KL divergence が 0 になる = 0

Slide 4

Slide 4 text

Related work 4 Posterior collapse を取り除くための多くの先行研究が存在する ⚫ Posterior collapse を最適化問題として解く ✓ KL annealing [Bowman et al. 2015, Fu et al 2019] ✓ Free-Bits (FB) [Kingma et al. 2016] ✓ aggressive training schedules [He et al. 2018] ✓ Decoder network weakening [Yang et al. 2017] ✓ …… ⚫ 目的関数を修正して潜在空間を学習する ✓ add Mutual Information (MI) based term [Fang et al. 2019, Zhao et al. 2019] ✓ define Mutual Posterior Divergence (MPD) based term [Ma et al. 2018]

Slide 5

Slide 5 text

Related work 5 しかしながら, これらの先行研究は追加の学習やモデルの変更を必要とする 提案手法では, 最適化手法や目的関数を修正せずに posterior collapse を取り除く Posterior collapse を取り除くための多くの先行研究が存在する ⚫ Posterior collapse を最適化問題として解く ✓ KL annealing [Bowman et al. 2015, Fu et al 2019] ✓ Free-Bits (FB) [Kingma et al. 2016] ✓ aggressive training schedules [He et al. 2018] ✓ Decoder network weakening [Yang et al. 2017] ✓ …… ⚫ 目的関数を修正して潜在空間を学習する ✓ add Mutual Information (MI) based term [Fang et al. 2019, Zhao et al. 2019] ✓ define Mutual Posterior Divergence (MPD) based term [Ma et al. 2018]

Slide 6

Slide 6 text

Background of VAE 6 ⚫ 入力空間 𝒙~𝑝𝐷 𝒙 が与えれた時, VAE は連続的な潜在空間 𝒛~𝑝 𝒛 を同時分布 𝑝 𝒙, 𝒛 を学習することで構築する ⚫ 最適化すべき目的関数は, 以下に示す変分下限 (Evidence Lower Bound : ELBO) である Reconstruction Loss Kullback-Leibler (KL) divergence between posterior and prior Gaussian Distribution max 𝜃,𝜙

Slide 7

Slide 7 text

Background of VAE 7 ⚫ 入力空間 𝒙~𝑝𝐷 𝒙 が与えれた時, VAE は連続的な潜在空間 𝒛~𝑝 𝒛 を同時分布 𝑝 𝒙, 𝒛 を学習することで構築する ⚫ 最適化すべき目的関数は, 以下に示す変分下限 (Evidence Lower Bound : ELBO) である しかしながら, Decoder に LSTM [Hochreiter et. al. 1997] や PixelCNN [Van den Oord et. al. 2016] などの自己回帰モデルを適用すると, モデル化の際に潜在変数を必要としない問題が生じる (潜在変数 𝒛 と観測変数 𝒙 が独立になる) max 𝜃,𝜙

Slide 8

Slide 8 text

The Proposed Method 8 ⚫ DU-VAE : Diverse and less Uncertain VAE ⚫ Diversity : 異なる入力 𝒙1 , 𝒙2 が与えられた時, 事後分布 𝑞 𝒛1 𝒙1 ~ 𝑁 𝜇𝒙1 , 𝛿𝒙1 2 と 𝑞 𝒛2 𝒙2 ~ 𝑁 𝜇𝒙2 , 𝛿𝒙2 2 は互いに多様化すべき ⚫ Uncertainty : 入力 𝒙 が与えられた時, 潜在変数 𝒛 の不確実性を小さくすべき Diversity の定式化 Mutual Posterior Divergence (MPD) Uncertainty の定式化 Conditional Entropy (CE)

Slide 9

Slide 9 text

Implementation of Dropout and BN 9 ⚫ 事後分布の分散パラメータに Dropout を適用する ⚫ 事後分布の平均パラメータに Batch Normalization を適用する

Slide 10

Slide 10 text

Dropout 10 ⚫ 事後分布の分散パラメータに Dropout を適用する ✓ 𝑔𝑥,𝑑 は正規化 Bernoulli 分布から生成される確率変数を表す 𝑔𝑥,𝑑 ~ 𝐵 1, 𝑝 𝑝 , 𝑝 ∈ 0, 1 , 𝐸𝐵 𝑔𝑥,𝑑 = 1 𝛼 = 1 2𝜋𝑒 を保証 𝐻 𝑞𝜙 𝒛|𝒙 > 0, መ 𝛿𝑥,𝑑 2 > 𝛼 を保証 ✓ 𝛼 は固定値で, CE の非負性を強制させる ( መ 𝛿𝑥,𝑑 2 が限りなく 0 に近づくのを抑制)

Slide 11

Slide 11 text

The merit of Dropout 11 ⚫ 事後分布の分散パラメータに Dropout を適用すると, 次の式を導ける Uncertainty の減少 の下限を 与える Diversity の向上 数式の証明は Appendix

Slide 12

Slide 12 text

Batch Normalization 12 ⚫ 事後分布の平均パラメータに Batch Normalization を適用する ✓ 𝜇𝐵𝑑 , 𝛿𝐵𝑑 は mini-batch 毎に推定される 𝜇𝑥,𝑑 の平均・分散を表す ✓ 𝛾𝜇𝑑 , 𝛽𝜇𝑑 はスケールとシフトのパラメータで, 𝐸 ො 𝜇𝑥,𝑑 = 𝛽𝜇𝑑 , 𝑉𝑎𝑟 ො 𝜇𝑥,𝑑 = 𝛾𝜇𝑑 2 を満たす ⚫ MPD に関する下限制約 𝑉𝑎𝑟 𝜇𝑥,𝑑 = 𝛾𝜇𝑑 2 を初期値で制御可能 1. 各次元の初期値 𝛾𝜇𝑑 = 𝛾, ∀𝑑 を設定 2. train の各ステップで 𝛾𝜇𝑑 に を掛ける → BN 導入の利点

Slide 13

Slide 13 text

DU-IAF : Extension of VAE-IAF 13 DU-VAE は Flow ベース生成モデルにも適用可能 L. Weng. "Flow-based Deep Generative Models." 学習過程のイメージ : Qiita ⚫ Flow : 一定期間の可逆変換の連鎖を通して潜在空間を学習

Slide 14

Slide 14 text

DU-IAF : Extension of VAE-IAF 14 ⚫ VAE-AIF [Kingma et al. 2016] : VAE の潜在空間の学習に Flow を適用 𝑡 > 0 : 𝑡 = 0 : ℎ : 外部埋め込みデータ 𝑡 = 0 の時に Dropout と BN を施すことで, 多様性と不確実性が向上することを示せる (Appendix)

Slide 15

Slide 15 text

Experiments 15 ⚫ データセット ✓ テキスト : Yahoo and Yelp [Yang et al. 2017] ✓ 画像 : OMNIGLOT [Lake et al. 2015] ⚫ 評価指標 ✓ Negative Log-likelihood (NLL) ✓ The value of KL term (KL) ✓ Mutual Information (MI) 𝐼 𝑥, 𝑧 ✓ Active Units (AU)

Slide 16

Slide 16 text

Performance for Downstream Classifications 16 テキストと画像の分類タスクに対して, 学習済み VAE モデルの出力を 入力とした NN を学習させる テキスト分類 画像分類

Slide 17

Slide 17 text

Case Study : Latent Space Visualization 17 ⚫ 2次元混合ガウス分布から生成された人工データを用いて異なる VAE モデルを学習 ⚫ 得られた潜在空間の事後分布とmini-batch 毎に得られる平均パラメータを可視化する の可視化 の可視化 色は True Latent Space の 各コンポーネントに対応

Slide 18

Slide 18 text

Conclusion 18 ⚫ 事後分布のパラメータを調整することで, 多様的で不確実性の少ない 潜在空間の獲得を示した ⚫ 分散パラメータに Dropout, 平均パラメータに Batch Normalization を適用 した DU-VAE を提案 ⚫ DU-VAE を VAE-IAF に拡張 ⚫ 実験で既存手法の予測精度を上回った

Slide 19

Slide 19 text

Appendix 19 ⚫ p11 数式証明 : ✓ 論文の Appendix B 参照 ⚫ p14 の初期パラメータに Dropout, BN を通す理由の証明 : ✓ 論文の Appendix D 参照