論文紹介 : Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness

Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness 論文紹介 yusumi

Motivation 2 ⚫ 近年、潜在空間を利用した生成モデルとして Variational Autoencoder (VAE) は大きな成功を収めている ⚫ しかしながら表現力豊かな
Decoder を使用した場合, 情報量の少ない潜在表現 (posterior collapse phenomenon) になる可能性がある

Posterior Collapse 3 潜在変数 𝒛 の事後分布 𝑞𝜙 𝒛|𝒙𝑛 が事前分布 𝑝
𝒛 と一致し, データの特性を捉えられない現象尤度関数の NN の表現力が豊か扱うデータが複雑再構成誤差の最小化に対し, KL の最小化が優先されるその結果, 近似事後分布と事前分布の KL divergence が 0 になる = 0

Related work 4 Posterior collapse を取り除くための多くの先行研究が存在する ⚫ Posterior collapse を最適化問題として解く
✓ KL annealing [Bowman et al. 2015, Fu et al 2019] ✓ Free-Bits (FB) [Kingma et al. 2016] ✓ aggressive training schedules [He et al. 2018] ✓ Decoder network weakening [Yang et al. 2017] ✓ …… ⚫ 目的関数を修正して潜在空間を学習する ✓ add Mutual Information (MI) based term [Fang et al. 2019, Zhao et al. 2019] ✓ define Mutual Posterior Divergence (MPD) based term [Ma et al. 2018]

Related work 5 しかしながら, これらの先行研究は追加の学習やモデルの変更を必要とする提案手法では, 最適化手法や目的関数を修正せずに posterior collapse を取り除く
Posterior collapse を取り除くための多くの先行研究が存在する ⚫ Posterior collapse を最適化問題として解く ✓ KL annealing [Bowman et al. 2015, Fu et al 2019] ✓ Free-Bits (FB) [Kingma et al. 2016] ✓ aggressive training schedules [He et al. 2018] ✓ Decoder network weakening [Yang et al. 2017] ✓ …… ⚫ 目的関数を修正して潜在空間を学習する ✓ add Mutual Information (MI) based term [Fang et al. 2019, Zhao et al. 2019] ✓ define Mutual Posterior Divergence (MPD) based term [Ma et al. 2018]

Background of VAE 6 ⚫ 入力空間 𝒙~𝑝𝐷 𝒙 が与えれた時, VAE
は連続的な潜在空間 𝒛~𝑝 𝒛 を同時分布 𝑝 𝒙, 𝒛 を学習することで構築する ⚫ 最適化すべき目的関数は, 以下に示す変分下限 (Evidence Lower Bound : ELBO) である Reconstruction Loss Kullback-Leibler (KL) divergence between posterior and prior Gaussian Distribution max 𝜃,𝜙

Background of VAE 7 ⚫ 入力空間 𝒙~𝑝𝐷 𝒙 が与えれた時, VAE
は連続的な潜在空間 𝒛~𝑝 𝒛 を同時分布 𝑝 𝒙, 𝒛 を学習することで構築する ⚫ 最適化すべき目的関数は, 以下に示す変分下限 (Evidence Lower Bound : ELBO) であるしかしながら, Decoder に LSTM [Hochreiter et. al. 1997] や PixelCNN [Van den Oord et. al. 2016] などの自己回帰モデルを適用すると, モデル化の際に潜在変数を必要としない問題が生じる (潜在変数 𝒛 と観測変数 𝒙 が独立になる) max 𝜃,𝜙

The Proposed Method 8 ⚫ DU-VAE : Diverse and less
Uncertain VAE ⚫ Diversity : 異なる入力 𝒙1 , 𝒙2 が与えられた時, 事後分布 𝑞 𝒛1 𝒙1 ~ 𝑁 𝜇𝒙1 , 𝛿𝒙1 2 と 𝑞 𝒛2 𝒙2 ~ 𝑁 𝜇𝒙2 , 𝛿𝒙2 2 は互いに多様化すべき ⚫ Uncertainty : 入力 𝒙 が与えられた時, 潜在変数 𝒛 の不確実性を小さくすべき Diversity の定式化 Mutual Posterior Divergence (MPD) Uncertainty の定式化 Conditional Entropy (CE)

Implementation of Dropout and BN 9 ⚫ 事後分布の分散パラメータに Dropout を適用する
⚫ 事後分布の平均パラメータに Batch Normalization を適用する

Dropout 10 ⚫ 事後分布の分散パラメータに Dropout を適用する ✓ 𝑔𝑥,𝑑 は正規化 Bernoulli
分布から生成される確率変数を表す 𝑔𝑥,𝑑 ~ 𝐵 1, 𝑝 𝑝 , 𝑝 ∈ 0, 1 , 𝐸𝐵 𝑔𝑥,𝑑 = 1 𝛼 = 1 2𝜋𝑒 を保証 𝐻 𝑞𝜙 𝒛|𝒙 > 0, መ 𝛿𝑥,𝑑 2 > 𝛼 を保証 ✓ 𝛼 は固定値で, CE の非負性を強制させる ( መ 𝛿𝑥,𝑑 2 が限りなく 0 に近づくのを抑制)

The merit of Dropout 11 ⚫ 事後分布の分散パラメータに Dropout を適用すると, 次の式を導ける
Uncertainty の減少の下限を与える Diversity の向上数式の証明は Appendix

Batch Normalization 12 ⚫ 事後分布の平均パラメータに Batch Normalization を適用する ✓ 𝜇𝐵𝑑
, 𝛿𝐵𝑑 は mini-batch 毎に推定される 𝜇𝑥,𝑑 の平均・分散を表す ✓ 𝛾𝜇𝑑 , 𝛽𝜇𝑑 はスケールとシフトのパラメータで, 𝐸 ො 𝜇𝑥,𝑑 = 𝛽𝜇𝑑 , 𝑉𝑎𝑟 ො 𝜇𝑥,𝑑 = 𝛾𝜇𝑑 2 を満たす ⚫ MPD に関する下限制約 𝑉𝑎𝑟 𝜇𝑥,𝑑 = 𝛾𝜇𝑑 2 を初期値で制御可能 1. 各次元の初期値 𝛾𝜇𝑑 = 𝛾, ∀𝑑 を設定 2. train の各ステップで 𝛾𝜇𝑑 にを掛ける → BN 導入の利点

DU-IAF : Extension of VAE-IAF 13 DU-VAE は Flow ベース生成モデルにも適用可能
L. Weng. "Flow-based Deep Generative Models." 学習過程のイメージ : Qiita ⚫ Flow : 一定期間の可逆変換の連鎖を通して潜在空間を学習

DU-IAF : Extension of VAE-IAF 14 ⚫ VAE-AIF [Kingma et
al. 2016] : VAE の潜在空間の学習に Flow を適用 𝑡 > 0 : 𝑡 = 0 : ℎ : 外部埋め込みデータ 𝑡 = 0 の時に Dropout と BN を施すことで, 多様性と不確実性が向上することを示せる (Appendix)

Experiments 15 ⚫ データセット ✓ テキスト : Yahoo and Yelp
[Yang et al. 2017] ✓ 画像 : OMNIGLOT [Lake et al. 2015] ⚫ 評価指標 ✓ Negative Log-likelihood (NLL) ✓ The value of KL term (KL) ✓ Mutual Information (MI) 𝐼 𝑥, 𝑧 ✓ Active Units (AU)

Performance for Downstream Classifications 16 テキストと画像の分類タスクに対して, 学習済み VAE モデルの出力を入力とした
NN を学習させるテキスト分類画像分類

Case Study : Latent Space Visualization 17 ⚫ 2次元混合ガウス分布から生成された人工データを用いて異なる VAE
モデルを学習 ⚫ 得られた潜在空間の事後分布とmini-batch 毎に得られる平均パラメータを可視化するの可視化の可視化色は True Latent Space の各コンポーネントに対応

Conclusion 18 ⚫ 事後分布のパラメータを調整することで, 多様的で不確実性の少ない潜在空間の獲得を示した ⚫ 分散パラメータに Dropout, 平均パラメータに
Batch Normalization を適用した DU-VAE を提案 ⚫ DU-VAE を VAE-IAF に拡張 ⚫ 実験で既存手法の予測精度を上回った

Appendix 19 ⚫ p11 数式証明 : ✓ 論文の Appendix B
参照 ⚫ p14 の初期パラメータに Dropout, BN を通す理由の証明 : ✓ 論文の Appendix D 参照

論文紹介 : Regularizing Variational Autoencoder wit...

論文紹介 : Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness

yusumi

More Decks by yusumi

Other Decks in Research

Featured

Transcript

Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness 論文紹介 yusumi

Motivation 2 ⚫ 近年、潜在空間を利用した生成モデルとして Variational Autoencoder (VAE) は大きな成功を収めている ⚫ しかしながら表現力豊かな

Posterior Collapse 3 潜在変数 𝒛 の事後分布 𝑞𝜙 𝒛|𝒙𝑛 が事前分布 𝑝

Related work 4 Posterior collapse を取り除くための多くの先行研究が存在する ⚫ Posterior collapse を最適化問題として解く

Related work 5 しかしながら, これらの先行研究は追加の学習やモデルの変更を必要とする提案手法では, 最適化手法や目的関数を修正せずに posterior collapse を取り除く

Background of VAE 6 ⚫ 入力空間 𝒙~𝑝𝐷 𝒙 が与えれた時, VAE

Background of VAE 7 ⚫ 入力空間 𝒙~𝑝𝐷 𝒙 が与えれた時, VAE

The Proposed Method 8 ⚫ DU-VAE : Diverse and less

Implementation of Dropout and BN 9 ⚫ 事後分布の分散パラメータに Dropout を適用する

Dropout 10 ⚫ 事後分布の分散パラメータに Dropout を適用する ✓ 𝑔𝑥,𝑑 は正規化 Bernoulli

The merit of Dropout 11 ⚫ 事後分布の分散パラメータに Dropout を適用すると, 次の式を導ける

Batch Normalization 12 ⚫ 事後分布の平均パラメータに Batch Normalization を適用する ✓ 𝜇𝐵𝑑

DU-IAF : Extension of VAE-IAF 13 DU-VAE は Flow ベース生成モデルにも適用可能

DU-IAF : Extension of VAE-IAF 14 ⚫ VAE-AIF [Kingma et

Experiments 15 ⚫ データセット ✓ テキスト : Yahoo and Yelp

Performance for Downstream Classifications 16 テキストと画像の分類タスクに対して, 学習済み VAE モデルの出力を入力とした

Case Study : Latent Space Visualization 17 ⚫ 2次元混合ガウス分布から生成された人工データを用いて異なる VAE

Conclusion 18 ⚫ 事後分布のパラメータを調整することで, 多様的で不確実性の少ない潜在空間の獲得を示した ⚫ 分散パラメータに Dropout, 平均パラメータに

Appendix 19 ⚫ p11 数式証明 : ✓ 論文の Appendix B