Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 : Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness

yusumi
November 09, 2022

論文紹介 : Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness

Shen, Dazhong & Qin, Chuan & Wang, Chao & Zhu, Hengshu & Chen, Enhong & Xiong, Hui. (2021). Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness.

yusumi

November 09, 2022
Tweet

More Decks by yusumi

Other Decks in Research

Transcript

  1. Motivation 2 ⚫ 近年、潜在空間を利用した生成モデルとして Variational Autoencoder (VAE) は大きな成功を収めている ⚫ しかしながら表現力豊かな

    Decoder を使用した場合, 情報量の少ない 潜在表現 (posterior collapse phenomenon) になる可能性がある
  2. Posterior Collapse 3 潜在変数 𝒛 の事後分布 𝑞𝜙 𝒛|𝒙𝑛 が事前分布 𝑝

    𝒛 と一致し, データの特性を捉えられない現象 尤度関数の NN の表現力が豊か 扱うデータが複雑 再構成誤差の最小化に対し, KL の最小化が優先される その結果, 近似事後分布と事前分布の KL divergence が 0 になる = 0
  3. Related work 4 Posterior collapse を取り除くための多くの先行研究が存在する ⚫ Posterior collapse を最適化問題として解く

    ✓ KL annealing [Bowman et al. 2015, Fu et al 2019] ✓ Free-Bits (FB) [Kingma et al. 2016] ✓ aggressive training schedules [He et al. 2018] ✓ Decoder network weakening [Yang et al. 2017] ✓ …… ⚫ 目的関数を修正して潜在空間を学習する ✓ add Mutual Information (MI) based term [Fang et al. 2019, Zhao et al. 2019] ✓ define Mutual Posterior Divergence (MPD) based term [Ma et al. 2018]
  4. Related work 5 しかしながら, これらの先行研究は追加の学習やモデルの変更を必要とする 提案手法では, 最適化手法や目的関数を修正せずに posterior collapse を取り除く

    Posterior collapse を取り除くための多くの先行研究が存在する ⚫ Posterior collapse を最適化問題として解く ✓ KL annealing [Bowman et al. 2015, Fu et al 2019] ✓ Free-Bits (FB) [Kingma et al. 2016] ✓ aggressive training schedules [He et al. 2018] ✓ Decoder network weakening [Yang et al. 2017] ✓ …… ⚫ 目的関数を修正して潜在空間を学習する ✓ add Mutual Information (MI) based term [Fang et al. 2019, Zhao et al. 2019] ✓ define Mutual Posterior Divergence (MPD) based term [Ma et al. 2018]
  5. Background of VAE 6 ⚫ 入力空間 𝒙~𝑝𝐷 𝒙 が与えれた時, VAE

    は連続的な潜在空間 𝒛~𝑝 𝒛 を同時分布 𝑝 𝒙, 𝒛 を学習することで構築する ⚫ 最適化すべき目的関数は, 以下に示す変分下限 (Evidence Lower Bound : ELBO) である Reconstruction Loss Kullback-Leibler (KL) divergence between posterior and prior Gaussian Distribution max 𝜃,𝜙
  6. Background of VAE 7 ⚫ 入力空間 𝒙~𝑝𝐷 𝒙 が与えれた時, VAE

    は連続的な潜在空間 𝒛~𝑝 𝒛 を同時分布 𝑝 𝒙, 𝒛 を学習することで構築する ⚫ 最適化すべき目的関数は, 以下に示す変分下限 (Evidence Lower Bound : ELBO) である しかしながら, Decoder に LSTM [Hochreiter et. al. 1997] や PixelCNN [Van den Oord et. al. 2016] などの自己回帰モデルを適用すると, モデル化の際に潜在変数を必要としない問題が生じる (潜在変数 𝒛 と観測変数 𝒙 が独立になる) max 𝜃,𝜙
  7. The Proposed Method 8 ⚫ DU-VAE : Diverse and less

    Uncertain VAE ⚫ Diversity : 異なる入力 𝒙1 , 𝒙2 が与えられた時, 事後分布 𝑞 𝒛1 𝒙1 ~ 𝑁 𝜇𝒙1 , 𝛿𝒙1 2 と 𝑞 𝒛2 𝒙2 ~ 𝑁 𝜇𝒙2 , 𝛿𝒙2 2 は互いに多様化すべき ⚫ Uncertainty : 入力 𝒙 が与えられた時, 潜在変数 𝒛 の不確実性を小さくすべき Diversity の定式化 Mutual Posterior Divergence (MPD) Uncertainty の定式化 Conditional Entropy (CE)
  8. Implementation of Dropout and BN 9 ⚫ 事後分布の分散パラメータに Dropout を適用する

    ⚫ 事後分布の平均パラメータに Batch Normalization を適用する
  9. Dropout 10 ⚫ 事後分布の分散パラメータに Dropout を適用する ✓ 𝑔𝑥,𝑑 は正規化 Bernoulli

    分布から生成される確率変数を表す 𝑔𝑥,𝑑 ~ 𝐵 1, 𝑝 𝑝 , 𝑝 ∈ 0, 1 , 𝐸𝐵 𝑔𝑥,𝑑 = 1 𝛼 = 1 2𝜋𝑒 を保証 𝐻 𝑞𝜙 𝒛|𝒙 > 0, መ 𝛿𝑥,𝑑 2 > 𝛼 を保証 ✓ 𝛼 は固定値で, CE の非負性を強制させる ( መ 𝛿𝑥,𝑑 2 が限りなく 0 に近づくのを抑制)
  10. The merit of Dropout 11 ⚫ 事後分布の分散パラメータに Dropout を適用すると, 次の式を導ける

    Uncertainty の減少 の下限を 与える Diversity の向上 数式の証明は Appendix
  11. Batch Normalization 12 ⚫ 事後分布の平均パラメータに Batch Normalization を適用する ✓ 𝜇𝐵𝑑

    , 𝛿𝐵𝑑 は mini-batch 毎に推定される 𝜇𝑥,𝑑 の平均・分散を表す ✓ 𝛾𝜇𝑑 , 𝛽𝜇𝑑 はスケールとシフトのパラメータで, 𝐸 ො 𝜇𝑥,𝑑 = 𝛽𝜇𝑑 , 𝑉𝑎𝑟 ො 𝜇𝑥,𝑑 = 𝛾𝜇𝑑 2 を満たす ⚫ MPD に関する下限制約 𝑉𝑎𝑟 𝜇𝑥,𝑑 = 𝛾𝜇𝑑 2 を初期値で制御可能 1. 各次元の初期値 𝛾𝜇𝑑 = 𝛾, ∀𝑑 を設定 2. train の各ステップで 𝛾𝜇𝑑 に を掛ける → BN 導入の利点
  12. DU-IAF : Extension of VAE-IAF 13 DU-VAE は Flow ベース生成モデルにも適用可能

    L. Weng. "Flow-based Deep Generative Models." 学習過程のイメージ : Qiita ⚫ Flow : 一定期間の可逆変換の連鎖を通して潜在空間を学習
  13. DU-IAF : Extension of VAE-IAF 14 ⚫ VAE-AIF [Kingma et

    al. 2016] : VAE の潜在空間の学習に Flow を適用 𝑡 > 0 : 𝑡 = 0 : ℎ : 外部埋め込みデータ 𝑡 = 0 の時に Dropout と BN を施すことで, 多様性と不確実性が向上することを示せる (Appendix)
  14. Experiments 15 ⚫ データセット ✓ テキスト : Yahoo and Yelp

    [Yang et al. 2017] ✓ 画像 : OMNIGLOT [Lake et al. 2015] ⚫ 評価指標 ✓ Negative Log-likelihood (NLL) ✓ The value of KL term (KL) ✓ Mutual Information (MI) 𝐼 𝑥, 𝑧 ✓ Active Units (AU)
  15. Case Study : Latent Space Visualization 17 ⚫ 2次元混合ガウス分布から生成された人工データを用いて異なる VAE

    モデルを学習 ⚫ 得られた潜在空間の事後分布とmini-batch 毎に得られる平均パラメータを可視化する の可視化 の可視化 色は True Latent Space の 各コンポーネントに対応
  16. Conclusion 18 ⚫ 事後分布のパラメータを調整することで, 多様的で不確実性の少ない 潜在空間の獲得を示した ⚫ 分散パラメータに Dropout, 平均パラメータに

    Batch Normalization を適用 した DU-VAE を提案 ⚫ DU-VAE を VAE-IAF に拡張 ⚫ 実験で既存手法の予測精度を上回った
  17. Appendix 19 ⚫ p11 数式証明 : ✓ 論文の Appendix B

    参照 ⚫ p14 の初期パラメータに Dropout, BN を通す理由の証明 : ✓ 論文の Appendix D 参照