Related work
4
Posterior collapse を取り除くための多くの先行研究が存在する
⚫ Posterior collapse を最適化問題として解く
✓ KL annealing [Bowman et al. 2015, Fu et al 2019]
✓ Free-Bits (FB) [Kingma et al. 2016]
✓ aggressive training schedules [He et al. 2018]
✓ Decoder network weakening [Yang et al. 2017]
✓ ……
⚫ 目的関数を修正して潜在空間を学習する
✓ add Mutual Information (MI) based term [Fang et al. 2019, Zhao et al. 2019]
✓ define Mutual Posterior Divergence (MPD) based term [Ma et al. 2018]
Slide 5
Slide 5 text
Related work
5
しかしながら, これらの先行研究は追加の学習やモデルの変更を必要とする
提案手法では,
最適化手法や目的関数を修正せずに posterior collapse を取り除く
Posterior collapse を取り除くための多くの先行研究が存在する
⚫ Posterior collapse を最適化問題として解く
✓ KL annealing [Bowman et al. 2015, Fu et al 2019]
✓ Free-Bits (FB) [Kingma et al. 2016]
✓ aggressive training schedules [He et al. 2018]
✓ Decoder network weakening [Yang et al. 2017]
✓ ……
⚫ 目的関数を修正して潜在空間を学習する
✓ add Mutual Information (MI) based term [Fang et al. 2019, Zhao et al. 2019]
✓ define Mutual Posterior Divergence (MPD) based term [Ma et al. 2018]
Slide 6
Slide 6 text
Background of VAE
6
⚫ 入力空間 𝒙~𝑝𝐷
𝒙 が与えれた時, VAE は連続的な潜在空間 𝒛~𝑝 𝒛 を同時分布 𝑝 𝒙, 𝒛
を学習することで構築する
⚫ 最適化すべき目的関数は, 以下に示す変分下限 (Evidence Lower Bound : ELBO) である
Reconstruction Loss Kullback-Leibler (KL) divergence
between posterior and prior
Gaussian Distribution
max
𝜃,𝜙
Experiments
15
⚫ データセット
✓ テキスト : Yahoo and Yelp [Yang et al. 2017]
✓ 画像 : OMNIGLOT [Lake et al. 2015]
⚫ 評価指標
✓ Negative Log-likelihood (NLL)
✓ The value of KL term (KL)
✓ Mutual Information (MI) 𝐼 𝑥, 𝑧
✓ Active Units (AU)
Slide 16
Slide 16 text
Performance for Downstream Classifications
16
テキストと画像の分類タスクに対して, 学習済み VAE モデルの出力を
入力とした NN を学習させる
テキスト分類 画像分類
Slide 17
Slide 17 text
Case Study : Latent Space Visualization
17
⚫ 2次元混合ガウス分布から生成された人工データを用いて異なる VAE モデルを学習
⚫ 得られた潜在空間の事後分布とmini-batch 毎に得られる平均パラメータを可視化する
の可視化
の可視化
色は True Latent Space の
各コンポーネントに対応