Slide 1

Slide 1 text

Flow-based deep generative model, NICE & Real NVPと最近の物質科学への応用 1 2019/08/09 統計勉強会 多知裕平

Slide 2

Slide 2 text

このスライドの目的とモチベーション 2 Ø  目的 1.  機械学習や深層学習を勉強している方にFlow-based generative modelとは何か、 概観を知ってもらう 2.  今回紹介する生成モデルではどんな応用が可能か?について議論をする Ø  モチベーション 1.  扱いやすく精度の良いモデルは今後一定の需要がある 2.  1.の性質を利用して物質科学分野で昨今応用が報告されており、データ収集にコスト が高い領域で重要になるかもしれない

Slide 3

Slide 3 text

生成モデルは画像、音声、言語にとどまらず、 天文学や化学などの様々な領域で利用されています 3 擬似画像の生成(Glow [1]) Google assistantの声の生成(WaveNet [3]) 薬剤候補の化合物の生成 (Autoencoder-based model [4]) 天体画像の生成(Celeste [2])

Slide 4

Slide 4 text

生成モデルではデータが未知の確率分布から生成されて いると仮定し、その分布のモデルを学習します 例えば、手書き数字画像のようなデータ  の集合を考える。 それらはある偏りを持って分布し、ある確率密度関数 から生成されてい ると仮定する。ただし、 は不明であるからパラメータ を持つ確率密度 関数 でモデル化する。最尤推定法では、以下の値を最小化する。 4 生成 モデル化 生成モデルのイメージ

Slide 5

Slide 5 text

Flow-based deep generative modelは 厳密なサンプリングや推論、対数尤度の評価が可能です 5 ポイント: Real NVPとNICEは正規化フロー(Normalizing flow)を特徴としてもつ 扱いやすい性質と性能を両立する代表的なモデルです 学習するモデル 学習方法 潜在変数への推論 RBM エネルギー関数 対数尤度の最大化 (CD法) 可能 VAE 生成モデル 推論モデル ELBOの最大化 近似事後分布(推論分布) によって可能 GAN 生成モデル 識別モデル 敵対的学習 推論はモデル化されない NICE & RealNVP 正規化フロー (Normalizing flow) 対数尤度の最大化 フローの逆変換で可能 Ø  代表的な深層生成モデルとの比較

Slide 6

Slide 6 text

皆さん、変数変換の公式を思い出しましょう 6 観測された変数 が与えられ、潜在変数 上での確率密度関数 に従うとき 全単射 を考えると、 上の確率密度関数は変数変換の公式 から以下で与えられ、 両辺の対数を取れば、以下のようになる。右式第二項目はヤコビアン(Jacobian) (a+c, b+d) (a, b) (c, d) (0, 0) 1 1 ad-bc Shift only Scale ü  公式のイメージ: ヤコビヤンは変換前後 で空間が伸び縮みする 変化を打ち消す

Slide 7

Slide 7 text

Normalizing flowでは可逆な変数変換を重ねることで、 簡単な分布から複雑な分布への変換を学習します 7 しかし、全単射な関数である制約に加え、次元数が増えると行列式の計算は困難になる →行列式の計算が容易な関数を選ぶ必要がある From Ref. [5-6]

Slide 8

Slide 8 text

NICE Real NVP Real-valued non-volume preserving (Real NVP) [7]は Affine coupling layerを特徴として持つFlow-based深層生成モデルです 8 NICE [8]ではAddictive coupling layerを採用し、各レイヤーの変換前後で体積が保存されるが、 (volume preserving)が、Affine coupling layerは非体積保存(non-volume preserving)で ヤコビアンの行列式はその対角成分の和として計算できる : transformation from i to j, : its Jacobian determinant concat Affine coupling layer x z S T x1 x2 z1 z2 ◉ + f f-1 p p-1 f f-1 f f-1 ・・・ ・・・ Permutation layer pを交互に挟み、全次元に対して変換可能なアーキテクチャを構成する Forward transformation Fxz Inverse transformation Fzx

Slide 9

Slide 9 text

結果的にReal NVPは、扱いやすい性質を持ちつつも、 鮮明な画像を生成できることが報告されています 9 昨年発表されたGlowはReal NVPをベースに改良されたモデルであり、Real NVPやNICE はTensorFlowやPyTorchを利用することで、簡単に実行することが可能である データセットからのサンプル 学習済みモデルからのサンプル

Slide 10

Slide 10 text

近年の物質科学への代表的な応用として Boltzman分布に従う分子構造集団の生成が報告されています[9] 10 通常、分子動力学(MD)法やMonte Carlo(MC)法のようなシミュレーションによって 分子構造集団をサンプルするが、それらの計算コストを削減することが可能となる Ø  Cyclononane C9 H18 における結果: 黒色のデータ:生成モデルからのデータ 赤色のデータ:シミュレーションからのデータ Ø  ロス関数: 1.  尤度ロス 2.  Kullback-Leibler (KL) divergence Ø  学習データ: 立体構造・ポテンシャルエネルギーデータ

Slide 11

Slide 11 text

Flow-based Markov Chain Monte Carlo (MCMC)によって 厳密な確率分布を生成モデルから生成し、期待値を算出可能です[10] 11 従来までのMCMCではシステムサイズLが大きくなると相関時間が長くなるが、 Flow-based MCMCでは一定的であり、より大きなシステムでメリットがより大きい Ø  格子場のサンプリングにおけるFlow-based MCMCの概念図 Ø  Local Metroplis, Hamiltonian MC , Flow-based MCMCに おけるアンサンブルの相関時間のシステムサイズ依存性 ü  Flow-based MCMCの受諾確率 以下の確率で提案された状態を受託し アンサンブルを構成する。

Slide 12

Slide 12 text

本スライドのまとめ 12 1.  生成モデルではデータが未知の確率分布から生成されていると仮定し、その分布の モデルを学習する 2.  Flow-based deep generative modelは厳密なサンプリングや推論、対数尤度の評価 可能という点で扱いやすい生成モデルである 3.  Real NVPはAffine coupling layer、NICEではAddictive coupling layerを特徴として持つ Flow-based深層生成モデルである 4.  鮮明な画像生成の他、物質科学への応用として分子構造や格子場の生成なども報告 されており、効率的なサンプリングに有益であることが分かってきた

Slide 13

Slide 13 text

参考文献 13 [1] D. P. Kingma, and P. Dhariwal, Glow: Generative Flow with Invertible 1×1 Convolutions. arXiv preprint, arXiv:1807.03039v2 (2018). [2] J. Regier, et al., Celeste: Variational inference for a generative model of astronomical images. arXiv preprint, arXiv:1506.01351 (2015). [3] A. van den Oord, et al. WaveNet: A Generative Model for Raw Audio. arXiv preprint, arXiv:1609.03499 (2016). [4] R. Gómez-Bombarelli, et al. Automatic chemical design using a data-driven continuous representation of molecules. arXiv preprint, arXiv:1610.02415x3 (2016). [5] https://www.youtube.com/watch?v=JrO5fSskISY [6] http://www.shakirm.com/slides/DeepGenModelsTutorial.pdf [7] L. Dinh, L. Sohl-Dickstein, and S. Bengio, Density estimation using Real NVP. arXiv preprint, arXiv:1605.08803 (2016). [8] L. Dinh, D. Krueger, and Y. Bengio, Nice: non-linear independent components estimation. arXiv preprint, arXiv:1410.8516 (2014). [9] F. Noe and H. Wu, Boltzmann Generators – Sampling Equilibrium States of Many- Body Systems with Deep Learning. arXiv preprint, arXiv:1812.01729 (2018). [10] M. S. Albergo, G. Kanwar, and P. E. Shanahan, Flow-based generative models for Markov chain Monte Carlo in lattice field theory. arXiv preprint, arXiv: 1904.12072v2 (2019).