Slide 1

Slide 1 text

変分ベイズ法の基礎理論 平均場近似と変分ベイズ法 第6回 B3勉強会 2019/2/14 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武

Slide 2

Slide 2 text

参考文献・資料 [1] 渡辺澄夫:ベイズ統計の理論と方法,コロナ社(2012) [2] 中島伸一:変分ベイズ学習,講談社(2016) [3] 須山敦志:ベイズ推論による機械学習,講談社(2017) [4] 渡辺澄夫:変分ベイズの理論 http://watanabewww.math.dis.titech.ac.jp/users/swatanab/vbtheory.html 2

Slide 3

Slide 3 text

Contents (1) 変分ベイズ法の主な対象と目的 (2) ギブスの変分原理 (3) 平均場近似と自己無矛盾条件 (4) 例題を解くための準備 (5) 例題:混合指数型分布 3

Slide 4

Slide 4 text

(1) 変分ベイズ法の主な対象と目的 問題点1:例えば次の尤度関数モデルは共役事前分布を持たない ・行列分解モデル(matrix factorization model) 協調フィルタリングによる推薦システム ・混合ガウス分布モデル(mixture of Gaussians model) (VB-)EMアルゴリズムによるクラスタリング ・潜在的ディリクレ配分モデル(latent Dirichlet allocation model) 文書データの次元削減法 4

Slide 5

Slide 5 text

(1) 変分ベイズ法の主な対象と目的 事前分布が分からない → 事後分布もわからない → パラメータの分布の検討もつかない しかし,先ほどのモデルはパラメータ全体の共役事前分布は持た ないが,あるパラメータ以外を定数として扱うことで,部分的な 共役性を持つことが知られており,パラメータの独立性を仮定で きるならば,条件付き共役事前分布をもつことができる. 5

Slide 6

Slide 6 text

(1) 変分ベイズ法の主な対象と目的 例:パラメータ 1 , 2 ∈ として 1 |2 , = 1 ⋅ 1 |2 � |1 , 2 = |2 = ∫ 0 1 1 |2 � |1 , 2 1 ここでパラメータの独立性 1 |2 = 1 と仮定すれば 2 を定数とみなし, 1 を変数としたときの尤度関数モデルに対 応する条件付き共役事前分布を用いることができる! 6

Slide 7

Slide 7 text

(1) 変分ベイズ法の主な対象と目的 パラメータの独立性の仮定(注:i.i.d. ではない) = � 𝑠𝑠=1 𝑠𝑠 𝑠𝑠 によって,求められる近似事後確率分布は次のようになる. = � 𝑠𝑠=1 𝑠𝑠 𝑠𝑠 ≈ | となるような𝑠𝑠 𝑠𝑠 は? 問題点2:多変数すぎて分配関数 の計算がきつい 7

Slide 8

Slide 8 text

(1) 変分ベイズ法の主な対象と目的 ・変分ベイズ法(variational Bayesian method) パラメータの独立性を仮定し,汎関数:変分自由エネルギー を最小化にする平均場近似(mean-field approximation) を変分法によって求め,近似事後確率関数を求める方法 注:変分自由エネルギーに負号をつけた変分下限(証拠の下界, evidence lower bound : ELBO)を最大化する方法と 説明している書物も多くある 8

Slide 9

Slide 9 text

確率モデル ′ | ∈ ⊂ ℝ, ∈ ℝ と事前分布 が 与えられた時,事後分布は一般に以下のようにあらわされる. ≡ | = 1 � =1 ′ = 1 exp −() = � � =1 ′ 𝑑𝑑 = � exp −() 𝑑𝑑 = − � =1 log ′ − 1 log = − log � =1 ′ − 1 log 9 (2) ギブスの変分原理

Slide 10

Slide 10 text

事後分布 と同じような近似事後分布 を求めたい →カルバック・ライブラ情報量(Kullback-Leibler divergence) を用いる(相対エントロピーともいう). [||] = � log 𝑑𝑑 = � log 𝑑𝑑 + � + log 10 (2) ギブスの変分原理

Slide 11

Slide 11 text

= のとき,min [||] = 0 となるので − log = min � log 𝑑𝑑 + � 𝑑𝑑 () = min � log 𝑑𝑑 + � 𝑑𝑑 = − 1 log を(真の)自由エネルギーという. また,この原理をギブスの変分原理という. 11 (2) ギブスの変分原理

Slide 12

Slide 12 text

また次のように表記されることもある. � 𝑑𝑑 = − � log � =1 ′ 𝑑𝑑 = min � log ∏ =1 ′ 𝑑𝑑 = min log (|) = min log , 12 (2) ギブスの変分原理

Slide 13

Slide 13 text

今,二変数 (, ) の確率分布 (, ) を求めたい. 独立性の仮定より近似事後確率 () とすると,このときの 自由エネルギーを � とすると,一般に以下の式が成り立つ. ≤ � � を変分自由エネルギー(平均場自由エネルギー)という. 13 (3) 平均場近似と自己無矛盾条件

Slide 14

Slide 14 text

確率, の総和則を制約条件とし,min [||]をラグランジュ の未定乗数法を用いて変分法で解くと自己無矛盾条件を得る. ∝ exp − � , 𝑑𝑑 = exp 𝑟𝑟 log , , ∝ exp − � , 𝑑𝑑 = exp log , , 自己無矛盾条件を満たす確率分布の組が二組以上あるときは min � [, ] とするものが平均場近似である. 14 (3) 平均場近似と自己無矛盾条件

Slide 15

Slide 15 text

一般にパラメータ = {𝑠𝑠 }𝑠𝑠=1 に対応する確率 𝑠𝑠 𝑠𝑠 とすると 自己無矛盾条件は次のように表せる. 𝑠𝑠 𝑠𝑠 ∝ exp − � � ≠𝑠𝑠 � ≠𝑠𝑠 𝑑𝑑 = exp ∏≠ 𝑟𝑟 log , また, によってmin � となる確率変数の組(平均場近似)は 変わることがある.これを相転移という. 15 (3) 平均場近似と自己無矛盾条件

Slide 16

Slide 16 text

(K-1)次元標準シンプレックス ∆−1 に変数が属するとする = 1 , ⋯ ∈ ∆−1≡ ∈ ℝ; ∈ 0,1 , � =1 = 1 このとき, はディリクレ分布に従う. = 1 , ⋯ として Dir = 1 () � =1 (−1 )−1 = ∏=1 Γ( ) Γ(∑=1 ) ただし,𝑑𝑑 = 1 − � =1 1 ⋯ 16 (4) 例題を解くための準備

Slide 17

Slide 17 text

よって � Dir 𝑑𝑑 = ∑=1 () () = ∑=1 また,ディガンマ関数 = log Γ() を用いると �(log ) Dir 𝑑𝑑 = log () = − � =1 17 (4) 例題を解くための準備

Slide 18

Slide 18 text

= � =1 exp � ∈ ℝ, = , = , ; = 1,2, ⋯ , は混合比率(mixing proportion)と呼ばれるもので, (K-1)次元標準シンプレックス ∆−1 に属する. また,Kをコンポーネント数という. 18 (5) 例題:混合指数型分布

Slide 19

Slide 19 text

パラメータの独立性を仮定し,事前分布を以下のようにする. = 1 2 1 = Dir 2 = � =1 1 ( ) exp � = � exp � 19 (5) 例題:混合指数型分布

Slide 20

Slide 20 text

しかし,尤度を求めようとすると, = ∏ ∑ の形で扱いにくい そこで,隠れ(潜在)変数(hidden (latent) variable)を導入し ではなく, , の尤度を考える. 競合的な確率変数 = (1 , 2 , ⋯ , )が次の集合上の値をとる. = 1,0,0, ⋯ , 0 , 0,1,0, ⋯ , 0 , ⋯ , (0,0,0, ⋯ , 1) = {1つの要素が1} = (1 , 2 , ⋯ , ) ∈ とする(1-of-K 表現). 20 (5) 例題:混合指数型分布

Slide 21

Slide 21 text

に関する確率モデルを次のように定義する(生成モデル). = Cat = � =1 𝑖𝑖 , = � =1 exp � 𝑖𝑖 = � ∈ , = � ∈ , 21 (5) 例題:混合指数型分布

Slide 22

Slide 22 text

, = � =1 exp � 𝑖𝑖 よって,サンプル全体の集合 ∈ ℝ, 隠れ変数全体の集合 ∈ とすると,変数の同時確率分布モデルは (, , ) = () � =1 , ここでは = 1のみを考えるが・・・ 22 (5) 例題:混合指数型分布

Slide 23

Slide 23 text

時間の関係上 後は視聴者への宿題 23 (5) 例題:混合指数型分布 バレンタインチョコ

Slide 24

Slide 24 text

最終的には,繰り返し代入という再帰的なアルゴリズムで, 平均場近似を求めることができます. 1. サンプル { } が与えられたときの初期ハイパーパラメータを 設定 2. 隠れ変数の更新 3. ハイパーパラメータの更新 4. 2,3 の繰り返し(変分自由エネルギーの変化量などをもとに終了) 24 (5) 例題:混合指数型分布

Slide 25

Slide 25 text

注意 ・隠れ変数を導入して平均場近似することは変数を増やしている ので精度は下がります ・ハイパーパラメータは相転移を引き起こし,相転移点付近では 最も近似精度が悪化します(隠れ変数とパラメータが独立しま せん) ・コンポーネント(成分)の微妙な重なりを推測するのには不適 25 (5) 例題:混合指数型分布