変分ベイズ法の基礎理論 / Basic theory of variational Bayes method

変分ベイズ法の基礎理論平均場近似と変分ベイズ法第6回 B3勉強会 2019/2/14 長岡技術科学大学自然言語処理研究室吉澤亜斗武

参考文献・資料 [1] 渡辺澄夫：ベイズ統計の理論と方法，コロナ社（2012） [2] 中島伸一：変分ベイズ学習，講談社（2016） [3] 須山敦志：ベイズ推論による機械学習，講談社（2017） [4] 渡辺澄夫：変分ベイズの理論 http://watanabewww.math.dis.titech.ac.jp/users/swatanab/vbtheory.html
2

Contents (1) 変分ベイズ法の主な対象と目的 (2) ギブスの変分原理 (3) 平均場近似と自己無矛盾条件 (4) 例題を解くための準備 (5)
例題：混合指数型分布 3

(1) 変分ベイズ法の主な対象と目的問題点1：例えば次の尤度関数モデルは共役事前分布を持たない・行列分解モデル（matrix factorization model）協調フィルタリングによる推薦システム・混合ガウス分布モデル（mixture of Gaussians
model） (VB-)EMアルゴリズムによるクラスタリング・潜在的ディリクレ配分モデル（latent Dirichlet allocation model）文書データの次元削減法 4

(1) 変分ベイズ法の主な対象と目的事前分布が分からない → 事後分布もわからない → パラメータの分布の検討もつかないしかし，先ほどのモデルはパラメータ全体の共役事前分布は持たないが，あるパラメータ以外を定数として扱うことで，部分的な共役性を持つことが知られており，パラメータの独立性を仮定で
きるならば，条件付き共役事前分布をもつことができる． 5

(1) 変分ベイズ法の主な対象と目的例：パラメータ 1 , 2 ∈ として 1 |2
, = 1 ⋅ 1 |2 � |1 , 2 = |2 = ∫ 0 1 1 |2 � |1 , 2 1 ここでパラメータの独立性 1 |2 = 1 と仮定すれば 2 を定数とみなし， 1 を変数としたときの尤度関数モデルに対応する条件付き共役事前分布を用いることができる！ 6

(1) 変分ベイズ法の主な対象と目的パラメータの独立性の仮定（注：i.i.d. ではない） = � 𝑠𝑠=1 𝑠𝑠 𝑠𝑠 によって，求められる近似事後確率分布は次のようになる．
= � 𝑠𝑠=1 𝑠𝑠 𝑠𝑠 ≈ | となるような𝑠𝑠 𝑠𝑠 は？問題点2：多変数すぎて分配関数の計算がきつい 7

(1) 変分ベイズ法の主な対象と目的・変分ベイズ法（variational Bayesian method）パラメータの独立性を仮定し，汎関数：変分自由エネルギーを最小化にする平均場近似（mean-field approximation）を変分法によって求め，近似事後確率関数を求める方法注：変分自由エネルギーに負号をつけた変分下限（証拠の下界，
evidence lower bound : ELBO）を最大化する方法と説明している書物も多くある 8

確率モデル ′ | ∈ ⊂ ℝ， ∈ ℝ と事前分布が
与えられた時，事後分布は一般に以下のようにあらわされる． ≡ | = 1 � =1 ′ = 1 exp −() = � � =1 ′ 𝑑𝑑 = � exp −() 𝑑𝑑 = − � =1 log ′ − 1 log = − log � =1 ′ − 1 log 9 (2) ギブスの変分原理

事後分布と同じような近似事後分布を求めたい →カルバック・ライブラ情報量（Kullback-Leibler divergence）を用いる（相対エントロピーともいう）． [||] = � log
𝑑𝑑 = � log 𝑑𝑑 + � + log 10 (2) ギブスの変分原理

= のとき，min [||] = 0 となるので − log = min
� log 𝑑𝑑 + � 𝑑𝑑 () = min � log 𝑑𝑑 + � 𝑑𝑑 = − 1 log を（真の）自由エネルギーという．また，この原理をギブスの変分原理という． 11 (2) ギブスの変分原理

また次のように表記されることもある． � 𝑑𝑑 = − � log � =1 ′
𝑑𝑑 = min � log ∏ =1 ′ 𝑑𝑑 = min log (|) = min log , 12 (2) ギブスの変分原理

今，二変数 (, ) の確率分布 (, ) を求めたい．独立性の仮定より近似事後確率 () とすると，このときの
自由エネルギーを � とすると，一般に以下の式が成り立つ． ≤ � � を変分自由エネルギー（平均場自由エネルギー）という． 13 (3) 平均場近似と自己無矛盾条件

確率, の総和則を制約条件とし，min [||]をラグランジュの未定乗数法を用いて変分法で解くと自己無矛盾条件を得る． ∝ exp − � , 𝑑𝑑
= exp 𝑟𝑟 log , , ∝ exp − � , 𝑑𝑑 = exp log , , 自己無矛盾条件を満たす確率分布の組が二組以上あるときは min � [, ] とするものが平均場近似である． 14 (3) 平均場近似と自己無矛盾条件

一般にパラメータ = {𝑠𝑠 }𝑠𝑠=1 に対応する確率 𝑠𝑠 𝑠𝑠 とすると自己無矛盾条件は次のように表せる． 𝑠𝑠
𝑠𝑠 ∝ exp − � � ≠𝑠𝑠 � ≠𝑠𝑠 𝑑𝑑 = exp ∏≠ 𝑟𝑟 log , また，によってmin � となる確率変数の組（平均場近似）は変わることがある．これを相転移という． 15 (3) 平均場近似と自己無矛盾条件

（K-1）次元標準シンプレックス ∆−1 に変数が属するとする = 1 , ⋯ ∈ ∆−1≡ ∈
ℝ; ∈ 0,1 , � =1 = 1 このとき，はディリクレ分布に従う． = 1 , ⋯ として Dir = 1 () � =1 (−1 )−1 = ∏=1 Γ( ) Γ(∑=1 ) ただし，𝑑𝑑 = 1 − � =1 1 ⋯ 16 (4) 例題を解くための準備

よって � Dir 𝑑𝑑 = ∑=1 () () = ∑=1
また，ディガンマ関数 = log Γ() を用いると �(log ) Dir 𝑑𝑑 = log () = − � =1 17 (4) 例題を解くための準備

= � =1 exp � ∈ ℝ, = , =
, ; = 1,2, ⋯ , は混合比率（mixing proportion）と呼ばれるもので，（K-1）次元標準シンプレックス ∆−1 に属する．また，Kをコンポーネント数という． 18 (5) 例題：混合指数型分布

パラメータの独立性を仮定し，事前分布を以下のようにする． = 1 2 1 = Dir 2 = �
=1 1 ( ) exp � = � exp � 19 (5) 例題：混合指数型分布

しかし，尤度を求めようとすると， = ∏ ∑ の形で扱いにくいそこで，隠れ（潜在）変数（hidden (latent) variable）を導入しではなく， ,
の尤度を考える．競合的な確率変数 = (1 , 2 , ⋯ , )が次の集合上の値をとる． = 1,0,0, ⋯ , 0 , 0,1,0, ⋯ , 0 , ⋯ , (0,0,0, ⋯ , 1) = {1つの要素が1} = (1 , 2 , ⋯ , ) ∈ とする（1-of-K 表現）． 20 (5) 例題：混合指数型分布

に関する確率モデルを次のように定義する（生成モデル）． = Cat = � =1 𝑖𝑖 , = �
=1 exp � 𝑖𝑖 = � ∈ , = � ∈ , 21 (5) 例題：混合指数型分布

, = � =1 exp � 𝑖𝑖 よって，サンプル全体の集合 ∈ ℝ,
隠れ変数全体の集合 ∈ とすると，変数の同時確率分布モデルは (, , ) = () � =1 , ここでは = 1のみを考えるが・・・ 22 (5) 例題：混合指数型分布

時間の関係上後は視聴者への宿題 23 (5) 例題：混合指数型分布バレンタインチョコ

最終的には，繰り返し代入という再帰的なアルゴリズムで，平均場近似を求めることができます． 1. サンプル { } が与えられたときの初期ハイパーパラメータを設定 2. 隠れ変数の更新
3. ハイパーパラメータの更新 4. 2,3 の繰り返し（変分自由エネルギーの変化量などをもとに終了） 24 (5) 例題：混合指数型分布

注意・隠れ変数を導入して平均場近似することは変数を増やしているので精度は下がります・ハイパーパラメータは相転移を引き起こし，相転移点付近では最も近似精度が悪化します（隠れ変数とパラメータが独立しません）・コンポーネント（成分）の微妙な重なりを推測するのには不適 25 (5) 例題：混合指数型分布

変分ベイズ法の基礎理論 / Basic theory of variational Bayes...

変分ベイズ法の基礎理論 / Basic theory of variational Bayes method

Atom

More Decks by Atom

Featured

Transcript

変分ベイズ法の基礎理論平均場近似と変分ベイズ法第6回 B3勉強会 2019/2/14 長岡技術科学大学自然言語処理研究室吉澤亜斗武

Contents (1) 変分ベイズ法の主な対象と目的 (2) ギブスの変分原理 (3) 平均場近似と自己無矛盾条件 (4) 例題を解くための準備 (5)

(1) 変分ベイズ法の主な対象と目的問題点1：例えば次の尤度関数モデルは共役事前分布を持たない・行列分解モデル（matrix factorization model）協調フィルタリングによる推薦システム・混合ガウス分布モデル（mixture of Gaussians

(1) 変分ベイズ法の主な対象と目的例：パラメータ 1 , 2 ∈ として 1 |2

(1) 変分ベイズ法の主な対象と目的パラメータの独立性の仮定（注：i.i.d. ではない） = � 𝑠𝑠=1 𝑠𝑠 𝑠𝑠 によって，求められる近似事後確率分布は次のようになる．

確率モデル ′ | ∈ ⊂ ℝ， ∈ ℝ と事前分布が

事後分布と同じような近似事後分布を求めたい →カルバック・ライブラ情報量（Kullback-Leibler divergence）を用いる（相対エントロピーともいう）． [||] = � log

= のとき，min [||] = 0 となるので − log = min

また次のように表記されることもある． � 𝑑𝑑 = − � log � =1 ′

今，二変数 (, ) の確率分布 (, ) を求めたい．独立性の仮定より近似事後確率 () とすると，このときの

確率, の総和則を制約条件とし，min [||]をラグランジュの未定乗数法を用いて変分法で解くと自己無矛盾条件を得る． ∝ exp − � , 𝑑𝑑

一般にパラメータ = {𝑠𝑠 }𝑠𝑠=1 に対応する確率 𝑠𝑠 𝑠𝑠 とすると自己無矛盾条件は次のように表せる． 𝑠𝑠

（K-1）次元標準シンプレックス ∆−1 に変数が属するとする = 1 , ⋯ ∈ ∆−1≡ ∈

よって � Dir 𝑑𝑑 = ∑=1 () () = ∑=1

= � =1 exp � ∈ ℝ, = , =

パラメータの独立性を仮定し，事前分布を以下のようにする． = 1 2 1 = Dir 2 = �

しかし，尤度を求めようとすると， = ∏ ∑ の形で扱いにくいそこで，隠れ（潜在）変数（hidden (latent) variable）を導入しではなく， ,

に関する確率モデルを次のように定義する（生成モデル）． = Cat = � =1 𝑖𝑖 , = �

, = � =1 exp � 𝑖𝑖 よって，サンプル全体の集合 ∈ ℝ,

時間の関係上後は視聴者への宿題 23 (5) 例題：混合指数型分布バレンタインチョコ

最終的には，繰り返し代入という再帰的なアルゴリズムで，平均場近似を求めることができます． 1. サンプル { } が与えられたときの初期ハイパーパラメータを設定 2. 隠れ変数の更新