Upgrade to Pro — share decks privately, control downloads, hide ads and more …

変分ベイズ法の基礎理論 / Basic theory of variational Bayes method

Atom
February 14, 2019
350

変分ベイズ法の基礎理論 / Basic theory of variational Bayes method

(1) Purpose of variational Bayes method
(2) Variational principle of Gibbs
(3) Mean field approximation and self contradiction relationship
(4) Preparation for solving an example
(5) Example: mixed exponential distribution

Atom

February 14, 2019
Tweet

More Decks by Atom

Transcript

  1. (1) 変分ベイズ法の主な対象と目的 例:パラメータ 1 , 2 ∈ として 1 |2

    , = 1 ⋅ 1 |2 � |1 , 2 = |2 = ∫ 0 1 1 |2 � |1 , 2 1 ここでパラメータの独立性 1 |2 = 1 と仮定すれば 2 を定数とみなし, 1 を変数としたときの尤度関数モデルに対 応する条件付き共役事前分布を用いることができる! 6
  2. (1) 変分ベイズ法の主な対象と目的 パラメータの独立性の仮定(注:i.i.d. ではない) = � 𝑠𝑠=1 𝑠𝑠 𝑠𝑠 によって,求められる近似事後確率分布は次のようになる.

    = � 𝑠𝑠=1 𝑠𝑠 𝑠𝑠 ≈ | となるような𝑠𝑠 𝑠𝑠 は? 問題点2:多変数すぎて分配関数 の計算がきつい 7
  3. 確率モデル ′ | ∈ ⊂ ℝ, ∈ ℝ と事前分布 が

    与えられた時,事後分布は一般に以下のようにあらわされる. ≡ | = 1 � =1 ′ = 1 exp −() = � � =1 ′ 𝑑𝑑 = � exp −() 𝑑𝑑 = − � =1 log ′ − 1 log = − log � =1 ′ − 1 log 9 (2) ギブスの変分原理
  4. = のとき,min [||] = 0 となるので − log = min

    � log 𝑑𝑑 + � 𝑑𝑑 () = min � log 𝑑𝑑 + � 𝑑𝑑 = − 1 log を(真の)自由エネルギーという. また,この原理をギブスの変分原理という. 11 (2) ギブスの変分原理
  5. また次のように表記されることもある. � 𝑑𝑑 = − � log � =1 ′

    𝑑𝑑 = min � log ∏ =1 ′ 𝑑𝑑 = min log (|) = min log , 12 (2) ギブスの変分原理
  6. 今,二変数 (, ) の確率分布 (, ) を求めたい. 独立性の仮定より近似事後確率 () とすると,このときの

    自由エネルギーを � とすると,一般に以下の式が成り立つ. ≤ � � を変分自由エネルギー(平均場自由エネルギー)という. 13 (3) 平均場近似と自己無矛盾条件
  7. 確率, の総和則を制約条件とし,min [||]をラグランジュ の未定乗数法を用いて変分法で解くと自己無矛盾条件を得る. ∝ exp − � , 𝑑𝑑

    = exp 𝑟𝑟 log , , ∝ exp − � , 𝑑𝑑 = exp log , , 自己無矛盾条件を満たす確率分布の組が二組以上あるときは min � [, ] とするものが平均場近似である. 14 (3) 平均場近似と自己無矛盾条件
  8. 一般にパラメータ = {𝑠𝑠 }𝑠𝑠=1 に対応する確率 𝑠𝑠 𝑠𝑠 とすると 自己無矛盾条件は次のように表せる. 𝑠𝑠

    𝑠𝑠 ∝ exp − � � ≠𝑠𝑠 � ≠𝑠𝑠 𝑑𝑑 = exp ∏≠ 𝑟𝑟 log , また, によってmin � となる確率変数の組(平均場近似)は 変わることがある.これを相転移という. 15 (3) 平均場近似と自己無矛盾条件
  9. (K-1)次元標準シンプレックス ∆−1 に変数が属するとする = 1 , ⋯ ∈ ∆−1≡ ∈

    ℝ; ∈ 0,1 , � =1 = 1 このとき, はディリクレ分布に従う. = 1 , ⋯ として Dir = 1 () � =1 (−1 )−1 = ∏=1 Γ( ) Γ(∑=1 ) ただし,𝑑𝑑 = 1 − � =1 1 ⋯ 16 (4) 例題を解くための準備
  10. よって � Dir 𝑑𝑑 = ∑=1 () () = ∑=1

    また,ディガンマ関数 = log Γ() を用いると �(log ) Dir 𝑑𝑑 = log () = − � =1 17 (4) 例題を解くための準備
  11. = � =1 exp � ∈ ℝ, = , =

    , ; = 1,2, ⋯ , は混合比率(mixing proportion)と呼ばれるもので, (K-1)次元標準シンプレックス ∆−1 に属する. また,Kをコンポーネント数という. 18 (5) 例題:混合指数型分布
  12. パラメータの独立性を仮定し,事前分布を以下のようにする. = 1 2 1 = Dir 2 = �

    =1 1 ( ) exp � = � exp � 19 (5) 例題:混合指数型分布
  13. しかし,尤度を求めようとすると, = ∏ ∑ の形で扱いにくい そこで,隠れ(潜在)変数(hidden (latent) variable)を導入し ではなく, ,

    の尤度を考える. 競合的な確率変数 = (1 , 2 , ⋯ , )が次の集合上の値をとる. = 1,0,0, ⋯ , 0 , 0,1,0, ⋯ , 0 , ⋯ , (0,0,0, ⋯ , 1) = {1つの要素が1} = (1 , 2 , ⋯ , ) ∈ とする(1-of-K 表現). 20 (5) 例題:混合指数型分布
  14. に関する確率モデルを次のように定義する(生成モデル). = Cat = � =1 𝑖𝑖 , = �

    =1 exp � 𝑖𝑖 = � ∈ , = � ∈ , 21 (5) 例題:混合指数型分布
  15. , = � =1 exp � 𝑖𝑖 よって,サンプル全体の集合 ∈ ℝ,

    隠れ変数全体の集合 ∈ とすると,変数の同時確率分布モデルは (, , ) = () � =1 , ここでは = 1のみを考えるが・・・ 22 (5) 例題:混合指数型分布
  16. 最終的には,繰り返し代入という再帰的なアルゴリズムで, 平均場近似を求めることができます. 1. サンプル { } が与えられたときの初期ハイパーパラメータを 設定 2. 隠れ変数の更新

    3. ハイパーパラメータの更新 4. 2,3 の繰り返し(変分自由エネルギーの変化量などをもとに終了) 24 (5) 例題:混合指数型分布