Upgrade to Pro — share decks privately, control downloads, hide ads and more …

変分ベイズ法の基礎理論 / Basic theory of variational Bayes method

Atom
February 14, 2019
290

変分ベイズ法の基礎理論 / Basic theory of variational Bayes method

(1) Purpose of variational Bayes method
(2) Variational principle of Gibbs
(3) Mean field approximation and self contradiction relationship
(4) Preparation for solving an example
(5) Example: mixed exponential distribution

Atom

February 14, 2019
Tweet

More Decks by Atom

Transcript

  1. 変分ベイズ法の基礎理論
    平均場近似と変分ベイズ法
    第6回 B3勉強会
    2019/2/14
    長岡技術科学大学
    自然言語処理研究室 吉澤 亜斗武

    View Slide

  2. 参考文献・資料
    [1] 渡辺澄夫:ベイズ統計の理論と方法,コロナ社(2012)
    [2] 中島伸一:変分ベイズ学習,講談社(2016)
    [3] 須山敦志:ベイズ推論による機械学習,講談社(2017)
    [4] 渡辺澄夫:変分ベイズの理論
    http://watanabewww.math.dis.titech.ac.jp/users/swatanab/vbtheory.html
    2

    View Slide

  3. Contents
    (1) 変分ベイズ法の主な対象と目的
    (2) ギブスの変分原理
    (3) 平均場近似と自己無矛盾条件
    (4) 例題を解くための準備
    (5) 例題:混合指数型分布
    3

    View Slide

  4. (1) 変分ベイズ法の主な対象と目的
    問題点1:例えば次の尤度関数モデルは共役事前分布を持たない
    ・行列分解モデル(matrix factorization model)
    協調フィルタリングによる推薦システム
    ・混合ガウス分布モデル(mixture of Gaussians model)
    (VB-)EMアルゴリズムによるクラスタリング
    ・潜在的ディリクレ配分モデル(latent Dirichlet allocation model)
    文書データの次元削減法
    4

    View Slide

  5. (1) 変分ベイズ法の主な対象と目的
    事前分布が分からない → 事後分布もわからない
    → パラメータの分布の検討もつかない
    しかし,先ほどのモデルはパラメータ全体の共役事前分布は持た
    ないが,あるパラメータ以外を定数として扱うことで,部分的な
    共役性を持つことが知られており,パラメータの独立性を仮定で
    きるならば,条件付き共役事前分布をもつことができる.
    5

    View Slide

  6. (1) 変分ベイズ法の主な対象と目的
    例:パラメータ 1
    , 2
    ∈ として
    1
    |2
    , = 1

    ⋅ 1
    |2
    � |1
    , 2
    = |2
    = ∫
    0
    1
    1
    |2
    � |1
    , 2
    1
    ここでパラメータの独立性 1
    |2
    = 1
    と仮定すれば
    2
    を定数とみなし, 1
    を変数としたときの尤度関数モデルに対
    応する条件付き共役事前分布を用いることができる!
    6

    View Slide

  7. (1) 変分ベイズ法の主な対象と目的
    パラメータの独立性の仮定(注:i.i.d. ではない)
    = �
    𝑠𝑠=1

    𝑠𝑠
    𝑠𝑠
    によって,求められる近似事後確率分布は次のようになる.
    = �
    𝑠𝑠=1

    𝑠𝑠
    𝑠𝑠
    ≈ | となるような𝑠𝑠
    𝑠𝑠
    は?
    問題点2:多変数すぎて分配関数 の計算がきつい
    7

    View Slide

  8. (1) 変分ベイズ法の主な対象と目的
    ・変分ベイズ法(variational Bayesian method)
    パラメータの独立性を仮定し,汎関数:変分自由エネルギー
    を最小化にする平均場近似(mean-field approximation)
    を変分法によって求め,近似事後確率関数を求める方法
    注:変分自由エネルギーに負号をつけた変分下限(証拠の下界,
    evidence lower bound : ELBO)を最大化する方法と
    説明している書物も多くある
    8

    View Slide

  9. 確率モデル ′ | ∈ ⊂ ℝ, ∈ ℝ と事前分布 が
    与えられた時,事後分布は一般に以下のようにあらわされる.
    ≡ | =
    1



    =1


    =
    1


    exp −()

    = � �
    =1


    𝑑𝑑 = � exp −() 𝑑𝑑
    = − �
    =1

    log ′

    1

    log
    = − log �
    =1



    1

    log
    9
    (2) ギブスの変分原理

    View Slide

  10. 事後分布 と同じような近似事後分布 を求めたい
    →カルバック・ライブラ情報量(Kullback-Leibler divergence)
    を用いる(相対エントロピーともいう).

    [||] = � log


    𝑑𝑑
    = � log 𝑑𝑑 + � + log

    10
    (2) ギブスの変分原理

    View Slide

  11. = のとき,min


    [||] = 0 となるので
    − log
    = min

    � log 𝑑𝑑 + � 𝑑𝑑
    () = min

    � log 𝑑𝑑 + � 𝑑𝑑
    = − 1

    log
    を(真の)自由エネルギーという.
    また,この原理をギブスの変分原理という.
    11
    (2) ギブスの変分原理

    View Slide

  12. また次のように表記されることもある.
    � 𝑑𝑑 = − � log �
    =1


    𝑑𝑑
    = min

    � log


    =1


    𝑑𝑑
    = min


    log


    (|)
    = min


    log


    ,
    12
    (2) ギブスの変分原理

    View Slide

  13. 今,二変数 (, ) の確率分布 (, ) を求めたい.
    独立性の仮定より近似事後確率 () とすると,このときの
    自由エネルギーを �
    とすると,一般に以下の式が成り立つ.
    ≤ �


    を変分自由エネルギー(平均場自由エネルギー)という.
    13
    (3) 平均場近似と自己無矛盾条件

    View Slide

  14. 確率, の総和則を制約条件とし,min


    [||]をラグランジュ
    の未定乗数法を用いて変分法で解くと自己無矛盾条件を得る.
    ∝ exp − � , 𝑑𝑑 = exp 𝑟𝑟
    log
    , ,
    ∝ exp − � , 𝑑𝑑 = exp
    log
    , ,
    自己無矛盾条件を満たす確率分布の組が二組以上あるときは
    min �
    [, ] とするものが平均場近似である.
    14
    (3) 平均場近似と自己無矛盾条件

    View Slide

  15. 一般にパラメータ = {𝑠𝑠
    }𝑠𝑠=1
    に対応する確率 𝑠𝑠
    𝑠𝑠
    とすると
    自己無矛盾条件は次のように表せる.
    𝑠𝑠
    𝑠𝑠
    ∝ exp − � �
    ≠𝑠𝑠



    ≠𝑠𝑠
    𝑑𝑑
    = exp ∏≠
    𝑟𝑟
    log
    ,
    また, によってmin �
    となる確率変数の組(平均場近似)は
    変わることがある.これを相転移という.
    15
    (3) 平均場近似と自己無矛盾条件

    View Slide

  16. (K-1)次元標準シンプレックス ∆−1 に変数が属するとする
    = 1
    , ⋯
    ∈ ∆−1≡ ∈ ℝ;
    ∈ 0,1 , �
    =1


    = 1
    このとき, はディリクレ分布に従う. = 1
    , ⋯
    として
    Dir =
    1
    ()

    =1

    (−1
    )−1 =
    ∏=1
    Γ(
    )
    Γ(∑=1

    )
    ただし,𝑑𝑑 = 1 − �
    =1


    1

    16
    (4) 例題を解くための準備

    View Slide

  17. よって

    Dir 𝑑𝑑 =

    ∑=1

    ()
    ()
    =

    ∑=1

    また,ディガンマ関数 =

    log Γ() を用いると
    �(log
    ) Dir 𝑑𝑑 =


    log () =
    − �
    =1


    17
    (4) 例題を解くための準備

    View Slide


  18. = �
    =1



    exp


    ∈ ℝ, = , =
    ,
    ; = 1,2, ⋯ ,
    は混合比率(mixing proportion)と呼ばれるもので,
    (K-1)次元標準シンプレックス ∆−1 に属する.
    また,Kをコンポーネント数という.
    18
    (5) 例題:混合指数型分布

    View Slide

  19. パラメータの独立性を仮定し,事前分布を以下のようにする.
    = 1
    2

    1
    = Dir
    2
    = �
    =1

    1
    (
    )
    exp


    = � exp


    19
    (5) 例題:混合指数型分布

    View Slide

  20. しかし,尤度を求めようとすると, = ∏ ∑ の形で扱いにくい
    そこで,隠れ(潜在)変数(hidden (latent) variable)を導入し

    ではなく,
    ,
    の尤度を考える.
    競合的な確率変数 = (1
    , 2
    , ⋯ ,
    )が次の集合上の値をとる.
    = 1,0,0, ⋯ , 0 , 0,1,0, ⋯ , 0 , ⋯ , (0,0,0, ⋯ , 1) = {1つの要素が1}

    = (1
    , 2
    , ⋯ ,
    ) ∈ とする(1-of-K 表現).
    20
    (5) 例題:混合指数型分布

    View Slide


  21. に関する確率モデルを次のように定義する(生成モデル).

    = Cat
    = �
    =1


    𝑖𝑖


    , = �
    =1


    exp

    𝑖𝑖

    = �


    ,
    = �




    ,
    21
    (5) 例題:混合指数型分布

    View Slide


  22. ,
    = �
    =1



    exp

    𝑖𝑖
    よって,サンプル全体の集合 ∈ ℝ, 隠れ変数全体の集合
    ∈ とすると,変数の同時確率分布モデルは
    (, , ) = () �
    =1


    ,

    ここでは = 1のみを考えるが・・・
    22
    (5) 例題:混合指数型分布

    View Slide

  23. 時間の関係上
    後は視聴者への宿題
    23
    (5) 例題:混合指数型分布
    バレンタインチョコ

    View Slide

  24. 最終的には,繰り返し代入という再帰的なアルゴリズムで,
    平均場近似を求めることができます.
    1. サンプル {
    } が与えられたときの初期ハイパーパラメータを
    設定
    2. 隠れ変数の更新
    3. ハイパーパラメータの更新
    4. 2,3 の繰り返し(変分自由エネルギーの変化量などをもとに終了)
    24
    (5) 例題:混合指数型分布

    View Slide

  25. 注意
    ・隠れ変数を導入して平均場近似することは変数を増やしている
    ので精度は下がります
    ・ハイパーパラメータは相転移を引き起こし,相転移点付近では
    最も近似精度が悪化します(隠れ変数とパラメータが独立しま
    せん)
    ・コンポーネント(成分)の微妙な重なりを推測するのには不適
    25
    (5) 例題:混合指数型分布

    View Slide