Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ベイズ推定の基礎 / Basis of Bayesian estimation

Atom
January 31, 2019
200

ベイズ推定の基礎 / Basis of Bayesian estimation

(1) Maximum likelihood estimation
(2) MAP estimation
(3) Bayesian estimation
(4) Exponential distribution family and conjugate prior distribution

Atom

January 31, 2019
Tweet

More Decks by Atom

Transcript

  1. ベイズ推定の基礎
    最尤推定,MAP推定,ベイズ推定
    第4回 B3勉強会
    2019/1/31
    長岡技術科学大学
    自然言語処理研究室 吉澤 亜斗武

    View Slide

  2. 参考文献・資料
    [1] 高橋大地:言語処理のための機械学習,コロナ社(2010)
    [2] 須山敦志:ベイズ推論による機械学習入門,講談社(2017)
    [3] Aicia Solid Project:ベイズ統計①~⑥
    https://www.youtube.com/channel/UC2lJYodMaAfFeFQrGUwhlaQ/playlists
    [4] 渡辺澄夫:事前分布について
    http://watanabewww.math.dis.titech.ac.jp/users/swatanab/prior.html
    2

    View Slide

  3. Contents
    (1) Introduction
    (2) 最尤推定
    (3) MAP推定
    (4) ベイズ推定
    (5) 指数型分布族と自然共役事前分布
    3

    View Slide

  4. (1) Introduction
    2つのコインA, B があり,表になりやすいほうを選びたい
    A:3回中2回,表だった
    B:100回中60回,表だった
    あなたはどちらを選ぶ? 表になる確率(表率)は?
    4

    View Slide

  5. (1) Introduction
    コイン 現象 最尤推定 MAP推定
    A 3回中2回表 66.7% 50.5%
    B 100回中60回表 60.0% 55.0%
    5
    推定方法はほかにもたくさんある.
    ・事後期待値(expected a posteriori, EAP)
    ・事後中央値(posteriori median, MED)
    ・変分ベイズ法(variational Bayesian method, VB)

    View Slide

  6. i.i.d.:独立に同一の確率分布 () に従うこと
    パラメータ(母数) , :現象を支配する値,分布を特徴づける値
    i.i.d. な確率変数 = 1
    , 2
    , ⋯ ,
    とし,その実現値である
    サンプルデータ = 1
    , 2
    , ⋯ ,
    とする.
    このとき特定のにおけるデータの生成確率 | は
    | = �
    =1


    |
    6
    (2) 最尤推定

    View Slide

  7. | を尤度(likelihood)といい,特に の関数とみなすと
    き尤度関数という.
    最尤推定量:
    = argmax

    |
    最尤推定:(点)推定の結果を �
    = |
    とする
    尤度関数は積の形で直接最大化することが困難であるため,
    単調増加変換を行い,対数尤度関数を用いることが多い.
    7
    (2) 最尤推定

    View Slide

  8. 問)P氏はgood, bad, boring, exciting のいずれかを,それぞれ
    確率
    , 𝑏𝑏
    , 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏
    , 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒
    で発話する.P氏の発した
    単語は i.i.d. であり,データサイズはN (トークン) である.
    発した単語数が
    = 5, 𝑏𝑏
    = 1, 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏
    = 0, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒
    =
    4 であるとき,
    , 𝑏𝑏
    , 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏
    , 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒
    を求めよ.
    8
    (2) 最尤推定

    View Slide

  9. 解)パラメータ =
    , 𝑏𝑏
    , 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏
    , 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒
    サンプルデータ =
    , 𝑏𝑏
    , 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏
    , 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒
    尤度関数 | = ×
    5 × 𝑏𝑏
    1 × 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏
    0 × 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒
    4
    ,
    = argmax
    =
    | s. t. ∑

    = 1
    Lagrangeの未定乗数法より,
    =

    =

    9
    (2) 最尤推定

    View Slide


  10. =
    5
    10
    =0.5, 𝑏𝑏
    =
    1
    10
    = 0.1,
    𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏
    =
    0
    10
    =0, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒
    =
    4
    10
    = 0.4
    ・ゼロ頻度問題:頻度が0だと,確率が0になってしまう.
    ・そもそも,たったサンプル10個で信頼できるのか(精度は?)
    10
    (2) 最尤推定

    View Slide

  11. ・実は成立しない等式を用いている
    「パラメータが与えられたもとでのサンプルの確率」
    =「サンプルが与えられたもとでのパラメータの確率」
    ・さらに正規分布に近似できない場合は,汎化誤差が著しく大き
    くなり,階層構造や隠れ変数をもつモデルには適していない
    ・混合モデルの最適化においてもゼロ割りや特異行列による
    エラーの可能性もある
    11
    (2) 最尤推定

    View Slide

  12. ・例えば「コインの表率は,だいたい 1
    2
    ± 5% に分布しているの
    ではないか? 」のように,事前にパラメータの確率分布を予
    測し,条件として追加する.
    ・事前確率分布 𝑝𝑝𝑝𝑝 を尤度関数 | にかけると
    argmax

    𝑝𝑝𝑝𝑝 � | = argmax

    �𝐿𝐿 |
    ()
    = argmax

    𝑝𝑝𝑝𝑝 |
    12
    (3) MAP推定

    View Slide

  13. よって事後確率分布 𝑝𝑝𝑝𝑝 | が最大となるパラメータを
    見つければよい(MAP推定, maximum a posterior estimation)
    先程の問を,ディリクレ分布を事前確率分布として解く.
    𝑝𝑝𝑝𝑝 ; =

    𝑥𝑥

    −1
    ∫ ∏
    𝑥𝑥

    −1
    𝑑𝑑
    = ,
    = 2 とする.
    対数尤度は,log 𝑝𝑝𝑝𝑝 � | = log 𝑝𝑝𝑝𝑝 + log |
    13
    (3) MAP推定

    View Slide

  14. ∫ ∏


    −1 は定数となるので
    𝑝𝑝𝑝𝑝 ∝
    𝑏𝑏
    𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏
    𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒
    Lagrangeの未定乗数法より ,
    = +1
    ∑ +1
    = +1
    +4
    分母の4は単語の種類を表しているので,単語の集合Vとすると
    ,
    =

    + 1
    +
    14
    (3) MAP推定

    View Slide


  15. =
    5 + 1
    10 + 4
    =0.43, 𝑏𝑏
    =
    1 + 1
    10 + 4
    = 0.14,
    𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏
    =
    0 + 1
    10 + 4
    =0.07, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒
    =
    4 + 1
    10 + 4
    = 0.36
    ・ゼロ頻度問題が解消された
    ・事前に4回発話し,それぞれの単語が1回含まれていたことに
    相当する(事前分布とデータ追加の等価性)
    15
    (3) MAP推定

    View Slide

  16. ・最尤推定とMAP推定は,点推定であり確率予測分布全体
    を把握できない
    ・ベイズ推定ではパラメータ を変数として確率予測分布を描く
    ・argmaxをはずす
    𝑝𝑝𝑝𝑝 | = �𝐿𝐿 |
    ()
    ()がよくわからない
    16
    (4) ベイズ推定

    View Slide

  17. 周辺化というテクニックを使い,尤度の定義を思い出せば
    = �
    0
    1
    , = �
    0
    1
    𝑝𝑝𝑝𝑝 � |
    𝑝𝑝𝑝𝑝 | =
    𝑝𝑝𝑝𝑝 � |
    ()
    =
    𝑝𝑝𝑝𝑝 � |

    0
    1
    𝑝𝑝𝑝𝑝 � |
    17
    (4) ベイズ推定

    View Slide

  18. パラメータが増えると,指数関数的に計算量が増え,次元の呪いで
    確率予測分布の推定が困難になる.
    また積分ができないこともあり,近似手法が使われる
    ・MCMC(Markov chain Monte Carlo methods)
    ・ギブスサンプリング
    ・メトロポリス・ヘイスティング法
    ・変分ベイズ法
    18
    (4) ベイズ推定

    View Slide

  19. パラメータ ∈ ℝ𝑑𝑑,データ ∈ ℝ, , ∈ ℝ とする.
    このとき,確率モデルが
    | = exp �
    という形をしているとき,指数型分布という.
    ・ � は内積を表している.
    ・∫ exp � 𝑑𝑑 = 1
    19
    (5) 指数型分布族と自然共役事前分布

    View Slide

  20. 指数型分布に対して,次の形の事前分布を考える
    | =
    1
    ()
    exp �
    = � exp � ∈ ℝ
    | を共役事前分布という.
    20
    (5) 指数型分布族と自然共役事前分布

    View Slide

  21. ・事前分布とデータ追加の等価性は,尤度関数が指数分布族の
    ときに,事前分布を自然共役事前分布に選んだ時に成立する.
    ・必ずしも自然共役事前分布を選んだから,最高の予測になると
    いうわけではない.精度の指標は汎化誤差と自由エネルギー
    21
    (5) 指数型分布族と自然共役事前分布

    View Slide

  22. 尤度関数 パラメータ 共役事前分布 予測分布
    ベルヌーイ分布 μ ベータ分布 ベルヌーイ分布
    二項分布 μ ベータ分布 ベータ・二項分布
    カテゴリ分布 π ディリクレ分布 カテゴリ分布
    多項分布 π ディリクレ分布 ディリクレ・多項分布
    ポアソン分布 λ ガンマ分布 負の二項分布
    1次元ガウス分布 μ 1次元ガウス分布 1次元ガウス分布
    1次元ガウス分布 λ ガンマ分布 1次元スチューデントのt分布
    1次元ガウス分布 μ, λ ガウス・ガンマ分布 1次元スチューデントのt分布
    多次元ガウス分布 μ 多次元ガウス分布 多次元ガウス分布
    多次元ガウス分布 Λ ウィシャート分布 多次元スチューデントのt分布
    多次元ガウス分布 μ, Λ ガウス・ウィシャート分布 多次元スチューデントのt分布
    22
    (5) 指数型分布族と自然共役事前分布

    View Slide