ベイズ推定の基礎 / Basis of Bayesian estimation

ベイズ推定の基礎最尤推定，MAP推定，ベイズ推定第4回 B3勉強会 2019/1/31 長岡技術科学大学自然言語処理研究室吉澤亜斗武

参考文献・資料 [1] 高橋大地：言語処理のための機械学習，コロナ社（2010） [2] 須山敦志：ベイズ推論による機械学習入門，講談社（2017） [3] Aicia Solid Project：ベイズ統計①～⑥ https://www.youtube.com/channel/UC2lJYodMaAfFeFQrGUwhlaQ/playlists
[4] 渡辺澄夫：事前分布について http://watanabewww.math.dis.titech.ac.jp/users/swatanab/prior.html 2

Contents (1) Introduction (2) 最尤推定 (3) MAP推定 (4) ベイズ推定 (5)
指数型分布族と自然共役事前分布 3

(1) Introduction ２つのコインA, B があり，表になりやすいほうを選びたいＡ：3回中2回，表だったＢ：100回中60回，表だったあなたはどちらを選ぶ？表になる確率（表率）は？ 4

(1) Introduction コイン現象最尤推定ＭＡＰ推定Ａ 3回中2回表 66.7％ 50.5％
Ｂ 100回中60回表 60.0％ 55.0％ 5 推定方法はほかにもたくさんある．・事後期待値（expected a posteriori, EAP）・事後中央値（posteriori median, MED）・変分ベイズ法（variational Bayesian method, VB）

i.i.d.：独立に同一の確率分布 () に従うことパラメータ(母数) , ：現象を支配する値，分布を特徴づける値 i.i.d. な確率変数 = 1
, 2 , ⋯ , とし，その実現値であるサンプルデータ = 1 , 2 , ⋯ , とする．このとき特定のにおけるデータの生成確率 | は | = � =1 | 6 (2) 最尤推定

| を尤度（likelihood）といい，特にの関数とみなすとき尤度関数という．最尤推定量： = argmax | 最尤推定：(点)推定の結果を �
= | とする尤度関数は積の形で直接最大化することが困難であるため，単調増加変換を行い，対数尤度関数を用いることが多い． 7 (2) 最尤推定

問）P氏はgood, bad, boring, exciting のいずれかを，それぞれ確率 , 𝑏𝑏 , 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏
, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 で発話する．P氏の発した単語は i.i.d. であり，データサイズはN (トークン) である．発した単語数が = 5, 𝑏𝑏 = 1, 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 = 0, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 = 4 であるとき， , 𝑏𝑏 , 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 , 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 を求めよ． 8 (2) 最尤推定

解）パラメータ = , 𝑏𝑏 , 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 , 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 サンプルデータ =
, 𝑏𝑏 , 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 , 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 尤度関数 | = × 5 × 𝑏𝑏 1 × 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 0 × 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 4 , = argmax = | s. t. ∑ = 1 Lagrangeの未定乗数法より, = ∑ = 9 (2) 最尤推定

= 5 10 =0.5, 𝑏𝑏 = 1 10 = 0.1,
𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 = 0 10 =0, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 = 4 10 = 0.4 ・ゼロ頻度問題：頻度が0だと，確率が0になってしまう．・そもそも，たったサンプル10個で信頼できるのか（精度は？） 10 (2) 最尤推定

・実は成立しない等式を用いている「パラメータが与えられたもとでのサンプルの確率」＝「サンプルが与えられたもとでのパラメータの確率」・さらに正規分布に近似できない場合は，汎化誤差が著しく大きくなり，階層構造や隠れ変数をもつモデルには適していない・混合モデルの最適化においてもゼロ割りや特異行列によるエラーの可能性もある 11 (2) 最尤推定

・例えば「コインの表率は，だいたい 1 2 ± 5% に分布しているのではないか？」のように，事前にパラメータの確率分布を予測し，条件として追加する．・事前確率分布
𝑝𝑝𝑝𝑝 を尤度関数 | にかけると argmax 𝑝𝑝𝑝𝑝 � | = argmax �𝐿𝐿 | () = argmax 𝑝𝑝𝑝𝑝 | 12 (3) MAP推定

よって事後確率分布 𝑝𝑝𝑝𝑝 | が最大となるパラメータを見つければよい（MAP推定, maximum a posterior estimation）先程の問を，ディリクレ分布を事前確率分布として解く．
𝑝𝑝𝑝𝑝 ; = ∏ 𝑥𝑥 −1 ∫ ∏ 𝑥𝑥 −1 𝑑𝑑 = , = 2 とする. 対数尤度は，log 𝑝𝑝𝑝𝑝 � | = log 𝑝𝑝𝑝𝑝 + log | 13 (3) MAP推定

∫ ∏ −1 は定数となるので 𝑝𝑝𝑝𝑝 ∝ 𝑏𝑏 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 Lagrangeの未定乗数法より
, = +1 ∑ +1 = +1 +4 分母の4は単語の種類を表しているので，単語の集合Vとすると , = + 1 + 14 (3) MAP推定

= 5 + 1 10 + 4 =0.43, 𝑏𝑏 =
1 + 1 10 + 4 = 0.14, 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 = 0 + 1 10 + 4 =0.07, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 = 4 + 1 10 + 4 = 0.36 ・ゼロ頻度問題が解消された・事前に4回発話し，それぞれの単語が１回含まれていたことに相当する（事前分布とデータ追加の等価性） 15 (3) MAP推定

・最尤推定とMAP推定は，点推定であり確率予測分布全体を把握できない・ベイズ推定ではパラメータを変数として確率予測分布を描く・argmaxをはずす 𝑝𝑝𝑝𝑝 | = �𝐿𝐿 |
() ()がよくわからない 16 (4) ベイズ推定

パラメータが増えると，指数関数的に計算量が増え，次元の呪いで確率予測分布の推定が困難になる．また積分ができないこともあり，近似手法が使われる・MCMC（Markov chain Monte Carlo methods）・ギブスサンプリング・メトロポリス・ヘイスティング法
・変分ベイズ法 18 (4) ベイズ推定

パラメータ ∈ ℝ𝑑𝑑，データ ∈ ℝ， , ∈ ℝ とする．このとき，確率モデルが
| = exp � という形をしているとき，指数型分布という．・ � は内積を表している．・∫ exp � 𝑑𝑑 = 1 19 (5) 指数型分布族と自然共役事前分布

指数型分布に対して，次の形の事前分布を考える | = 1 () exp � = � exp
� ∈ ℝ | を共役事前分布という． 20 (5) 指数型分布族と自然共役事前分布

・事前分布とデータ追加の等価性は，尤度関数が指数分布族のときに，事前分布を自然共役事前分布に選んだ時に成立する．・必ずしも自然共役事前分布を選んだから，最高の予測になるというわけではない．精度の指標は汎化誤差と自由エネルギー 21 (5) 指数型分布族と自然共役事前分布

尤度関数パラメータ共役事前分布予測分布ベルヌーイ分布 μ ベータ分布ベルヌーイ分布二項分布 μ
ベータ分布ベータ・二項分布カテゴリ分布 π ディリクレ分布カテゴリ分布多項分布 π ディリクレ分布ディリクレ・多項分布ポアソン分布 λ ガンマ分布負の二項分布１次元ガウス分布 μ １次元ガウス分布１次元ガウス分布１次元ガウス分布 λ ガンマ分布１次元スチューデントのt分布１次元ガウス分布 μ, λ ガウス・ガンマ分布１次元スチューデントのt分布多次元ガウス分布 μ 多次元ガウス分布多次元ガウス分布多次元ガウス分布 Λ ウィシャート分布多次元スチューデントのt分布多次元ガウス分布 μ, Λ ガウス・ウィシャート分布多次元スチューデントのt分布 22 (5) 指数型分布族と自然共役事前分布

ベイズ推定の基礎 / Basis of Bayesian estimation

ベイズ推定の基礎 / Basis of Bayesian estimation

Atom

More Decks by Atom

Featured

Transcript

ベイズ推定の基礎最尤推定，MAP推定，ベイズ推定第4回 B3勉強会 2019/1/31 長岡技術科学大学自然言語処理研究室吉澤亜斗武

Contents (1) Introduction (2) 最尤推定 (3) MAP推定 (4) ベイズ推定 (5)

(1) Introduction ２つのコインA, B があり，表になりやすいほうを選びたいＡ：3回中2回，表だったＢ：100回中60回，表だったあなたはどちらを選ぶ？表になる確率（表率）は？ 4

(1) Introduction コイン現象最尤推定ＭＡＰ推定Ａ 3回中2回表 66.7％ 50.5％

i.i.d.：独立に同一の確率分布 () に従うことパラメータ(母数) , ：現象を支配する値，分布を特徴づける値 i.i.d. な確率変数 = 1

| を尤度（likelihood）といい，特にの関数とみなすとき尤度関数という．最尤推定量： = argmax | 最尤推定：(点)推定の結果を �

問）P氏はgood, bad, boring, exciting のいずれかを，それぞれ確率 , 𝑏𝑏 , 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏

解）パラメータ = , 𝑏𝑏 , 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 , 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 サンプルデータ =

= 5 10 =0.5, 𝑏𝑏 = 1 10 = 0.1,

・例えば「コインの表率は，だいたい 1 2 ± 5% に分布しているのではないか？」のように，事前にパラメータの確率分布を予測し，条件として追加する．・事前確率分布

よって事後確率分布 𝑝𝑝𝑝𝑝 | が最大となるパラメータを見つければよい（MAP推定, maximum a posterior estimation）先程の問を，ディリクレ分布を事前確率分布として解く．

∫ ∏ −1 は定数となるので 𝑝𝑝𝑝𝑝 ∝ 𝑏𝑏 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 Lagrangeの未定乗数法より

= 5 + 1 10 + 4 =0.43, 𝑏𝑏 =

・最尤推定とMAP推定は，点推定であり確率予測分布全体を把握できない・ベイズ推定ではパラメータを変数として確率予測分布を描く・argmaxをはずす 𝑝𝑝𝑝𝑝 | = �𝐿𝐿 |

周辺化というテクニックを使い，尤度の定義を思い出せば = � 0 1 , = � 0 1

パラメータ ∈ ℝ𝑑𝑑，データ ∈ ℝ， , ∈ ℝ とする．このとき，確率モデルが

指数型分布に対して，次の形の事前分布を考える | = 1 () exp � = � exp

尤度関数パラメータ共役事前分布予測分布ベルヌーイ分布 μ ベータ分布ベルヌーイ分布二項分布 μ