(1) Maximum likelihood estimation (2) MAP estimation (3) Bayesian estimation (4) Exponential distribution family and conjugate prior distribution
ベイズ推定の基礎最尤推定,MAP推定,ベイズ推定第4回 B3勉強会2019/1/31長岡技術科学大学自然言語処理研究室 吉澤 亜斗武
View Slide
参考文献・資料[1] 高橋大地:言語処理のための機械学習,コロナ社(2010)[2] 須山敦志:ベイズ推論による機械学習入門,講談社(2017)[3] Aicia Solid Project:ベイズ統計①~⑥https://www.youtube.com/channel/UC2lJYodMaAfFeFQrGUwhlaQ/playlists[4] 渡辺澄夫:事前分布についてhttp://watanabewww.math.dis.titech.ac.jp/users/swatanab/prior.html2
Contents(1) Introduction(2) 最尤推定(3) MAP推定(4) ベイズ推定(5) 指数型分布族と自然共役事前分布3
(1) Introduction2つのコインA, B があり,表になりやすいほうを選びたいA:3回中2回,表だったB:100回中60回,表だったあなたはどちらを選ぶ? 表になる確率(表率)は?4
(1) Introductionコイン 現象 最尤推定 MAP推定A 3回中2回表 66.7% 50.5%B 100回中60回表 60.0% 55.0%5推定方法はほかにもたくさんある.・事後期待値(expected a posteriori, EAP)・事後中央値(posteriori median, MED)・変分ベイズ法(variational Bayesian method, VB)
i.i.d.:独立に同一の確率分布 () に従うことパラメータ(母数) , :現象を支配する値,分布を特徴づける値i.i.d. な確率変数 = 1, 2, ⋯ , とし,その実現値であるサンプルデータ = 1, 2, ⋯ , とする.このとき特定のにおけるデータの生成確率 | は | = �=1 |6(2) 最尤推定
| を尤度(likelihood)といい,特に の関数とみなすとき尤度関数という.最尤推定量: = argmax |最尤推定:(点)推定の結果を � = |とする尤度関数は積の形で直接最大化することが困難であるため,単調増加変換を行い,対数尤度関数を用いることが多い.7(2) 最尤推定
問)P氏はgood, bad, boring, exciting のいずれかを,それぞれ確率 , 𝑏𝑏, 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒で発話する.P氏の発した単語は i.i.d. であり,データサイズはN (トークン) である.発した単語数が = 5, 𝑏𝑏= 1, 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏= 0, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒=4 であるとき, , 𝑏𝑏, 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒を求めよ.8(2) 最尤推定
解)パラメータ = , 𝑏𝑏, 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒サンプルデータ = , 𝑏𝑏, 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒尤度関数 | = × 5 × 𝑏𝑏1 × 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏0 × 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒4,= argmax= | s. t. ∑= 1Lagrangeの未定乗数法より,= ∑ = 9(2) 最尤推定
=510=0.5, 𝑏𝑏=110= 0.1,𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏=010=0, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒=410= 0.4・ゼロ頻度問題:頻度が0だと,確率が0になってしまう.・そもそも,たったサンプル10個で信頼できるのか(精度は?)10(2) 最尤推定
・実は成立しない等式を用いている「パラメータが与えられたもとでのサンプルの確率」=「サンプルが与えられたもとでのパラメータの確率」・さらに正規分布に近似できない場合は,汎化誤差が著しく大きくなり,階層構造や隠れ変数をもつモデルには適していない・混合モデルの最適化においてもゼロ割りや特異行列によるエラーの可能性もある11(2) 最尤推定
・例えば「コインの表率は,だいたい 12± 5% に分布しているのではないか? 」のように,事前にパラメータの確率分布を予測し,条件として追加する.・事前確率分布 𝑝𝑝𝑝𝑝 を尤度関数 | にかけるとargmax𝑝𝑝𝑝𝑝 � | = argmax �𝐿𝐿 |()= argmax𝑝𝑝𝑝𝑝 |12(3) MAP推定
よって事後確率分布 𝑝𝑝𝑝𝑝 | が最大となるパラメータを見つければよい(MAP推定, maximum a posterior estimation)先程の問を,ディリクレ分布を事前確率分布として解く.𝑝𝑝𝑝𝑝 ; =∏𝑥𝑥−1∫ ∏𝑥𝑥−1𝑑𝑑 = , = 2 とする.対数尤度は,log 𝑝𝑝𝑝𝑝 � | = log 𝑝𝑝𝑝𝑝 + log |13(3) MAP推定
∫ ∏−1 は定数となるので𝑝𝑝𝑝𝑝 ∝ 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒Lagrangeの未定乗数法より ,= +1∑ +1= +1+4分母の4は単語の種類を表しているので,単語の集合Vとすると,=+ 1 + 14(3) MAP推定
=5 + 110 + 4=0.43, 𝑏𝑏=1 + 110 + 4= 0.14,𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏=0 + 110 + 4=0.07, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒=4 + 110 + 4= 0.36・ゼロ頻度問題が解消された・事前に4回発話し,それぞれの単語が1回含まれていたことに相当する(事前分布とデータ追加の等価性)15(3) MAP推定
・最尤推定とMAP推定は,点推定であり確率予測分布全体を把握できない・ベイズ推定ではパラメータ を変数として確率予測分布を描く・argmaxをはずす𝑝𝑝𝑝𝑝 | = �𝐿𝐿 |()()がよくわからない16(4) ベイズ推定
周辺化というテクニックを使い,尤度の定義を思い出せば = �01 , = �01𝑝𝑝𝑝𝑝 � | 𝑝𝑝𝑝𝑝 | =𝑝𝑝𝑝𝑝 � |()=𝑝𝑝𝑝𝑝 � |∫01𝑝𝑝𝑝𝑝 � | 17(4) ベイズ推定
パラメータが増えると,指数関数的に計算量が増え,次元の呪いで確率予測分布の推定が困難になる.また積分ができないこともあり,近似手法が使われる・MCMC(Markov chain Monte Carlo methods)・ギブスサンプリング・メトロポリス・ヘイスティング法・変分ベイズ法18(4) ベイズ推定
パラメータ ∈ ℝ𝑑𝑑,データ ∈ ℝ, , ∈ ℝ とする.このとき,確率モデルが | = exp � という形をしているとき,指数型分布という.・ � は内積を表している.・∫ exp � 𝑑𝑑 = 119(5) 指数型分布族と自然共役事前分布
指数型分布に対して,次の形の事前分布を考える | =1()exp � = � exp � ∈ ℝ | を共役事前分布という.20(5) 指数型分布族と自然共役事前分布
・事前分布とデータ追加の等価性は,尤度関数が指数分布族のときに,事前分布を自然共役事前分布に選んだ時に成立する.・必ずしも自然共役事前分布を選んだから,最高の予測になるというわけではない.精度の指標は汎化誤差と自由エネルギー21(5) 指数型分布族と自然共役事前分布
尤度関数 パラメータ 共役事前分布 予測分布ベルヌーイ分布 μ ベータ分布 ベルヌーイ分布二項分布 μ ベータ分布 ベータ・二項分布カテゴリ分布 π ディリクレ分布 カテゴリ分布多項分布 π ディリクレ分布 ディリクレ・多項分布ポアソン分布 λ ガンマ分布 負の二項分布1次元ガウス分布 μ 1次元ガウス分布 1次元ガウス分布1次元ガウス分布 λ ガンマ分布 1次元スチューデントのt分布1次元ガウス分布 μ, λ ガウス・ガンマ分布 1次元スチューデントのt分布多次元ガウス分布 μ 多次元ガウス分布 多次元ガウス分布多次元ガウス分布 Λ ウィシャート分布 多次元スチューデントのt分布多次元ガウス分布 μ, Λ ガウス・ウィシャート分布 多次元スチューデントのt分布22(5) 指数型分布族と自然共役事前分布