Slide 1

Slide 1 text

ベイズ推定の基礎 最尤推定,MAP推定,ベイズ推定 第4回 B3勉強会 2019/1/31 長岡技術科学大学 自然言語処理研究室 吉澤 亜斗武

Slide 2

Slide 2 text

参考文献・資料 [1] 高橋大地:言語処理のための機械学習,コロナ社(2010) [2] 須山敦志:ベイズ推論による機械学習入門,講談社(2017) [3] Aicia Solid Project:ベイズ統計①~⑥ https://www.youtube.com/channel/UC2lJYodMaAfFeFQrGUwhlaQ/playlists [4] 渡辺澄夫:事前分布について http://watanabewww.math.dis.titech.ac.jp/users/swatanab/prior.html 2

Slide 3

Slide 3 text

Contents (1) Introduction (2) 最尤推定 (3) MAP推定 (4) ベイズ推定 (5) 指数型分布族と自然共役事前分布 3

Slide 4

Slide 4 text

(1) Introduction 2つのコインA, B があり,表になりやすいほうを選びたい A:3回中2回,表だった B:100回中60回,表だった あなたはどちらを選ぶ? 表になる確率(表率)は? 4

Slide 5

Slide 5 text

(1) Introduction コイン 現象 最尤推定 MAP推定 A 3回中2回表 66.7% 50.5% B 100回中60回表 60.0% 55.0% 5 推定方法はほかにもたくさんある. ・事後期待値(expected a posteriori, EAP) ・事後中央値(posteriori median, MED) ・変分ベイズ法(variational Bayesian method, VB)

Slide 6

Slide 6 text

i.i.d.:独立に同一の確率分布 () に従うこと パラメータ(母数) , :現象を支配する値,分布を特徴づける値 i.i.d. な確率変数 = 1 , 2 , ⋯ , とし,その実現値である サンプルデータ = 1 , 2 , ⋯ , とする. このとき特定のにおけるデータの生成確率 | は | = � =1 | 6 (2) 最尤推定

Slide 7

Slide 7 text

| を尤度(likelihood)といい,特に の関数とみなすと き尤度関数という. 最尤推定量: = argmax | 最尤推定:(点)推定の結果を � = | とする 尤度関数は積の形で直接最大化することが困難であるため, 単調増加変換を行い,対数尤度関数を用いることが多い. 7 (2) 最尤推定

Slide 8

Slide 8 text

問)P氏はgood, bad, boring, exciting のいずれかを,それぞれ 確率 , 𝑏𝑏 , 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 , 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 で発話する.P氏の発した 単語は i.i.d. であり,データサイズはN (トークン) である. 発した単語数が = 5, 𝑏𝑏 = 1, 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 = 0, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 = 4 であるとき, , 𝑏𝑏 , 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 , 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 を求めよ. 8 (2) 最尤推定

Slide 9

Slide 9 text

解)パラメータ = , 𝑏𝑏 , 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 , 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 サンプルデータ = , 𝑏𝑏 , 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 , 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 尤度関数 | = × 5 × 𝑏𝑏 1 × 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 0 × 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 4 , = argmax = | s. t. ∑ = 1 Lagrangeの未定乗数法より, = ∑ = 9 (2) 最尤推定

Slide 10

Slide 10 text

= 5 10 =0.5, 𝑏𝑏 = 1 10 = 0.1, 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 = 0 10 =0, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 = 4 10 = 0.4 ・ゼロ頻度問題:頻度が0だと,確率が0になってしまう. ・そもそも,たったサンプル10個で信頼できるのか(精度は?) 10 (2) 最尤推定

Slide 11

Slide 11 text

・実は成立しない等式を用いている 「パラメータが与えられたもとでのサンプルの確率」 =「サンプルが与えられたもとでのパラメータの確率」 ・さらに正規分布に近似できない場合は,汎化誤差が著しく大き くなり,階層構造や隠れ変数をもつモデルには適していない ・混合モデルの最適化においてもゼロ割りや特異行列による エラーの可能性もある 11 (2) 最尤推定

Slide 12

Slide 12 text

・例えば「コインの表率は,だいたい 1 2 ± 5% に分布しているの ではないか? 」のように,事前にパラメータの確率分布を予 測し,条件として追加する. ・事前確率分布 𝑝𝑝𝑝𝑝 を尤度関数 | にかけると argmax 𝑝𝑝𝑝𝑝 � | = argmax �𝐿𝐿 | () = argmax 𝑝𝑝𝑝𝑝 | 12 (3) MAP推定

Slide 13

Slide 13 text

よって事後確率分布 𝑝𝑝𝑝𝑝 | が最大となるパラメータを 見つければよい(MAP推定, maximum a posterior estimation) 先程の問を,ディリクレ分布を事前確率分布として解く. 𝑝𝑝𝑝𝑝 ; = ∏ 𝑥𝑥 −1 ∫ ∏ 𝑥𝑥 −1 𝑑𝑑 = , = 2 とする. 対数尤度は,log 𝑝𝑝𝑝𝑝 � | = log 𝑝𝑝𝑝𝑝 + log | 13 (3) MAP推定

Slide 14

Slide 14 text

∫ ∏ −1 は定数となるので 𝑝𝑝𝑝𝑝 ∝ 𝑏𝑏 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 Lagrangeの未定乗数法より , = +1 ∑ +1 = +1 +4 分母の4は単語の種類を表しているので,単語の集合Vとすると , = + 1 + 14 (3) MAP推定

Slide 15

Slide 15 text

= 5 + 1 10 + 4 =0.43, 𝑏𝑏 = 1 + 1 10 + 4 = 0.14, 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏 = 0 + 1 10 + 4 =0.07, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒 = 4 + 1 10 + 4 = 0.36 ・ゼロ頻度問題が解消された ・事前に4回発話し,それぞれの単語が1回含まれていたことに 相当する(事前分布とデータ追加の等価性) 15 (3) MAP推定

Slide 16

Slide 16 text

・最尤推定とMAP推定は,点推定であり確率予測分布全体 を把握できない ・ベイズ推定ではパラメータ を変数として確率予測分布を描く ・argmaxをはずす 𝑝𝑝𝑝𝑝 | = �𝐿𝐿 | () ()がよくわからない 16 (4) ベイズ推定

Slide 17

Slide 17 text

周辺化というテクニックを使い,尤度の定義を思い出せば = � 0 1 , = � 0 1 𝑝𝑝𝑝𝑝 � | 𝑝𝑝𝑝𝑝 | = 𝑝𝑝𝑝𝑝 � | () = 𝑝𝑝𝑝𝑝 � | ∫ 0 1 𝑝𝑝𝑝𝑝 � | 17 (4) ベイズ推定

Slide 18

Slide 18 text

パラメータが増えると,指数関数的に計算量が増え,次元の呪いで 確率予測分布の推定が困難になる. また積分ができないこともあり,近似手法が使われる ・MCMC(Markov chain Monte Carlo methods) ・ギブスサンプリング ・メトロポリス・ヘイスティング法 ・変分ベイズ法 18 (4) ベイズ推定

Slide 19

Slide 19 text

パラメータ ∈ ℝ𝑑𝑑,データ ∈ ℝ, , ∈ ℝ とする. このとき,確率モデルが | = exp � という形をしているとき,指数型分布という. ・ � は内積を表している. ・∫ exp � 𝑑𝑑 = 1 19 (5) 指数型分布族と自然共役事前分布

Slide 20

Slide 20 text

指数型分布に対して,次の形の事前分布を考える | = 1 () exp � = � exp � ∈ ℝ | を共役事前分布という. 20 (5) 指数型分布族と自然共役事前分布

Slide 21

Slide 21 text

・事前分布とデータ追加の等価性は,尤度関数が指数分布族の ときに,事前分布を自然共役事前分布に選んだ時に成立する. ・必ずしも自然共役事前分布を選んだから,最高の予測になると いうわけではない.精度の指標は汎化誤差と自由エネルギー 21 (5) 指数型分布族と自然共役事前分布

Slide 22

Slide 22 text

尤度関数 パラメータ 共役事前分布 予測分布 ベルヌーイ分布 μ ベータ分布 ベルヌーイ分布 二項分布 μ ベータ分布 ベータ・二項分布 カテゴリ分布 π ディリクレ分布 カテゴリ分布 多項分布 π ディリクレ分布 ディリクレ・多項分布 ポアソン分布 λ ガンマ分布 負の二項分布 1次元ガウス分布 μ 1次元ガウス分布 1次元ガウス分布 1次元ガウス分布 λ ガンマ分布 1次元スチューデントのt分布 1次元ガウス分布 μ, λ ガウス・ガンマ分布 1次元スチューデントのt分布 多次元ガウス分布 μ 多次元ガウス分布 多次元ガウス分布 多次元ガウス分布 Λ ウィシャート分布 多次元スチューデントのt分布 多次元ガウス分布 μ, Λ ガウス・ウィシャート分布 多次元スチューデントのt分布 22 (5) 指数型分布族と自然共役事前分布