ベイズ統計入門

ベイズ統計入門 tdual

条件付き確率（全体で１００人）男（６０人）女（４０人）ネコ好き(５５人) ４０人１５人犬好き（４５人）２０人２５人
・無作為に選んだ時に男である確率　　P(男) = 60/100 ・無作為に選んだ時に猫好きである確率 P(ネコ好き) = 55/100 ・無作為に選んだ時に男かつネコ好きである確率　　P(ネコ好き, 男) = 40/100 ・男の中から選んだ時にネコ好きである確率 P(ネコ好き | 男) = 40/60　同時確率条件付き確率 P(男 | ネコ好き) = 40/55

周辺確率（全体で１００人）男（６０人）女（４０人）ネコ好き(５５人) ４０人１５人犬好き（４５人）２０人２５人
A=男, B1=ネコ好き, B2=犬好き P(男,ネコ好き)+P(男,犬好き) = 40/100 + 20/100 = 60/100 =P(男) 集合論で考えれば自明 A ∩ 全体 = A A ∩ B1 / 全体 + A ∩ B2 /全体+... =A ∩ (B1+B2+...) / 全体 =A ∩ 全体 / 全体 =A / 全体

ベイズの定理の別の形より P(B)を周辺尤度またはエビデンスという。

ベイズ更新 ◆　BとCが独立な事象の時 ◆　複数事象のベイズの定理 P(A|B)は既知とする。既知の条件付き確率を事前確率とした一つの条件のベイズの定理になった

ベイズの定理の応用（迷惑メールフィルター）メール100通調べ迷惑メール(60) 非迷惑メール(40) 「完全無料」を含むメール 10 5 P(完全無料|迷惑メール) = 10/60
P(完全無料) = 15/100 P(迷惑メール) = 60/100 迷惑メールフィルターでは「完全無料」を含むメールが迷惑メールかどうかを知りたい。 P(迷惑メール|完全無料) = P(完全無料|迷惑メール)P(迷惑メール)/P(完全無料) = 10/60 ✖ 60/100 ➗ 15/100 = 10/15 ≒ 0.67 この精度で迷惑メールフォルダにぶっ込むのは危ない

ベイズの定理の応用（迷惑メールフィルター）メール100通調べ迷惑メール(60) 非迷惑メール(40) 「完全無料」を含むメール 10 5 「仮想通貨投資」を含むメール 25 5
P(仮想通貨投資|迷惑メール) = 25/60 P(仮想通貨投資) = 30/100 さっき求めた　P(迷惑メール|完全無料) = 10/15 ←新しい事前確率 P(迷惑メール|完全無料, 仮想通貨投資) = P(仮想通貨投資|迷惑メール) P*(A) / P(仮想通貨投資) = 25/60 ✖ 10/15 ➗ 30/100 = 25/27 ≒ 0.925 完全無料と仮想通貨投資を含むメールは 92.5%の確率で迷惑メール精度を向上させるのに新しく作り直す必要がない。前の結果を利用できる。（新語に対応できる）

確率分布確率変数が離散値な時確率変数が連続値な時パラメーターが決まった時に確率変数が従う関数例えば、ガウス分布（正規分布）なら σ、μが決まった時に形が決まる

尤度（ゆうど）ある確率変数が決まった時にパラメーターが従う関数関数の形は確率分布と同じ決まった確率変数 = 観測値 N個の観測値が有った時の尤度 xjの時のガウス分布の尤度

最尤法（最大尤度法）ある程度データがあった時にそのデータを元にパラメーターを定めたい。（パラメーターを定める　＝　確率分布が決定する　＝　予測（推論）に使える）最尤法：　尤度が最大の時のパラメーターが正しい

最尤法の具体例（コイントス問題）問題：ゆがんだコインが3枚あってどれか１枚のコインが使用されている。・コインA　は50%の確率で表が出る・コインB　は80%の確率で表が出る・コインC　は90%の確率で表が出るコインを投げて表・裏・表・表・表が出たというデータを持っている。どのコインを使っている？尤度はP(表)P(裏)P(表)P(表)P(表) Aの尤度
0.5*(1-0.5)*0.5*0.5*0.5 = 0.0625 Bの尤度 0.8*(1-0.8)*0.8*0.8*0.8 = 0.08192 Cの尤度 0.9*(1-0.9)*0.9*0.9*0.9 = 0.06561 Bの尤度が大きいので Bっぽいベルヌーイ分布のθを求めているに他ならない（表:x=1,裏:x=0) コインA コインB

尤度方程式コインの問題がベルヌーイ分布で表現できているなら尤度を最大にするパラメータを解析的に求められるのでは？の時のθ 計算結果表の時x=1,裏の時x=0 だったのでこれは表の数の割合表・裏・表・表・表だったので⅘=0.8が尤
も妥当なθの値尤度方程式

本当に最尤法でいいのか？実験①：3回コインを投げて表が 2回、裏が1回だった。　θは2/3になる。実験②：3万回コインを投げて表が２万回、裏が１万回だった。　 θは2/3になる同じでいいのか？実験①は3回しか試してないので、結果は偶然かもしれない・・・実験②では十分な試行回数があって結果に信頼性がある。
信頼性を表現する方法としてパラメータも分布で表現してはどうか？

ベイズ統計学① 確率分布のベイズの定理パラメータが確率変数になってるパラメータが確率変数になってる f(θ|x)：事後分布 f(θ)：事前分布事後分布をパラメータの分布だと解釈する。

ベイズ統計学② 尤度周辺尤度（ってか、θを求めたいのでθに依存してないこいつは今は無視していい。）なにこれ？どんな形の確率分布？

事前分布の扱いわからないから適当に決めようぜ！！ベイズモデリングほぼ解析的な計算不可能の世界 MCMC 変分ベイズ適当に決めるにしても何か方向性が欲しい。（しかも計算できないのは辛い・・・）

共役事前分布「じゃあ、計算出来るように事前分布を選ぼう！！」尤度事前分布事後分布ベルヌーイ分布ベータ分布ベータ分布二項分布ベータ分布
ベータ分布 σが既知の正規分布正規分布正規分布 σが未知の正規分布逆ガンマ分布逆ガンマ分布ポアソン分布ガンマ分布ガンマ分布カテゴリカル分布ディリクレ分布ディリクレ分布多項分布ディリクレ分布ディリクレ分布 LDAでディリクレ分布を使う理由

コイントスの例① コイントスはベルヌーイ分布だったので、事前分布としてベータ分布を使う。ベータ分布ベータ関数

コイントスの例②（事後分布の計算）表の数+p 裏の数+q

コイントスの例③ 事前分布のベータ分布を一様分布 (p=1,q=1)として事後分布を調べると、実験①：3回コインを投げて表が 2回、裏が1回だった。　実験②：3万回コインを投げて表が２万回、裏が１万回だった。　

コイントスの例④ 実験① 実験② 実験①の方はθの分布の分散が大きくはっきり定まってない。一方で実験②では2/3にほぼ定まってる。

分布の形状変化表: 2回裏: 1回表: 20回裏: 10回表:
200回裏: 100回

結論ベイズ統計でパラメータの分布を調べることでデータの信頼度までも測ることができる。これがベイズ統計が使われている理由

応用ベイジアンA/Bテスト http://tdual.hatenablog.com/entry/2018/04/21/004620 https://github.com/Tdual/bayesianAB/blob/master/BayesianAB.ipynb

カイ二乗検定と比べて何が良いのか・カイ二乗検定は集計結果の全てが必要なので初めから計算し直してるのに比べて、ベイジアンABテストはインクリメントに結果を得る事が出来る。 → 計算コストの削減・リアルタイム計算可能（最初の方で話したベイズ更新）・p値など統計学リテラシーが高くないと扱えないものと比べてベイジアンAB テストの方が解釈しやすい（・・・？）

おわり

ベイズ統計入門

ベイズ統計入門

tdual

Other Decks in Science

Featured

Transcript