Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ベイズ統計入門
Search
tdual
July 10, 2018
Science
0
140
ベイズ統計入門
ベイズ統計入門
tdual
July 10, 2018
Tweet
Share
Other Decks in Science
See All in Science
MIKAMI Koichi
genomethica
0
170
勉強会資料 / “Asymptotic Statistics” Section 2.1
asymptotic_minato
0
220
データで課題を解決する -因果関係を調べる統計的因果推論-
sshimizu2006
4
1.3k
Presenting Effectively with Data (in a Hurry)
thomaselove
1
250
研究・教育・産学連携の循環の実践
sshimizu2006
0
220
Spark_Task_Optimization_Journey_How_I_Increased_10x_Speed_by_Performance_Tuning
tlyu0419
0
190
Running llama.cpp on the CPU
ianozsvald
0
210
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
0
230
A Theory of Scrum Team Effectiveness 〜『ゾンビスクラムサバイバルガイド』の裏側にある科学〜
bonotake
12
5k
最新のAI技術を使った材料シミュレーションで材料研究現場に変革を
matlantis
0
410
ABEMAの効果検証事例〜効果の異質性を考える〜
s1ok69oo
3
1.5k
20240127_OpenRadiossエアバッグ解析
kamakiri1225
0
140
Featured
See All Featured
Rebuilding a faster, lazier Slack
samanthasiow
72
8.2k
Raft: Consensus for Rubyists
vanstee
132
6.2k
jQuery: Nuts, Bolts and Bling
dougneiner
59
7.1k
A Modern Web Designer's Workflow
chriscoyier
688
190k
Infographics Made Easy
chrislema
237
18k
Typedesign – Prime Four
hannesfritz
36
2.1k
Music & Morning Musume
bryan
41
5.6k
Scaling GitHub
holman
457
140k
For a Future-Friendly Web
brad_frost
171
8.9k
Pencils Down: Stop Designing & Start Developing
hursman
117
11k
Visualization
eitanlees
135
14k
How to train your dragon (web standard)
notwaldorf
72
5.1k
Transcript
ベイズ統計入門 tdual
条件付き確率 (全体で100人) 男(60人) 女(40人) ネコ好き(55人) 40人 15人 犬好き(45人) 20人 25人
・無作為に選んだ時に男である確率 P(男) = 60/100 ・無作為に選んだ時に猫好きである確率 P(ネコ好き) = 55/100 ・無作為に選んだ時に男かつネコ好きである確率 P(ネコ好き, 男) = 40/100 ・男の中から選んだ時にネコ好きである確率 P(ネコ好き | 男) = 40/60 同時確率 条件付き確率 P(男 | ネコ好き) = 40/55
ベイズの定理 P(ネコ好き | 男) = P(男 | ネコ好き)*P(ネコ好き) / P(男)
= (40/55) * (55/100) / (60/100) = 40 / 60 (全体で100人) 男(60人) 女(40人) ネコ好き(55人) 40人 15人 犬好き(45人) 20人 25人 あってる Aの時にBである確率P(B|A)から, Bの時にAである確率P(A|B)を求めることができる。 P(A, B) = P(A|B)P(B) P(A, B) = P(B|A)P(A) 集合論で考えれば自明 (A∩B)/(全体) = (A∩B)/A * A/(全体) 事後確率 事前確率
周辺確率 (全体で100人) 男(60人) 女(40人) ネコ好き(55人) 40人 15人 犬好き(45人) 20人 25人
A=男, B1=ネコ好き, B2=犬好き P(男,ネコ好き)+P(男,犬好き) = 40/100 + 20/100 = 60/100 =P(男) 集合論で考えれば自明 A ∩ 全体 = A A ∩ B1 / 全体 + A ∩ B2 /全体+... =A ∩ (B1+B2+...) / 全体 =A ∩ 全体 / 全体 =A / 全体
ベイズの定理の別の形 より P(B)を周辺尤度またはエビデンスという。
ベイズ更新 ◆ BとCが独立な事象の時 ◆ 複数事象のベイズの定理 P(A|B)は既知とする。 既知の条件付き確率を事前確率とした一つの 条件のベイズの定理になった
ベイズの定理の応用(迷惑メールフィルター) メール100通調べ 迷惑メール(60) 非迷惑メール(40) 「完全無料」を含むメール 10 5 P(完全無料|迷惑メール) = 10/60
P(完全無料) = 15/100 P(迷惑メール) = 60/100 迷惑メールフィルターでは「完全無料」を含むメールが迷惑メールかどうかを知りたい。 P(迷惑メール|完全無料) = P(完全無料|迷惑メール)P(迷惑メール)/P(完全無料) = 10/60 ✖ 60/100 ➗ 15/100 = 10/15 ≒ 0.67 この精度で迷惑メールフォルダにぶっ 込むのは危ない
ベイズの定理の応用(迷惑メールフィルター) メール100通調べ 迷惑メール(60) 非迷惑メール(40) 「完全無料」を含むメール 10 5 「仮想通貨投資」を含むメール 25 5
P(仮想通貨投資|迷惑メール) = 25/60 P(仮想通貨投資) = 30/100 さっき求めた P(迷惑メール|完全無料) = 10/15 ←新しい事前確率 P(迷惑メール|完全無料, 仮想通貨投資) = P(仮想通貨投資|迷惑メール) P*(A) / P(仮想通貨投資) = 25/60 ✖ 10/15 ➗ 30/100 = 25/27 ≒ 0.925 完全無料と仮想通貨投資を含むメールは 92.5%の確率で迷惑メール 精度を向上させるのに新しく作り 直す必要がない。前の結果を利用 できる。 (新語に対応できる)
確率分布 確率変数が離散値な時 確率変数が連続値な時 パラメーターが決まった時に確率変数が従う関数 例えば、ガウス分布(正規分布)なら σ、μが決 まった時に形が決まる
尤度(ゆうど) ある確率変数が決まった時にパラメーターが従う関数 関数の形は確率分布と同じ 決まった確率変数 = 観測値 N個の観測値が有った時の尤度 xjの時のガウス分布の尤度
最尤法(最大尤度法) ある程度データがあった時にそのデータを元にパラメーターを定めたい。 (パラメーターを定める = 確率分布が決定する = 予測(推論)に使える) 最尤法: 尤度が最大の時のパラメーターが正しい
最尤法の具体例(コイントス問題) 問題: ゆがんだコインが3枚あってどれか1枚のコインが使用されている。 ・コインA は50%の確率で表が出る ・コインB は80%の確率で表が出る ・コインC は90%の確率で表が出る コインを投げて表・裏・表・表・表が出たというデータを持っている。 どのコインを使っている? 尤度はP(表)P(裏)P(表)P(表)P(表) Aの尤度
0.5*(1-0.5)*0.5*0.5*0.5 = 0.0625 Bの尤度 0.8*(1-0.8)*0.8*0.8*0.8 = 0.08192 Cの尤度 0.9*(1-0.9)*0.9*0.9*0.9 = 0.06561 Bの尤度が大きいので Bっぽい ベルヌーイ分布のθを求めているに 他ならない(表:x=1,裏:x=0) コインA コインB
尤度方程式 コインの問題がベルヌーイ分布で表現できているなら尤度を最大にするパラメータを解析的 に求められるのでは? の時のθ 計算結果 表の時x=1,裏の時x=0 だったのでこれは表の 数の割合 表・裏・表・表・表 だったので⅘=0.8が尤
も妥当なθの値 尤度方程式
本当に最尤法でいいのか? 実験①:3回コインを投げて表が 2回、裏が1回だった。 θは2/3になる。 実験②:3万回コインを投げて表が2万回、裏が1万回だった。 θは2/3になる 同じでいいのか? 実験①は3回しか試してないので、結果 は偶然かもしれない・・・ 実験②では十分な試行回数があって結 果に信頼性がある。
信頼性を表現する方法として パラメータも分布で表現してはど うか?
ベイズ統計学① 確率分布のベイズの定理 パラメータが確率変数 になってる パラメータが確率変数 になってる f(θ|x):事後分布 f(θ):事前分布 事後分布をパラメータの分布だと解釈する。
ベイズ統計学② 尤度 周辺尤度 (ってか、θを求めたいのでθに依存して ないこいつは今は無視していい。) なにこれ? どんな形の確率分布?
事前分布の扱い わからないから適当に決めようぜ!! ベイズモデリング ほぼ解析的な計算不可能の世界 MCMC 変分ベイズ 適当に決めるにしても何か方向性が欲しい。(し かも計算できないのは辛い・・・)
共役事前分布 「じゃあ、計算出来るように事前分布を選ぼう!!」 尤度 事前分布 事後分布 ベルヌーイ分布 ベータ分布 ベータ分布 二項分布 ベータ分布
ベータ分布 σが既知の正規分布 正規分布 正規分布 σが未知の正規分布 逆ガンマ分布 逆ガンマ分布 ポアソン分布 ガンマ分布 ガンマ分布 カテゴリカル分布 ディリクレ分布 ディリクレ分布 多項分布 ディリクレ分布 ディリクレ分布 LDAで ディリク レ分布 を使う 理由
コイントスの例① コイントスはベルヌーイ分布だったので、事前分布としてベータ分布を使う。 ベータ分布 ベータ関数
コイントスの例②(事後分布の計算) 表の数+p 裏の数+q
コイントスの例③ 事前分布のベータ分布を一様分布 (p=1,q=1)として事後分布を調べると、 実験①:3回コインを投げて表が 2回、裏が1回だった。 実験②:3万回コインを投げて表が2万回、裏が1万回だった。
コイントスの例④ 実験① 実験② 実験①の方はθの分布の分散が大きくはっきり定まってない。 一方で実験②では2/3にほぼ定まってる。
分布の形状変化 表: 2回 裏: 1回 表: 20回 裏: 10回 表:
200回 裏: 100回
結論 ベイズ統計でパラメータの分布を調べることでデータ の信頼度までも測ることができる。 これがベイズ統計が使われている理由
応用 ベイジアンA/Bテスト http://tdual.hatenablog.com/entry/2018/04/21/004620 https://github.com/Tdual/bayesianAB/blob/master/BayesianAB.ipynb
カイ二乗検定と比べて何が良いのか ・カイ二乗検定は集計結果の全てが必要なので初めから計算し直してるの に比べて、ベイジアンABテストはインクリメントに結果を得る事が出来る。 → 計算コストの削減・リアルタイム計算可能 (最初の方で話したベイズ更新) ・p値など統計学リテラシーが高くないと扱えないものと比べてベイジアンAB テストの方が解釈しやすい(・・・?)
おわり