Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ベイズ統計入門
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
tdual
July 10, 2018
Science
0
290
ベイズ統計入門
ベイズ統計入門
tdual
July 10, 2018
Tweet
Share
Other Decks in Science
See All in Science
academist Prize 4期生 研究トーク延長戦!「美は世界を救う」っていうけど、どうやって?
jimpe_hitsuwari
0
470
AI(人工知能)の過去・現在・未来 —AIは人間を超えるのか—
tagtag
PRO
1
230
データから見る勝敗の法則 / The principle of victory discovered by science (open lecture in NSSU)
konakalab
1
270
Collective Predictive Coding as a Unified Theory for the Socio-Cognitive Human Minds
tanichu
0
160
Optimization of the Tournament Format for the Nationwide High School Kyudo Competition in Japan
konakalab
0
150
動的トリートメント・レジームを推定するDynTxRegimeパッケージ
saltcooky12
0
250
データベース10: 拡張実体関連モデル
trycycle
PRO
0
1.1k
データベース06: SQL (3/3) 副問い合わせ
trycycle
PRO
1
720
データベース09: 実体関連モデル上の一貫性制約
trycycle
PRO
0
1.1k
Agent開発フレームワークのOverviewとW&B Weaveとのインテグレーション
siyoo
0
420
論文紹介 音源分離:SCNET SPARSE COMPRESSION NETWORK FOR MUSIC SOURCE SEPARATION
kenmatsu4
0
520
サイコロで理解する原子核崩壊と拡散現象 〜単純化されたモデルで本質を理解する〜
syotasasaki593876
0
150
Featured
See All Featured
The Pragmatic Product Professional
lauravandoore
37
7.1k
Ethics towards AI in product and experience design
skipperchong
2
200
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
Context Engineering - Making Every Token Count
addyosmani
9
660
For a Future-Friendly Web
brad_frost
182
10k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.4k
Highjacked: Video Game Concept Design
rkendrick25
PRO
1
290
ReactJS: Keep Simple. Everything can be a component!
pedronauck
666
130k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.6k
The Invisible Side of Design
smashingmag
302
51k
Transcript
ベイズ統計入門 tdual
条件付き確率 (全体で100人) 男(60人) 女(40人) ネコ好き(55人) 40人 15人 犬好き(45人) 20人 25人
・無作為に選んだ時に男である確率 P(男) = 60/100 ・無作為に選んだ時に猫好きである確率 P(ネコ好き) = 55/100 ・無作為に選んだ時に男かつネコ好きである確率 P(ネコ好き, 男) = 40/100 ・男の中から選んだ時にネコ好きである確率 P(ネコ好き | 男) = 40/60 同時確率 条件付き確率 P(男 | ネコ好き) = 40/55
ベイズの定理 P(ネコ好き | 男) = P(男 | ネコ好き)*P(ネコ好き) / P(男)
= (40/55) * (55/100) / (60/100) = 40 / 60 (全体で100人) 男(60人) 女(40人) ネコ好き(55人) 40人 15人 犬好き(45人) 20人 25人 あってる Aの時にBである確率P(B|A)から, Bの時にAである確率P(A|B)を求めることができる。 P(A, B) = P(A|B)P(B) P(A, B) = P(B|A)P(A) 集合論で考えれば自明 (A∩B)/(全体) = (A∩B)/A * A/(全体) 事後確率 事前確率
周辺確率 (全体で100人) 男(60人) 女(40人) ネコ好き(55人) 40人 15人 犬好き(45人) 20人 25人
A=男, B1=ネコ好き, B2=犬好き P(男,ネコ好き)+P(男,犬好き) = 40/100 + 20/100 = 60/100 =P(男) 集合論で考えれば自明 A ∩ 全体 = A A ∩ B1 / 全体 + A ∩ B2 /全体+... =A ∩ (B1+B2+...) / 全体 =A ∩ 全体 / 全体 =A / 全体
ベイズの定理の別の形 より P(B)を周辺尤度またはエビデンスという。
ベイズ更新 ◆ BとCが独立な事象の時 ◆ 複数事象のベイズの定理 P(A|B)は既知とする。 既知の条件付き確率を事前確率とした一つの 条件のベイズの定理になった
ベイズの定理の応用(迷惑メールフィルター) メール100通調べ 迷惑メール(60) 非迷惑メール(40) 「完全無料」を含むメール 10 5 P(完全無料|迷惑メール) = 10/60
P(完全無料) = 15/100 P(迷惑メール) = 60/100 迷惑メールフィルターでは「完全無料」を含むメールが迷惑メールかどうかを知りたい。 P(迷惑メール|完全無料) = P(完全無料|迷惑メール)P(迷惑メール)/P(完全無料) = 10/60 ✖ 60/100 ➗ 15/100 = 10/15 ≒ 0.67 この精度で迷惑メールフォルダにぶっ 込むのは危ない
ベイズの定理の応用(迷惑メールフィルター) メール100通調べ 迷惑メール(60) 非迷惑メール(40) 「完全無料」を含むメール 10 5 「仮想通貨投資」を含むメール 25 5
P(仮想通貨投資|迷惑メール) = 25/60 P(仮想通貨投資) = 30/100 さっき求めた P(迷惑メール|完全無料) = 10/15 ←新しい事前確率 P(迷惑メール|完全無料, 仮想通貨投資) = P(仮想通貨投資|迷惑メール) P*(A) / P(仮想通貨投資) = 25/60 ✖ 10/15 ➗ 30/100 = 25/27 ≒ 0.925 完全無料と仮想通貨投資を含むメールは 92.5%の確率で迷惑メール 精度を向上させるのに新しく作り 直す必要がない。前の結果を利用 できる。 (新語に対応できる)
確率分布 確率変数が離散値な時 確率変数が連続値な時 パラメーターが決まった時に確率変数が従う関数 例えば、ガウス分布(正規分布)なら σ、μが決 まった時に形が決まる
尤度(ゆうど) ある確率変数が決まった時にパラメーターが従う関数 関数の形は確率分布と同じ 決まった確率変数 = 観測値 N個の観測値が有った時の尤度 xjの時のガウス分布の尤度
最尤法(最大尤度法) ある程度データがあった時にそのデータを元にパラメーターを定めたい。 (パラメーターを定める = 確率分布が決定する = 予測(推論)に使える) 最尤法: 尤度が最大の時のパラメーターが正しい
最尤法の具体例(コイントス問題) 問題: ゆがんだコインが3枚あってどれか1枚のコインが使用されている。 ・コインA は50%の確率で表が出る ・コインB は80%の確率で表が出る ・コインC は90%の確率で表が出る コインを投げて表・裏・表・表・表が出たというデータを持っている。 どのコインを使っている? 尤度はP(表)P(裏)P(表)P(表)P(表) Aの尤度
0.5*(1-0.5)*0.5*0.5*0.5 = 0.0625 Bの尤度 0.8*(1-0.8)*0.8*0.8*0.8 = 0.08192 Cの尤度 0.9*(1-0.9)*0.9*0.9*0.9 = 0.06561 Bの尤度が大きいので Bっぽい ベルヌーイ分布のθを求めているに 他ならない(表:x=1,裏:x=0) コインA コインB
尤度方程式 コインの問題がベルヌーイ分布で表現できているなら尤度を最大にするパラメータを解析的 に求められるのでは? の時のθ 計算結果 表の時x=1,裏の時x=0 だったのでこれは表の 数の割合 表・裏・表・表・表 だったので⅘=0.8が尤
も妥当なθの値 尤度方程式
本当に最尤法でいいのか? 実験①:3回コインを投げて表が 2回、裏が1回だった。 θは2/3になる。 実験②:3万回コインを投げて表が2万回、裏が1万回だった。 θは2/3になる 同じでいいのか? 実験①は3回しか試してないので、結果 は偶然かもしれない・・・ 実験②では十分な試行回数があって結 果に信頼性がある。
信頼性を表現する方法として パラメータも分布で表現してはど うか?
ベイズ統計学① 確率分布のベイズの定理 パラメータが確率変数 になってる パラメータが確率変数 になってる f(θ|x):事後分布 f(θ):事前分布 事後分布をパラメータの分布だと解釈する。
ベイズ統計学② 尤度 周辺尤度 (ってか、θを求めたいのでθに依存して ないこいつは今は無視していい。) なにこれ? どんな形の確率分布?
事前分布の扱い わからないから適当に決めようぜ!! ベイズモデリング ほぼ解析的な計算不可能の世界 MCMC 変分ベイズ 適当に決めるにしても何か方向性が欲しい。(し かも計算できないのは辛い・・・)
共役事前分布 「じゃあ、計算出来るように事前分布を選ぼう!!」 尤度 事前分布 事後分布 ベルヌーイ分布 ベータ分布 ベータ分布 二項分布 ベータ分布
ベータ分布 σが既知の正規分布 正規分布 正規分布 σが未知の正規分布 逆ガンマ分布 逆ガンマ分布 ポアソン分布 ガンマ分布 ガンマ分布 カテゴリカル分布 ディリクレ分布 ディリクレ分布 多項分布 ディリクレ分布 ディリクレ分布 LDAで ディリク レ分布 を使う 理由
コイントスの例① コイントスはベルヌーイ分布だったので、事前分布としてベータ分布を使う。 ベータ分布 ベータ関数
コイントスの例②(事後分布の計算) 表の数+p 裏の数+q
コイントスの例③ 事前分布のベータ分布を一様分布 (p=1,q=1)として事後分布を調べると、 実験①:3回コインを投げて表が 2回、裏が1回だった。 実験②:3万回コインを投げて表が2万回、裏が1万回だった。
コイントスの例④ 実験① 実験② 実験①の方はθの分布の分散が大きくはっきり定まってない。 一方で実験②では2/3にほぼ定まってる。
分布の形状変化 表: 2回 裏: 1回 表: 20回 裏: 10回 表:
200回 裏: 100回
結論 ベイズ統計でパラメータの分布を調べることでデータ の信頼度までも測ることができる。 これがベイズ統計が使われている理由
応用 ベイジアンA/Bテスト http://tdual.hatenablog.com/entry/2018/04/21/004620 https://github.com/Tdual/bayesianAB/blob/master/BayesianAB.ipynb
カイ二乗検定と比べて何が良いのか ・カイ二乗検定は集計結果の全てが必要なので初めから計算し直してるの に比べて、ベイジアンABテストはインクリメントに結果を得る事が出来る。 → 計算コストの削減・リアルタイム計算可能 (最初の方で話したベイズ更新) ・p値など統計学リテラシーが高くないと扱えないものと比べてベイジアンAB テストの方が解釈しやすい(・・・?)
おわり