Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ベイズ統計入門
Search
tdual
July 10, 2018
Science
0
260
ベイズ統計入門
ベイズ統計入門
tdual
July 10, 2018
Tweet
Share
Other Decks in Science
See All in Science
アナログ計算機『計算尺』を愛でる Midosuji Tech #4/Analog Computing Device Slide Rule now and then
quiver
1
180
眼科AIコンテスト2024_特別賞_6位Solution
pon0matsu
0
400
テンソル分解による糖尿病の組織特異的遺伝子発現の統合解析を用いた関連疾患の予測
tagtag
2
190
Transport information Geometry: Current and Future II
lwc2017
0
150
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
130
機械学習 - 授業概要
trycycle
PRO
0
190
データベース01: データベースを使わない世界
trycycle
PRO
1
650
[第62回 CV勉強会@関東] Long-CLIP: Unlocking the Long-Text Capability of CLIP / kantoCV 62th ECCV 2024
lychee1223
1
940
システム数理と応用分野の未来を切り拓くロードマップ・エンターテインメント(スポーツ)への応用 / Applied mathematics for sports entertainment
konakalab
1
330
mathematics of indirect reciprocity
yohm
1
140
LayerXにおける業務の完全自動運転化に向けたAI技術活用事例 / layerx-ai-jsai2025
shimacos
1
1.1k
01_篠原弘道_SIPガバニングボード座長_ポスコロSIPへの期待.pdf
sip3ristex
0
520
Featured
See All Featured
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
357
30k
How to Think Like a Performance Engineer
csswizardry
24
1.7k
We Have a Design System, Now What?
morganepeng
52
7.6k
Measuring & Analyzing Core Web Vitals
bluesmoon
7
490
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.5k
Code Review Best Practice
trishagee
68
18k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.8k
Building an army of robots
kneath
306
45k
How to Ace a Technical Interview
jacobian
277
23k
Why You Should Never Use an ORM
jnunemaker
PRO
56
9.4k
Optimizing for Happiness
mojombo
379
70k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Transcript
ベイズ統計入門 tdual
条件付き確率 (全体で100人) 男(60人) 女(40人) ネコ好き(55人) 40人 15人 犬好き(45人) 20人 25人
・無作為に選んだ時に男である確率 P(男) = 60/100 ・無作為に選んだ時に猫好きである確率 P(ネコ好き) = 55/100 ・無作為に選んだ時に男かつネコ好きである確率 P(ネコ好き, 男) = 40/100 ・男の中から選んだ時にネコ好きである確率 P(ネコ好き | 男) = 40/60 同時確率 条件付き確率 P(男 | ネコ好き) = 40/55
ベイズの定理 P(ネコ好き | 男) = P(男 | ネコ好き)*P(ネコ好き) / P(男)
= (40/55) * (55/100) / (60/100) = 40 / 60 (全体で100人) 男(60人) 女(40人) ネコ好き(55人) 40人 15人 犬好き(45人) 20人 25人 あってる Aの時にBである確率P(B|A)から, Bの時にAである確率P(A|B)を求めることができる。 P(A, B) = P(A|B)P(B) P(A, B) = P(B|A)P(A) 集合論で考えれば自明 (A∩B)/(全体) = (A∩B)/A * A/(全体) 事後確率 事前確率
周辺確率 (全体で100人) 男(60人) 女(40人) ネコ好き(55人) 40人 15人 犬好き(45人) 20人 25人
A=男, B1=ネコ好き, B2=犬好き P(男,ネコ好き)+P(男,犬好き) = 40/100 + 20/100 = 60/100 =P(男) 集合論で考えれば自明 A ∩ 全体 = A A ∩ B1 / 全体 + A ∩ B2 /全体+... =A ∩ (B1+B2+...) / 全体 =A ∩ 全体 / 全体 =A / 全体
ベイズの定理の別の形 より P(B)を周辺尤度またはエビデンスという。
ベイズ更新 ◆ BとCが独立な事象の時 ◆ 複数事象のベイズの定理 P(A|B)は既知とする。 既知の条件付き確率を事前確率とした一つの 条件のベイズの定理になった
ベイズの定理の応用(迷惑メールフィルター) メール100通調べ 迷惑メール(60) 非迷惑メール(40) 「完全無料」を含むメール 10 5 P(完全無料|迷惑メール) = 10/60
P(完全無料) = 15/100 P(迷惑メール) = 60/100 迷惑メールフィルターでは「完全無料」を含むメールが迷惑メールかどうかを知りたい。 P(迷惑メール|完全無料) = P(完全無料|迷惑メール)P(迷惑メール)/P(完全無料) = 10/60 ✖ 60/100 ➗ 15/100 = 10/15 ≒ 0.67 この精度で迷惑メールフォルダにぶっ 込むのは危ない
ベイズの定理の応用(迷惑メールフィルター) メール100通調べ 迷惑メール(60) 非迷惑メール(40) 「完全無料」を含むメール 10 5 「仮想通貨投資」を含むメール 25 5
P(仮想通貨投資|迷惑メール) = 25/60 P(仮想通貨投資) = 30/100 さっき求めた P(迷惑メール|完全無料) = 10/15 ←新しい事前確率 P(迷惑メール|完全無料, 仮想通貨投資) = P(仮想通貨投資|迷惑メール) P*(A) / P(仮想通貨投資) = 25/60 ✖ 10/15 ➗ 30/100 = 25/27 ≒ 0.925 完全無料と仮想通貨投資を含むメールは 92.5%の確率で迷惑メール 精度を向上させるのに新しく作り 直す必要がない。前の結果を利用 できる。 (新語に対応できる)
確率分布 確率変数が離散値な時 確率変数が連続値な時 パラメーターが決まった時に確率変数が従う関数 例えば、ガウス分布(正規分布)なら σ、μが決 まった時に形が決まる
尤度(ゆうど) ある確率変数が決まった時にパラメーターが従う関数 関数の形は確率分布と同じ 決まった確率変数 = 観測値 N個の観測値が有った時の尤度 xjの時のガウス分布の尤度
最尤法(最大尤度法) ある程度データがあった時にそのデータを元にパラメーターを定めたい。 (パラメーターを定める = 確率分布が決定する = 予測(推論)に使える) 最尤法: 尤度が最大の時のパラメーターが正しい
最尤法の具体例(コイントス問題) 問題: ゆがんだコインが3枚あってどれか1枚のコインが使用されている。 ・コインA は50%の確率で表が出る ・コインB は80%の確率で表が出る ・コインC は90%の確率で表が出る コインを投げて表・裏・表・表・表が出たというデータを持っている。 どのコインを使っている? 尤度はP(表)P(裏)P(表)P(表)P(表) Aの尤度
0.5*(1-0.5)*0.5*0.5*0.5 = 0.0625 Bの尤度 0.8*(1-0.8)*0.8*0.8*0.8 = 0.08192 Cの尤度 0.9*(1-0.9)*0.9*0.9*0.9 = 0.06561 Bの尤度が大きいので Bっぽい ベルヌーイ分布のθを求めているに 他ならない(表:x=1,裏:x=0) コインA コインB
尤度方程式 コインの問題がベルヌーイ分布で表現できているなら尤度を最大にするパラメータを解析的 に求められるのでは? の時のθ 計算結果 表の時x=1,裏の時x=0 だったのでこれは表の 数の割合 表・裏・表・表・表 だったので⅘=0.8が尤
も妥当なθの値 尤度方程式
本当に最尤法でいいのか? 実験①:3回コインを投げて表が 2回、裏が1回だった。 θは2/3になる。 実験②:3万回コインを投げて表が2万回、裏が1万回だった。 θは2/3になる 同じでいいのか? 実験①は3回しか試してないので、結果 は偶然かもしれない・・・ 実験②では十分な試行回数があって結 果に信頼性がある。
信頼性を表現する方法として パラメータも分布で表現してはど うか?
ベイズ統計学① 確率分布のベイズの定理 パラメータが確率変数 になってる パラメータが確率変数 になってる f(θ|x):事後分布 f(θ):事前分布 事後分布をパラメータの分布だと解釈する。
ベイズ統計学② 尤度 周辺尤度 (ってか、θを求めたいのでθに依存して ないこいつは今は無視していい。) なにこれ? どんな形の確率分布?
事前分布の扱い わからないから適当に決めようぜ!! ベイズモデリング ほぼ解析的な計算不可能の世界 MCMC 変分ベイズ 適当に決めるにしても何か方向性が欲しい。(し かも計算できないのは辛い・・・)
共役事前分布 「じゃあ、計算出来るように事前分布を選ぼう!!」 尤度 事前分布 事後分布 ベルヌーイ分布 ベータ分布 ベータ分布 二項分布 ベータ分布
ベータ分布 σが既知の正規分布 正規分布 正規分布 σが未知の正規分布 逆ガンマ分布 逆ガンマ分布 ポアソン分布 ガンマ分布 ガンマ分布 カテゴリカル分布 ディリクレ分布 ディリクレ分布 多項分布 ディリクレ分布 ディリクレ分布 LDAで ディリク レ分布 を使う 理由
コイントスの例① コイントスはベルヌーイ分布だったので、事前分布としてベータ分布を使う。 ベータ分布 ベータ関数
コイントスの例②(事後分布の計算) 表の数+p 裏の数+q
コイントスの例③ 事前分布のベータ分布を一様分布 (p=1,q=1)として事後分布を調べると、 実験①:3回コインを投げて表が 2回、裏が1回だった。 実験②:3万回コインを投げて表が2万回、裏が1万回だった。
コイントスの例④ 実験① 実験② 実験①の方はθの分布の分散が大きくはっきり定まってない。 一方で実験②では2/3にほぼ定まってる。
分布の形状変化 表: 2回 裏: 1回 表: 20回 裏: 10回 表:
200回 裏: 100回
結論 ベイズ統計でパラメータの分布を調べることでデータ の信頼度までも測ることができる。 これがベイズ統計が使われている理由
応用 ベイジアンA/Bテスト http://tdual.hatenablog.com/entry/2018/04/21/004620 https://github.com/Tdual/bayesianAB/blob/master/BayesianAB.ipynb
カイ二乗検定と比べて何が良いのか ・カイ二乗検定は集計結果の全てが必要なので初めから計算し直してるの に比べて、ベイジアンABテストはインクリメントに結果を得る事が出来る。 → 計算コストの削減・リアルタイム計算可能 (最初の方で話したベイズ更新) ・p値など統計学リテラシーが高くないと扱えないものと比べてベイジアンAB テストの方が解釈しやすい(・・・?)
おわり