Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
1 2024.07.13 Tokyo.R #114 カイ二乗検定との遭遇
Slide 2
Slide 2 text
2 コインが偏ってないか調べる(1) 確率𝑝で表が出るコインを𝑛回投げる。 表が出る回数は二項分布𝐵(𝑛, 𝑝) に従う 分布の形状はパラメーターによって変化する B(10, 0.8) B(10, 0.5)
Slide 3
Slide 3 text
3 コインが偏ってないか調べる(2) パラメーターは確率分布ではない流儀 0.5 p パラメーター𝑝は0.5に近いのか それとも遠いのか、なんとも言 えない。 パラメーターは確率分布だとする流儀 0.5 パラメーター𝑝は0.5に近いのか それとも遠いのか、分布の形状 から判断できる。 二項分布𝐵(𝑛, 𝑝) のパラメーター𝑝 に注目 p
Slide 4
Slide 4 text
4 コインが偏ってないか調べる(3) 実際に観測された値、もしくはそれよりも極端な値が観測される確率(P値)を求めて… パラメーターは確率分布ではない流儀では仮説検定を行う 例えば二項検定
Slide 5
Slide 5 text
5 サイコロが偏ってないか調べる(1) サイコロの1の目が出る回数の確率は二項分布に従う 分布の形状はパラメーターによって変化する B(n=10, p=1/6)
Slide 6
Slide 6 text
6 サイコロが偏ってないか調べる(2) パラメーターは確率分布だとする流儀 1/6 パラメーター𝑝は1/6に近いのか それとも遠いのか、分布の形状 から判断できる。 6個のパラメーターそれぞれに ついて、1/6に近いのか遠いのか 判断してやればよい。 p
Slide 7
Slide 7 text
パラメーター𝑝は1/6に近いのか それとも遠いのか、なんとも言 えない。 7 サイコロが偏ってないか調べる(3) パラメーターは確率分布ではない流儀 1/6 6個のパラメーターそれぞれに ついて、1/6に近いのか遠いのか 仮説検定をすればよい。 p
Slide 8
Slide 8 text
8 サイコロが偏ってないか調べる(4) パラメーターは確率分布ではない流儀 6個のパラメーターそれぞれに ついて、1/6に近いのか遠いのか 仮説検定をすればよい。 多重検定
Slide 9
Slide 9 text
9 サイコロが偏ってないか調べる(5) 多重検定やりたくないなあ ではどうするか 素直に考えたら 多項分布を使って検定すればよさそう 多項分布は二項分布を多クラスに拡張した分布だから しかし、なぜかこの手法は流行っていないようだ 実際に流行ってるのはカイ二乗検定
Slide 10
Slide 10 text
10 カイ二乗分布とは 標準正規分布の二乗和の分布
Slide 11
Slide 11 text
11 二項分布からカイ二乗分布へ nが十分に大きいとき、二項分布𝐵(𝑛, 𝑝) は 正規分布𝑁(𝑛𝑝, 𝑛𝑝 1 − 𝑝 ) で近似できる。 確率変数𝑋が二項分布𝐵(𝑛, 𝑝)に従うとき 𝑋−𝑛𝑝 𝑛𝑝(1−𝑝) は近似的に標準正規分布に従う。 標準正規分布の二乗和はカイ二乗分布 𝜒2 = (𝑋 − 𝑛𝑝)2 𝑛𝑝(1 − 𝑝)
Slide 12
Slide 12 text
12 カイ二乗検定とは サイコロの目 1 2 3 4 5 6 合計 実測値 24 20 18 19 17 22 120 理論値 20 20 20 20 20 20 120 ズレ (24 − 20)2 20 (20 − 20)2 20 (18 − 20)2 20 (19 − 20)2 20 (17 − 20)2 20 (22 − 20)2 20 (24 − 20)2 20 + (20 − 20)2 20 + (18 − 20)2 20 + (19 − 20)2 20 + (17 − 20)2 20 + (22 − 20)2 20 = 𝜒2 実測値と理論値のズレの和がカイ二乗分布に従っている ことを利用する検定
Slide 13
Slide 13 text
13 まとめ パラメーターは確率分布だとする 流儀は単純だと思う パラメーターの分布を見比べるだけ どのパラメーターが偏っているかも個別にわかる
Slide 14
Slide 14 text
14 まとめ パラメーターは確率分布ではない流儀は複雑だと思う パラメーター同士を直接比べてもが近いのか遠いのかなんとも言えない→仮説検定 二項分布に従う現象だから二項検定を6回やったら→多重検定 二項分布の多クラス拡張である多項分布で検定すれば→流行ってない 二項分布を正規分布で近似して、標準正規分布の二乗和が従う分布(カイ二乗分布) を使って検定する どのパラメーターが偏っているか個別にはわからないが、サイコロが偏っていること はわかる