Slide 1

Slide 1 text

1 2024.07.13 Tokyo.R #114 カイ二乗検定との遭遇

Slide 2

Slide 2 text

2 コインが偏ってないか調べる(1) 確率𝑝で表が出るコインを𝑛回投げる。 表が出る回数は二項分布𝐵(𝑛, 𝑝) に従う 分布の形状はパラメーターによって変化する B(10, 0.8) B(10, 0.5)

Slide 3

Slide 3 text

3 コインが偏ってないか調べる(2) パラメーターは確率分布ではない流儀 0.5 p パラメーター𝑝は0.5に近いのか それとも遠いのか、なんとも言 えない。 パラメーターは確率分布だとする流儀 0.5 パラメーター𝑝は0.5に近いのか それとも遠いのか、分布の形状 から判断できる。 二項分布𝐵(𝑛, 𝑝) のパラメーター𝑝 に注目 p

Slide 4

Slide 4 text

4 コインが偏ってないか調べる(3) 実際に観測された値、もしくはそれよりも極端な値が観測される確率(P値)を求めて… パラメーターは確率分布ではない流儀では仮説検定を行う 例えば二項検定

Slide 5

Slide 5 text

5 サイコロが偏ってないか調べる(1) サイコロの1の目が出る回数の確率は二項分布に従う 分布の形状はパラメーターによって変化する B(n=10, p=1/6)

Slide 6

Slide 6 text

6 サイコロが偏ってないか調べる(2) パラメーターは確率分布だとする流儀 1/6 パラメーター𝑝は1/6に近いのか それとも遠いのか、分布の形状 から判断できる。 6個のパラメーターそれぞれに ついて、1/6に近いのか遠いのか 判断してやればよい。 p

Slide 7

Slide 7 text

パラメーター𝑝は1/6に近いのか それとも遠いのか、なんとも言 えない。 7 サイコロが偏ってないか調べる(3) パラメーターは確率分布ではない流儀 1/6 6個のパラメーターそれぞれに ついて、1/6に近いのか遠いのか 仮説検定をすればよい。 p

Slide 8

Slide 8 text

8 サイコロが偏ってないか調べる(4) パラメーターは確率分布ではない流儀 6個のパラメーターそれぞれに ついて、1/6に近いのか遠いのか 仮説検定をすればよい。 多重検定

Slide 9

Slide 9 text

9 サイコロが偏ってないか調べる(5) 多重検定やりたくないなあ ではどうするか 素直に考えたら 多項分布を使って検定すればよさそう 多項分布は二項分布を多クラスに拡張した分布だから しかし、なぜかこの手法は流行っていないようだ 実際に流行ってるのはカイ二乗検定

Slide 10

Slide 10 text

10 カイ二乗分布とは 標準正規分布の二乗和の分布

Slide 11

Slide 11 text

11 二項分布からカイ二乗分布へ nが十分に大きいとき、二項分布𝐵(𝑛, 𝑝) は 正規分布𝑁(𝑛𝑝, 𝑛𝑝 1 − 𝑝 ) で近似できる。 確率変数𝑋が二項分布𝐵(𝑛, 𝑝)に従うとき 𝑋−𝑛𝑝 𝑛𝑝(1−𝑝) は近似的に標準正規分布に従う。 標準正規分布の二乗和はカイ二乗分布 𝜒2 = ෍ (𝑋 − 𝑛𝑝)2 𝑛𝑝(1 − 𝑝)

Slide 12

Slide 12 text

12 カイ二乗検定とは サイコロの目 1 2 3 4 5 6 合計 実測値 24 20 18 19 17 22 120 理論値 20 20 20 20 20 20 120 ズレ (24 − 20)2 20 (20 − 20)2 20 (18 − 20)2 20 (19 − 20)2 20 (17 − 20)2 20 (22 − 20)2 20 (24 − 20)2 20 + (20 − 20)2 20 + (18 − 20)2 20 + (19 − 20)2 20 + (17 − 20)2 20 + (22 − 20)2 20 = 𝜒2 実測値と理論値のズレの和がカイ二乗分布に従っている ことを利用する検定

Slide 13

Slide 13 text

13 まとめ パラメーターは確率分布だとする 流儀は単純だと思う パラメーターの分布を見比べるだけ どのパラメーターが偏っているかも個別にわかる

Slide 14

Slide 14 text

14 まとめ パラメーターは確率分布ではない流儀は複雑だと思う パラメーター同士を直接比べてもが近いのか遠いのかなんとも言えない→仮説検定 二項分布に従う現象だから二項検定を6回やったら→多重検定 二項分布の多クラス拡張である多項分布で検定すれば→流行ってない 二項分布を正規分布で近似して、標準正規分布の二乗和が従う分布(カイ二乗分布) を使って検定する どのパラメーターが偏っているか個別にはわからないが、サイコロが偏っていること はわかる