同じデータでもP値が変わる話/key_considerations_in_NHST

1 2023.09.02 Tokyo.R #108 同じデータでもP値が変わる話

2 統計的仮説検定同じデータからは同じ検定結果が得られるものと考えられがちですが実際には必ずしもその通りではありません。

3 例えばコイン投げをして24回中7回が表になるという単純なデータを考えてみましょう。このようなデータでも、実験の設定や投げる回数の制約によって、統計的仮説検定の結果が変わることがあるのです。

4 コインを1回投げる 𝑝 𝑦 𝜃 = 𝜃𝑦(1 − 𝜃)(1−𝑦) 𝜃
= 0.5 ベルヌーイ分布 y=1 は表, y=0 は裏

5 コインをN回投げる裏裏表表裏裏表裏裏裏裏裏裏裏裏裏表裏裏表表裏裏表表が出る確率 θ 投げる回数 N 表の回数 z 二項分布

6 統計的仮説検定の流れ帰無仮説をたてる ↓ 標本分布を計算する ↓ データを観測してP値を求める

7 帰無仮説をたてるある統計量がある値と等しいということを帰無仮説として設定します。例）コインの裏表が出る確率が50%と等しい平均値が等しい

8 標本分布を計算する帰無仮説が成り立つ場合にその統計量が従うであろう確率分布、標本分布を計算します。例）コインの裏表が出る確率 → 二項分布など平均値 →
t分布など

9 データを観測してP値を求める実際に観測された値、もしくはそれ以上に極端な値が標本分布に占める面積、つまりそのような値が観測される確率（P値）を求めます。

10 P値があらかじめ設定したしきい値（たとえば5%）よりも小さければ、そもそも帰無仮説が間違っていたのだと結論づけます。逆に小さくなければ帰無仮説を棄却せず、判断を保留します。 P値で判断

11 コインを24回投げて7回表が出たこのコインは公平か。データ観測者の意図コインを24回投げると決めていた。結果として7回表がでた。

12 標本分布表が出る確率 θ 投げる回数 N 表の回数 z

13 データを観測 θ = 0.5 N = 24 z =
7 P値 = 0.064 Sample Proportion z/N p(z/N)

14 Rのコード

15 コインを24回投げて7回表が出たこのコインは公平か。データ観測者の意図 7回表が出るまで投げ続けると決めていた。結果として 24回投げた。 ↓ 23回投げた時点で6回表が出ており、24回目では表が出た。

16 標本分布 N-1回投げた時点でz-1回表が出て N回目は表

17 データを観測 θ = 0.5 z = 7 N =
24 P値 = 0.017 Sample Proportion z/N p(z/N)

18 Rのコード

19 投げる回数N 表が出る回数 z • Nを固定する意図ではP値=0.064（判断を保留） • zを固定する意図ではP値=0.017（帰無仮説を棄却）同じデータを観測しても、観測者の意図によって検定結果が変わる！

20 意外にも観察者の意図やデータ収集の方法が、統計的な結果に影響を与える可能性があるのです。このような現象は、統計的な検定の限界や留意すべき要点を浮き彫りにします。単に数値を見るだけではなく、実験の文脈や条件を正しく理解することの重要性を示しています。

21 参考書飯塚修平. ウェブ最適化ではじめる機械学習. オライリー・ジャパン, 2020 John K. Kruschke.
Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan EDITION 2. Academic Press, 2014

同じデータでもP値が変わる話/key_considerations_in_NHST

同じデータでもP値が変わる話/key_considerations_in_NHST

florets1

More Decks by florets1

Other Decks in Science

Featured

Transcript

1 2023.09.02 Tokyo.R #108 同じデータでもP値が変わる話

2 統計的仮説検定同じデータからは同じ検定結果が得られるものと考えられがちですが実際には必ずしもその通りではありません。

3 例えばコイン投げをして24回中7回が表になるという単純なデータを考えてみましょう。このようなデータでも、実験の設定や投げる回数の制約によって、統計的仮説検定の結果が変わることがあるのです。

4 コインを1回投げる 𝑝 𝑦 𝜃 = 𝜃𝑦(1 − 𝜃)(1−𝑦) 𝜃

5 コインをN回投げる裏裏表表裏裏表裏裏裏裏裏裏裏裏裏表裏裏表表裏裏表表が出る確率 θ 投げる回数 N 表の回数 z 二項分布

6 統計的仮説検定の流れ帰無仮説をたてる ↓ 標本分布を計算する ↓ データを観測してP値を求める

7 帰無仮説をたてるある統計量がある値と等しいということを帰無仮説として設定します。例）コインの裏表が出る確率が50%と等しい平均値が等しい

8 標本分布を計算する帰無仮説が成り立つ場合にその統計量が従うであろう確率分布、標本分布を計算します。例）コインの裏表が出る確率 → 二項分布など平均値 →

9 データを観測してP値を求める実際に観測された値、もしくはそれ以上に極端な値が標本分布に占める面積、つまりそのような値が観測される確率（P値）を求めます。

10 P値があらかじめ設定したしきい値（たとえば5%）よりも小さければ、そもそも帰無仮説が間違っていたのだと結論づけます。逆に小さくなければ帰無仮説を棄却せず、判断を保留します。 P値で判断

11 コインを24回投げて7回表が出たこのコインは公平か。データ観測者の意図コインを24回投げると決めていた。結果として7回表がでた。

12 標本分布表が出る確率 θ 投げる回数 N 表の回数 z

13 データを観測 θ = 0.5 N = 24 z =

14 Rのコード

15 コインを24回投げて7回表が出たこのコインは公平か。データ観測者の意図 7回表が出るまで投げ続けると決めていた。結果として 24回投げた。 ↓ 23回投げた時点で6回表が出ており、24回目では表が出た。

16 標本分布 N-1回投げた時点でz-1回表が出て N回目は表

17 データを観測 θ = 0.5 z = 7 N =

18 Rのコード

19 投げる回数N 表が出る回数 z • Nを固定する意図ではP値=0.064（判断を保留） • zを固定する意図ではP値=0.017（帰無仮説を棄却）同じデータを観測しても、観測者の意図によって検定結果が変わる！

21 参考書飯塚修平. ウェブ最適化ではじめる機械学習. オライリー・ジャパン, 2020 John K. Kruschke.