12023.09.02 Tokyo.R #108同じデータでもP値が変わる話
View Slide
2統計的仮説検定同じデータからは同じ検定結果が得られるものと考えられがちですが実際には必ずしもその通りではありません。
3例えばコイン投げをして24回中7回が表になるという単純なデータを考えてみましょう。このようなデータでも、実験の設定や投げる回数の制約によって、統計的仮説検定の結果が変わることがあるのです。
4コインを1回投げる𝑝 𝑦 𝜃 = 𝜃𝑦(1 − 𝜃)(1−𝑦)𝜃 = 0.5ベルヌーイ分布y=1 は表, y=0 は裏
5コインをN回投げる裏裏表表裏裏表裏裏裏裏裏裏裏裏裏表裏裏表表裏裏表表が出る確率 θ投げる回数 N表の回数 z二項分布
6統計的仮説検定の流れ帰無仮説をたてる↓標本分布を計算する↓データを観測してP値を求める
7帰無仮説をたてるある統計量がある値と等しいということを帰無仮説として設定します。例)コインの裏表が出る確率が50%と等しい平均値が等しい
8標本分布を計算する帰無仮説が成り立つ場合にその統計量が従うであろう確率分布、標本分布を計算します。例)コインの裏表が出る確率 → 二項分布など平均値 → t分布など
9データを観測してP値を求める実際に観測された値、もしくはそれ以上に極端な値が標本分布に占める面積、つまりそのような値が観測される確率(P値)を求めます。
10P値があらかじめ設定したしきい値(たとえば5%)よりも小さければ、そもそも帰無仮説が間違っていたのだと結論づけます。逆に小さくなければ帰無仮説を棄却せず、判断を保留します。P値で判断
11コインを24回投げて7回表が出たこのコインは公平か。データ観測者の意図コインを24回投げると決めていた。結果として7回表がでた。
12標本分布表が出る確率 θ投げる回数 N表の回数 z
13データを観測θ = 0.5N = 24z = 7P値 = 0.064Sample Proportion z/Np(z/N)
14Rのコード
15コインを24回投げて7回表が出たこのコインは公平か。データ観測者の意図7回表が出るまで投げ続けると決めていた。結果として24回投げた。↓23回投げた時点で6回表が出ており、24回目では表が出た。
16標本分布N-1回投げた時点でz-1回表が出て N回目は表
17データを観測θ = 0.5z = 7N = 24P値 = 0.017Sample Proportion z/Np(z/N)
18Rのコード
19投げる回数N表が出る回数 z• Nを固定する意図ではP値=0.064(判断を保留)• zを固定する意図ではP値=0.017(帰無仮説を棄却)同じデータを観測しても、観測者の意図によって検定結果が変わる!
20意外にも観察者の意図やデータ収集の方法が、統計的な結果に影響を与える可能性があるのです。このような現象は、統計的な検定の限界や留意すべき要点を浮き彫りにします。単に数値を見るだけではなく、実験の文脈や条件を正しく理解することの重要性を示しています。
21参考書飯塚修平. ウェブ最適化ではじめる機械学習. オライリー・ジャパン, 2020John K. Kruschke. Doing Bayesian Data Analysis: ATutorial with R, JAGS, and Stan EDITION 2. AcademicPress, 2014