Upgrade to Pro — share decks privately, control downloads, hide ads and more …

同じデータでもP値が変わる話/key_considerations_in_NHST

florets1
September 02, 2023

 同じデータでもP値が変わる話/key_considerations_in_NHST

florets1

September 02, 2023
Tweet

More Decks by florets1

Other Decks in Science

Transcript

  1. 1
    2023.09.02 Tokyo.R #108
    同じデータでもP値が変わる話

    View full-size slide

  2. 2
    統計的仮説検定
    同じデータからは同じ検定結果が得られるもの
    と考えられがちですが
    実際には必ずしもその通りではありません。

    View full-size slide

  3. 3
    例えば
    コイン投げをして24回中7回が表になるという単純な
    データを考えてみましょう。
    このようなデータでも、実験の設定や投げる回数の制
    約によって、統計的仮説検定の結果が変わることがあ
    るのです。

    View full-size slide

  4. 4
    コインを1回投げる
    𝑝 𝑦 𝜃 = 𝜃𝑦(1 − 𝜃)(1−𝑦)
    𝜃 = 0.5
    ベルヌーイ分布
    y=1 は表, y=0 は裏

    View full-size slide

  5. 5
    コインをN回投げる
    裏裏表表裏裏表裏裏裏裏裏裏裏裏裏表裏裏表表裏裏表
    表が出る確率 θ
    投げる回数 N
    表の回数 z
    二項分布

    View full-size slide

  6. 6
    統計的仮説検定の流れ
    帰無仮説をたてる

    標本分布を計算する

    データを観測してP値を求める

    View full-size slide

  7. 7
    帰無仮説をたてる
    ある統計量がある値と等しいということを帰無仮説と
    して設定します。
    例)
    コインの裏表が出る確率が50%と等しい
    平均値が等しい

    View full-size slide

  8. 8
    標本分布を計算する
    帰無仮説が成り立つ場合にその統計量が従うであろう
    確率分布、標本分布を計算します。
    例)
    コインの裏表が出る確率 → 二項分布など
    平均値 → t分布など

    View full-size slide

  9. 9
    データを観測してP値を求める
    実際に観測された値、もしくはそれ以上に極端な値が
    標本分布に占める面積、つまりそのような値が観測さ
    れる確率(P値)を求めます。

    View full-size slide

  10. 10
    P値があらかじめ設定したしきい値(たとえば5%)よ
    りも小さければ、そもそも帰無仮説が間違っていたの
    だと結論づけます。
    逆に小さくなければ帰無仮説を棄却せず、判断を保留
    します。
    P値で判断

    View full-size slide

  11. 11
    コインを24回投げて7回表が出た
    このコインは公平か。
    データ観測者の意図
    コインを24回投げると決めていた。結果として7回表
    がでた。

    View full-size slide

  12. 12
    標本分布
    表が出る確率 θ
    投げる回数 N
    表の回数 z

    View full-size slide

  13. 13
    データを観測
    θ = 0.5
    N = 24
    z = 7
    P値 = 0.064
    Sample Proportion z/N
    p(z/N)

    View full-size slide

  14. 14
    Rのコード

    View full-size slide

  15. 15
    コインを24回投げて7回表が出た
    このコインは公平か。
    データ観測者の意図
    7回表が出るまで投げ続けると決めていた。結果として
    24回投げた。

    23回投げた時点で6回表が出ており、24回目では表が
    出た。

    View full-size slide

  16. 16
    標本分布
    N-1回投げた時点でz-1回表が出て N回目は表

    View full-size slide

  17. 17
    データを観測
    θ = 0.5
    z = 7
    N = 24
    P値 = 0.017
    Sample Proportion z/N
    p(z/N)

    View full-size slide

  18. 18
    Rのコード

    View full-size slide

  19. 19
    投げる回数N
    表が出る回数 z
    • Nを固定する意図ではP値=0.064(判断を保留)
    • zを固定する意図ではP値=0.017(帰無仮説を棄却)
    同じデータを観測しても、観測者の意図によって
    検定結果が変わる!

    View full-size slide

  20. 20
    意外にも
    観察者の意図やデータ収集の方法が、統計的な結果に
    影響を与える可能性があるのです。
    このような現象は、統計的な検定の限界や留意すべき
    要点を浮き彫りにします。単に数値を見るだけではな
    く、実験の文脈や条件を正しく理解することの重要性
    を示しています。

    View full-size slide

  21. 21
    参考書
    飯塚修平. ウェブ最適化ではじめる機械学習. オライ
    リー・ジャパン, 2020
    John K. Kruschke. Doing Bayesian Data Analysis: A
    Tutorial with R, JAGS, and Stan EDITION 2. Academic
    Press, 2014

    View full-size slide