P値のトリセツ - Speaker Deck

P値のトリセツ

by Nakashima Takaya

Slide 1

Slide 1 text

P値のトリセツ⻑崎⼤学病院初期研修医1年⽬中島誉也

Slide 2

Slide 2 text

Attention 今回の発表には少々過激な内容も含みます取り扱い⽅については各⾃の判断でお願いします

Slide 3

Slide 3 text

3 P値＜0.05 → 有意を撤廃せよ!! 世界の科学者達

Slide 4

Slide 4 text

Slide 5

Slide 5 text

5 URL:https://jamanetwork.com/journals/jama/fullarticle/2676503

Slide 6

Slide 6 text

6 URL:https://www.nature.com/articles/s41562-017-0189-z

Slide 7

Slide 7 text

7 URL:https://www.nature.com/articles/d41586-019-00857-9 800⼈!?

Slide 8

Slide 8 text

8 P値反対側の意⾒ • 研究の⽬的がP値を有意にすることにしか関⼼がない • サンプルサイズを無視してP値の計算を⾏なっている • 実際の効果の⼤きさへの吟味を軽視している • 有意になった変数しか報告せず，後続に⽣かせていない研究が多い • P値 = 0.049とP値 = 0.051の差を⽐較することの意義なぜこんなにもP値は嫌われているのか︖ P値科学者A 科学者B 科学者C

Slide 9

Slide 9 text

9 P値のあるあるな誤解 • P値は帰無仮説が正しい確率である • 統計的に有意(P値が0.05未満)ならば臨床的にも重要な関係がある • 検定結果が有意でない(P値が0.05以上) ならば ① 帰無仮説が正しく，採択すべきであることを意味する ② 効果は⾒られなかった，効果がないことが証明された

Slide 10

Slide 10 text

10 P値の定義は︖ • 特定の統計モデルのもとで，データの統計的要約 (例えば，2グループ間での標本平均の差)が観察された値と等しいか，より極端な値を取る確率 -The ASA Statement on p-Values- • 帰無仮説が正しいとした時の確率分布のもとで，観測したデータによる統計量の値，もしくはそれより極端な統計量をとる確率 • 帰無仮説が正しいという前提において，それ以上に偏った検定統計量が得られる確率ざっくり⾔うと，P値はデータと帰無仮説が⽭盾する程度の指標

Slide 11

Slide 11 text

11 有意⽔準α P値が事前に設定した有意⽔準α(⼀般的にα = 0.05) を下回った時に，帰無仮説を棄却できる有意⽔準︓帰無仮説が間違っていると判断する確率

Slide 12

Slide 12 text

12 差がないという仮定を誤って棄却する確率→有意⽔準︕︕ α = 0.05とすると，確率は5% (正解) A群とB群とで⼊院期間に差がないと仮定した場合に，今⾒られているA群とB群の差が発⽣する確率は3.6%

Slide 13

Slide 13 text

統計的有意性とP値に関するASAの6声明 13 1 P値は「そのデータが,仮定した統計モデルとどれくらい適合しないか」を⽰す指標である 2 P値は調べている仮説が正しい確率やデータが偶然のみで得られた確率を測るものではない 3 科学的結論及びビジネス, 政策上の意思決定は「P値がある特定の値を超えたかどうか」のみによるべきではない 4 適切な推論のためには，全てを報告する透明性が必要である 5 P値や統計的有意性は効果の⼤きさや結果の重要性を測るものではない 6 P値そのものだけではモデルや仮説に関するエビデンスのいい指標とはならない

Slide 14

Slide 14 text

14 4. 適切な推論のためには，すべてを報告する透明性が必要である論⽂内で必ず報告すべきもの • 研究のモチベーション，デザイン • 当初予定していた解析計画 • 対象者の選択，除外の理由 • 実施したすべての解析・ P値や関連する解析は選択して報告してはいけない → ∵ P-hackingのリスクがある

Slide 15

Slide 15 text

P hackingとは︖ 15 1．⾏った条件や測定した変数の⼀部しか報告しない 2．参加者を少しずつ⾜しながら分析を⾏い，有意にしたい変数が有意差を⽰した時点で⽌める 3．さまざまな変数を⽤いて解析を⾏い，有意になった組み合わせのみを報告する 4. 有意な結果が出なければ，Publishしない → 出版バイアスダメ!!絶対!!

Slide 16

Slide 16 text

16 5. P値や統計的有意性は効果の⼤きさや結果の重要性を測るものではない例) Aという薬剤が肺癌による死亡を有意に低下させた．しかし，実際にAを使⽤した時の効果は従来の薬と⽐較して死亡率を2%低下させるだけであった．「統計的に有意であること」と「臨床的に有意であること」は違う︕ これは臨床的に意味があることなのか︖︖

Slide 17

Slide 17 text

17 5. P値や統計的有意性は効果の⼤きさや結果の重要性を測るものではない • どんな⼩さな効果でも，サンプルサイズが⼤きければ必ずP値は有意になる • 同じ効果の⼤きさでも，サンプルサイズによって異なったP値となる

Slide 18

Slide 18 text

18 5. P値や統計的有意性は効果の⼤きさや結果の重要性を測るものではないサンプルサイズnが⼤きいほど，検定統計量は⼤きくなり P値は⼩さくなる → 有意になりやすくなる︕ （証明）

Slide 19

Slide 19 text

19 統計的有意差なし(P値 ≧ 0.05) その変数には差がないそのデータでは差があることを⽰せなかった

Slide 20

Slide 20 text

20 じゃあどうすればいいんだ．．．︖

Slide 21

Slide 21 text

21 検定から推定へ

Slide 22

Slide 22 text

P値の誤解をしない/されないためには︖ 22 1．効果量(平均値の差，オッズ，ハザード⽐)を必ず記載する 2．P値(検定結果)ではなく，95%信頼区間(推定結果)を記載する TIVAによる⿇酔導⼊を⾏った群を参照とした時，吸⼊⿇酔薬による⿇酔導⼊を⾏った群では有意なPONVリスクの上昇を認めた(p値 = 0.002) TIVAによる⿇酔導⼊を⾏った群を参照とした時，吸⼊⿇酔薬による⿇酔導⼊を⾏った群では有意なPONVリスクの上昇を認めた (リスク⽐ 3.36, 95%信頼区間 3.20 ~ 3.57)

Slide 23

Slide 23 text

23 95%信頼区間のあるあるな誤解 • 信頼区間にハザード⽐が1を含むかどうかだけに注⽬すればいい → 「P値<0.05」かどうかの判断と⼀緒信頼区間の幅も⾒ることで，精度，サンプルサイズの評価もできる • 「0.92から1.13の間に真のハザード⽐がある確率は95%」である → 100回，同じ⼈数を抽出するランダムサンプリングを⾏なった時に，それぞれの信頼区間に真の値が⼊る回数が95回例）「ハザード⽐1.02: 95%信頼区間 0.92~1.13」

Slide 24

Slide 24 text

24 真の値はただ⼀つのみ．ばらつくのは区間︕︕

Slide 25

Slide 25 text

25 ハザード⽐1.02 : 95%信頼区間 0.92~1.13 1. 効果量(点推定量)の⼤きさ(1.02) 2. 区間推定の精度(区間の幅) 3. 効果量が有意かどうか(1を含むかどうか) 評価すべきポイント

Slide 26

Slide 26 text

26 Take Home Message • P値だけでは効果の⼤きさは評価できない • P-hackingは絶対にしない︕︕︕ • 「統計的有意性」と「臨床的有意性」を混同しない • サンプルサイズも意識したP値の評価 • 検定から推定へ(P値から95%信頼区間) • P値を正しく理解して正しく使おう