Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
P値のトリセツ
Search
Nakashima Takaya
June 23, 2022
Research
17
10k
P値のトリセツ
Nakashima Takaya
June 23, 2022
Tweet
Share
More Decks by Nakashima Takaya
See All by Nakashima Takaya
機械学習における評価指標~AUC&C-index~
taka88
0
1.5k
What is LiNGAM?
taka88
3
1k
異質性の検証 〜MTE / Causal Tree/Forest
taka88
3
1.9k
眼瞼下垂について
taka88
0
220
RNNを用いた心音分類
taka88
0
600
人工知能と心房細動
taka88
0
110
人工知能を用いた心血管疾患の臨床研究のための実践的入門書
taka88
0
510
Other Decks in Research
See All in Research
10-ot-generic-bio.pdf
gpeyre
0
140
Evolutionary Optimization ofModel Merging Recipes (2024/04/17, NLPコロキウム)
iwiwi
9
3.2k
時系列解析と疫学
kingqwert
2
940
音声処理ツールキットESPnetの現在と未来
kanbayashi1125
3
550
動物倫理学ことはじめ:人間以外の動物との倫理的な付き合い方を考える
takeshit_m
0
300
第14回対話システムシンポジウム EMNLP 2023 参加報告
atsumoto
0
160
Introduction of NII S. Koyama's Lab (AY2024)
skoyamalab
0
130
LiDARセキュリティ最前線
kentaroy47
0
280
東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築
aya_se
13
6.7k
Discovering Universal Geometry in Embeddings with ICA
momoseoyama
1
350
Ground Metric Learning with applications in genomics
gpeyre
0
370
ICLR2024 LLMエージェントの研究動向
masatoto
8
3k
Featured
See All Featured
Clear Off the Table
cherdarchuk
85
310k
Bootstrapping a Software Product
garrettdimon
PRO
302
110k
In The Pink: A Labor of Love
frogandcode
138
21k
Imperfection Machines: The Place of Print at Facebook
scottboms
261
12k
Building Flexible Design Systems
yeseniaperezcruz
320
37k
Web development in the modern age
philhawksworth
203
10k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
222
21k
Unsuck your backbone
ammeep
663
57k
jQuery: Nuts, Bolts and Bling
dougneiner
59
7.2k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
14
1.5k
GraphQLとの向き合い方2022年版
quramy
33
12k
The MySQL Ecosystem @ GitHub 2015
samlambert
244
12k
Transcript
P値のトリセツ ⻑崎⼤学病院初期研修医1年⽬ 中島 誉也
Attention 今回の発表には少々過激な内容も含みます 取り扱い⽅については各⾃の判断でお願いします
3 P値<0.05 → 有意を撤廃せよ!! 世界の科学者達
4
5 URL:https://jamanetwork.com/journals/jama/fullarticle/2676503
6 URL:https://www.nature.com/articles/s41562-017-0189-z
7 URL:https://www.nature.com/articles/d41586-019-00857-9 800⼈!?
8 P値反対側の意⾒ • 研究の⽬的がP値を有意にすることにしか関⼼がない • サンプルサイズを無視してP値の計算を⾏なっている • 実際の効果の⼤きさへの吟味を軽視している • 有意になった変数しか報告せず,後続に⽣かせていない研究が多い
• P値 = 0.049とP値 = 0.051の差を⽐較することの意義 なぜこんなにもP値は嫌われているのか︖ P値 科学者A 科学者B 科学者C
9 P値のあるあるな誤解 • P値は帰無仮説が正しい確率である • 統計的に有意(P値が0.05未満)ならば 臨床的にも重要な関係がある • 検定結果が有意でない(P値が0.05以上) ならば
① 帰無仮説が正しく,採択すべきであることを意味する ② 効果は⾒られなかった,効果がないことが証明された
10 P値の定義は︖ • 特定の統計モデルのもとで,データの統計的要約 (例えば,2グループ間での標本平均の差)が観察された値と等しいか, より極端な値を取る確率 -The ASA Statement on
p-Values- • 帰無仮説が正しいとした時の確率分布のもとで, 観測したデータによる統計量の値,もしくはそれより極端な統計量をとる確率 • 帰無仮説が正しいという前提において, それ以上に偏った検定統計量が得られる確率 ざっくり⾔うと,P値はデータと帰無仮説が⽭盾する程度の指標
11 有意⽔準α P値が事前に設定した有意⽔準α(⼀般的にα = 0.05) を下回った時に,帰無仮説を棄却できる 有意⽔準︓帰無仮説が間違っていると判断する確率
12 差がないという仮定を誤って棄却する確率→有意⽔準︕︕ α = 0.05とすると,確率は5% (正解) A群とB群とで⼊院期間に差がないと仮定した場合に, 今⾒られているA群とB群の差が発⽣する確率は3.6%
統計的有意性とP値に関するASAの6声明 13 1 P値は「そのデータが,仮定した統計モデルとどれくらい適合しないか」 を⽰す指標である 2 P値は調べている仮説が正しい確率やデータが 偶然のみで得られた確率を測るものではない 3 科学的結論及びビジネス,
政策上の意思決定は 「P値がある特定の値を超えたかどうか」のみによるべきではない 4 適切な推論のためには,全てを報告する透明性が必要である 5 P値や統計的有意性は効果の⼤きさや結果の重要性を測るものではない 6 P値そのものだけではモデルや仮説に関するエビデンスのいい指標 とはならない
14 4. 適切な推論のためには, すべてを報告する透明性が必要である 論⽂内で必ず報告すべきもの • 研究のモチベーション,デザイン • 当初予定していた解析計画 •
対象者の選択,除外の理由 • 実施したすべての解析 ・ P値や関連する解析は選択して報告してはいけない → ∵ P-hackingのリスクがある
P hackingとは︖ 15 1.⾏った条件や測定した変数の⼀部しか報告しない 2.参加者を少しずつ⾜しながら分析を⾏い, 有意にしたい変数が有意差を⽰した時点で⽌める 3.さまざまな変数を⽤いて解析を⾏い, 有意になった組み合わせのみを報告する 4. 有意な結果が出なければ,Publishしない
→ 出版バイアス ダメ!!絶対!!
16 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない 例) Aという薬剤が肺癌による死亡を有意に低下させた. しかし,実際にAを使⽤した時の効果は従来の薬と⽐較して 死亡率を2%低下させるだけであった. 「統計的に有意であること」と「臨床的に有意であること」は違う︕ これは臨床的に意味があることなのか︖︖
17 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない • どんな⼩さな効果でも, サンプルサイズが⼤きければ必ずP値は有意になる • 同じ効果の⼤きさでも, サンプルサイズによって異なったP値となる
18 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない サンプルサイズnが⼤きいほど, 検定統計量は⼤きくなり P値は⼩さくなる → 有意になりやすくなる︕ (証明)
19 統計的有意差なし(P値 ≧ 0.05) その変数には差がない そのデータでは差があることを⽰せなかった
20 じゃあどうすればいいんだ...︖
21 検定から推定へ
P値の誤解をしない/されないためには︖ 22 1.効果量(平均値の差,オッズ,ハザード⽐)を必ず記載する 2.P値(検定結果)ではなく,95%信頼区間(推定結果)を記載する TIVAによる⿇酔導⼊を⾏った群を参照とした時, 吸⼊⿇酔薬による⿇酔導⼊を⾏った群では 有意なPONVリスクの上昇を認めた(p値 = 0.002) TIVAによる⿇酔導⼊を⾏った群を参照とした時,
吸⼊⿇酔薬による⿇酔導⼊を⾏った群では 有意なPONVリスクの上昇を認めた (リスク⽐ 3.36, 95%信頼区間 3.20 ~ 3.57)
23 95%信頼区間のあるあるな誤解 • 信頼区間にハザード⽐が1を含むかどうかだけに注⽬すればいい → 「P値<0.05」かどうかの判断と⼀緒 信頼区間の幅も⾒ることで,精度,サンプルサイズの評価もできる • 「0.92から1.13の間に真のハザード⽐がある確率は95%」である →
100回,同じ⼈数を抽出するランダムサンプリングを⾏なった時に, それぞれの信頼区間に真の値が⼊る回数が95回 例)「ハザード⽐1.02: 95%信頼区間 0.92~1.13」
24 真の値はただ⼀つのみ.ばらつくのは区間︕︕
25 ハザード⽐1.02 : 95%信頼区間 0.92~1.13 1. 効果量(点推定量)の⼤きさ(1.02) 2. 区間推定の精度(区間の幅) 3.
効果量が有意かどうか(1を含むかどうか) 評価すべきポイント
26 Take Home Message • P値だけでは効果の⼤きさは評価できない • P-hackingは絶対にしない︕︕︕ • 「統計的有意性」と「臨床的有意性」を混同しない
• サンプルサイズも意識したP値の評価 • 検定から推定へ(P値から95%信頼区間) • P値を正しく理解して正しく使おう