Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
P値のトリセツ
Search
Nakashima Takaya
June 23, 2022
Research
18
16k
P値のトリセツ
Nakashima Takaya
June 23, 2022
Tweet
Share
More Decks by Nakashima Takaya
See All by Nakashima Takaya
機械学習における評価指標~AUC&C-index~
taka88
0
2.8k
What is LiNGAM?
taka88
3
1.5k
異質性の検証 〜MTE / Causal Tree/Forest
taka88
3
2.4k
眼瞼下垂について
taka88
0
500
RNNを用いた心音分類
taka88
0
790
人工知能と心房細動
taka88
0
180
人工知能を用いた心血管疾患の臨床研究のための実践的入門書
taka88
0
580
Other Decks in Research
See All in Research
SREはサイバネティクスの夢をみるか? / Do SREs Dream of Cybernetics?
yuukit
3
260
ドメイン知識がない領域での自然言語処理の始め方
hargon24
1
220
Panopticon: Advancing Any-Sensor Foundation Models for Earth Observation
satai
3
470
Aurora Serverless からAurora Serverless v2への課題と知見を論文から読み解く/Understanding the challenges and insights of moving from Aurora Serverless to Aurora Serverless v2 from a paper
bootjp
5
930
Combining Deep Learning and Street View Imagery to Map Smallholder Crop Types
satai
3
340
AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data
satai
3
600
[IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ
akifumi_wachi
19
9k
機械学習と数理最適化の融合 (MOAI) による革新
mickey_kubo
1
450
教師あり学習と強化学習で作る 最強の数学特化LLM
analokmaus
2
770
ForestCast: Forecasting Deforestation Risk at Scale with Deep Learning
satai
2
120
製造業主導型経済からサービス経済化における中間層形成メカニズムのパラダイムシフト
yamotty
0
370
論文紹介: ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement
hisaokatsumi
0
150
Featured
See All Featured
Building a Scalable Design System with Sketch
lauravandoore
463
34k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
65
35k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.7k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
61
40k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.8k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
0
89
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
132
19k
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
29
Discover your Explorer Soul
emna__ayadi
2
1k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
35
Reality Check: Gamification 10 Years Later
codingconduct
0
1.9k
Navigating Algorithm Shifts & AI Overviews - #SMXNext
aleyda
0
1k
Transcript
P値のトリセツ ⻑崎⼤学病院初期研修医1年⽬ 中島 誉也
Attention 今回の発表には少々過激な内容も含みます 取り扱い⽅については各⾃の判断でお願いします
3 P値<0.05 → 有意を撤廃せよ!! 世界の科学者達
4
5 URL:https://jamanetwork.com/journals/jama/fullarticle/2676503
6 URL:https://www.nature.com/articles/s41562-017-0189-z
7 URL:https://www.nature.com/articles/d41586-019-00857-9 800⼈!?
8 P値反対側の意⾒ • 研究の⽬的がP値を有意にすることにしか関⼼がない • サンプルサイズを無視してP値の計算を⾏なっている • 実際の効果の⼤きさへの吟味を軽視している • 有意になった変数しか報告せず,後続に⽣かせていない研究が多い
• P値 = 0.049とP値 = 0.051の差を⽐較することの意義 なぜこんなにもP値は嫌われているのか︖ P値 科学者A 科学者B 科学者C
9 P値のあるあるな誤解 • P値は帰無仮説が正しい確率である • 統計的に有意(P値が0.05未満)ならば 臨床的にも重要な関係がある • 検定結果が有意でない(P値が0.05以上) ならば
① 帰無仮説が正しく,採択すべきであることを意味する ② 効果は⾒られなかった,効果がないことが証明された
10 P値の定義は︖ • 特定の統計モデルのもとで,データの統計的要約 (例えば,2グループ間での標本平均の差)が観察された値と等しいか, より極端な値を取る確率 -The ASA Statement on
p-Values- • 帰無仮説が正しいとした時の確率分布のもとで, 観測したデータによる統計量の値,もしくはそれより極端な統計量をとる確率 • 帰無仮説が正しいという前提において, それ以上に偏った検定統計量が得られる確率 ざっくり⾔うと,P値はデータと帰無仮説が⽭盾する程度の指標
11 有意⽔準α P値が事前に設定した有意⽔準α(⼀般的にα = 0.05) を下回った時に,帰無仮説を棄却できる 有意⽔準︓帰無仮説が間違っていると判断する確率
12 差がないという仮定を誤って棄却する確率→有意⽔準︕︕ α = 0.05とすると,確率は5% (正解) A群とB群とで⼊院期間に差がないと仮定した場合に, 今⾒られているA群とB群の差が発⽣する確率は3.6%
統計的有意性とP値に関するASAの6声明 13 1 P値は「そのデータが,仮定した統計モデルとどれくらい適合しないか」 を⽰す指標である 2 P値は調べている仮説が正しい確率やデータが 偶然のみで得られた確率を測るものではない 3 科学的結論及びビジネス,
政策上の意思決定は 「P値がある特定の値を超えたかどうか」のみによるべきではない 4 適切な推論のためには,全てを報告する透明性が必要である 5 P値や統計的有意性は効果の⼤きさや結果の重要性を測るものではない 6 P値そのものだけではモデルや仮説に関するエビデンスのいい指標 とはならない
14 4. 適切な推論のためには, すべてを報告する透明性が必要である 論⽂内で必ず報告すべきもの • 研究のモチベーション,デザイン • 当初予定していた解析計画 •
対象者の選択,除外の理由 • 実施したすべての解析 ・ P値や関連する解析は選択して報告してはいけない → ∵ P-hackingのリスクがある
P hackingとは︖ 15 1.⾏った条件や測定した変数の⼀部しか報告しない 2.参加者を少しずつ⾜しながら分析を⾏い, 有意にしたい変数が有意差を⽰した時点で⽌める 3.さまざまな変数を⽤いて解析を⾏い, 有意になった組み合わせのみを報告する 4. 有意な結果が出なければ,Publishしない
→ 出版バイアス ダメ!!絶対!!
16 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない 例) Aという薬剤が肺癌による死亡を有意に低下させた. しかし,実際にAを使⽤した時の効果は従来の薬と⽐較して 死亡率を2%低下させるだけであった. 「統計的に有意であること」と「臨床的に有意であること」は違う︕ これは臨床的に意味があることなのか︖︖
17 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない • どんな⼩さな効果でも, サンプルサイズが⼤きければ必ずP値は有意になる • 同じ効果の⼤きさでも, サンプルサイズによって異なったP値となる
18 5. P値や統計的有意性は 効果の⼤きさや結果の重要性を測るものではない サンプルサイズnが⼤きいほど, 検定統計量は⼤きくなり P値は⼩さくなる → 有意になりやすくなる︕ (証明)
19 統計的有意差なし(P値 ≧ 0.05) その変数には差がない そのデータでは差があることを⽰せなかった
20 じゃあどうすればいいんだ...︖
21 検定から推定へ
P値の誤解をしない/されないためには︖ 22 1.効果量(平均値の差,オッズ,ハザード⽐)を必ず記載する 2.P値(検定結果)ではなく,95%信頼区間(推定結果)を記載する TIVAによる⿇酔導⼊を⾏った群を参照とした時, 吸⼊⿇酔薬による⿇酔導⼊を⾏った群では 有意なPONVリスクの上昇を認めた(p値 = 0.002) TIVAによる⿇酔導⼊を⾏った群を参照とした時,
吸⼊⿇酔薬による⿇酔導⼊を⾏った群では 有意なPONVリスクの上昇を認めた (リスク⽐ 3.36, 95%信頼区間 3.20 ~ 3.57)
23 95%信頼区間のあるあるな誤解 • 信頼区間にハザード⽐が1を含むかどうかだけに注⽬すればいい → 「P値<0.05」かどうかの判断と⼀緒 信頼区間の幅も⾒ることで,精度,サンプルサイズの評価もできる • 「0.92から1.13の間に真のハザード⽐がある確率は95%」である →
100回,同じ⼈数を抽出するランダムサンプリングを⾏なった時に, それぞれの信頼区間に真の値が⼊る回数が95回 例)「ハザード⽐1.02: 95%信頼区間 0.92~1.13」
24 真の値はただ⼀つのみ.ばらつくのは区間︕︕
25 ハザード⽐1.02 : 95%信頼区間 0.92~1.13 1. 効果量(点推定量)の⼤きさ(1.02) 2. 区間推定の精度(区間の幅) 3.
効果量が有意かどうか(1を含むかどうか) 評価すべきポイント
26 Take Home Message • P値だけでは効果の⼤きさは評価できない • P-hackingは絶対にしない︕︕︕ • 「統計的有意性」と「臨床的有意性」を混同しない
• サンプルサイズも意識したP値の評価 • 検定から推定へ(P値から95%信頼区間) • P値を正しく理解して正しく使おう