Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
Causal Inference: What If, Chapter1
鈴木徳太
April 19, 2022
Science
0
2.7k
Causal Inference: What If, Chapter1
鈴木徳太
April 19, 2022
Tweet
Share
More Decks by 鈴木徳太
See All by 鈴木徳太
Causal Inference: What If, Chapter3(前半)
norihirosuzuki
0
160
Causal Inference: What If, Chapter2
norihirosuzuki
0
370
SASユーザー総会2022:Time-varying treatmentsに対するIPTW法による因果効果の推定
norihirosuzuki
0
2.5k
Causal Inference: What If, Chapter9
norihirosuzuki
0
36
Causal Inference: What If, Chapter11
norihirosuzuki
0
39
Other Decks in Science
See All in Science
Rで有名絵画を安全に買いたい
saltcooky12
0
110
SHINOMIYA Nariyoshi
genomethica
0
350
【CVPR2022論文紹介】SignGAN
mkkon
0
2.7k
論文紹介: "Webformer: Pre-training with Web Pages for Information Retrieval(SIGIR2022)"
keyakkie
2
170
[10.06.2022] | Грант РНФ | Иванько Д.В.
ysspcras
0
120
機械学習を用いた効果検証~傾向スコアとX-Learner~
s1ok69oo
1
600
Beyond FAIR: What Data Infrastructure does Open Science Need?
rabernat
0
210
blasé: An interpretable transfer learning approach to cool star échelle spectroscopy
gully
0
130
[10.06.2022] | Грант РНФ | Рюмин Д.А.
ysspcras
0
120
アドベントカレンダーのお礼とマーケットAI開発プロジェクトにおけるプロジェクトマネジメントのエッセンス 補講
gamella
1
420
PHPとWebAssembly
nagano
1
1.2k
Search at Bloomberg: Challenges, Opportunities, and Lessons Learned
emeij
0
330
Featured
See All Featured
Faster Mobile Websites
deanohume
295
29k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
2
400
4 Signs Your Business is Dying
shpigford
171
20k
GraphQLとの向き合い方2022年版
quramy
20
9.9k
Designing with Data
zakiwarfel
91
4.2k
A better future with KSS
kneath
230
16k
Reflections from 52 weeks, 52 projects
jeffersonlam
338
18k
Web development in the modern age
philhawksworth
197
9.6k
Principles of Awesome APIs and How to Build Them.
keavy
117
15k
Code Review Best Practice
trishagee
50
11k
Making Projects Easy
brettharned
102
4.8k
Side Projects
sachag
451
37k
Transcript
Chapter1, A definition of causal effect Causal Inference: What If
横浜市⽴⼤学データサイエンス学部 鈴⽊ 徳太 Miguel A. Hernan and James M. Robins
1 Introduction: Towards less casual causal inference • “Causal Inference(因果推論)”というタイトルについて
– 因果推論は複雑な科学的問題であり、複数のエビデンスや⽅法論によるアプローチに依存する – いかなる書籍も包括的な説明は困難であり、因果推論のいずれかの側⾯を強調している • 本書は特に健康、社会科学分野の科学者を対象とする – 因果的な疑問、分析の根幹となる仮定を明⽰できるようにすることが本書の⽬指すところ – 現実的には因果的疑問や仮定が明確に述べられておらず、解析が不適切である例も • 本書では因果推論を⾏う上で疑問を明確にすること、データと仮定の役割を分け ることの重要性を強調する 因果推論はデータ分析の⽅法の⼀つではない
2 Introduction: Towards less casual causal inference • 本書の構成 –
PartⅠ︓モデルを⽤いない因果推論 – PartⅡ︓モデルを⽤いた因果推論 – PartⅢ︓経時データに対する因果推論 • Fine PointとTechnical Pointの対象 – Fine Point︓全ての読者 – Technical Point︓統計学の学習を中程度⾏った読者 • ⽬的 – 哲学的な因果推論ではなく、意思決定につながる実⽤的な因果推論(統計的因果推論) に関する知識を提供する 難易度UP
⽬次 3 • Individual causal effect • Average causal effect
• Measures of causal effect • Random variability • Causation versus association
4 はじめに • ⼈間である以上、因果推論の基本的な概念は既に理解しているはずである • 関連と因果の違いを理解し、これまでの⼈⽣において使⽤してきたはず • 本章の⽬的はその”直感”で⽰される因果関係を数学的に表記すること
Individual causal effect 5
6 ゼウスとヘラの例 • ゼウスの場合 – ⼼臓移植により死亡 – ⼼臓移植は5⽇後の⽣存と因果関係あり • ヘラの場合
– ⼼臓移植をしても⽣存のまま – ⼼臓移植は5⽇後の⽣存と因果関係なし ⼼臓移植 ⼼臓移植 ⽣存 死亡 ⼼臓移植 ⼼臓移植 ⽣存 ⽣存 1⽉1⽇ 1⽉1⽇ 5⽇後 5⽇後 現実 現実 神の啓⽰ 神の啓⽰
7 記号の定義 • ある⾏動A (介⼊、曝露、治療)があった場合となかった場合の結果を⽐較 – 結果が異なる → ⾏動A による因果効果あり
– 結果が同じ → ⾏動A による因果効果なし • この直感的な因果関係への理解を数学的に表現する 【記号の定義】 • A︓⼆値の治療変数 (1: treated, 0: untreated) • Y ︓⼆値の結果変数 (1: death, 0: survival) • 𝑌!"#︓ A = 0を受ける場合のYの値 Ø (ゼウス︓ 𝑌!"#=0、ヘラ︓ 𝑌!"#=0 ) • 𝑌!"$︓ A = 1を受ける場合のYの値 Ø (ゼウス︓ 𝑌!"$=1 、ヘラ︓ 𝑌!"$=0 )
8 Individual causal effectの定義 個別因果効果 (Individual causal effect) 𝑌!"# −
𝑌!"$ • 𝑌!"$ ≠ 𝑌!"#の時に介⼊A はアウトカムY に対して因果効果があると定義 – 個⼈を⽰す変数𝑖を⽤いて、𝑌% !"$ ≠ 𝑌% !"#と表記する場合も • 𝑌!"#, 𝑌!"$ – Potential outcomes(潜在アウトカム)、Counterfactual outcomes(反事実アウトカム) – 因果効果の存在はこの潜在アウトカムの⽐較によって定義 – ⼀⽅は現実に観測されるが、もう⼀⽅は観測されない(反事実) – 治療の⼲渉性が想定される場合には、潜在アウトカムは前述の定義とはならない – Fine Point1.1: Interference参照
9 ⼀致性(Consistency) ⼀致性(Consistency) if 𝐴% = 𝑎, then 𝑌% !
= 𝑌% & = 𝑌% 特にAが⼆値であるとき 𝑌% = (1 − 𝐴% )𝑌% !"$ + 𝐴% 𝑌% !"# • 介⼊を受けない場合 (𝐴 = 0) には 𝑌% !"#が観察され、受ける場合 (𝐴 = 1) には 𝑌% !"$が観察される – 潜在アウトカム(理論上)と、現実に観察されるデータがこの仮定の存在によりリンク – 𝑌% は実際に観察されたアウトカムであり、 𝑌% !"#, 𝑌% !"$とは異なる • 単に治療を⾏うといっても複数のバージョンが考えられる場合には上記のような単純な関係 にはならない – Fine Point1.2: Multiple version of treatment
Average causal effect 10
11 個⼈から集団へ • 個⼈の因果効果 (𝑌!"$ − 𝑌!"# ) を知るためには3つの情報が必要 1.
興味のあるアウトカム︓Y 2. ⽐較する介⼊︓ 𝑎 = 0, 1 3. ⽐較する潜在アウトカム︓ 𝑌!"#, 𝑌!"$ Ø 現実にはどちらか⼀⽅は観測できない(反事実)ため個⼈の因果効果は特定できない • 集団での因果効果を知るためには3つの情報が必要 1. 興味のあるアウトカム︓Y 2. ⽐較する介⼊︓ 𝑎 = 0, 1 3. ⽐較する潜在アウトカム (𝑌!"#, 𝑌!"$) を持つ個⼈で構成される明確に定義された集団 (well-defined population) 集団での効果について注⽬
12 前節の例の拡張 • 20名の集団の潜在アウトカム – 介⼊時の死亡割合(リスク)︓10/20=0.5 – ⾮介⼊時の死亡割合(リスク)︓10/20=0.5 • この場合には平均的な因果効果はない
– いずれの場合でも10名が死亡 – 個⼈レベルでは因果効果がある場合があるので注意 • アウトカムが⼆値であるとき割合と期待値は⼀致 – E[𝑌!"#=1]= 1*Pr[𝑌!"#=1]+0*Pr[𝑌!"#=0] – 期待値で表現することにより⼆値アウトカム以外 にも適⽤可能 𝑌!"# 𝑌!"$ レイア 0 1 クロノス 1 0 デメテル 0 0 ハデス 0 0 ヘスティア 0 0 ポセイドン 1 0 ヘラ 0 0 ゼウス 0 1 アルテミス 1 1 アポロン 1 0 レートー 0 1 アレス 1 1 アテナ 1 1 ヘパイストス 0 1 アフロディーテ 0 1 サイクロプス 0 1 ペルセポネ 1 1 ヘルメス 1 0 へーベー 1 0 ディオニュソス 1 0
13 平均因果効果の定義と帰無仮説 平均因果効果 (Average causal effect) E[𝑌!"#] − E[𝑌!"$] 1.
Fisher帰無仮説(Sharp null hypothesis) 全ての個⼈iに対し 𝑌% !"$ = 𝑌% !"# 2. Neyman帰無仮説(以降はこちらで議論) E[𝑌!"$] = E 𝑌!"# • Fisher帰無仮説はすべての個⼈に対して、Neyman帰無仮説は集団に対する帰無仮説 – Fisher帰無仮説の⽅がより強い仮説 – 全ての個⼈で因果効果がないのであれば、平均因果効果もない • Neyman帰無仮説の成⽴の必要条件ではないが⼗分条件 個⼈レベル 集団レベル
14 Fine Point 1.1 Interference • ある解析対象への介⼊が別の解析対象の潜在アウトカムへ影響を及ぼすこと – ⼲渉がある場合にはこれまで議論してきたような単純な議論ではなくなる –
介⼊Aが⼆値、集団のサイズが𝑛だと2&通りの潜在アウトカムの組み合わせ – 本書中での議論にあたっては⼲渉がない(⾮⼲渉性)ものとする – 感染症や教育プログラム等での介⼊に関しては⼲渉がある場合も • ⼲渉がある場合のゼウスとヘラの例 – ゼウスへの介⼊︓ 𝑎 = 0, 1 – ヘラへの介⼊︓ 𝑏 = 0, 1 – ゼウスの潜在アウトカム︓ 𝑌!"#,("#, 𝑌!"$,("#, 𝑌!"#,("$, 𝑌!"$,("$
15 Fine Point 1.2 Multiple versions of treatment • 介⼊の⽅法が複数存在する場合をmultiple
versions of treatmentという – この場合には潜在アウトカムの定義に介⼊の有無だけではなく、誰が(どのような⽅法で) 介⼊を⾏ったかの情報が必要となる • ⾮⼲渉性とともにmultiple version of treatmentが存在しないことは、SUTVAの仮定の⼀部 に含まれる(Rubin, 1980) – STUVA: Stable Unit Treatment Value Assumption • Robins, Greenland(2000)では、介⼊の⽅法がアウトカムに対して同じ因果効果を持つので あれば潜在アウトカムは𝑌!として定義される – VanderWeele(2009)で”treatment variation irrelevance”として定式化されている – 本書中では治療のバージョンによる因果効果の差は存在しないものとし、再度ch3で考える
16 Technical Point 1.1 Causal effect in the population •
潜在アウトカム𝑌!の期待値E[𝑌!] – アウトカムが⼆値︓ E[𝑌!] = Pr[𝑌! = 1] – アウトカムが連続値︓ E[𝑌!] = ∫ 𝑦𝑓)!(𝑦) 𝑑𝑦 = ∫ 𝑦𝑑𝐹)!(𝑦) 𝑑𝑦 • 𝑓!" 𝑦 ︓𝑌"の確率密度関数 • 𝐹!"(𝑦)︓𝑌"の累積分布関数 • 因果効果の存在の定義にE[𝑌!] を⽤いるのが最も⼀般的であるが、期待値以外を⽤いる場合も – 分散、中央値、ハザードなど – ⾮線形関数を評価指標として⽤いる場合には線形性は成り⽴たない e.g.) var(𝑌!"$ − 𝑌!"#) ≠ var(𝑌!"$) − var(𝑌!"#)
Measures of causal effect 17
18 指標について • 前節では⼼臓移植の平均因果効果がないことをPr[𝑌!"$= 1] = Pr[𝑌!"#= 1] = 0.5
と表記 • これ以外にも様々な表記⽅法 i. Pr[𝑌!"$= 1] − Pr[𝑌!"#= 1] = 0 ii. *+[)!"#"$] *+[)!"$"$] = 1 iii. *+[)!"#"$] / *+[)!"#"#] *+[)!"$"$] / *+[)!"$"#] = 1 • 集団でのリスク差は個別因果効果の平均に⼀致するが、リスク⽐はそうならない – Pr[𝑌!"$= 1] − Pr[𝑌!"#= 1] = E[𝑌!"$] − E[𝑌!"#] (∵ Yは⼆値) = E[𝑌!"$− 𝑌!"#] (∵ 期待値の線形性) – *+[)!"#"$] *+[)!"$"$] = /[)!"#] /[)!"$] ≠ E[)!"# )!"$ ] ︓因果リスク差 ︓因果リスク⽐ ︓因果オッズ⽐ causal effect measures
19 効果指標の解釈の例 • どの“effect measures”を使⽤するかは研究⽬的に依存 – 異なるスケールで因果効果を定量化(解釈には注意) • E.g.) 喫煙の有無と肺がんの発⽣
– 1億⼈の集団での喫煙の有無ごとの肺がんの発⽣数 • A = 1(喫煙した場合) → 3/1,000,000 • A = 0(喫煙しなかった場合)→ 1/1,000,000 – リスク差︓ 3/1,000,000 - 1/1,000,000 = 2/1,000,000 →喫煙によって1億⼈中2名が肺がんを発⽣ – リスク⽐︓ (3/1,000,000) / (1/1,000,000) = 3 →喫煙によって肺がんのリスクが3倍
20 Fine Point 1.3 Number needed to treat (NNT) •
「1件のアウトカムの発⽣を防ぐためには介⼊を⾏う集団が何⼈必要か」を⽰した指標 – 治療(介⼊)によってアウトカムの発⽣が増加する場合には、アウトカムの発現(harm)を 1件増やすために必要な数を意味する(リスク差が正の場合) • リスク差の逆数にマイナスをかけたものとして定義 – 𝑁𝑁𝑇 = 0$ *+[)!"#"$]0*+[)!"$"$] – e.g.) Pr[𝑌!"$= 1] = 0.2 (20,000,000 / 100,000,000) Pr[𝑌!"#= 1] = 0.3 (20,000,000 / 100,000,000) 𝑁𝑁𝑇 = 10 → 平均的に10⼈に介⼊を⾏うとアウトカムが1件減少
Random variability 21
22 標本と⺟集団 • ここまでは20名を⺟集団として考え、各々の潜在アウトカムは全て得られていた – しかし現実には興味のある集団のサイズはもっと⼤きく、標本の情報から⺟集団について 推測するのが⼀般的 • 以前の20名を集団全体としてではなくある⺟集団からの無作為標本として考える 前節まで
今後 20名の⺟集団 20名の標本 無作為抽出
23 推定量と推定値 • 因果推論を⾏う上で知りたいのは⺟集団におけるPr[𝑌!"$= 1]および Pr[𝑌!"#= 1] – ただしデータとして得られるのは標本における死亡割合H Pr[𝑌!"$=
1], H Pr[𝑌!"#= 1] • ここで推定量として標本平均を考える – 推定量(estimator)︓⺟数を推定するのに⽤いる統計量(関数)の⼀種 – 推定値(estimate) ︓実際のデータをから計算される推定量の値 – H Pr[𝑌!"$= 1] = H Pr[𝑌!"#= 1]=0.5 • 推定値は⺟数と完全に⼀致するとは限らない – 標本平均は⼀致推定量であるため、n→∞ならば⺟数と⼀致する – 因果推論の⽂脈での⼀致性と、統計学の⽂脈での⼀致性は意図しているものが異なる ! θ% = θ, (n → ∞) ! θ% は推定量、θは真値 統計学的な⼀致性
24 ⾮決定的反実仮想 • ここまでは偶然誤差の原因としてサンプルのばらつきを考えた – サンプリングされる集団がばらつく(⺟集団の特性とずれる)ことによる誤差 – 標本サイズが⼤きくなればほぼ無視できる • もう⼀つの原因は、nondeterministic
counterfactuals (⾮決定論的反事実) – 治療Aを受ける場合のY!が⼀意に定まらず、確率的に変動する – 決定論的︓A = 1→ 𝑌!"$ =1 – ⾮決定論的︓A = 1→ 𝑌!"$ =0(10%)、 𝑌!"$ =1(90%) • 学習上の都合で、これらの原因による偶然誤差についてはch10までは⼀旦無視 – 標本のサイズは⾮常に⼤規模(1⼈を10億⼈のように⾒⽴てる) – 潜在アウトカムは決定論的
25 Technical Point 1.2 Nondeterministic counterfactuals • ⾮決定論的潜在アウトカムモデルの元での Y!の期待値は、 E[𝑌!]
= L 1 𝑦 Pr)!(𝑦) • ここでY!の確率質量関数であるPr)!(𝑦) は、 A = 𝑎 のもとで 𝑌! = 𝑦となる 確率𝑄)!(𝑦) について 期待値をとったもの • ⾮決定論的な潜在アウトカムの定義は、より⼀般には確率変数Y!の特定の実現値を個⼈に対して 割り当てるのではなく、個⼈特有の統計分布𝛩)!(・) を与えるもの – E[𝑌!] = E[∫ 𝑦𝑑 𝛩)!(𝑦)] = ∫ 𝑦E[𝑑 𝛩)!(𝑦)] = ∫ 𝑦𝑑 𝐹)!(𝑦), 𝑤ℎ𝑒𝑟𝑒 𝐹)!(𝑦) = E[𝑑𝛩)!(𝑦)]
Causation versus association 26
• 集団を構成する各個⼈は潜在アウトカムのいずれか⼀⽅のみ • 実際に受けた治療をA、観測されたアウトカムをYとする – 以前のゼウスら20名は右表のように観測された – Pr[Y = 1|A
= 0] =3/7 – Pr[Y = 1|A = 1] =7/13 – この⼆つの条件付き確率が⼀致するとき、A とY は独⽴ • A とY が独⽴ (𝐴 ⊥ 𝑌 or 𝑌 ⊥ 𝐴) であることは以下の等式の成⽴と等価 i. Pr[Y = 1|A = 1] - Pr[Y = 1|A = 0] = 0 ii. Pr[Y = 1|A = 1] Pr[Y = 1|A = 0] = 1 iii. # Pr[Y = 1|A = 1] Pr[Y = 0|A = 1] # Pr[Y = 1|A = 0] Pr[Y = 0|A = 0] = 1 • 上記の等式が成り⽴たなければA とY は関連(従属) – Y が連続値の場合は確率ではなく期待値での記載 : 関連リスク差 : 関連リスク⽐ : 関連オッズ⽐ 27 因果と関連 A Y レイア 0 0 クロノス 0 1 デメテル 0 0 ハデス 0 0 ヘスティア 1 0 ポセイドン 1 0 ヘラ 1 0 ゼウス 1 1 アルテミス 0 1 アポロン 0 1 レートー 0 0 アレス 1 1 アテナ 1 1 ヘパイストス 1 1 アフロディーテ 1 1 サイクロプス 1 1 ペルセポネ 1 1 ヘルメス 1 0 へーベー 1 0 ディオニュソス 1 0 Association measures
28 因果と関連 • 今回の結果から治療とアウトカムの関係について⾔及できるのは以下の⼆つ 1. 因果関係は認められない(断⾔できない) 2. 関連性はある • A=0(未治療)の⼈の⽅が死亡リスクが⾼い傾向
• 因果と関連の違いを図⽰したものが右図 – 治療を受けた集団が⽩⾊の部分 – 治療を受けていない集団がグレーの部分 • Causation(因果) – 集団全体が治療を受けた場合と、受けなかった場合の の⽐較(無条件のリスクの⽐較) • Association(関連) – 治療を受けた集団と、受けなかった集団(部分集団) の⽐較(条件付きリスクの⽐較)
29 因果と関連 • 前述のように、因果関係と相関関係では⽐較している集団が根本的に異なる – 関連は因果ではない (association is not causation)
• 因果関係に関して議論を⾏うためには反実仮想の集団についてのデータ(左側)が必要だが、 現実的には不可能 • 特定の仮定の下では現実に得られる関連の結果を因果関係の議論に⽤いることが妥当となる – それを満たす⼀つの⽅法が “ランダム化実験(Randomized experiment)”