Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Causal Inference: What If, Chapter1

Causal Inference: What If, Chapter1

Dbc92a65229202d2bf585d008cc2afc4?s=128

鈴木徳太

April 19, 2022
Tweet

More Decks by 鈴木徳太

Other Decks in Science

Transcript

  1. Chapter1, A definition of causal effect Causal Inference: What If

    横浜市⽴⼤学データサイエンス学部 鈴⽊ 徳太 Miguel A. Hernan and James M. Robins
  2. 1 Introduction: Towards less casual causal inference • “Causal Inference(因果推論)”というタイトルについて

    – 因果推論は複雑な科学的問題であり、複数のエビデンスや⽅法論によるアプローチに依存する – いかなる書籍も包括的な説明は困難であり、因果推論のいずれかの側⾯を強調している • 本書は特に健康、社会科学分野の科学者を対象とする – 因果的な疑問、分析の根幹となる仮定を明⽰できるようにすることが本書の⽬指すところ – 現実的には因果的疑問や仮定が明確に述べられておらず、解析が不適切である例も • 本書では因果推論を⾏う上で疑問を明確にすること、データと仮定の役割を分け ることの重要性を強調する 因果推論はデータ分析の⽅法の⼀つではない
  3. 2 Introduction: Towards less casual causal inference • 本書の構成 –

    PartⅠ︓モデルを⽤いない因果推論 – PartⅡ︓モデルを⽤いた因果推論 – PartⅢ︓経時データでの因果推論 • Fine PointとTechnical Pointの対象に関して – Fine Point︓全ての読者 – Technical Point︓統計学の学習を中程度積んだ読者 • ⽬的 – 哲学的な因果推論ではなく、意思決定につながる実⽤的な因果推論(統計的因果推論) に関する知識を提供する 難易度UP
  4. ⽬次 3 • Individual causal effect • Average causal effect

    • Measures of causal effect • Random variability • Causation versus association
  5. 4 はじめに • ⼈間である以上、因果推論の基本的な概念は既に理解しているはずである • 関連と因果の違いを理解し、これまでの⼈⽣において使⽤してきたはず • 本章の⽬的はその”直感”で⽰される因果関係を数学的に表記すること

  6. Individual causal effect 5

  7. 6 ゼウスとヘラの例 • ゼウスの場合 – ⼼臓移植により死亡 – ⼼臓移植は5⽇後の⽣存と因果関係あり • ヘラの場合

    – ⼼臓移植をしても⽣存のまま – ⼼臓移植は5⽇後の⽣存と因果関係なし ⼼臓移植 ⼼臓移植 ⽣存 死亡 ⼼臓移植 ⼼臓移植 ⽣存 ⽣存 1⽉1⽇ 1⽉1⽇ 5⽇後 5⽇後 現実 現実 神の啓⽰ 神の啓⽰
  8. 7 記号の定義 • ある⾏動A(介⼊、曝露、治療)があった場合となかった場合の結果を⽐較する – 結果が異なる場合 → ⾏動Aによる因果効果あり – 結果が同じ場合

    → ⾏動Aによる因果効果なし • この直感的な因果関係への理解を数学的に表現する 【記号の定義】 • A(1: treated, 0: untreated )︓⼆値の治療変数 • Y(1: death, 0: survival )︓⼆値の結果変数 • Y!"#︓A=0を受けた場合のYの値 Ø (ゼウス︓ Y!"#=0、ヘラ︓ Y!"#=0 ) • Y!"$︓A=1を受けた場合のYの値 Ø (ゼウス︓ Y!"$=1 、ヘラ︓ Y!"$=0 )
  9. 8 Individual causal effectの定義 個⼈の因果効果(Individual causal effect) Y!"# − Y!"$

    • Y!"$ ≠ Y!"#の時に介⼊AはアウトカムYに対して因果効果があるとする – 個⼈を⽰す変数iを⽤いて、 Y% !"$ ≠ Y% !"#と表記する場合も • Y!"#, Y!"$ – Potential outcomes(潜在アウトカム) 、Counterfactual outcomes(反事実アウトカム) – 因果効果はこのPotential outcomesの⽐較によって定義 – ⼀⽅は現実に観測されるが、もう⼀⽅は観測されない(反事実となる) – 治療の⼲渉性が想定される場合には、潜在アウトカムは上記の定義にはならない – Fine Point1.1: Interference
  10. 9 ⼀致性(Consistency) ⼀致性(Consistency) if A% = a, then Y% !

    = Y% & = Y% 特にAが⼆値であるとき Y% = (1 − A% )Y% !"$ + A% Y% !"# • 介⼊A=0を受けると Y% !"#が観察され、介⼊A=1を受けると Y% !"$が観察される – 潜在アウトカム(理論上)と、現実に観察されるデータがこの仮定の存在によりリンク – Y% は現実に得られるデータ、 Y% !"#, Y% !"$はあくまで理論上のもの • 同じ治療であっても、複数のバージョンが考えられる場合には上記の単純な関係にはならない – Fine Point1.2: Multiple version of treatment
  11. Average causal effect 10

  12. 11 個⼈から集団へ • 個⼈の因果効果( Y!"$ − Y!"# )を知るためには3つの情報が必要 1. 興味のあるアウトカム︓Y

    2. ⽐較する介⼊︓a=0, 1 3. ⽐較する潜在アウトカム︓ Y!"#, Y!"$ Ø 現実にはどちらか⼀⽅は観測できず(反事実)、個⼈の因果効果は特定できない • 集団での因果効果を知るためには3つの情報が必要 1. 興味のあるアウトカム︓Y 2. ⽐較する介⼊︓a=0, 1 3. ⽐較する潜在アウトカム( Y!"#, Y!"$ )を持つ個⼈で構成される明確に定義された集団 (well-defined population) 集団での効果について考える
  13. 12 前節の例の拡張 • 20名の集団とそれぞれの潜在アウトカムを考えてみる – 介⼊時の死亡割合︓10/20=0.5 – ⾮介⼊時の死亡割合︓10/20=0.5 • この場合には平均的な因果効果はない

    – いずれの場合でも10名が死亡 – 個⼈レベルでは因果効果がある場合があるので注意 • アウトカムが⼆値であるので割合と期待値は⼀致 – E[Y!"#=1]= 1*Pr[Y!"#=1]+0*Pr[Y!"#=0] – 期待値で表現した⽅が⼆値以外にも適⽤可能 𝐘𝐚"𝟎 𝐘𝐚"𝟏 レイア 0 1 クロノス 1 0 デメテル 0 0 ハデス 0 0 ヘスティア 0 0 ポセイドン 1 0 ヘラ 0 0 ゼウス 0 1 アルテミス 1 1 アポロン 1 0 レートー 0 1 アレス 1 1 アテナ 1 1 ヘパイストス 0 1 アフロディーテ 0 1 サイクロプス 0 1 ペルセポネ 1 1 ヘルメス 1 0 へーベー 1 0 ディオニュソス 1 0
  14. 13 平均因果効果の定義と帰無仮説 平均因果効果(Average causal effect) E[Y!"#] − E[Y!"$] 1. Fisher帰無仮説(Sharp

    null hypothesis) 全ての個⼈iに対し Y% !"$ − Y% !"# = 0 2. Neyman帰無仮説(以降はこちらで議論) E[Y!"$] − E Y!"# = 0 • Fisher帰無仮説はすべての個⼈に対して、Neyman帰無仮説は集団での期待値に対する仮 – Fisher帰無仮説の⽅がより強い仮説 – 全ての個⼈で因果効果がないのであれば、平均因果効果もない 個⼈レベル 集団レベル
  15. 14 Fine Point 1.1 Interference • ある解析対象への介⼊が別の解析対象の潜在アウトカムへ影響を及ぼすこと – ⼲渉がある場合にはこれまで議論してきたような単純な議論ではなくなる –

    介⼊Aが⼆値、集団のサイズがnだと2&通りの潜在アウトカムの組み合わせ – 本書中での議論にあたっては⼲渉がない(⾮⼲渉性)ものとする – 感染症や教育プログラム等での介⼊に関しては⼲渉がある場合も • ⼲渉がある場合のゼウスとヘラの例 1. ゼウスへの介⼊︓a=0, 1 2. ヘラへの介⼊︓b=0,1 3. 潜在アウトカム︓ Y!"#,("#, Y!"$,("#, Y!"#,("$, Y!"$,("$
  16. 15 Fine Point 1.2 Multiple versions of treatment • 介⼊の⽅法が複数存在する場合をMultiple

    Versions of treatmentという – 潜在アウトカムの定義には介⼊の有無だけではなく、誰が(どのような⽅法で)介⼊を⾏っ たかの情報が必要となる • ⾮⼲渉性とともにMultiple version of treatmentが存在しないことは、SUTVAの仮定の⼀部 に含まれる(Rubin, 1980) – STUVA: Stable Unit Treatment Value Assumption • Robins, Greenland(2000)では、介⼊の⽅法がアウトカムに対して同じ因果効果を持つので あれば潜在アウトカムはY!として定義される – VaderWeele(2009)で”treatment variation irrelevance”として定式化されている – 本書中では治療のバージョンは存在しないものとし、再度Ch3で考える
  17. 16 Technical Point 1.1 Causal effect in the population •

    潜在アウトカムY!の期待値E[Y!] – アウトカムが⼆値︓ E[Y!] = Pr[Y! = 1] – アウトカムが連続値︓ E[Y!] = ∫ yf)!(y) dy = ∫ ydF)!(y) dy • f!" y ︓Y"の確率密度関数 • F!"(y)︓Y"の累積密度関数 • 因果効果としてE[Y!] を使うのが最も⼀般的だが、他の指標を使う場合もある – 分散、中央値、ハザードなど – ⾮線形関数を評価指標として⽤いる場合には、式の線形性は成り⽴たない Ex) var(Y!"$ − Y!"#) ≠ var(Y!"$) − var(Y!"#)
  18. Measures of causal effect 17

  19. 18 効果指標について • 前節では⼼臓移植の平均因果効果がないことをPr[Y!"$= 1] = Pr[Y!"#= 1] = 0.5

    と表記 • これ以外にも様々な表記⽅法 i. Pr[Y!"$= 1] − Pr[Y!"#= 1] = 0 ii. *+[)!"#"$] *+[)!"$"$] = 1 iii. *+[)!"#"$] / *+[)!"#"#] *+[)!"$"$] / *+[)!"$"#] = 1 • 集団でのリスク差は個⼈レベルの因果効果の平均に⼀致するが、リスク⽐はそうならない – Pr[Y!"$= 1] − Pr[Y!"#= 1] = E[Y!"$= 1] − E[Y!"#= 1] (∵ Yは⼆値) = E[Y!"$= 1− Y!"#= 1] (∵ 期待値の線形性) – *+[)!"#"$] *+[)!"$"$] = /[)!"#"$] /[)!"$"$] ≠ E[[)!"#"$ [)!"$"$ ] ︓リスク差 ︓リスク⽐ ︓オッズ⽐ causal effect measures
  20. 19 効果指標の解釈の例 • どの“effect measures”を使⽤するかは推論の⽬的による – 同じ効果を異なるスケールで定量化している(解釈には注意) • Aを喫煙の有無、Yを肺がんの発⽣の有無とした例を考える Ex)1億⼈の集団での喫煙の有無による肺がん発⽣数

    A=1(喫煙した場合) → 3/1,000,000 A=0(喫煙しなかった場合)→ 1/1,000,000 – リスク差︓ 3/1,000,000 - 1/1,000,000 = 2/1,000,000 →1億⼈いた場合に喫煙によって2⼈が肺がんを発⽣ – リスク⽐︓ (3/1,000,000) / (1/1,000,000) = 3 →喫煙によって肺がんのリスクが3倍 どういった効果指標を⽤いるかは推論の⽬的次第
  21. 20 Fine Point 1.3 Number needed to treat • 「1件のアウトカムの発⽣を防ぐためには介⼊を⾏う集団が何⼈必要か」を⽰した指標

    – 治療(介⼊)によってアウトカムの発⽣が増加する場合には、アウトカムの発現(harm)を 1件増やすために必要な数を意味する(リスク差が正の場合) • リスク差の逆数にマイナスをかけたものとして定義 – NNT = #$ %&[!"#$($]#%&[!"#%($] Ex) Pr[Y%&'= 1] = 0.2 (20,000,000 / 100,000,000) Pr[Y%&(= 1] = 0.3 (20,000,000 / 100,000,000) NNT = 10 →平均的に10⼈に介⼊を⾏うとアウトカムが1件減少 介⼊によってアウトカムの発⽣は減少
  22. Random variability 21

  23. 22 標本と⺟集団 • ここまで考えてきたのは20名の潜在アウトカムであり、この情報は全て得られていた – しかし現実には興味のある集団のサイズはもっと⼤きい – 標本の情報から⺟集団について推測するのが⼀般的 • 以前の20名を集団全体としてではなく、ある⺟集団からの無作為標本として考える

    前節まで 今後 20名の⺟集団 20名の標本 無作為抽出
  24. 23 推定量と推定値 • 因果推論を⾏う上で知りたいのは集団におけるPr[Y!"$= 1]および Pr[Y!"#= 1] – ただしデータとして得られるのは⼀般に標本のデータ •

    ここで推定量として標本平均を考える – 推定量(estimator)︓⺟数を推定するのに⽤いる統計量(関数)の⼀種 – 推定値(estimate) ︓実際のデータをから計算される推定量の値 – @ Pr[Y!"$= 1] = @ Pr[Y!"#= 1]=0.5 • 推定値は⺟数と完全に⼀致するとは限らない – 標本平均は⼀致推定量であるため、n→∞ならば⺟数と⼀致する – 因果推論の⽂脈での⼀致性と、統計学の⽂脈での⼀致性は意図しているものが異なるので注意 / θ) = θ, (n → ∞) / θ) は推定量、θは真値 ⼀致性の定義
  25. 24 ⾮決定的反実仮想 • ここまでは偶然誤差の原因としてサンプルのばらつきを考えた – サンプリングされる集団がばらつく(⺟集団の特性とずれる)ことによる誤差 – 標本サイズが⼤きくなればほぼ無視できる • もう⼀つの原因としては、Nondeterministic

    counterfactuals (⾮決定論的反実仮想) – 治療Aを受ける場合のY!が⼀意に定まらず、確率的に変動する – 決定論的︓A=1→ Y!"$ =1 – ⾮決定論的︓A=1→ Y!"$ =0(10%)、 Y!"$ =1(90%) • 学習上の都合で、これらの原因による偶然誤差についてはCh10までは⼀旦無視 – 標本のサイズは⾮常に⼤規模(1⼈を10億⼈のように⾒⽴てる) – 反実仮想は決定論的である
  26. 25 Technical Point 1.2 Nondeterministic counterfactuals • ⾮決定論的潜在アウトカムモデルの元での Y!の期待値は、 E[Y!]

    = D 0 y P)!(y) • ここでY!の確率関数であるP)!(y) は、 A=aを受けた際にY! = 𝑦となる 確率Q)!(y) について期待 値をとったもの – Q)!(y)⾃体も確率的に変動する(確率変数) • より⼀般には確率変数Y!を個⼈に対して割り当てるのではなく、0~1の間のランダムな値をとり うる統計分布Θ)!(・) を個⼈に対して考えている – E[Y!] = E{E[Y!|Θ)!(・)]} = E[∫ yd Θ)!(y)] = ∫ yE[d Θ)!(y)] = ∫ yd F)!(y)
  27. Causation versus association 26

  28. : 関連リスク差 : 関連リスク⽐ : 関連オッズ⽐ 27 因果と相関 • 集団を構成する各個⼈は潜在アウトカムのいずれか⼀⽅のみ

    • 実際に受けた治療をA、観測されたアウトカムをYとする – 以前のゼウスら20名は右表のように観測された – Pr[Y=1|A=1] =7/13 – Pr[Y=1|A=0] =3/7 • 治療とアウトカムが独⽴であるとき(A ⊥ Y or Y ⊥ A) i. Pr[Y=1|A=1] - Pr[Y=1|A=0] = 0 ii. %&[!($|+($] %&[!($|+(,] = 1 iii. ⁄ %&[!($|+($] %&[!(,|+($] ⁄ %&[!($|+(,] %&[!(,|+(,] = 1 • 上記の等式が成り⽴たなければ、AとYは関連(依存)している – Yが連続値の場合は確率ではなく期待値での記載 A Y レイア 0 0 クロノス 0 1 デメテル 0 0 ハデス 0 0 ヘスティア 1 0 ポセイドン 1 0 ヘラ 1 0 ゼウス 1 1 アルテミス 0 1 アポロン 0 1 レートー 0 0 アレス 1 1 アテナ 1 1 ヘパイストス 1 1 アフロディーテ 1 1 サイクロプス 1 1 ペルセポネ 1 1 ヘルメス 1 0 へーベー 1 0 ディオニュソス 1 0 Association measures
  29. 28 因果と相関 • 今回の結果から治療AとアウトカムYについて⾔及できるのは以下の⼆つ 1. 因果関係は認められない(正確には「わからない」が適切かと) 2. 関連性はある • A=0(未治療)の⼈が死亡リスクが⾼い傾向にある

    • 因果関係と相関関係を図⽰したものが右図 – 治療を受けた集団が⽩⾊の部分 – 治療を受けていない集団がグレーの部分 • 因果関係 – 治療を受け場合と、受けなかった場合の集団全体 の⽐較(反実仮想の⽐較) • 相関関係 – 実際に治療を受けた集団と、受けなかった集団 の⽐較(条件付きのリスクの⽐較)
  30. 29 因果と相関 • 前述のように、因果関係と相関関係では⽐較している集団が根本的に異なる – 関連は因果ではない(association is not causation) •

    因果関係に関して議論を⾏うためには反実仮想の集団についてのデータ(左側)が必要だが、 現実的には不可能(右側が得られるデータ) • 特定の状況下では、右側のデータを因果関係の議論に⽤いることが妥当となる – その条件を満たす⼀つの⽅法が “ランダム化実験(Randomized experiment)”