Upgrade to Pro — share decks privately, control downloads, hide ads and more …

因果推論のための3ステップ入門

KRSK
December 09, 2019

 因果推論のための3ステップ入門

2019年12月に一時帰国した際の講演資料を公開します。

KRSK

December 09, 2019
Tweet

More Decks by KRSK

Other Decks in Education

Transcript

  1. 「●●の効果」はどうすればデータからわかる︖
    〜因果推論のための3ステップ〜
    KRSK (@koro485)

    View full-size slide

  2. OR 95%信頼区間 p値
    X 1.5 1.1-1.9 0.04
    アレ 1.1 0.9-1.3 0.12
    コレ 2.0 1.8-2.2 0.01
    ソレ 0.7 0.3-1.1 0.07
    統計解析︓
    「多重回帰分析をおこない、アレとコレとソレを“調整”した」
    仮説︓
    「リスク因⼦Xが健康アウトカムYに与える影響を知りたい」
    2
    疫学・医学研究あるある

    View full-size slide

  3. OR 95%信頼区間 p値
    X 1.5 1.1-1.9 0.04
    アレ 1.1 0.9-1.3 0.12
    コレ 2.0 1.8-2.2 0.01
    ソレ 0.7 0.3-1.1 0.07
    統計解析︓
    「多重回帰分析をおこない、アレとコレとソレを“調整”した」
    9ͷޮՌΞϦʂ
    ίϨͷޮՌΞϦʢʁʁʣ
    仮説︓
    「リスク因⼦Xが健康アウトカムYに与える影響を知りたい」
    3
    疫学・医学研究あるある

    View full-size slide

  4. Ø 本当に⾒たい効果︖
    Ø そもそも「調整する」とは︖
    Ø なぜ「調整」すると効果が
    わかる︖
    Ø どんな仮定がある︖
    4
    こんな分析よくあるけど・・・

    View full-size slide

  5. 5
    空前のEBPM・因果推論ブームの裏で
    • ⾊々な⼿法
    • どう違う︖
    • どれを使えばいい︖

    View full-size slide

  6. Ø 統計的に因果効果を考えるための基礎の考え⽅
    Ø 「回帰分析で“調整”」の意味することが理解できる
    Ø 分析の裏に置かれている仮定を考える重要性を知る
    Ø 数多ある因果推論のための⼿法、何が違ってなにが
    同じかを知る
    Ø 流⾏りの機械学習がどう関わってきうるのか
    雰囲気をつかむ
    6
    セミナー後の到達⽬標

    View full-size slide

  7. • わかりやすさ優先で、数理的に厳密な表現を
    避けています
    • 疫学的な考え⽅・⽤語を使⽤しています
    • ハーバード公衆衛⽣⼤学院(およびそこの教
    員)の考え⽅を代表するわけではありません
    7
    Disclaimer

    View full-size slide

  8. 「因果効果への道」(Causal Roadmap)
    8
    本⽇の流れ

    View full-size slide

  9. 「因果効果への道」(Causal Roadmap)
    Methods in Social Epidemiology 2nd Edition
    (Chapter 17: Ahern and Hubbard)
    9
    本⽇の流れ
    ・・・・・の簡略バージョン

    View full-size slide

  10. 「因果効果への道」(Causal Roadmap)
    ステップ1︓
    どんな効果を知りたいのかを定義する
    (Causal Estimandの設定)
    ステップ2︓
    データから効果を知るための条件を考える
    (効果の識別, Identification)
    ステップ3︓
    実際にデータから求めたい値を計算する
    (推定, Estimation)
    10
    本⽇の流れ

    View full-size slide

  11. 「因果効果への道」(Causal Roadmap)
    ステップ1︓
    どんな効果を知りたいのかを定義する
    (Causal Estimandの設定)
    ステップ2︓
    データから効果を知るための条件を考える
    (効果の識別, Identification)
    ステップ3︓
    実際にデータから求めたい値を計算する
    (推定, Estimation)
    11
    本⽇の流れ

    View full-size slide

  12. 1. 記述
    例︓所得によって喫煙率が違うか︖
    2. 予測
    例︓所得+αがわかると、その⼈が喫煙者かど
    うかを予想できるか︖
    3. 因果推論
    例︓所得を増やすと喫煙率が減るか︖
    12
    データ分析の⽬的

    View full-size slide

  13. 統計的因果推論のゴール
    因果“効果”の定量化
    13
    Cause & Causal Effect

    View full-size slide

  14. モチベーション
    ⺟集団における関⼼のある値(⺟数; parameter)を知りたい
    (例︓平均値)
    そもそも統計学を使うってどういうこと︖
    ⺟集団
    (Population)
    14

    View full-size slide

  15. モチベーション
    ⺟集団における関⼼のある値(⺟数; parameter)を知りたい
    (例︓平均値)
    そもそも統計学を使うってどういうこと︖
    ⺟集団
    (Population)
    サンプル・標本
    Ø 標本での計算(推定; estimation)
    Ø 不確実性の考慮(推論, inference)
    15

    View full-size slide

  16. Estimand︓統計学とデータを使って知りたい未知の⺟数
    Estimator︓Estimandを知るために使う統計⼿法
    (例︓標本平均)
    Estimate︓Estimatorから実際に得られた値
    Estimand, Estimator, Estimate
    16

    View full-size slide

  17. 「〜〜における●●が▲▲に与える効果」
    知りたいものを明確にする!
    Causal “Estimand”
    17

    View full-size slide

  18. アウトカム︓連続値Y(例︓⾎圧)
    (Outcome = Endpoint = Dependent Variable)
    曝露因⼦︓⼆値変数A(例︓薬の投与)
    (Exposure = Treatment = Explanatory/Independent Variable)
    共変量: 全部まとめてL またはL1, L2, L3, …..
    (Covariates = Adjustment variables, etc)
    セットアップ
    18

    View full-size slide

  19. • 期待値:E[Y](意味︓⺟集団全体におけるYの期待値)
    例)E[⾎圧] ︓⺟集団全体における⾎圧の期待値(Estimand)
    →サンプル全体の⾎圧の平均(Estimator)で推定
    • 条件付き期待値: E[Y|L] (意味: Lが同じ値の⼈におけるYの期待値)
    例)E[⾎圧|服薬A=1, 性別=⼥性]: ⺟集団のうち服薬中⼥性におけ
    る⾎圧の期待値
    →サンプルのうち服薬中⼥性の⾎圧の平均で推定
    ⾼校数学の復習
    19

    View full-size slide

  20. 個⼈レベルで考える
    反事実(Counterfactual)モデルに基づく定義
    「因果効果」とは︖
    20
    服薬中︓A=1
    ⾎圧Y =120 mmHg
    反事実の世界
    2種類の介⼊
    現実世界
    薬を飲んでいる
    投薬あり︓A=1
    ⾎圧︓Ya=1
    投薬なしA=0
    ⾎圧︓Ya=0

    View full-size slide

  21. ID A Y Ya=1 Ya=0
    1 120 120 140
    服薬Aへの介⼊が⾎圧に与える(この個⼈における)
    因果効果=Ya=1-Ya=0=120 – 140 = -20 mmHg
    反事実の世界では服薬の有無以外は同じはず・・・
    「因果効果」とは︖
    21
    個⼈レベルで考える
    反事実(Counterfactual)モデルに基づく定義

    View full-size slide

  22. ID A Y Ya=1 Ya=0
    1 120 120 140
    薬を実際に飲んでいる⼈が「仮に」薬を飲ま
    ない介⼊を受けた時の⾎圧??
    個⼈レベルではわからない
    「因果効果」とは︖
    22
    個⼈レベルで考える
    反事実(Counterfactual)モデルに基づく定義

    View full-size slide

  23. ID A Y Ya=1 Ya=0
    1 120 120 140
    薬を実際に飲んでいる⼈が「仮に」薬を飲む
    介⼊を受けた時の⾎圧 = 実際の⾎圧??
    つまり、Ya=1 = Y when A=1は成⽴する??
    -> ある仮定が必要(後ほど詳しく)
    「因果効果」とは︖
    23
    個⼈レベルで考える
    反事実(Counterfactual)モデルに基づく定義

    View full-size slide

  24. 現実世界
    薬を飲んだ⼈(A=1)と
    飲まなかった⼈(A=0)
    反事実の世界
    全員がA=1
    全員がA=0
    「因果効果」とは︖
    24
    集団レベルで考える
    反事実(Counterfactual)モデルに基づく定義

    View full-size slide

  25. ID A Y Ya=1 Ya=0
    1 1 120 120 140
    2 0 115 110 115
    3 0 140 135 140
    4 0 135 135 135
    5 1 115 115 120
    6 0 120 115 120
    7 1 110 110 115
    8 1 120 120 130
    9 1 130 130 140
    10 0 130 110 130
    服薬Aへの介⼊が⾎圧に与える(集団レベルでの)
    • 平均因果効果
    • Average Treatment Effect (ATE)
    • Average Causal Effect (ACE)
    " − ["]
    Ya=1, Ya=0の平均値の差
    =120 – 128.5 = -8.5
    ఆٛ
    「因果効果」とは︖
    25
    ਪఆ

    View full-size slide

  26. Marginal Effect
    !"# − [!"$]
    解釈︓⺟集団の“全員”が薬を飲んだ(A=1)場合と“全員”が
    飲まなかった(A=0)場合の⽐較
    Conditional Effect
    !"#| − [!"$|]
    解釈︓⺟集団のうち”Lの層の中で” (例︓⼥性のみ)全員
    が薬を飲んだ(A=1)場合と飲まなかった(A=0)場合の⽐較
    vs
    vs
    ⺟集団全体 VS ⼀部における効果
    26

    View full-size slide

  27. !"# − !"$
    = !"#| = 0 − !"$| = 0 ∗ = 0
    + !"#| = 1 − !"$| = 1 ∗ = 1
    " $͕ೋ஋ม਺ͷ࣌
    ! − !∗
    = /
    %
    !| = − !∗
    | = ∗ =
    ҰൠԽόʔδϣϯ
    Marginal/Conditional Effectの関係
    27
    Marginal Effect = Conditional Effectの重み付け平均

    View full-size slide

  28. Marginal Effect ≠ Conditional Effect
    例︓教育歴が年収に与える効果
    ⼈種による効果修飾(Effect Modification)
    Ø 教育から得られる恩恵
    ⽩⼈ > ⿊⼈
    Ø 集団全体(⽩⼈+⿊⼈)の効果
    ≠⿊⼈における効果
    効果は⼀定ではない
    28

    View full-size slide

  29. Ø 格差への影響
    Ø 介⼊効果がより⾼い(or 低い)集団を特定
    Ø メカニズムの検討
    Conditional Effectを⾒るモチベーション
    29

    View full-size slide

  30. ⺟集団A
    (例︓東京都の⾼齢者)
    ⺟集団B
    (例︓沖縄県の⾼齢者)
    !
    "#$ − !
    ["#%]
    他の⺟集団への⼀般化が可能か︖
    ー>効果修飾がありうるか︖修飾因⼦の分布が異なるか︖を考える
    (補⾜︓versions of treatment, interferenceの影響も。詳しくはHernan & VanderWeele (2011))
    ︖︖︖
    サンプル
    余談︓外的妥当性の話
    30

    View full-size slide

  31. Ø 因果“効果”を推定する
    Ø もしも曝露あり VS もしも曝露なし
    Ø 個⼈レベルではわからない
    Ø 集団レベルでの定義
    Ø ある仮定のもと、データから推定可能(次のステップ)
    Ø Marginal Effect: "#$ − ["#%]
    Ø Conditional Effect: "#$| − ["#%|]
    Ø 注⽬している集団によって介⼊効果が違う可能性
    Ø まずCausal Estimandを設定する
    Ø 「〜〜における●●が▲▲に与える効果」
    「ステップ1︓Causal Estimandの設定」まとめ
    31

    View full-size slide

  32. 「因果効果への道」(Causal Roadmap)
    ステップ1︓
    どんな効果を知りたいのかを定義する
    (Causal Estimandの設定)
    ステップ2︓
    データから効果を知るための条件を考える
    (効果の識別, Identification)
    ステップ3︓
    実際にデータから求めたい値を計算する
    (推定, Estimation)
    本⽇の流れ
    32

    View full-size slide

  33. Ø 知りたいもの︓ !"# − !"$
    Ø これで代⽤︖︓ | = 1 − | = 0
    Ø データ︓
    Causation
    Association
    データからどうやって反事実を考える︖
    33

    View full-size slide

  34. • 実際に薬を飲んでいる⼈(A=1)と飲んでいない⼈(A=0)ではキャラ
    が違う
    • 薬を飲んでいる⼈は(飲んでいない⼈と⽐べて)・・・
    • だから2つのグループのアウトカム(⾎圧)の差は服薬の差による
    ものではない︕
    • 交絡(後ほど詳しく)
    Association ≠ Causation(直感的な理解)
    34

    View full-size slide

  35. Ø ! = ! = 1 ∗ = 1 + ! = 0 ∗ ( = 0)
    これが知りたい
    (Marginal) Counterfactual Mean
    Conditional Counterfactual Mean
    の重み付け平均
    薬を飲んでいる⼈での平均 薬を飲んでいない⼈での平均
    薬を飲んでいる⼈の割合 薬を飲んでいない⼈の割合
    AssociationとCausation(数理的理解)
    35

    View full-size slide

  36. Ø もし、 ! = 1 = ! = 0 なら
    Ø ! = ! = 1 ∗ = 1 + ! = 0 ∗ ( = 0)
    Ø !"#
    = !"# = 1 ∗ Pr = 1 + !"# = 1 ∗ Pr( = 0)
    = !"# = 1
    Ø 同様に、 !"$ = !"$ = 0
    AssociationとCausation(数理的理解)
    36

    View full-size slide

  37. Ø もし、 ! = = = なら
    Ø !"# = !"# = 1 (= !"# = 0 )
    Ø !"$ = !"$ = 0 (= !"$ = 1 )
    Ø !"# = = 1
    Ø !"$ = = 0
    Ø もし、 ! = 1 = ! = 0 なら
    AssociationとCausation(数理的理解)
    37

    View full-size slide

  38. Ø !"# = = 1
    Ø !"$ = = 0
    Ø もし、 ! = = = なら
    Ø もし、 ! = 1 = ! = 0 なら
    " − " = | = − | =
    Causation Association
    AssociationとCausation(数理的理解)
    38

    View full-size slide

  39. Ø 仮定1︓ ! = 1 = ! = 0 (Exchangeability)
    Ø 仮定2︓ ! = = = (Consistency)
    Ø 仮定3︓Positivity(後で少しだけ解説)
    %"& − %"' = | = 1 − | = 0
    反事実の世界
    (データからはわからない)
    現実の世界
    (データからわかる)
    *EFOUJGJBCJMJUZ"TTVNQUJPOT
    因果効果の識別(Identification)
    39

    View full-size slide

  40. Ø Exchangeability: ! = 1 = ! = 0
    Ø a.k.a. Ignorability, No confounding assumption
    Ø 観測データでは通常成⽴しない(例︓交絡)
    1. 無作為化⽐較試験RCT
    2. ⾃然実験
    3. Exchangeability不成⽴の原因を特定して“調整”
    Conditional Exchangeabilityを⽬指す
    この仮定を成⽴させるには・・・
    因果効果識別のための仮定1︓Exchangeability
    40

    View full-size slide

  41. Ø 曝露因⼦Aをランダムに割付
    Ø A=0の⼈たちとA=1の⼈たちは、A以外について同質の集団
    Ø 反事実世界でのアウトカムの期待値は同じはず
    Ø Exchangeabilityが確率的に期待される
    Ø " = 1 = " = 0
    Exchangeabilityを得るためのアプローチ1︓無作為化⽐較試験
    41

    View full-size slide

  42. Ø 追跡の失敗(Loss-to-follow-up)
    Ø 倫理的・コスト的に実施不可能なことが多い
    Ø 「誰における」効果を推定しているのかわかりにくい
    (⺟集団の曖昧さ)
    Exchangeabilityを得るためのアプローチ1︓無作為化⽐較試験
    42

    View full-size slide

  43. Ø 曝露因⼦がランダムに割付られていると
    考えられるような状況を⾒つけてくる
    Ø Regression Discontinuity Design, 操作変数,
    etc….
    Ø 誰における効果か︖(例︓LATE)
    Ø 仮定が正しいことをデータから実証することはできない
    Ø 答えることができるクエスチョンが限られてくる
    Exchangeabilityを得るためのアプローチ2︓⾃然実験
    43

    View full-size slide

  44. Ø ⾮ランダムな曝露因⼦の割付を許容する
    Ø Exchangeabilityが成⽴しない原因を特定
    Ø 分析デザイン・統計解析で可能な限り取り除く
    Ø 医学研究・社会科学でよく使われる
    DAGを使って要因間の関係性を考える
    1. 交絡(Confounding)
    2. 選択バイアス
    &YDIBOHFBCJMJUZ͕੒ཱ͠ͳ͍ओͳݪҼ
    Exchangeabilityを得るためのアプローチ3︓調整
    44

    View full-size slide

  45. A Y
    Ø 点(Node)と⽮印(Edges)で構成
    Ø 点は変数(アウトカムや曝露因⼦)
    Ø ⽮印は1⽅向のみ
    Ø 直接⽮印で結ばれていると因果効果あり
    Ø 因果効果があるときは統計的な関連もあり
    45
    Directed Acyclic Graph(DAG)の原則

    View full-size slide

  46. Ø LはAとYの共通の原因(Common Cause)
    Ø AとYの間に統計的な関連が⽣じる
    Ø A<- L ->Yという裏⼝経路(Backdoor Path)
    Ø Lを条件づけることで裏⼝経路を閉じる
    Ø 「条件付け」とはLの値を揃えること
    Ø 回帰分析による”調整“とは条件付けのこと
    (詳しくは後半で)
    A Y
    L
    A Y
    L
    46
    DAGルール1︓ “共通の原因”による裏⼝経路

    View full-size slide

  47. Ø 交絡(Confounding)
    共通原因によって⽣じる因果効果に由来しない関連
    Ø 交絡因⼦(Confounder)
    条件付けによって裏⼝経路を閉じることができる要因
    (例︓L)
    47
    DAGルール1︓ “共通の原因”による裏⼝経路
    A Y
    L
    A Y
    L

    View full-size slide

  48. Ø CはAとの共通の効果(Common Effect; Collider)
    Ø Cを条件づけるとA-Uの間に関連が⽣じる
    Ø 「Cの条件付け」=Cの値が同じ⼈を対象に分析
    Ø Collider Stratification Bias (a.k.a. 選択バイアス)
    Ø 選択バイアスは内的妥当性の問題
    A Y
    C
    U
    48
    DAGルール2︓“共通の効果”の条件付けによる裏⼝経路

    View full-size slide

  49. A︓ランダム割付された治療
    C︓Loss-to-follow-up
    U︓抑うつレベル
    Y︓⾝体的健康状態
    A Y
    C
    U
    Ø 離脱しなかったひとのみを分析(Cで条件付け)
    Ø 離脱しなかった&コントロール群の⼈は抑うつレベルが特別
    低かった︖
    Ø 介⼊群の⼈は少々抑うつレベルが⾼くても離脱しなかった︖
    49
    選択バイアスの例︓追跡の失敗

    View full-size slide

  50. A Y
    C
    U
    (Hernan et al 2004) (edX Free Online Course by Hernan)
    50
    DAGルール2︓“共通の効果”の条件付けによる裏⼝経路
    1. 追跡の失敗(Loss-to-follow-up)
    2. 競合リスク(Competing Risk)
    3. サンプリング⽅法
    4. ⽋測データ(Missing Data)
    5. ⾃⼰選択(Self-selection)
    બ୒όΠΞε͕ੜ͡ΔγφϦΦ

    View full-size slide

  51. 51
    DAGルール3︓全ての裏⼝経路を閉じると・・・
    A Y
    L
    裏⼝経路の閉じ⽅(“調整”の⽅法)
    A Y
    L
    条件付け(層化)
    A Y
    L
    Ø Lの値が同じ⼈たち
    を分析
    Ø 回帰分析など
    Ø Lの分布をA=1とA=0で等しくする
    Ø L->Aの⽮印を取り除く
    マッチング・重み付け

    View full-size slide

  52. 52
    DAGルール3︓全ての裏⼝経路を閉じると・・・
    A Y
    C
    L2
    L1
    Ø 2つの裏⼝経路
    Ø L1による交絡
    Ø Cによる選択バイアス
    A Y
    C
    L2
    L1
    Ø L1とL2を条件付け
    Ø 裏⼝経路はない
    Ø Exchangeability
    Conditional on L1 and L2

    View full-size slide

  53. 53
    Conditional Exchangeability
    Ø L(L1, L2, L3,…)を条件付けると裏⼝経路なし
    Ø Conditional Exchangeability: " = 1, = " = 0,
    |
    = ! = 1, ∗ = 1| + ! = 0, ∗ = 0
    = ! = , ∗ Pr = 1 + Pr = 0
    (∵ = , = = , )
    = ! = ,
    = | = , (∵ )
    同じ仮定
    (ただしLの層内)
    (Lの層内で)反事実世界のアウトカム=観測されたアウトカム
    Ø !#$| − !#%| = | = 1, − | = 0,
    ূ໌
    Lで条件付けされている︕

    View full-size slide

  54. 54
    Marginal vs Conditional Exchangeability
    • Exchangeability: " = 1 = " = 0
    • 推定できる因果効果︓
    "#$ − "#% = | = 1 − | = 0
    • 例︓RCT
    .BSHJOBM
    • Exchangeability: " = 1, = " = 0,
    • (条件付けで)推定できる因果効果︓
    "#$| − "#%| = | = 1, − | = 0,
    • 例︓層化, L層内でのRCT
    $POEJUJPOBM

    View full-size slide

  55. A Y
    U1
    L
    U2
    1. Lは曝露因⼦Aと関連
    2. LはアウトカムYと関連
    3. LはAとYの中間因⼦ではない
    -͸ަབྷҼࢠʁௐ੔͢΂͖ʁ
    A Y
    U1
    L
    U2
    Ø LはCollider
    Ø 調整すべきではない
    Ø M-bias
    Ø 統計テクニックでは判断で
    きない
    55
    DAGの利点︓理論的根拠に基づいた分析⽅法の選択

    View full-size slide

  56. 1. Mを調整しないでAとYの関連を⾒る
    2. Mを回帰モデルに加える
    3. AとYの関連の推定値が変わるか確認
    .ʹΑΔഔհޮՌΛ஌Γ͍ͨ
    M Y
    A
    U
    M Y
    A
    U
    Ø MはCollider
    Ø 単純に調整してしまうとA->M<-U->Y
    の関連を導⼊
    Ø 推定値の変化はCollider Stratificationに
    よるものかも︖
    56
    DAGの利点︓理論的根拠に基づいた分析⽅法の選択

    View full-size slide

  57. 1. L1を条件づけると閉じる
    2. L2を条件づけても閉じる
    3. 両⽅条件づけても閉じる
    Ø モデルの複雑さ
    Ø ⽚⽅だけ調整する⽅がベター
    ཪޱܦ࿏Λด͡ΔͨΊʹ৚݅෇͚͢΂͖ม਺͸ʁ
    A Y
    L1
    L2
    57
    DAGの利点︓理論的根拠に基づいた分析⽅法の選択

    View full-size slide

  58. Ø 必要な変数全ての特定はできない
    Ø 変数間の関係性を完璧に表現することもできない
    Ø 真のDAGは誰にもわからない
    Ø 仮定を可視化することで分析前のディスカッション・
    分析後の批判的吟味の円滑化
    Ø 調整しきれなかった交絡・選択バイアスに対する感度
    分析(VanderWeele, 2017; Smith, 2019)
    58
    DAGの利点︓仮定の可視化

    View full-size slide

  59. 1. DAGを書く
    (理論・ドメイン知識・先⾏研究に基づいて)
    2. 可視化された仮定を議論する
    3. DAG書き直す
    4. 2-3を繰り返す
    5. Conditional Exchangeabilityを得るのに“調整”が必要な変数
    を特定
    6. Identification完了(と仮定)
    7. 次のステップ(推定)へ
    DAGを⽤いた因果推論へのアプローチ
    59

    View full-size slide

  60. 因果効果識別のための仮定2︓Consistency
    60
    Ø = = =
    Ø 現実にA=aだった⼈たちがA=aとする介⼊を受けた時、その
    アウトカムの平均は現実のアウトカムに等しくなる
    あたりまえ︖
    Ø Well-defined intervention & Linkage with the data
    Ø 「因果効果」を⾒たい曝露因⼦に対応する介⼊が曖昧でない
    Ø 正確に定義された効果を⾒るのに適したデータが存在

    View full-size slide

  61. 因果効果識別のための仮定2︓Consistency
    61
    Ø 例︓肥満の「因果効果」
    Ø 肥満をなくす介⼊とは︖
    Ø ⾷事・運動・脂肪吸引,etc…
    Ø Multiple versions of treatment
    Ø それぞれの介⼊効果は同じ︖
    Ø 因果効果の解釈が難しい
    Ø = = =
    Ø 現実にA=aだった⼈たちがA=aとする介⼊を受けた時、その
    アウトカムの平均は現実のアウトカムに等しくなる

    View full-size slide

  62. Ø 曝露を受ける確率と曝露を受けない確率が0でない
    Ø 全員が曝露を受けているサンプルからは曝露効果を推定できない
    62
    因果効果識別のための仮定3︓Positivity
    Ø 曝露を受けている⼈、受けていない⼈の両⽅が必要
    Ø Conditional Exchangeabilityを⽬指して共変量Lで条件づけた場合
    L=1 L=0
    ü L=0で全員が曝露あり
    ü 曝露A=0となる確率が0
    ü L=0の層でのConditional Causal Effectは︖

    View full-size slide

  63. 63
    「ステップ2︓効果の識別」まとめ
    Ø 知りたい因果効果は反事実世界のもの
    Ø 仮定のもと、データから分かる統計的な「関連」と⼀致
    Ø Exchangeability, Consistency, Positivity
    Ø Exchangeabilityを得るための分析デザイン
    Ø RCT, ⾃然実験, しらみつぶしに“調整“
    Ø DAGを使った、調整すべき要因の特定
    Ø 全ての裏⼝経路が閉じているという仮定(Conditional Exchangeability)
    Ø 調整の⽅法︓条件付け(層化) vs マッチング・重み付け
    Ø 条件付けを使⽤するとConditional Effectの識別
    Ø データからアウトカムの条件付き期待値を推定すればよい
    Ø どうやって︖(次のステップ)

    View full-size slide

  64. 因果推論⼊⾨②
    「●●の効果」はどうすればデータからわかる︖
    〜アウトカムモデル(重回帰分析)による推定〜
    Koichiro Shiba
    Harvard T.H. Chan School of Public Health
    64

    View full-size slide

  65. 「因果効果への道」(Causal Roadmap)
    ステップ1︓
    どんな効果を知りたいのかを定義する
    (Causal Estimandの設定)
    ステップ2︓
    データから効果を知るための条件を考える
    (効果の識別, Identification)
    ステップ3︓
    実際にデータから求めたい値を計算する
    (推定, Estimation)
    本⽇の流れ
    65

    View full-size slide

  66. 66
    Causal Roadmapの途中経過
    1. !#$| − !#%| (Causal Estimandの設定)
    2. | = 1, − | = 0, (効果の識別, Identification)
    3. 条件付き期待値 | = , をどうやって計算する︖
    Ø Lの値が同じ&A=aの⼈たちにおけるYの平均
    Ø ここから先は純粋に計算の問題(推定, Estimation)
    Conditional Effectの推定

    View full-size slide

  67. 67
    条件付き期待値の推定︓シンプルなケース
    A Y
    L
    A︓⼆値変数(例︓服薬あり vs なし)
    L︓⼆値変数(例︓喫煙あり・なし)
    Y︓連続値(例︓⾎圧)
    Ø 1つの⼆値変数Lを条件づけるだけでConditional Exchangeability
    が得られるという仮定
    Ø ⾮現実的な仮定(説明のためにここからはじめる)
    Ø | = , = がわかればよい
    Ø シンプルに各層のYの平均値を計算
    Ø 全部で4パターン
    Ø 因果効果の推定完了
    Ø 例︓L=1の層でのConditional Effect
    | = 1, = 1 − | = 0, = 1
    120-140 =- 20
    A L 各層のYの平均
    0 0 120
    0 1 140
    1 0 110
    1 1 120

    View full-size slide

  68. 68
    条件付き期待値の推定︓シンプルなケース
    Ø | = , = の推定
    Ø 回帰分析は不要
    Ø 使うこともできる
    Ø 回帰モデル︓ |, =%
    + $
    + &
    + '

    Ø アウトカムモデル
    Ø 例えばRだと・・・
    パターン A L 各層のYの平均 回帰分析による推定
    1 0 0 120 !
    2 0 1 140 !
    + "
    3 1 0 110 !
    + #
    4 1 1 120 !
    + #
    + "
    + $
    完全に⼀致

    View full-size slide

  69. 69
    Ø 回帰モデル︓ |, =%
    + $
    + &
    + '

    Ø 全4パターンの層に対して、 推定値は4つ
    Ø 各層の平均値を計算するのと全く同じ
    Ø Saturated “Model” (a.k.a. Nonparametric “Model”)
    Ø モデルの誤設定(Misspecification)がない
    パターン A L 各層のYの平均 回帰分析による推定
    1 0 0 120 !
    2 0 1 140 !
    + "
    3 1 0 110 !
    + #
    4 1 1 120 !
    + #
    + "
    + $
    4つのを設定する
    ことでに任意の値
    条件付き期待値の推定︓シンプルなケース

    View full-size slide

  70. 70
    Ø 回帰モデル︓ |, =%
    + $
    + &

    Ø AとLの掛け算項がない(層の数 > モデルの推定値)
    Ø パターン1〜3が決まるとパターン4が決まる
    Ø 制約のある推定
    Ø パラメトリックモデル
    Ø モデルの仮定(後ほど詳しく)
    Ø モデルの誤設定ー>条件付き期待値を正しく推定できない可能性
    パターン A L 各層のYの平均 回帰分析による推定
    1 0 0 120 !
    2 0 1 140 !
    + "
    3 1 0 110 !
    + #
    4 1 1 120 !
    + #
    + "
    ⼀致しないことが多い
    条件付き期待値の推定︓シンプルなケース

    View full-size slide

  71. 71
    回帰分析を使った条件付き期待値の推定
    Ø (線形)回帰モデルを使うとは・・・
    Ø 変数間の関係性を単純化してYの条件付き期待値を推定
    Ø ロジスティック回帰の場合︓logit(Pr[Y=1|A,L])を推定
    Ø 単純化をしないSaturated modelは「モデル」︖
    Ø Saturated modelはモデルの誤設定の影響を受けない
    Ø ではなぜパラメトリックモデルを使うのか︖

    View full-size slide

  72. 72
    “パラメトリック”が必要な理由1︓次元の呪い
    Ø ⼆値変数L1を条件付けで裏⼝経路が閉じ
    ると仮定
    Ø AとLの組み合わせ=2*2=4通り
    A Y
    L1
    A Y
    L1 L2
    Ø ⼆値変数L1, L2を条件付けで裏⼝経路が
    閉じると仮定
    Ø A,L1, L2の組み合わせ=2*2*2=8通り
    A Y
    L1 L2
    L3
    Ø ⼆値変数L1, L2, L3を条件付けで裏⼝経路
    が閉じると仮定
    Ø A,L1, L2,L3の組み合わせ=2*2*2*2=16通り

    View full-size slide

  73. 73
    “パラメトリック”が必要な理由1︓次元の呪い
    Ø 裏⼝経路を閉じるのに必要なL = L1, L2, ….., L10
    Ø 9個の⼆値変数と1個のカテゴリ変数(4レベル)
    Ø A,L1,L2,….,L10の組み合わせ=29*4=2048(!)
    Ø Saturated model -> 2048個のを推定
    Ø 条件づける変数が増えると、条件付き期待値のパ
    ターン数が激増する(Curse of Dimensionality)
    Ø 単純化(パラメトリック)が必要
    A Y
    L

    View full-size slide

  74. 74
    “パラメトリック”が必要な理由2︓⾮カテゴリ変数
    Ø Aは⼆値変数
    Ø | = 0 ?
    Ø | = 1 ?
    Ø Aはカテゴリ変数
    Ø | = 1 ?
    Ø | = 2 ?
    Ø | = 3 ?
    Ø | = 4 ?

    View full-size slide

  75. 75
    “パラメトリック”が必要な理由2︓⾮カテゴリ変数
    Ø Functional formの設定
    Ø 周りのデータの情報を借
    りて予想をつける
    Ø パラメトリックモデル︕
    Ø Aは連続変数
    Ø | = 5 ?
    Ø A=5のデータは無い
    Ø 全てのAの値の層を
    考えるのは不可能

    View full-size slide

  76. 76
    A Y
    L
    Ø A, Lは⼆値変数
    Ø 回帰モデル︓ |, =%
    + $
    + &

    Ø 層の数=2*2=4
    Ø 推定されるパラメータの数=3
    Ø パラメトリックモデル
    Ø L=0層でのAの平均因果効果︓
    | = 1, = 0 − | = 0, = 0 = %
    + $
    − %
    =
    Ø L=1層でのAの平均因果効果︓
    | = 1, = 1 − | = 0, = 1 = %
    + $
    + &
    − (%
    +&
    ) =
    Lの値によらずAの効果は⼀定という仮定︕
    “パラメトリック”モデルの仮定1︓Constant Relationship

    View full-size slide

  77. 77
    “パラメトリック”モデルの仮定1︓Constant Relationship
    A Y
    L
    Ø ノンパラメトリックモデル︓
    |, =%
    + $
    + &
    +'

    Ø A, Lの組み合わせの数=パラメータの数
    Ø モデルの仮定なし
    Ø パラメトリックモデル︓
    |, =%
    + $
    + &

    Ø A, Lの組み合わせの数 >パラメータの数
    Ø 掛け算項( '
    )が不要という仮定
    Ø LによるAの効果修飾がないという仮定
    Ø L同⼠の掛け算項(例︓L1*L2)にも注意

    View full-size slide

  78. 78
    “パラメトリック”モデルの仮定2︓Functional Form
    A Y
    L
    Ø Aは⼆値変数、 Lは連続変数(例︓所得)
    Ø 回帰モデル︓ |, =%
    + $
    + &

    Ø 層の数=とても多い(Lはどんな値でも取りうる)
    Ø 推定されるパラメータの数=3
    Ø パラメトリックモデル
    Ø Aの層内でのYとLの関係が直線という仮定

    View full-size slide

  79. 79
    “パラメトリック”モデルの仮定2︓Functional Form
    Ø 回帰モデル︓ |, =%
    + $
    + &
    + '
    &
    Ø (Aの層内で)LとYは⼆次関数的な関係
    Ø Cubic(三次関数)やSpline曲線も使⽤可能

    View full-size slide

  80. 80
    “パラメトリック”モデルの仮定2︓Functional Form
    Ø 回帰モデル︓
    |, =%
    + $
    + &
    + '
    &
    Ø ⼆乗項&を含めるのは間違い︖
    Ø 回帰モデル︓ |, =%
    + $
    + &

    Ø ⼆乗項があるモデルの特別バージョン( '
    = 0)
    Ø 複雑なモデルのほうが誤設定の可能性は低いが・・・
    Ø Bias-varianceトレードオフ
    Ø 解釈可能性

    View full-size slide

  81. 81
    「ステップ3︓推定」まとめ
    Ø Conditional Exchangeabilityが成⽴しているとき・・・
    Ø 条件付き期待値=反事実世界のアウトカム(Identification)
    Ø 層化が最もシンプルな⽅法
    Ø Conditional (vs Marginal) Effectが推定可能
    Ø 調整変数が多い、連続変数がある場合はパラメトリックな回帰分析を
    ⽤いた条件付き期待値の推定
    Ø モデルの仮定に気をつける
    Ø 複雑すぎず、でもデータ間の関係を正しく記述したモデルが理想
    (難しい)

    View full-size slide

  82. ステップ1︓
    どんな効果を知りたいのかを定義する
    (Causal Estimandの設定)
    ステップ2︓
    データから効果を知るための条件を考える
    (効果の識別, Identification)
    ステップ3︓
    実際にデータから求めたい値を計算する
    (推定, Estimation)
    82
    アウトカムモデルによる因果推論の全体像
    Ø サンプルが取られた⺟集団
    Ø Lの層における効果(Conditional)
    Ø Conditional Exchangeability (+ Consistency, Positivity)
    Ø Lの条件付けで全ての裏⼝経路が閉じるという仮定
    Ø アウトカムに対するモデル
    Ø 誤設定の可能性
    A Y
    L

    View full-size slide

  83. 推定値 95%信頼区間 p値
    X # XX-YY 0.03
    L1 " … …
    L2 $ … …
    L3 % … …
    83
    再び、疫学・医学研究あるある
    Ø |, =%
    + $
    + &
    1 + '
    2 + )
    3
    $
    = = 1, − [| = 0, ]
    ステップ2︓識別(Identification)
    -> L1, L2, L3でX-Y間の裏⼝経路は閉じる︖
    ステップ1︓Causal Estimandの設定
    Marginal︖ [!#$] − [!#%]
    Conditional︖ [!#$|] − [!#%|]
    ステップ3︓推定(Estimation)
    掛け算項がないという仮定
    (Lによる効果修飾なし)
    9ͷޮՌΞϦʂ

    View full-size slide

  84. 推定値 95%信頼区間 p値
    X # XX-YY 0.03
    L1 " … …
    L2 $ … …
    L3 % … …
    84
    再び、疫学・医学研究あるある
    Ø |, =%
    + $
    + &
    1 + '
    2 + )
    3
    &
    = 1 = 1, , 2, 3 − [|1 = 0, , 2, 3]
    ステップ2︓識別(Identification)
    -> X, L2, L3でL1とYの間の裏⼝経路は閉じる?
    -> L2やL3はXとYの交絡因⼦として選ばれた
    -> 因果的な解釈はできない
    -ͷޮՌΞϦʂʁ

    View full-size slide

  85. 85
    その他の⼿法との⽐較
    Ø RCT, ⾃然実験
    Ø 傾向スコアマッチング,
    Ø 逆確率重み付け(IPTW)
    Ø g-computation (a.k.a. g-formula)
    Ø 機械学習
    なんかすごそうだが・・・
    Ø なにが優れているのか︖
    Ø もし違う結果が得られた場合、その理由は︖

    View full-size slide

  86. 86
    傾向スコアマッチング
    Ø 傾向スコア︓Pr[A=1|L]
    Ø マッチング後はLの分布が同じになる
    Ø L->Aの⽮印がなくなる(vs 条件付け)
    Ø L層でのConditional exchangeabilityを仮定
    Ø マッチング後のサンプルではA=0群とA=1
    群をシンプルに⽐較
    A Y
    L
    A Y
    L

    View full-size slide

  87. 87
    逆確率重み付け(IPTW)
    Ø 傾向スコア(っぽいもの)︓Pr[A=a|L]
    Ø Inverse Probability Weighting
    Ø 重み付けによるPseudo-populationの作成
    Ø L->Aの⽮印がなくなる(vs 条件付け)
    Ø L層でのConditional exchangeabilityを仮定
    Ø Pseudo-population内ではYとAの関連をシ
    ンプルに⽐較(Marginal Structural Model)
    A Y
    L
    A Y
    L

    View full-size slide

  88. 88
    g-formula / g-computation
    Ø アウトカムモデル︓E[Y|A, L]
    Ø Lの条件付け
    Ø L層でのConditional exchangeabilityを仮定
    Ø L層でのConditional Effectを集団全体に
    標準化(重み付け平均を計算)
    A Y
    L
    ! − !∗
    = H
    *
    !| = − !∗
    | = ∗ =
    = H
    *
    | = , = − | = ∗, = ∗ =

    View full-size slide

  89. 「因果効果への道」(Causal Roadmap)
    ステップ1︓
    どんな効果を知りたいのかを定義する
    (Causal Estimandの設定)
    ステップ2︓
    データから効果を知るための条件を考える
    (効果の識別, Identification)
    ステップ3︓
    実際にデータから求めたい値を計算する
    (推定, Estimation)
    89
    統計的因果推論の全体像
    “誰”における効果︖
    Marginal vs Conditional?
    Exchangeability?
    Conditional Exchangeability?
    なにに対するモデル︖
    モデルの誤設定︖

    View full-size slide

  90. Ø チェックポイント1︓⺟集団は︖
    Ø チェックポイント2︓Marginal? Conditional?
    90
    推定されているのは誰における効果︖
    曖昧に定義された
    ⺟集団
    サンプリングに基づく
    ⺟集団への推論
    Conditional Ø アウトカムモデル
    Ø 層化
    Marginal Ø RCT
    Ø (傾向スコア)マッチング
    Ø ⾃然実験(IVのCATEなど)
    Ø IPTW
    Ø g-formula
    Ø Lによる効果修飾
    Ø ⺟集団間の修飾因⼦の分布の違い
    Ø 推定値が⼀致しない(異なるクエスチョンに答えているだけ)
    Ø Kurth et al, AJE (2006)

    View full-size slide

  91. 91
    効果識別の仮定は︖
    Exchangeability Conditional Exchangeability
    仮定の実証不可能 Ø ⾃然実験 Ø アウトカムモデル
    Ø 層化
    Ø (傾向スコア)マッチング
    Ø IPTW
    Ø g-formula
    成⽴が確率的に期待 Ø RCT
    Ø ファンシーな⼿法でもExchangeabilityに対する仮定はアウトカムモデルと
    変わらず
    Ø Conditional Exchangeabilityが成⽴するための条件は統計的な基準(例︓変
    数間の関連の強さ)では知ることができない
    Ø 機械学習による⾃動化は厳しい
    Ø ドメイン知識に基づいた仮定(正しいことの証明不可能)
    Ø DAG︕
    Ø IPTW & g-formulaは時間によって変化するTreatmentの効果推定に応⽤可能

    View full-size slide

  92. 92
    効果識別の仮定は︖
    Positivityあり Positivity仮定
    Consistencyあり Ø RCT
    Consistency仮定 Ø (傾向スコア)マッチング Ø アウトカムモデル
    Ø 層化
    Ø IPTW
    Ø g-formula
    Ø RCTは実際に介⼊するのでConsistency成⽴が⾒込める
    Ø 事前のデザインの設定が悪い場合は成⽴しない(例︓薬剤の
    doseが指定されていない)
    Ø 観察データに基づく分析はill-defined treatmentに注意
    →詳しくはKRSKブログを確認︕
    Ø Positivityを保証するのがマッチングの強み

    View full-size slide

  93. 93
    何に対するモデル︖
    アウトカムモデル 曝露モデル
    RCT Ø なしでOK
    (モデル化することも)
    Ø なし
    傾向スコア
    マッチング
    Ø なし Ø 複雑
    Ø 誤設定チェック
    しやすい
    アウトカムモデル Ø 複雑 Ø なし
    IPTW Ø シンプル
    (Marginal Structural Model)
    Ø 複雑
    g-formula Ø 複雑(アウトカムモデル) Ø なし(Time-fixed exposure)
    Ø 異なるモデルの仮定
    Ø 仮定が違えば答えも違う
    Ø Saturated modelならIPTWとg-formulaの答えは完全に⼀致
    Ø Doubly Robust︓IPTWの曝露モデルとg-formulaのアウトカムモデ
    ルのどちらかが正しければOK

    View full-size slide

  94. 94
    因果推論におけるモデル作り
    Ø 多くの仮定をおいたパラメトリックモデルに依存
    Ø 機械学習が⼊ってきうるのはココ︕(識別ではなく推定)
    Ø 複数アルゴリズムを使った推定結果
    を併合(Superlearner)
    Ø Doubly Robust推定(TMLE)との併⽤
    Ø Schuler & Rose, AJE 2017
    応⽤例2︓Heterogenous Treatment Effect
    Ø パラメトリックアウトカムモデルによる
    Conditional Effectの推定には掛け算項が必要
    Ø 複雑・仮定の強いモデル
    Ø 機械学習的アプローチでより良いモデルを・・・
    Ø Wager & Athey, JASA 2017
    応⽤例1︓Ensemble Estimator

    View full-size slide

  95. 95
    因果推論における測定の重要性
    Ø データの質も考慮すべき
    Ø 「完璧なデータ」が因果推論に関する議論で仮定されている
    Ø Assuming no measurement error….
    1.「⾒たい概念」を測定できているか︖
    Ø 「肥満度」の指標としてのBMI
    Ø ウェアラブルデバイスによる「⾏動」
    Ø Validation研究の重要性
    Ø Random vs non-random
    Ø 曝露とアウトカムの関連の強さがゆがめられる
    Ø Residual confounding
    2. 測定誤差・誤分類はどの程度か︖どんなタイプか︖

    View full-size slide

  96. 96
    データのサイズと質
    Ø ビッグデータ時代
    Ø 質を無視すると⼤きいデータほどバイアスが増幅される可能性

    View full-size slide

  97. Ø Causal Estimandの設定、識別、推定の3ステップ
    Ø 識別はドメイン知識を⽤いて(⾃動化はできない)
    Ø ⼿法ごとに各ステップへのアプローチが異なる
    Ø 答えているクエスチョン(「誰における効果か︖」)や識別のため
    の仮定、推定に使われるモデル(およびその仮定)の違い
    Ø 異なるクエスチョンに答える⼿法同⼠は⽐較できない
    Ø パラメトリックモデルに依存した推定を機械学習で改善できる
    可能性あり
    Ø データの質にも注意︕
    97
    全体のまとめ

    View full-size slide