重回帰分析、標準化(g-formula/g-computation)、各種傾向スコアを用いた手法が推定しているもの、置いている仮定の違いなどについて説明しました。
⽇本疫学会プレセミナー2021第⼆部︓因果効果推定のための分析⼿法2021/01/27KRSK (@koro485)
View Slide
260分後の到達⽬標Ø 第⼀部で得たツールを使って、実際に「効果」を推定するための考え⽅を知るØ 回帰「モデル」の必要性を理解するØ 裏にある仮定を知るØ 重回帰分析、傾向スコア、重み付け・・・Ø なにが違ってなにが同じか理解するØ ⼿法によって推定値が異なるØ 理由を考えられるようになる
3AgendaØ 因果推論の全体像Ø モデルによる推定とは︖Ø モデルを⽤いた因果推論の⼿法1. (アウトカムに対する)重回帰分析2. 標準化3. 傾向スコア4. 逆確率重み付け5. Doubly-robust Estimation
4AgendaØ 因果推論の全体像Ø モデルによる推定とは︖Ø モデルを⽤いた因果推論の⼿法1. (アウトカムに対する)重回帰分析2. 標準化3. 傾向スコア4. 逆確率重み付け5. Doubly-robust Estimation
「因果効果への道」(Causal Roadmap)ステップ1︓どんな効果を知りたいのかを定義する(Causal Estimandの設定)ステップ2︓データから効果を知るための条件を考える(効果の識別, Identification)ステップ3︓実際にデータから求めたい値を計算する(推定, Estimation)5因果推論の全体像Marginal vs Conditional• Exchangeability→ DAG͕༗ޮͳπʔϧ
61. !"#| − !"$| (Causal Estimandの設定)2. | = 1, − | = 0, (効果の識別, Identification)3. 条件付き期待値 | = , をどうやって計算する︖Ø Lの値が同じ&A=aの⼈たちにおけるYの平均Ø ここから先は純粋に計算の問題(推定, Estimation)Conditional Effectの推定
7AgendaØ 因果推論の全体像Ø モデルによる推定とは︖Ø モデルを⽤いた因果推論の⼿法1. (アウトカムに対する)重回帰分析2. 標準化3. 傾向スコア4. 逆確率重み付け5. その他⾼度な⼿法
8A YLA︓⼆値変数(例︓服薬あり vs なし)L︓⼆値変数(例︓喫煙あり・なし)Y︓連続値(例︓⾎圧)Ø 1つの⼆値変数Lを条件づけるだけでConditionalExchangeabilityが得られる(≒交絡がない)という仮定Ø ⾮現実的な仮定(説明のためにここからはじめる)Ø | = , = がわかればよいØ シンプルに各層のYの平均値を計算Ø 全部で4パターンØ 因果効果の推定完了Ø 例︓L=1の層でのConditional EffectØ | = 1, = 1 − | = 0, = 1Ø 120-140 =-20A L 各層のYの平均0 0 1200 1 1401 0 1101 1 120条件付き期待値の推定︓シンプルなケース
9Ø | = , = の推定Ø 回帰分析は不要Ø 使うこともできるØ 回帰モデル︓ |, =!+ " + # + $ ∗ パターン A L 各層のYの平均 回帰分析による推定1 0 0 120 !2 0 1 140 !+ "3 1 0 110 !+ #4 1 1 120 !+ #+ "+ $完全に⼀致条件付き期待値の推定︓シンプルなケース
10Ø 回帰モデル︓ |, =!+ " + # + $ ∗ Ø 全4パターンの層に対して、 推定値は4つØ 各層の平均値を計算するのと全く同じØ Saturated “Model”Ø モデルの誤設定(Misspecification)がないパターン A L 各層のYの平均 回帰分析による推定1 0 0 120 !2 0 1 140 !+ "3 1 0 110 !+ #4 1 1 120 !+ #+ "+ $4つのを設定することで任意の値をとれる条件付き期待値の推定︓シンプルなケース
11Ø 回帰モデル︓ |, =!+ " + #Ø AとLの掛け算項がない(層の数 > モデルの推定値)Ø パターン1〜3が決まるとパターン4が決まるØ 制約のある推定Ø パラメトリックモデルØ モデルの仮定(後ほど詳しく)Ø モデルの誤設定Ø 条件付き期待値を正しく推定できない可能性パターン A L 各層のYの平均 回帰分析による推定1 0 0 120 !2 0 1 140 !+ "3 1 0 110 !+ #4 1 1 120 !+ #+ "⼀致しないことが多い条件付き期待値の推定︓シンプルなケース
12Ø (線形)回帰モデルを使うとは・・・Ø 変数間の関係性を単純化してYの条件付き期待値を推定Ø ロジスティック回帰の場合︓logit(Pr[Y=1|A,L])を推定Ø モデルの仮定Ø Saturated modelはモデルの誤設定の影響を受けないØ ではなぜパラメトリックモデルを使うのか︖回帰分析を使った条件付き期待値の推定
131. 次元の呪い(Curse of Dimensionality)Ø ⼆値変数AとL1を条件付け: 2*2 = 4通りの層Ø Lが10個: 2*210=2048通りの層Ø 組み合わせが多すぎるパラメトリックモデルを使う理由Ø A=5のデータは無いØ 連続変数がとりうる全ての値で層を考えるのは不可能2. 連続変数の条件付けØ [| = 5]
141. 掛け算項の消去Ø 例︓ |, ", #=!+ " + #"+ $#Ø A, L1, L2は⼆値変数Ø A*L1, A*L1, L1*L2, A*L1*L2が含まれていないØ 特にAを含む掛け算項の消去はConstant Effectを仮定パラメトリックモデルの仮定2. 連続変数に対するFunctional formØ 例︓ = !+ "Ø 線形性を仮定Ø 柔軟なFunctional formもØ ⼆次関数, Splineなど
15AgendaØ 因果推論の全体像Ø モデルによる推定とは︖Ø モデルを⽤いた因果推論の⼿法1. (アウトカムに対する)重回帰分析2. 標準化3. 傾向スコア4. 逆確率重み付け5. Doubly-robust Estimation
16重回帰分析A YLA YLØ Lの条件付け(Lの値が同じ集団を⾒る)に基づくØ 例︓ |, =!+ " + #Ø "はConditional EffectØ A*Lをモデルから除去(Lによる効果修飾がないという仮定)Ø (仮定が正しければ)Conditional = Marginal効果修飾をいれたモデルを使ってMarginal Effectを推定したい標準化
17Ø L層での効果(conditional effect)から任意の集団における効果を推定Ø 例︓対象集団全体における効果(marginal effect)Ø 効果を推定したい集団におけるL層の分布を使⽤A YL標準化 (g-formula/g-computation)A︓服薬あり vs なしL︓喫煙あり・なしY︓⾎圧Ø |, =!+ " + # + $ ∗ Ø L=0における効果: "Ø L=1における効果: "+ $Ø 全体の10%が喫煙者(L=1)だったら︖Ø 集団全体での効果:"∗ 0.9 + "+ $∗ 0.1
18標準化Ø が複数のときØ 例︓年齢・性別・喫煙を調整Ø = →「50歳男性喫煙者の集団」など ' − '∗= 5( '| = − '∗| = ∗ = = 5( | = , = − | = ∗, = ∗ = = における効果 標的集団における = の割合回帰モデルから得た = における効果の推定値
19標準化ID Y A L1 L21 94 1 1 32 90 0 1 4… … … …n 89 0 0 1例︓ |, =! + " + #" + $ ∗ "+ %#A L1 L2 ![| = , ]1 1 3 951 1 4 92… … …1 0 1 94A L1 L2 ![| = , ]0 1 3 890 1 4 91… … …0 0 1 87Step 1: 元データを使ったアウトカムモデルの推定Step 2: 元データの曝露の値を全員同じ値にしてモデルからアウトカムを予測Step 3: 予測値の平均=集団全体における潜在アウトカム期待値の推定値8[+]8[+]Step 4: 平均の差・⽐をとることで「効果」の定量化Step 5: ブートストラップでSE推定
20傾向スコア(Propensity Score)Ø = = Ø あるLの組み合わせの⼈が曝露をうける(A=1)確率Ø Lの条件付けでExchangeability→PSの条件付けでOKØ PSが同じ集団ではLの分布が等しい⾮曝露群曝露群⾮喫煙者喫煙者Ø 曝露群の⽅が喫煙者が多い(交絡)Ø PSが同じグループでは喫煙者の割合に群間差がないPSが同じ⼈たち
21傾向スコア(Propensity Score)Ø 傾向スコアの推定Ø 曝露に対するロジスティック回帰などØ 曝露モデルに対する仮定使い⽅2. アウトカムモデルで条件付けØ |, =!+ " + #Ø Lの代わりにPSを条件づけるØ PSのfunctional form&PSによる効果修飾に対するモデルの仮定Ø (PSが同じ⼈における)Conditional Effect使い⽅1. 層化(Stratification)Ø PSが似たような値をとる集団(層)内でアウトカム群間⽐較Ø (各PS層における)Conditional Effectではどのように「PSが同じ⼈たちの⽐較」をするか︖
22傾向スコア(Propensity Score)使い⽅3. マッチングØ PSが同じような曝露・⾮曝露の個⼈のペアを作るØ マッチされたサンプルではPSの”分布”が群間で同じになるØ vs. 条件付けØ マッチされたサンプル(が代表する集団)における(ある種のmarginalな)効果A YL
23逆確率重み付け(IPTW)A YLØ 傾向スコア(っぽいもの)を使った重み付けØ Pr = Ø A=0の⼈は Pr = 0 = 1 − Ø ウェイト︓ "./[1+'|3]または ./[1+']./[1+'|3]Ø コピー⼈間を作成&Pseudo-populationØ L→Aの⽮印が消える
24逆確率重み付け(IPTW)A YLØ Pseudo-populationでアウトカムモデルØ Lの条件付けは不要Ø 56| =!+ "Ø (⼆値曝露なら)モデルの誤設定なしØ Marginal Structural Modelのパラメータ推定Ø 標準誤差の過⼩推定に注意︕Ø ロバスト分散またはブートストラップØ 集団全体における効果(Marginal Effect)Ø ある変数Vによる効果修飾(V層のConditional Effect)も推定可能Ø ウェイト・アウトカムモデルにVが⼊る
25アウトカムモデル vs 傾向スコア1. モデルの設定Ø アウトカムvs曝露モデルØ PSは共変量バランスでモデルチェック可能Ø 係数の解釈が不要2. Positivity違反 (a.k.a., off-support)を予防Ø マッチングのペアなし、IPTWのSEが極端に⼤きい・・・Ø アウトカムモデルでは気づきにくい (model extrapolation)3. レアアウトカム (&⾮レア曝露)Ø たくさん共変量調整をしても推定が不安定にならない4. 誠実な解析Ø すべてのモデル作りの意思決定が終わった後にアウトカムの確認Ø P-hacking予防
26Doubly-robust EstimationØ 標準化・IPTW → どちらもmarginal effectを推定可能Ø 標準化︓アウトカムモデルØ IPTW︓曝露モデルØ モデルの誤設定がなければ⼀致Ø Doubly-robust EstimationØ アウトカムモデル・曝露モデルのどちらか少なくとも⼀⽅が正しければよいØ TMLEなど
27Ø 重回帰分析Ø 標準化Ø 傾向スコア(層化・調整・マッチング)Ø 逆確率重み付け(IPW)Step 1: Causal Estimand(誰における効果︖)Step 2: Identification(効果識別のための仮定)Step 3: Estimation(モデルの仮定)結局どれがいい︖もし異なる推定結果が得られたら︖「因果効果への道」(Causal Roadmap)
28曖昧に定義された⺟集団サンプリングに基づく⺟集団への推論Conditional Ø 重回帰分析Ø 傾向スコア(層化・調整)Marginal Ø RCTØ 傾向スコアマッチングØ IPTWØ g-formulaØ 調整変数による効果修飾があるか︖Ø ⺟集団間の修飾因⼦の分布の違いØ 推定値が⼀致しないØ 異なるクエスチョンに答えているだけØ Kurth et al, AJE (2006)Step1. 誰における効果︖Ø チェックポイント1︓⺟集団Ø チェックポイント2︓Marginal? Conditional?
29Exchangeability Conditional Exchangeability仮定の実証不可能 Ø 重回帰分析Ø 傾向スコアØ IPTWØ g-formula成⽴が確率的に期待 Ø RCTØ Exchangeabilityに対する仮定は全て同じØ 測定された調整変数を条件づけるとconditional exchangeability成⽴Ø ドメイン知識に基づいた仮定(正しいことの証明不可能)Ø DAGを使った仮定の可視化・議論Step2. 効果識別の仮定︖
30Positivityあり Positivity仮定Consistencyあり Ø RCTConsistency仮定 Ø 傾向スコアマッチング Ø 重回帰分析Ø 傾向スコア層化・調整Ø IPTWØ g-formulaØ RCTは実際に介⼊するのでConsistency成⽴が⾒込めるØ 事前のデザインが悪い場合は不成⽴(例︓薬剤のdoseが指定されていない)Ø 観察データに基づく分析はill-defined treatmentに注意→詳しくはKRSKブログを確認︕Ø Positivityを保証するのが傾向スコアマッチングの強みStep2. 効果識別の仮定︖
31アウトカムモデル 曝露モデルRCT Ø なし(モデル化することも) Ø なし重回帰分析 Ø あり Ø なし傾向スコア層化 Ø なし Ø あり傾向スコア調整 Ø シンプル(PSのみ調整) Ø あり傾向スコアマッチングØ なし Ø ありØ 誤設定チェックしやすいg-formula Ø あり Ø なしIPTW Ø シンプル(Marginal Structural Model) Ø ありØ 単時点での曝露の場合(vs. time-varying exposure)Ø 異なるモデルの仮定Ø 仮定が違えば答えも違うØ Saturated modelならIPTWとg-formulaの答えは完全に⼀致Step3. モデルの仮定
「因果効果への道」(Causal Roadmap)ステップ1︓どんな効果を知りたいのかを定義する(Causal Estimandの設定)ステップ2︓データから効果を知るための条件を考える(効果の識別, Identification)ステップ3︓実際にデータから求めたい値を計算する(推定, Estimation)32まとめØ 重回帰分析Ø 標準化Ø 傾向スコア(層化・調整・マッチング)Ø 逆確率重み付け(IPW)Ø Exchangeability, consistency, positivityØ Confounding, selection biasØ DAGØ ⺟集団Ø Marginal vs Conditional EffectØ 効果修飾1. “誰”における効果︖2. モデルの仮定︖