Slide 1

Slide 1 text

教科書が教えてくれない「交絡」の話 KRSK (@koro485)

Slide 2

Slide 2 text

因果推論における⽐較可能性 「治療Xが健康アウトカムYに与える影響は︖」 例︓治療X受けている⼈ vs 治療Xを受けていない⼈ 2

Slide 3

Slide 3 text

交絡(Confounding) X Y Z Ø 因果効果がなくても背景属性の違いに より統計的関連が⽣じる Ø 例︓飲酒とガン Ø 喫煙者(Z)ほど飲酒(X)が多い Ø 喫煙者ほどガン(Y)になりやすい Ø 共通原因によるバイアス 1. 無作為割り付け 2. ⾃然実験 3. デザイン・統計解析による調整 3

Slide 4

Slide 4 text

デザイン・統計解析による交絡の”調整” 1. 患者属性の分布を揃える (例︓マッチング, 重み付け) 2. 患者属性が同じ集団に注⽬する(条件付け: conditioning) (例︓層化, 限定, ⼀般的な重回帰分析) 4 ⼗分な患者属性の測定・調整が必須条件 仮定︓“調整済み”の患者属性を考慮するとバイアスがない Ø 条件付き交換可能性(Conditional Exchangeability) Ø a.k.a., 「未調整交絡なし(No unadjusted confounding)」 Ø 交絡以外のバイアスも含む(e.g., 選択バイアス) Ø Confounding vs Confounder どの属性︖

Slide 5

Slide 5 text

5 なにを調整するか︖ 交絡因⼦(Confounder)の伝統的な定義: 1. 曝露と関連 2. 曝露を条件づけてもアウトカムと関連 3. 曝露の効果の経路上にない(メカニズムでない) Directed Acyclic Graph (DAG) によるモダンな定義 問題点︓ 調整すべきでない要因を交絡因⼦としてしまう場合がある

Slide 6

Slide 6 text

6 X Y Ø 要因間の関係性を図で整理 Ø 点(Node)と⽮印(Edges)で構成 Ø 点は変数(アウトカムや曝露因⼦) Ø ⽮印は1⽅向のみ (Acyclic) Ø (左から右に時間が流れるように書くと読みやすい) Ø 直接⽮印で結ばれていると因果効果あり Ø 因果効果があるときは統計的な関連もあり DAGの原則 参考資料︓Glymour, M. Maria. "Using causal diagrams to understand common problems in social epidemiology." Methods in social epidemiology (2006): 393-428.

Slide 7

Slide 7 text

7 Ø ZはXとYの共通原因(Common Cause) Ø XとYの間に因果効果でない統計的関連(交絡)が⽣じる Ø X<- Z ->Yという裏⼝経路(Backdoor Path) Ø Lを条件づける(四⾓で囲む)ことで裏⼝経路を閉じる X Y Z X Y Z DAGルール1︓ “共通の原因”による裏⼝経路

Slide 8

Slide 8 text

8 Ø CはXとUの共通効果(Common Effect; Collider) Ø Xと未測定変数Uの間の関連はそのままだと⽣じない Ø Cを条件づけるとX-Uの間に関連が⽣じる Ø 「Cの条件付け」=Cの値が同じ⼈を対象に分析 Ø Collider Stratification Bias (a.k.a. 選択バイアス) Ø デザイン・解析で発⽣ Ø 選択バイアスは内的妥当性の問題 X Y C U DAGルール2︓“共通の効果”の条件付けによる裏⼝経路

Slide 9

Slide 9 text

9 X Y C U (Hernan, et al 2004) (edX Free Online Course by Hernan) 1. 追跡の失敗(Loss-to-follow-up) 2. 競合リスク(Competing Risk) 3. サンプリング⽅法 4. ⽋測データ(Missing Data) 5. ⾃⼰選択(Self-selection) બ୒όΠΞε͕ੜ͡ΔγφϦΦ 対象選択の条件が曝露・治療に影響を受けているか︖

Slide 10

Slide 10 text

10 Ø Mは曝露効果の中間因⼦・媒介因⼦(Mediator) Ø Mを条件づけるとX-Yの関連をブロック Ø Mを経由する間接効果をブロック Ø Mを経由しない直接効果の推定 Ø 過調整により全体効果は過⼩推定 Ø フォーマルな媒介分析には注意が必要 X Y M DAGルール3︓中間因⼦を条件づけると過調整

Slide 11

Slide 11 text

11 モダンな”交絡因⼦”の定義 Z3 Z2 Z1 Ø X-Y間に開いた裏⼝経路を閉じるのに必要最⼩限な調整変数の組み合わせ Ø Z1 &Z3 またはZ2 &Z3 X Y C

Slide 12

Slide 12 text

伝統的な交絡因⼦の定義がうまくいかないケース 12 U2 Z U1 X Y Ø XとYの間に裏⼝経路はなし Ø ZはU1 とU2 の共通効果 Ø 調整不要 Ø Zは・・・ Ø 曝露と関連 Ø 曝露を条件づけてもアウトカムと関連 Ø 曝露効果の経路上にない U2 Z U1 X Y Ø Zを調整すると選択バイアス Ø X-Y間の裏⼝経路が開く Ø Mバイアス

Slide 13

Slide 13 text

13 DAGに基づく変数選択まとめ Ø データだけから統計的に判断することはできない Ø 「とりあえず全部つっこんでステップワイズ」はNG Ø ドメイン知識(医学知識・臨床経験・先⾏研究の知⾒)が必要 交絡因⼦ X Y Z 調整する 調整しない X Y C U X Y M 共通効果 中間因⼦

Slide 14

Slide 14 text

14 実践的な調整変数選択アプローチ Ø 完全なDAGはわからない Ø 調整変数間の因果構造も知る必要がある Ø 関与する変数が多いと⼿に負えない Ø 仮定をの可視化、分析前のディスカッション・分析後の批判的吟味の円滑化 X Y Z U 注意点1︓操作変数を調整しない X Y U Z 注意点2︓未測定交絡因⼦のプロキシは調整 Ø より実践的な変数選択 Ø 「交絡因⼦選択の原則」 (VanderWeele, 2019) Ø Disjunctive Cause Criterion Ø 曝露またはアウトカムの決定要因を調整 Ø 必要なドメイン知識は少なくなる

Slide 15

Slide 15 text

15 変数の”タイミング”も重要 Ø 曝露・アウトカムが同じ時点 Ø 横断(cross-sectional)デザイン Ø 逆因果 Ø 曝露・調整変数が同じ時点 Ø 中間因⼦の過調整 Ø “No association after adjustment” ≠ No effect Ø 理想的には調整変数・曝露・アウトカムの測定タイミングをずらす Ø 3時点以上の追跡調査などが必要 Ø 時点が離れすぎると残余交絡 Ø ベースライン前の曝露・アウトカム値は特に重要な調整因⼦ ϕʔεϥΠϯલ ϕʔεϥΠϯ ϑΥϩʔΞοϓ 調整変数 曝露 アウトカム

Slide 16

Slide 16 text

16 Ø ベースライン前アウトカムY0 の調整の利点 1. 最も強い交絡因⼦(逆因果)の除外 Ø ベースライン前曝露X0 の調整の利点 1. 逆因果をさらに除外 2. 特定の未測定交絡因⼦Uの影響を除外 3. ”曝露のChange”として解釈可能 4. Prevalent-user biasの除外 ベースライン前の曝露・アウトカム調整の利点 X1 Y0 Y2 X0 U ϕʔεϥΠϯલ ϕʔεϥΠϯ ϑΥϩʔΞοϓ Modified Figure 1 in VanderWeele, Mathur, and Chen 2020

Slide 17

Slide 17 text

Prevalent user bias 1. 現在の曝露状況の効果に関⼼がある(X1 =0 vs X1 =1) 2. 曝露⾃体はもっと前の時点から始まっている (e.g, X0 ) 3. X0 によって時点1データの⽋落(C)確率が変わる Ø 例︓もともと曝露の⼈は前の時点で死亡しやすい 4. C と Yの間に未測定の共通原因 (U) X1 Y L X0 C U 17 Ø時点1まで⽣存&データが取れた⼈ (C=0) において X1 を⽐較 Ø選択バイアス Øベースライン前曝露X0 の調整で対処

Slide 18

Slide 18 text

18 ベースライン前の曝露・アウトカム調整の注意点 Ø 時点間の変動がない場合 1. Near-perfect multicollinearity Ø 調整不可能 2. 適切な問いか︖ Ø 介⼊可能性 Ø 例︓⼈種 Ø 選択バイアス Ø 例︓Chronic condition X 1 Y L X 0 C U ベースライン前 ベースライン Ø ベースライン前調整がそもそも不要なときも Ø 例︓震災経験

Slide 19

Slide 19 text

19 Ø 多重共線性(Multicollinearity) Ø 回帰モデルの説明変数間の相関で⽣じる Ø (なんとなく)避けた⽅がいいもの 多重共線性は問題か︖ Ø 多重共線性について知っておくべきこと Ø 推定のバイアスではなく精度に影響 Ø 標準誤差が増⼤ Ø Perfect collinearityではエラー Ø 2つのポイント 1. 相関の強さに依存 Ø 極端に強い相関でなければサンプルサイズで克服 2. 曝露変数と相関があるか︖ Ø 調整変数間の相関は致命的ではないことが多い

Slide 20

Slide 20 text

20 測定と交絡 Ø データ・測定は常に不完全 Ø 妥当性(⾒たい概念と測定が⼀致しているか) Ø 例︓発症vs診断, BMIvs肥満 Ø 信頼性(どのくらい真の値に近いか) Ø 例︓バイオマーカー Ø 交絡因⼦の測定が不完全な場合は残余交絡(residual confounding) Ø 正しく調整変数選択をしてもバイアスが⽣じる Ø 交絡因⼦のプロキシは「測定が不完全な交絡因⼦」とみなせる Ø 例︓所得レベルと⽣活保護の有無 X Y U Z

Slide 21

Slide 21 text

21 バイアスと分散 Ø 調整変数候補が⼤量にある Ø Principles of confounder selection Ø 時点の確認 Ø 明らかなcollider, 操作変数の除外 Ø ある程度条件づければバイアス減のゲインは 少なくなる︖(後述) Ø アウトカムが稀/サンプルサイズが⼩さいとき Ø 過剰な調整 Ø 分散増⼤(wide 95% CI & large p-value) Ø データドリブンな変数選択 Ø 最初の調整変数候補セットはドメイン知識で Ø 課題︓post-selection inference, p値に基づく取捨選択など Ø 稀でない曝露 Ø 傾向スコアによる次元縮約

Slide 22

Slide 22 text

22 実践的な変数選択まとめ 1. まずは時点の差(temporality)の確保 Ø ベースライン前データがそもそもない場合は限界として認識 2. Disjunctive cause criterionに基づきベースライン前の調整変数選択 Ø 理論的にはベースライン後の変数でも交絡因⼦になりうる Ø ベースライン前変数でも調整するとM-biasを起こしうる Ø 現実にはこれらの変数は明確にはわからない Ø そのほかの変数を条件づけるとそれほど問題でもない︖ Ø 時間差が⼤きい場合は曝露・調整変数の同時点調整の感度分析 Principles of Confounder Selection

Slide 23

Slide 23 text

「未調整交絡なし」の仮定は成⽴しない Ø 質のよいデータ&Principles of confounder selection Ø 観察データ分析では必ず未調整交絡あり Ø 観察データの因果推論はオワコン︖ 23 Ø バイアスは「あり・なし」の2値ではない Ø 結論・意思決定が変わるかを議論 Ø バイアスの⽅向性 Ø バイアスの⼤きさ Ø 調整済み交絡を条件付け後に残るバイアス Ø 定量的な感度分析

Slide 24

Slide 24 text

24 未調整交絡バイアスの⽅向性は︖ 観測死亡リスク⽐ 1 1.2 0.8 死にやすい 死ににくい Null⽅向のバイアス 曝露群の⽅が死亡リスクの 低い属性 曝露群の⽅が死亡リスクの ⾼い属性 より正しい 死亡リスク⽐ 1 1.3 0.7 もっと死にやすい もっと死ににくい 結論は⼤きくかわらない 未調整交絡バイアスあり もし調整できていたら

Slide 25

Slide 25 text

25 E-value【概念】 Ø 観察された関連がすべてバイアスで説明されるには調整済み交絡因⼦と独⽴して どのくらい強い未調整交絡が必要か Ø U-X, U-Yの関連はどれくらい強い必要があるか︖ Ø 交絡因⼦をCを調整後のX-Y関連はリスク⽐=2.0 (95%CI: 1.5-2.5) Ø E-value (点推定値)= RR + sqrt[RR*(RR-1)] = 2 +sqrt(2*1) = 3.4 Ø 未調整交絡因⼦Uと曝露X・アウトカムYの関連が Ø Cを調整したうえで Ø どちらもリスク⽐で3.4だったら Ø リスク⽐2.0を交絡Uで説明できうる Ø これより弱い交絡では説明できない Ø E-valueが⼤きいほどロバスト X Y U C

Slide 26

Slide 26 text

26 Ø 解釈は「E-valueより強く関連していないと 説明できない」ではない Ø 曝露の関連RRUX がE-valueより⼩さい場合 Ø RRUY はE-valueより強い必要あり Ø ただし𝑅𝑅!" > 2 & 𝑅𝑅!# > 2 Ø Cornfield condition Ø E-valueは保守的 Ø 分布に対する仮定なし Ø “Minimum strength” of RRUY and RRUX Ø 本当はもっと強くないといけない︖ E-value【解釈】

Slide 27

Slide 27 text

27 E-value【実践】 Ø E-valueが”⼤きい”とどう判断︖ Ø コンテクスト依存 Ø 調整済み交絡とアウトカムのConditional association Ø 曝露と調整済み交絡のConditional association Ø 合わせて⽰すことも Ø E-valueの計算について知っておくべきこと Ø 点推定値だけでなくConfidence limitにも計算できる Ø リスク⽐さえわかれば公式⾃体は単純 Ø ⼆値アウトカム Ø リスク⽐>1 Ø その他のケースで使える変換公式が存在 (VanderWeele, 2017) Ø オンラインツール(https://www.evalue-calculator.com/) Ø Rパッケージ (EValue)

Slide 28

Slide 28 text

28 E-value【実践】

Slide 29

Slide 29 text

29 バイアスパラメーターを⽤いた感度分析 Ø 未調整交絡と曝露・アウトカムそれぞれの関連の強さなどを仮定 Ø ⽣じうるバイアスの⼤きさを定量化 Ø 様々なパラメーター値でシミュレーション Ø より柔軟 Inoue, K., Haseda, M., Shiba, K., Tsuji, T., Kondo, K. and Kondo, N., 2022. Social Isolation and Depressive Symptoms Among Older Adults: A Multiple Bias Analysis Using a Longitudinal Study in Japan. Annals of Epidemiology (2022).

Slide 30

Slide 30 text

「未調整交絡なし」の仮定の重⼤な違反がないかチェック Ø NEJM; Dickerman, et al (2022) Ø COVID-19ワクチンの効果評価 Ø 共変量のマッチング後は交絡がないという仮定 Ø 正しいという証明はできない 30 アプローチ1:初回接種後10⽇の発症 アプローチ2︓⾮COVID-19関連死亡 Ø 理論上は差がなし(Negative control) Ø 群間差→患者背景の違いを⽰唆 Ø 仮定のfalsification (not verification)

Slide 31

Slide 31 text

31 本⽇のまとめ Ø ドメイン知識を使って因果構造を考える Ø 完璧なDAGを描くのは難しい Ø Principles of confounder selection Ø Disjunctive cause criterion Ø 調整変数は曝露変数よりも前の時点から Ø 特にベースライン前曝露・アウトカムは重要 Ø 未調整交絡バイアスの議論 Ø なにがすでに条件づけられているか︖ Ø バイアスの⽅向は︖ Ø 定量的に検討 1. どれくらい強い未調整交絡なら結果を説明できるか︖ 2. 特定の強さの未調整交絡で⽣じるバイアスはどの程度か︖ 3. ⼤きな未調整交絡があることを⽰せるか︖

Slide 32

Slide 32 text

32 (補⾜)回帰係数の変化に注⽬しても意味がない Ø 調整の有無で係数が変化するかを⾒て変数選択 Ø “Change in estimate approach” Ø 変わるなら交絡因⼦として調整 Ø 絶対ダメ Ø 回帰係数が変わる理由 Ø 交絡 Ø 調整すべきでない変数によるバイアス Ø 中間因⼦, 共通効果 Ø Non-collapsibility (e.g., オッズ⽐, ハザード⽐) Ø 推定精度の変化 ドメイン知識で変数間の関係性を考える

Slide 33

Slide 33 text

33 (補⾜)中間因⼦の調整は必ずしも過⼩推定につながらない X Y M U X Y M Ø 直接効果 Ø 全体効果の過⼩推定 Ø 直接効果+選択バイアス Ø MとYの交絡Uを経由する選択バイアス Ø 全体効果の過⼩・過⼤推定 Ø 直接効果の推定にもバイアス Ø 媒介分析としても不適切 XがYに与える効果の推定でMを調整すると・・・ 全体効果の推定をしたいなら中間因⼦は調整すべきでない