調整変数の選び方

因果推論における調整変数の選び⽅ KRSK (@koro485)

因果推論における⽐較可能性「治療Xが健康アウトカムYに与える影響は︖」例︓治療X受けている⼈ vs 治療Xを受けていない⼈ 2

「フェアな⽐較」の作り⽅ 1. 無作為化⽐較試験 (RCT) 2. ⾃然実験 3. デザイン・統計解析による”調整” 3 アウトカムに影響する患者背景が治療・曝露の有無以外同じ

デザイン・統計解析による調整 1. 患者属性の分布を揃える (例︓マッチング, 重み付け） 2. 患者属性が同じ集団に注⽬する(条件付け: conditioning） (例︓層化, ⼀般的な重回帰分析）
4 「調整」の⽅法に関わらず、フェアな⽐較をつくるために⼗分な患者属性の選択が必須条件。

5 なにを調整するか︖ 交絡因⼦の伝統的な定義: 1. 曝露と関連 2. 曝露を条件づけてもアウトカムと関連 3. 曝露効果の経路上にない（メカニズムでない） Directed
Acyclic Graph (DAG) によるモダンな定義問題点︓ 調整すべきでない要因を交絡因⼦としてしまう場合がある

6 X Y Ø 要因間の関係性を図で整理 Ø 点（Node)と⽮印（Edges)で構成 Ø 点は変数（アウトカムや曝露因⼦） Ø
⽮印は１⽅向のみ (Acyclic) Ø （左から右に時間が流れるように書くと読みやすい） Ø 直接⽮印で結ばれていると因果効果あり Ø 因果効果があるときは統計的な関連もあり DAGの原則

7 Ø ZはXとYの共通原因(Common Cause) Ø XとYの間に因果効果でない統計的関連（交絡）が⽣じる Ø X<- Z ->Yという裏⼝経路(Backdoor
Path) Ø Lを条件づける(四⾓で囲む）ことで裏⼝経路を閉じる X Y Z X Y Z DAGルール1︓ “共通の原因”による裏⼝経路

8 Ø CはXとUの共通効果(Common Effect; Collider) Ø X-Uの間の関連はそのままだと⽣じない Ø Cを条件づけるとX-Uの間に関連が⽣じる Ø
「Cの条件付け」＝Cの値が同じ⼈を対象に分析 Ø Collider Stratification Bias (a.k.a. 選択バイアス) Ø デザイン・解析で発⽣ Ø 選択バイアスは内的妥当性の問題 X Y C U DAGルール２︓“共通の効果”の条件付けによる裏⼝経路

9 Ø 離脱しなかったひとのみを分析（Cで条件付け） Ø コントロール群の⼈、抑うつレベルが⾼い⼈は離脱しやすい Ø コントロール群＆離脱しなかった⼈は抑うつレベルが特別低かった︖ Ø 介⼊群の⼈は少々抑うつレベルが⾼くても離脱しなかった︖ Ø
介⼊群はコントロール群より抑うつレベルが⾼い Ø 介⼊群のほうが⾝体的健康状態が悪く⾒える X︓ランダム割付された治療 C︓Loss-to-follow-up U︓抑うつレベル Y︓⾝体的健康状態 X Y C U 選択バイアスの例︓追跡の失敗

10 X Y C U (Hernan, et al 2004) (edX
Free Online Course by Hernan) 1. 追跡の失敗（Loss-to-follow-up) 2. 競合リスク（Competing Risk） 3. サンプリング⽅法 4. ⽋測データ（Missing Data） 5. ⾃⼰選択（Self-selection) બ୒όΠΞε͕ੜ͡ΔγφϦΦ 対象選択の条件が曝露・治療に影響を受けているか︖

11 Ø Mは曝露効果の中間因⼦・媒介因⼦(Mediator) Ø Mを条件づけるとX-Yの関連をブロック Ø Mを経由する間接効果をブロック Ø Mを経由しない直接効果の推定が可能 Ø
ただし媒介分析には注意が必要 Ø 過調整により全体効果は過⼩推定 X Y M DAGルール3︓中間因⼦を条件づけると過調整

12 モダンな”交絡因⼦”の定義 Z3 Z2 Z1 Ø X-Y間に開いた裏⼝経路を閉じるのに必要最⼩限な調整変数の組み合わせ Ø Z1 &Z3
またはZ2 &Z3 X Y C

伝統的な交絡因⼦の定義がうまくいかないケース 13 U2 Z U1 X Y Ø XとYの間に裏⼝経路はなし Ø
ZはU1 とU2 の共通効果 Ø 調整不要 Ø Zは・・・ Ø 曝露と関連 Ø 曝露を条件づけてもアウトカムと関連 Ø 曝露効果の経路上にない U2 Z U1 X Y Ø Zを調整すると選択バイアス Ø X-Y間の裏⼝経路が開く Ø Mバイアス

なにを調整すべきか︖ シンプソンのパラドックス (Simpson, 1951) 治療なし治療あり⽣存 6 20 死亡
6 20 ⼥性男性治療なし治療あり治療なし治療あり⽣存 4 8 2 12 死亡 3 5 3 15 治療あり︓20/40=0.5 治療なし︓6/12=0.5 治療あり︓5/13=0.38 治療なし︓3/7=0.43 治療あり︓15/27=0.56 治療なし︓3/5=0.6 男⼥合計で治療効果なし男⼥ともに治療効果ありどちらが正しい︖ 14

なにを調整すべきか︖ 性別治療死亡 • 男性のほうが治療をうけやすい • 男性のほうが死亡が多い • 「治療あり」グループは男性が多く、
死亡リスクが⾼い • 交絡 • 性別の調整が必要 • 男⼥別の結果が適切 15

再度シンプソンのパラドックス柄数字⾚⾊ 6 20 ⿊⾊ 6 20 汚れあり
汚れなし柄数字柄数字⾚⾊ 4 8 2 12 ⿊⾊ 3 5 3 15 数字︓20/40=0.5 柄︓6/12=0.5 数字︓5/13=0.38 柄︓3/7=0.43 数字︓15/27=0.56 柄︓3/5=0.6 柄カードも数字カードも⿊の割合は同じ柄カードで⿊⾊が多いどちらが正しい︖ 「⿊⾊の割合は柄と数字で違う︖」 16

なにを調整すべきか︖ 汚れ柄⾊ • 柄のほうが好き • ⾚⾊のほうが好き • 共通効果
• 選択バイアス • 汚れの調整は不要 • 合計データの結果が適切 17

汚れあり汚れなし柄数字柄数字⾚⾊ 4 8 2
12 ⿊⾊ 3 5 3 15 汚れ柄⾊⼥性男性治療なし治療あり治療なし治療あり⽣存 4 8 2 12 死亡 3 5 3 15 性別治療死亡同じデータでも適切な分析アプローチは違うデータの背後にある因果構造の知識が必要 18

19 DAGに基づく変数選択まとめ Ø データだけから統計的に判断することはできない Ø 「とりあえず全部つっこんでステップワイズ」はNG Ø ドメイン知識（医学知識・臨床経験・先⾏研究の知⾒）が必要交絡因⼦ X
Y Z 調整する調整しない X Y C U X Y M 共通効果中間因⼦

20 データドリブンな変数選択 Ø どれを調整すれば裏⼝経路を閉じれるか︖ Ø ドメイン知識 Ø 裏⼝経路を閉じれる調整変数セットを選んだ後 Ø そこから調整変数を減らす(Dimensionality
Reduction) Ø データドリブンな⼿法が存在 Ø 例︓Forward selection, Backward selection Ø 課題︓post-selection inference, p値に基づく取捨選択など Ø 機械学習を使ったモダンなアプローチも

21 実践的な調整変数選択アプローチ Ø 完全なDAGはわからない Ø 調整変数間の因果構造も知る必要がある Ø 関与する変数が多いと⼿に負えない Ø 仮定をの可視化、分析前のディスカッション・分析後の批判
的吟味の円滑化 X Y Z U 注意点１︓操作変数を調整しない X Y U Z 注意点２︓未測定交絡因⼦のプロキシは調整 Ø より実践的な変数選択 Ø 「交絡因⼦選択の原則」 (VanderWeele, 2019) Ø Disjunctive Cause Approach Ø 曝露またはアウトカムの決定要因を調整 Ø 必要なドメイン知識は少なくなる

22 変数の”タイミング”も重要 Ø 曝露・アウトカムが同じ時点 Ø 横断（cross-sectional）デザイン Ø 逆因果 ϕʔεϥΠϯલ ϕʔεϥΠϯ
ϑΥϩʔΞοϓ 調整変数曝露アウトカム Ø 曝露・調整変数が同じ時点 Ø 中間因⼦の過調整 Ø “No association after adjustment” ≠ No effect Ø 理想的には調整変数・曝露・アウトカムの測定タイミングをずらす Ø ３時点以上の追跡調査などが必要 Ø ベースライン前の曝露・アウトカム値は特に重要な調整因⼦ Ø 時点間の変動がある場合のみ

23 測定と交絡 Ø データ・測定は常に不完全 Ø 妥当性（⾒たい概念と測定が⼀致しているか） Ø 例︓発症vs診断, BMIvs肥満 Ø
信頼性（どのくらい真の値に近いか） Ø 例︓バイオマーカー Ø 交絡因⼦の測定が不完全な場合は残余交絡(residual confounding) Ø 正しく調整変数選択をしてもバイアスが⽣じる Ø 交絡因⼦のプロキシは「測定が不完全な交絡因⼦」とみなせる Ø 例︓所得レベルと⽣活保護の有無 X Y U Z

未測定交絡について Ø バイアスは「あり・なし」の2値ではない Ø 結論・意思決定が変わるかを定量的に議論 Ø 測定済み交絡の条件付き後のバイアス Ø ⼿法間の結果が⾷い違う Ø
バイアス︖「問い」の違い︖ Ø 両⽅正しい︖意思決定に役⽴つのはどっち︖ 24

25 未測定交絡バイアスの定量的考察 #1. E-value Ø VanderWeele and Ding, 2017 Ø
観察された関連がすべてバイアスで説明されるには調整済み交絡因⼦と独⽴してどのくらい強い未測定交絡が必要か #2. Bias parameter Ø 未測定交絡と曝露・アウトカムそれぞれの関連の強さを仮定 Ø ⽣じうるバイアスの⼤きさを定量化 Ø 様々な値でシミュレーション

「未測定交絡なし」の仮定の重⼤な違反がないかチェック Ø NEJM; Dickerman, et al (2022) Ø COVID-19ワクチンの効果評価 Ø
共変量のマッチング後は交絡がないという仮定 Ø 正しいという証明はできない 26 アプローチ１:初回接種後10⽇の発症アプローチ2︓⾮COVID-19関連死亡 Ø 理論上は差がなし(Negative control) Ø 群間差→患者背景の違いを⽰唆 Ø 仮定のfalsification (not verification)

27 本⽇のまとめ Ø ドメイン知識を使って因果構造を考える Ø DAG Ø Disjunctive cause approach
Ø 調整すべき因⼦は統計的に判断できない Ø 調整変数を減らすために⽤いることは可能 Ø 調整変数は曝露変数よりも前の時点から Ø 特にベースライン前の曝露・アウトカム値は重要な調整因⼦ Ø 測定の質と残余交絡にも注意 Ø バイアスは定量的に議論 Ø なにがすでに条件づけられているか︖ Ø 仮定のfalsificationはできるか︖

調整変数の選び方

調整変数の選び方

KRSK

More Decks by KRSK

Other Decks in Science

Featured

Transcript

因果推論における調整変数の選び⽅ KRSK (@koro485)

因果推論における⽐較可能性「治療Xが健康アウトカムYに与える影響は︖」例︓治療X受けている⼈ vs 治療Xを受けていない⼈ 2

「フェアな⽐較」の作り⽅ 1. 無作為化⽐較試験 (RCT) 2. ⾃然実験 3. デザイン・統計解析による”調整” 3 アウトカムに影響する患者背景が治療・曝露の有無以外同じ

デザイン・統計解析による調整 1. 患者属性の分布を揃える (例︓マッチング, 重み付け） 2. 患者属性が同じ集団に注⽬する(条件付け: conditioning） (例︓層化, ⼀般的な重回帰分析）

5 なにを調整するか︖ 交絡因⼦の伝統的な定義: 1. 曝露と関連 2. 曝露を条件づけてもアウトカムと関連 3. 曝露効果の経路上にない（メカニズムでない） Directed

6 X Y Ø 要因間の関係性を図で整理 Ø 点（Node)と⽮印（Edges)で構成 Ø 点は変数（アウトカムや曝露因⼦） Ø

7 Ø ZはXとYの共通原因(Common Cause) Ø XとYの間に因果効果でない統計的関連（交絡）が⽣じる Ø X<- Z ->Yという裏⼝経路(Backdoor

8 Ø CはXとUの共通効果(Common Effect; Collider) Ø X-Uの間の関連はそのままだと⽣じない Ø Cを条件づけるとX-Uの間に関連が⽣じる Ø

10 X Y C U (Hernan, et al 2004) (edX

11 Ø Mは曝露効果の中間因⼦・媒介因⼦(Mediator) Ø Mを条件づけるとX-Yの関連をブロック Ø Mを経由する間接効果をブロック Ø Mを経由しない直接効果の推定が可能 Ø

12 モダンな”交絡因⼦”の定義 Z3 Z2 Z1 Ø X-Y間に開いた裏⼝経路を閉じるのに必要最⼩限な調整変数の組み合わせ Ø Z1 &Z3

伝統的な交絡因⼦の定義がうまくいかないケース 13 U2 Z U1 X Y Ø XとYの間に裏⼝経路はなし Ø

なにを調整すべきか︖ シンプソンのパラドックス (Simpson, 1951) 治療なし治療あり⽣存 6 20 死亡

なにを調整すべきか︖ 性別治療死亡 • 男性のほうが治療をうけやすい • 男性のほうが死亡が多い • 「治療あり」グループは男性が多く、

再度シンプソンのパラドックス柄数字⾚⾊ 6 20 ⿊⾊ 6 20 汚れあり

なにを調整すべきか︖ 汚れ柄⾊ • 柄のほうが好き • ⾚⾊のほうが好き • 共通効果

汚れあり汚れなし柄数字柄数字⾚⾊ 4 8 2

19 DAGに基づく変数選択まとめ Ø データだけから統計的に判断することはできない Ø 「とりあえず全部つっこんでステップワイズ」はNG Ø ドメイン知識（医学知識・臨床経験・先⾏研究の知⾒）が必要交絡因⼦ X

20 データドリブンな変数選択 Ø どれを調整すれば裏⼝経路を閉じれるか︖ Ø ドメイン知識 Ø 裏⼝経路を閉じれる調整変数セットを選んだ後 Ø そこから調整変数を減らす(Dimensionality

21 実践的な調整変数選択アプローチ Ø 完全なDAGはわからない Ø 調整変数間の因果構造も知る必要がある Ø 関与する変数が多いと⼿に負えない Ø 仮定をの可視化、分析前のディスカッション・分析後の批判

22 変数の”タイミング”も重要 Ø 曝露・アウトカムが同じ時点 Ø 横断（cross-sectional）デザイン Ø 逆因果 ϕʔεϥΠϯલ ϕʔεϥΠϯ

23 測定と交絡 Ø データ・測定は常に不完全 Ø 妥当性（⾒たい概念と測定が⼀致しているか） Ø 例︓発症vs診断, BMIvs肥満 Ø

未測定交絡について Ø バイアスは「あり・なし」の2値ではない Ø 結論・意思決定が変わるかを定量的に議論 Ø 測定済み交絡の条件付き後のバイアス Ø ⼿法間の結果が⾷い違う Ø

25 未測定交絡バイアスの定量的考察 #1. E-value Ø VanderWeele and Ding, 2017 Ø

「未測定交絡なし」の仮定の重⼤な違反がないかチェック Ø NEJM; Dickerman, et al (2022) Ø COVID-19ワクチンの効果評価 Ø

27 本⽇のまとめ Ø ドメイン知識を使って因果構造を考える Ø DAG Ø Disjunctive cause approach