Upgrade to Pro — share decks privately, control downloads, hide ads and more …

調整変数の選び方

KRSK
September 13, 2022

 調整変数の選び方

因果推論における調整変数の選び方に関するレクチャーです。

KRSK

September 13, 2022
Tweet

More Decks by KRSK

Other Decks in Science

Transcript

  1. 因果推論における調整変数の選び⽅
    KRSK (@koro485)

    View Slide

  2. 因果推論における⽐較可能性
    「治療Xが健康アウトカムYに与える影響は︖」
    例︓治療X受けている⼈ vs 治療Xを受けていない⼈
    2

    View Slide

  3. 「フェアな⽐較」の作り⽅
    1. 無作為化⽐較試験 (RCT)
    2. ⾃然実験
    3. デザイン・統計解析による”調整”
    3
    アウトカムに影響する患者背景が治療・曝露の有無以外同じ

    View Slide

  4. デザイン・統計解析による調整
    1. 患者属性の分布を揃える
    (例︓マッチング, 重み付け)
    2. 患者属性が同じ集団に注⽬する(条件付け: conditioning)
    (例︓層化, ⼀般的な重回帰分析)
    4
    「調整」の⽅法に関わらず、フェアな⽐較をつくる
    ために⼗分な患者属性の選択が必須条件。

    View Slide

  5. 5
    なにを調整するか︖
    交絡因⼦の伝統的な定義:
    1. 曝露と関連
    2. 曝露を条件づけてもアウトカムと関連
    3. 曝露効果の経路上にない(メカニズムでない)
    Directed Acyclic Graph (DAG) によるモダンな定義
    問題点︓
    調整すべきでない要因を交絡因⼦としてしまう場合がある

    View Slide

  6. 6
    X Y
    Ø 要因間の関係性を図で整理
    Ø 点(Node)と⽮印(Edges)で構成
    Ø 点は変数(アウトカムや曝露因⼦)
    Ø ⽮印は1⽅向のみ (Acyclic)
    Ø (左から右に時間が流れるように書くと読みやすい)
    Ø 直接⽮印で結ばれていると因果効果あり
    Ø 因果効果があるときは統計的な関連もあり
    DAGの原則

    View Slide

  7. 7
    Ø ZはXとYの共通原因(Common Cause)
    Ø XとYの間に因果効果でない統計的関連(交絡)が⽣じる
    Ø X<- Z ->Yという裏⼝経路(Backdoor Path)
    Ø Lを条件づける(四⾓で囲む)ことで裏⼝経路を閉じる
    X Y
    Z
    X Y
    Z
    DAGルール1︓ “共通の原因”による裏⼝経路

    View Slide

  8. 8
    Ø CはXとUの共通効果(Common Effect; Collider)
    Ø X-Uの間の関連はそのままだと⽣じない
    Ø Cを条件づけるとX-Uの間に関連が⽣じる
    Ø 「Cの条件付け」=Cの値が同じ⼈を対象に分析
    Ø Collider Stratification Bias (a.k.a. 選択バイアス)
    Ø デザイン・解析で発⽣
    Ø 選択バイアスは内的妥当性の問題
    X Y
    C
    U
    DAGルール2︓“共通の効果”の条件付けによる裏⼝経路

    View Slide

  9. 9
    Ø 離脱しなかったひとのみを分析(Cで条件付け)
    Ø コントロール群の⼈、抑うつレベルが⾼い⼈は離脱しやすい
    Ø コントロール群&離脱しなかった⼈は抑うつレベルが特別低かった︖
    Ø 介⼊群の⼈は少々抑うつレベルが⾼くても離脱しなかった︖
    Ø 介⼊群はコントロール群より抑うつレベルが⾼い
    Ø 介⼊群のほうが⾝体的健康状態が悪く⾒える
    X︓ランダム割付された治療
    C︓Loss-to-follow-up
    U︓抑うつレベル
    Y︓⾝体的健康状態
    X Y
    C
    U
    選択バイアスの例︓追跡の失敗

    View Slide

  10. 10
    X Y
    C
    U
    (Hernan, et al 2004) (edX Free Online Course by Hernan)
    1. 追跡の失敗(Loss-to-follow-up)
    2. 競合リスク(Competing Risk)
    3. サンプリング⽅法
    4. ⽋測データ(Missing Data)
    5. ⾃⼰選択(Self-selection)
    બ୒όΠΞε͕ੜ͡ΔγφϦΦ
    対象選択の条件が曝露・治療に影響を受けているか︖

    View Slide

  11. 11
    Ø Mは曝露効果の中間因⼦・媒介因⼦(Mediator)
    Ø Mを条件づけるとX-Yの関連をブロック
    Ø Mを経由する間接効果をブロック
    Ø Mを経由しない直接効果の推定が可能
    Ø ただし媒介分析には注意が必要
    Ø 過調整により全体効果は過⼩推定
    X Y
    M
    DAGルール3︓中間因⼦を条件づけると過調整

    View Slide

  12. 12
    モダンな”交絡因⼦”の定義
    Z3
    Z2
    Z1
    Ø X-Y間に開いた裏⼝経路を閉じるのに必要最⼩限な調整変数の組み合わせ
    Ø Z1
    &Z3
    またはZ2
    &Z3
    X Y
    C

    View Slide

  13. 伝統的な交絡因⼦の定義がうまくいかないケース
    13
    U2
    Z
    U1
    X Y
    Ø XとYの間に裏⼝経路はなし
    Ø ZはU1
    とU2
    の共通効果
    Ø 調整不要
    Ø Zは・・・
    Ø 曝露と関連
    Ø 曝露を条件づけてもアウトカムと関連
    Ø 曝露効果の経路上にない
    U2
    Z
    U1
    X Y
    Ø Zを調整すると選択バイアス
    Ø X-Y間の裏⼝経路が開く
    Ø Mバイアス

    View Slide

  14. なにを調整すべきか︖
    シンプソンのパラドックス (Simpson, 1951)
    治療なし 治療あり
    ⽣存 6 20
    死亡 6 20
    ⼥性 男性
    治療なし 治療あり 治療なし 治療あり
    ⽣存 4 8 2 12
    死亡 3 5 3 15
    治療あり︓20/40=0.5
    治療なし︓6/12=0.5 治療あり︓5/13=0.38
    治療なし︓3/7=0.43
    治療あり︓15/27=0.56
    治療なし︓3/5=0.6
    男⼥合計で治療効果なし 男⼥ともに治療効果あり
    どちらが正しい︖
    14

    View Slide

  15. なにを調整すべきか︖
    性別
    治療 死亡 • 男性のほうが治療をうけやすい
    • 男性のほうが死亡が多い
    • 「治療あり」グループは男性が多く、
    死亡リスクが⾼い
    • 交絡
    • 性別の調整が必要
    • 男⼥別の結果が適切
    15

    View Slide

  16. 再度シンプソンのパラドックス
    柄 数字
    ⾚⾊ 6 20
    ⿊⾊ 6 20
    汚れあり 汚れなし
    柄 数字 柄 数字
    ⾚⾊ 4 8 2 12
    ⿊⾊ 3 5 3 15
    数字︓20/40=0.5
    柄︓6/12=0.5 数字︓5/13=0.38
    柄︓3/7=0.43
    数字︓15/27=0.56
    柄︓3/5=0.6
    柄カードも数字カードも
    ⿊の割合は同じ
    柄カードで⿊⾊が多い
    どちらが正しい︖
    「⿊⾊の割合は柄と数字で違う︖」
    16

    View Slide

  17. なにを調整すべきか︖
    汚れ
    柄 ⾊ • 柄のほうが好き
    • ⾚⾊のほうが好き
    • 共通効果
    • 選択バイアス
    • 汚れの調整は不要
    • 合計データの結果が適切
    17

    View Slide

  18. 汚れあり 汚れなし
    柄 数字 柄 数字
    ⾚⾊ 4 8 2 12
    ⿊⾊ 3 5 3 15
    汚れ
    柄 ⾊
    ⼥性 男性
    治療なし 治療あり 治療なし 治療あり
    ⽣存 4 8 2 12
    死亡 3 5 3 15
    性別
    治療 死亡
    同じデータでも適切な分析アプローチは違う
    データの背後にある因果構造の知識が必要
    18

    View Slide

  19. 19
    DAGに基づく変数選択まとめ
    Ø データだけから統計的に判断することはできない
    Ø 「とりあえず全部つっこんでステップワイズ」はNG
    Ø ドメイン知識(医学知識・臨床経験・先⾏研究の知⾒)が必要
    交絡因⼦
    X Y
    Z
    調整する 調整しない
    X Y
    C
    U
    X Y
    M
    共通効果 中間因⼦

    View Slide

  20. 20
    データドリブンな変数選択
    Ø どれを調整すれば裏⼝経路を閉じれるか︖
    Ø ドメイン知識
    Ø 裏⼝経路を閉じれる調整変数セットを選んだ後
    Ø そこから調整変数を減らす(Dimensionality Reduction)
    Ø データドリブンな⼿法が存在
    Ø 例︓Forward selection, Backward selection
    Ø 課題︓post-selection inference, p値に基づく取捨選択など
    Ø 機械学習を使ったモダンなアプローチも

    View Slide

  21. 21
    実践的な調整変数選択アプローチ
    Ø 完全なDAGはわからない
    Ø 調整変数間の因果構造も知る必要がある
    Ø 関与する変数が多いと⼿に負えない
    Ø 仮定をの可視化、分析前のディスカッション・分析後の批判
    的吟味の円滑化
    X Y
    Z
    U
    注意点1︓操作変数を調整しない
    X Y
    U
    Z
    注意点2︓未測定交絡因⼦のプロキシは調整
    Ø より実践的な変数選択
    Ø 「交絡因⼦選択の原則」 (VanderWeele, 2019)
    Ø Disjunctive Cause Approach
    Ø 曝露またはアウトカムの決定要因を調整
    Ø 必要なドメイン知識は少なくなる

    View Slide

  22. 22
    変数の”タイミング”も重要
    Ø 曝露・アウトカムが同じ時点
    Ø 横断(cross-sectional)デザイン
    Ø 逆因果
    ϕʔεϥΠϯલ ϕʔεϥΠϯ ϑΥϩʔΞοϓ
    調整変数 曝露 アウトカム
    Ø 曝露・調整変数が同じ時点
    Ø 中間因⼦の過調整
    Ø “No association after adjustment” ≠ No effect
    Ø 理想的には調整変数・曝露・アウトカムの測定タイミングをずらす
    Ø 3時点以上の追跡調査などが必要
    Ø ベースライン前の曝露・アウトカム値は特に重要な調整因⼦
    Ø 時点間の変動がある場合のみ

    View Slide

  23. 23
    測定と交絡
    Ø データ・測定は常に不完全
    Ø 妥当性(⾒たい概念と測定が⼀致しているか)
    Ø 例︓発症vs診断, BMIvs肥満
    Ø 信頼性(どのくらい真の値に近いか)
    Ø 例︓バイオマーカー
    Ø 交絡因⼦の測定が不完全な場合は残余交絡(residual confounding)
    Ø 正しく調整変数選択をしてもバイアスが⽣じる
    Ø 交絡因⼦のプロキシは「測定が不完全な交絡因⼦」とみなせる
    Ø 例︓所得レベルと⽣活保護の有無
    X Y
    U
    Z

    View Slide

  24. 未測定交絡について
    Ø バイアスは「あり・なし」の2値ではない
    Ø 結論・意思決定が変わるかを定量的に議論
    Ø 測定済み交絡の条件付き後のバイアス
    Ø ⼿法間の結果が⾷い違う
    Ø バイアス︖「問い」の違い︖
    Ø 両⽅正しい︖意思決定に役⽴つのはどっち︖
    24

    View Slide

  25. 25
    未測定交絡バイアスの定量的考察
    #1. E-value
    Ø VanderWeele and Ding, 2017
    Ø 観察された関連がすべてバイアスで説明されるには調整済み交絡因⼦と独⽴して
    どのくらい強い未測定交絡が必要か
    #2. Bias parameter
    Ø 未測定交絡と曝露・アウトカムそれぞれの関連の強さを仮定
    Ø ⽣じうるバイアスの⼤きさを定量化
    Ø 様々な値でシミュレーション

    View Slide

  26. 「未測定交絡なし」の仮定の重⼤な違反がないかチェック
    Ø NEJM; Dickerman, et al (2022)
    Ø COVID-19ワクチンの効果評価
    Ø 共変量のマッチング後は交絡がないという仮定
    Ø 正しいという証明はできない
    26
    アプローチ1:初回接種後10⽇の発症 アプローチ2︓⾮COVID-19関連死亡
    Ø 理論上は差がなし(Negative control)
    Ø 群間差→患者背景の違いを⽰唆
    Ø 仮定のfalsification (not verification)

    View Slide

  27. 27
    本⽇のまとめ
    Ø ドメイン知識を使って因果構造を考える
    Ø DAG
    Ø Disjunctive cause approach
    Ø 調整すべき因⼦は統計的に判断できない
    Ø 調整変数を減らすために⽤いることは可能
    Ø 調整変数は曝露変数よりも前の時点から
    Ø 特にベースライン前の曝露・アウトカム値は重要な調整因⼦
    Ø 測定の質と残余交絡にも注意
    Ø バイアスは定量的に議論
    Ø なにがすでに条件づけられているか︖
    Ø 仮定のfalsificationはできるか︖

    View Slide