Upgrade to Pro — share decks privately, control downloads, hide ads and more …

傾向スコアの重み付け手法

akki-
July 12, 2024
86

 傾向スコアの重み付け手法

社内の勉強会で傾向スコアにおける重み付け手法の各種について説明した資料

akki-

July 12, 2024
Tweet

Transcript

  1. AI 2 自己紹介 GO株式会社 AI技術開発部 分析グループ / 秋月 達樹 工場勤務から海外駐在を経験したのち、人材事業と広告事業においてデータ分

    析や機械学習エンジニアリングを担当。 2021年4月にGO株式会社(旧・ Mobility Technologies)に中途入社しデータ分析を担当 ------------------------------------------ @akidukin
  2. AI 6 因果推論の根本問題により因果効果は不可知である そのため得られたデータを元に統計的に因果効果を推定する必要がある 統計的に因果推論をする場合、共変量の存在によりバイアスが発生することがある 無作為化比較試験(RCT)の場合は、共変量の影響が無作為化されるためバイアスは無視できる 因果推論におけるバイアスの発生 薬剤 投与 あり

    なし 病気の重篤度 低い 𝑋 𝑌 薬剤の投与 病気の治療 𝑇 病気の重篤度 15% 210/1400 30% 30/100 10% 5/50 20% 100/500 高い 16% 510/2400 19% 105/550 TOTAL 病気の重篤度毎にみると薬剤を投与した方が治療する確率が高い が、合計でみると薬剤を投与しない方が良い結果になっている 病気の重篤性が薬剤の投与と病気の治療に対して バイアスを発生させている
  3. AI 7 共変量によって引き起こされるバイアスは除去する必要がある 介入と結果に対して影響を与えると考えられる変数を調整(条件付け)する必要がある どの変数を調整するかは分析者の主観に基づき決められる バイアスを抑制する 薬剤 投与 あり なし

    病気の重篤度 低い 𝑋 𝑌 薬剤の投与 病気の治療 𝑇 病気の重篤度 15% 210/1400 30% 30/100 10% 5/50 20% 100/500 高い 19.4% 1450 2050 ×0.15 + 600 2050 ×0.3 12.9% 1450 2050 ×0.1 + 600 2050 ×0.2 TOTAL サンプル数 1450 600 2050 サンプル数で条件付けし、バイアスを除外する サンプル数で調整する事で X → 𝑇 に与えていた影 響を除外する事ができる
  4. AI 10 一般的に傾向スコアを利用する場合には5つの手順が推奨されている 傾向スコアを利用した因果効果の推定手順 https://www.jstage.jst.go.jp/article/ace/4/4/4_22013/_html/-char/en 1. モデルによる傾向スコアの 算出 2. 傾向スコアの分布の確認

    3. 推論手法の選択 (マッチングor重み付け..) 4. 共変量のバランス調査 5. 因果効果の推定 High overlap リサーチクエッション の再考 十分にバランスが 取れている バランスが取れて いない low overlap
  5. AI 11 傾向スコアを推定するために決められた統計モデルや機械学習モデルは存在しない ロジスティック回帰、RandomForest、BoostingTreeなど色々なものが使える 傾向スコアの精度を高くするのが目的ではなく推論時のバイアスを減らす事が目的 モデルの予測精度より、どの変数を含めた推定モデルを作るかの観点が必要 傾向スコアの推定 https://academic.oup.com/aje/article/163/12/1149/97130 𝑋1 𝑋2

    𝑋3 𝑇 介入変数 𝑌 結果変数 結果変数に影響を 与える共変量 両方に影響を与え る共変量 ※…他にも種類がありますが、本資料では説明しません。 絶対に利用する 利用しないとバイアスが除去できない 利用した方が良い 利用しなくてもバイアスは発生しないが𝑌の推定精度が上がる 利用しない方が良い 使ってもバイアスは発生しないが𝑌の推定精度が下がる 介入変数に影響を 与える共変量
  6. AI 12 得られた傾向スコアの値の分布の重複によって推定値の解釈が異なる 重複がない場合、雑にいうと比較対象となる群が全くないため因果推論は出来ない 別の手法を検討する必要があったり、そもそもの検証目的の変更が必要になる 傾向スコアの分布の確認 https://www.jstage.jst.go.jp/article/ace/4/4/4_22013/_html/-char/en Frequ ency 2群の傾向スコアの分布

    が一致している場合は ATEを推定できる 非介入群の一部が介入群 の分布と一致している場 合はATTが推定できる 2群の分布が一致してい ない場合、介入効果は推 定できない 介入群 非介入群 介入群 非介入群 介入群 非介入群 ※…ATEやATTについては今回の資料では説明しません。
  7. AI 13 一般的には傾向スコアを利用してマッチング、サブグループ解析または重み付けを行い 因果効果を推定する 傾向スコアを利用した因果効果の推定 https://www.jstage.jst.go.jp/article/ace/4/4/4_22013/_html/-char/en マッチング 傾向スコアを利用して介入群と非介入群をマッチングさせて因 果効果を推定する サブグループ解析

    傾向スコアを利用して幾つかのサブグループに分割し、サブグ ループ内の介入群と非介入群を比較し因果効果を推定する 重み付け 傾向スコアを利用して各サンプルに対して重みを付与し因果効 果を推定する
  8. AI 14 傾向スコアによる調整後に2群の間の共変量が揃っているかを確認する 共変量が揃っていない場合バイアスが残っている状態 揃っていない場合は、傾向スコアの推定モデルを修正(交互作用を含める等)する必要がある 共変量のバランス調査 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4626409/ 0 (SD) 𝑥"

    𝑥# 𝑥$ 𝑥% 調整前 調整後 𝑠𝑑 = |𝑋! − 𝑋" | 𝑠𝑑! # + 𝑠𝑑" # 2 𝑠𝑑 = |𝑝! − 𝑝" | 𝑝! (1 − 𝑝! ) + 𝑝" (1 − 𝑝" ) 2 最も推奨される共変量のバランス調査方法は標準 化差絶対値を共変量毎に出し比較する方法
  9. AI 16 マッチングやサブグループ解析ではサンプル数によって推定が難しい場合がある 共変量の次元が多い、介入が割り当てられたサンプル数がすくない 等 得られた傾向スコアの値を利用してサンプル毎に介入効果の推定時に重み付けを行う 傾向スコアを利用した重み付け 傾向スコア 𝒆 介入/非介入

    𝒕 50% 非介入 75% 介入 30% 非介入 10% 非介入 80% 介入 結果 𝒚 5 10 3 1 7 𝐴𝑇𝐸!"#$ = 1 𝑁 ( %&' ( 𝑡% 𝑒% 𝑦% − 1 𝑁 ( %&' ( 1 − 𝑡% 1 − 𝑒% 𝑦% 重み付けした結果を平均すると因 果効果が推定できる 推定因果効果 = 1.33 重み付け結果 𝑻𝑬𝑰𝑷𝑻𝑾 -10 13.3 -4.2 -1.1 8.7
  10. AI 17 介入サンプルに対しては傾向スコアが高く非介入サンプルに対しては低く算出される 傾向スコアを推定するモデルや仮説が正しい場合 傾向スコアの値に重み付けする事で影響度を調整する 重み付けによる効果推定の理解 Freaquency Propensity Score 介入群

    非介入群 両方のサンプルが重なりやすい場所に重み掛ける ※…重みの掛け方は種類によって異なる 非介入群に対しては介入群と重な りやすいスコアに重み付け 介入群に対しては非介入群と重な りやすいスコアに重み付け
  11. AI 18 得られた傾向スコア値を逆数に変換しサンプルに対して重み付けする手法 逆数を利用する為、得られた傾向スコアが極端な場合は推定効果の分散と信頼区間が極 端になる 極端な傾向スコアはTrimingしたりTruncationする必要がある IPTW(Inverse Probability Treatment Weights)

    https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8757413/ 傾向スコア 𝒆 介入/非介入 𝒕 50% 非介入 75% 介入 30% 非介入 10% 非介入 80% 介入 2 1.3 1.4 1.1 1.25 重み : 𝒕 𝒆 + 𝟏+𝒕 𝟏+𝒆 極端な重みが発生するためサンプ ルから除外するTrimingや Truncationする必要がある
  12. AI 19 得られた傾向スコアをオッズに変換しサンプルに対して重み付けする手法 IPTWと比較して原因(介入)が2値以外の場合でも利用する事ができる 得られた傾向スコアの分布が極端な場合は推定効果の分散と信頼区間が極端になる 極端な傾向スコアはTrimingしたりTruncationする必要がある SMRW(Standardised Mortality Ratio Weights)

    https://www.bmj.com/content/bmj/367/bmj.l5657.full.pdf 傾向スコア 𝒆 介入/非介入 𝒕 50% 非介入 75% 介入 30% 非介入 10% 非介入 80% 介入 1.0 1.0 0.4 0.1 1.0 重み : 𝐭 + 𝐞 𝟏+𝐭 𝟏+𝒆 極端な重みが発生するためサンプ ルから除外するTrimingや Truncationする必要がある
  13. AI 22 得られた傾向スコアでサブグループを作成しサブグループ毎に重みを設定する サブグループの数は分析者に依存する、推奨は10グループ 重みに傾向スコアは利用せず、サブグループ毎に含まれる2群のサンプル数を利用する 得られた傾向スコアの分布が極端、介入サンプル比率が低い場合でも有効になる FSW(Fine Stratification Weights) サンプル数

    𝒏𝟎 サンプル数 𝒏𝟏 100 10 80 15 60 20 40 25 20 30 𝟏𝟏𝟎 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟏𝟎 = 𝟐. 𝟕𝟓 重み サブ グループ 𝟎. 𝟎 ≤ 𝒆 < 𝟎. 𝟐 𝟎. 𝟐 ≤ 𝒆 < 𝟎. 𝟒 𝟎. 𝟒 ≤ 𝒆 < 𝟎. 𝟔 𝟎. 𝟔 ≤ 𝒆 < 𝟎. 𝟖 𝟎. 𝟖 ≤ 𝒆 ≤ 𝟏. 𝟎 300 100 Total 合計 𝑵 110 95 80 65 50 400 𝐍 𝑻𝒐𝒕𝒂𝒍𝒏𝟏 ÷ 𝑻𝒐𝒕𝒂𝒍𝑵 𝒏𝟏 𝟗𝟓 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟏𝟓 = 𝟏. 𝟓𝟖 𝟖𝟎 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟐𝟎 = 𝟏 𝟔𝟓 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟐𝟓 = 𝟎. 𝟔𝟓 𝟓𝟎 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟑𝟎 = 𝟎. 𝟒𝟏 https://www.bmj.com/content/bmj/367/bmj.l5657.full.pdf https://journals.lww.com/epidem/FullText/2017/03000/A_Propensity_score_based_Fine_Stratification.14.aspx
  14. AI 23 今回紹介した重み付けの手法は得られたサンプル数や傾向スコアの分布、得たい推定値 によって利用する方法を変える事が推奨される 重み付け手法のまとめ IPTW SMSW FSW MW OW

    計算される重み 得られる推定効果 𝒕 𝒆 + 𝟏 − 𝒕 𝟏 − 𝒆 𝐭 + 𝐞 𝟏 − 𝐭 𝟏 − 𝒆 𝐍 𝑻𝒐𝒕𝒂𝒍𝒏𝟏 ÷ 𝑻𝒐𝒕𝒂𝒍𝑵 𝒏𝟏 𝐦𝐢𝐧 𝐞, 𝟏 − 𝐞 𝒕𝒆 + (𝟏 − 𝒕)(𝟏 − 𝒆) 𝐭 𝟏 − 𝐞 + 𝟏 − 𝐭 𝐞 名称 逆確率 重み付け 標準化オッズ 重み付け マッチング 重み付け オーバーラップ 重み付け サブグループ 重み付け 全サンプルに おけるATE ATT 部分集合にお けるATE 重複サンプル におけるATE 全サンプルに おけるATE ま たは ATT 補足 母集団に対する 介入効果として 解釈できる 介入群に対する 介入効果として 解釈できる 2群のサンプル数と傾 向スコアの分布によっ て解釈が変わる。 傾向スコアの重複が 発生している部分に おける介入効果とし て解釈できる 推定方法によっ て解釈が変わる