傾向スコアの重み付け手法

AI 2024.07.04 秋月達樹株式会社ディー・エヌ・エー＋ GO株式会社傾向スコアの重み付け手法について

AI 2 自己紹介 GO株式会社 AI技術開発部分析グループ / 秋月達樹工場勤務から海外駐在を経験したのち、人材事業と広告事業においてデータ分
析や機械学習エンジニアリングを担当。 2021年4月にGO株式会社（旧・ Mobility Technologies）に中途入社しデータ分析を担当 ------------------------------------------ @akidukin

AI 3 項目 01｜因果推論と傾向スコア 02｜傾向スコアを使った因果推論 03｜重み付け手法の紹介 04｜まとめ

AI 4 因果推論と傾向スコア

AI 5 n 2つの要素で片方が原因であり片方が結果である状態を因果関係があると言う n 原因の事を介入と呼ばれることもある n これらの因果関係について影響の大きさを推論することを因果推論と呼ぶ因果推論について 𝑇
𝑌 薬剤の投与(原因)は病気の治療(結果)に因果関係があるこの時の薬剤の投与が与える影響の大きさを推定する薬剤の投与病気の治療

AI 6 因果推論の根本問題により因果効果は不可知であるそのため得られたデータを元に統計的に因果効果を推定する必要がある統計的に因果推論をする場合、共変量の存在によりバイアスが発生することがある無作為化比較試験(RCT)の場合は、共変量の影響が無作為化されるためバイアスは無視できる因果推論におけるバイアスの発生薬剤投与あり
なし病気の重篤度低い 𝑋 𝑌 薬剤の投与病気の治療 𝑇 病気の重篤度 15% 210/1400 30% 30/100 10% 5/50 20% 100/500 高い 16% 510/2400 19% 105/550 TOTAL 病気の重篤度毎にみると薬剤を投与した方が治療する確率が高いが、合計でみると薬剤を投与しない方が良い結果になっている病気の重篤性が薬剤の投与と病気の治療に対してバイアスを発生させている

AI 7 共変量によって引き起こされるバイアスは除去する必要がある介入と結果に対して影響を与えると考えられる変数を調整(条件付け)する必要があるどの変数を調整するかは分析者の主観に基づき決められるバイアスを抑制する薬剤投与ありなし
病気の重篤度低い 𝑋 𝑌 薬剤の投与病気の治療 𝑇 病気の重篤度 15% 210/1400 30% 30/100 10% 5/50 20% 100/500 高い 19.4% 1450 2050 ×0.15 + 600 2050 ×0.3 12.9% 1450 2050 ×0.1 + 600 2050 ×0.2 TOTAL サンプル数 1450 600 2050 サンプル数で条件付けし、バイアスを除外するサンプル数で調整する事で X → 𝑇 に与えていた影響を除外する事ができる

AI 8 バイアスの除去は共変量の次元が増えるほど難しくなる条件付け後に一致するサンプル数が少なくなってしまうその問題を解決する手法の一つに傾向スコアが挙げられる介入が割り当てられる確率を共変量から推定し、推定値を元に因果推論を行う手法傾向スコアとは共変量𝒙 介入𝒕 介入
非介入結果𝒚 共変量𝒙 介入𝒕 介入非介入結果𝒚 傾向スコア𝒆 𝑒! = 𝑝 𝑧! = 1 𝑥! (ただし 0 ≤ 𝑒! ≤ 1)

AI 9 傾向スコアを使った因果推論

AI 10 一般的に傾向スコアを利用する場合には5つの手順が推奨されている傾向スコアを利用した因果効果の推定手順 https://www.jstage.jst.go.jp/article/ace/4/4/4_22013/_html/-char/en 1. モデルによる傾向スコアの算出 2. 傾向スコアの分布の確認
3. 推論手法の選択 (マッチングor重み付け..) 4. 共変量のバランス調査 5. 因果効果の推定 High overlap リサーチクエッションの再考十分にバランスが取れているバランスが取れていない low overlap

AI 11 傾向スコアを推定するために決められた統計モデルや機械学習モデルは存在しないロジスティック回帰、RandomForest、BoostingTreeなど色々なものが使える傾向スコアの精度を高くするのが目的ではなく推論時のバイアスを減らす事が目的モデルの予測精度より、どの変数を含めた推定モデルを作るかの観点が必要傾向スコアの推定 https://academic.oup.com/aje/article/163/12/1149/97130 𝑋1 𝑋2
𝑋3 𝑇 介入変数 𝑌 結果変数結果変数に影響を与える共変量両方に影響を与える共変量 ※…他にも種類がありますが、本資料では説明しません。絶対に利用する利用しないとバイアスが除去できない利用した方が良い利用しなくてもバイアスは発生しないが𝑌の推定精度が上がる利用しない方が良い使ってもバイアスは発生しないが𝑌の推定精度が下がる介入変数に影響を与える共変量

AI 12 得られた傾向スコアの値の分布の重複によって推定値の解釈が異なる重複がない場合、雑にいうと比較対象となる群が全くないため因果推論は出来ない別の手法を検討する必要があったり、そもそもの検証目的の変更が必要になる傾向スコアの分布の確認 https://www.jstage.jst.go.jp/article/ace/4/4/4_22013/_html/-char/en Frequ ency 2群の傾向スコアの分布
が一致している場合は ATEを推定できる非介入群の一部が介入群の分布と一致している場合はATTが推定できる 2群の分布が一致していない場合、介入効果は推定できない介入群非介入群介入群非介入群介入群非介入群 ※…ATEやATTについては今回の資料では説明しません。

AI 13 一般的には傾向スコアを利用してマッチング、サブグループ解析または重み付けを行い因果効果を推定する傾向スコアを利用した因果効果の推定 https://www.jstage.jst.go.jp/article/ace/4/4/4_22013/_html/-char/en マッチング傾向スコアを利用して介入群と非介入群をマッチングさせて因果効果を推定するサブグループ解析
傾向スコアを利用して幾つかのサブグループに分割し、サブグループ内の介入群と非介入群を比較し因果効果を推定する重み付け傾向スコアを利用して各サンプルに対して重みを付与し因果効果を推定する

AI 14 傾向スコアによる調整後に2群の間の共変量が揃っているかを確認する共変量が揃っていない場合バイアスが残っている状態揃っていない場合は、傾向スコアの推定モデルを修正(交互作用を含める等)する必要がある共変量のバランス調査 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4626409/ 0 (SD) 𝑥"
𝑥# 𝑥$ 𝑥% 調整前調整後 𝑠𝑑 = |𝑋! − 𝑋" | 𝑠𝑑! # + 𝑠𝑑" # 2 𝑠𝑑 = |𝑝! − 𝑝" | 𝑝! (1 − 𝑝! ) + 𝑝" (1 − 𝑝" ) 2 最も推奨される共変量のバランス調査方法は標準化差絶対値を共変量毎に出し比較する方法

AI 15 重み付け手法の紹介

AI 16 マッチングやサブグループ解析ではサンプル数によって推定が難しい場合がある共変量の次元が多い、介入が割り当てられたサンプル数がすくない等得られた傾向スコアの値を利用してサンプル毎に介入効果の推定時に重み付けを行う傾向スコアを利用した重み付け傾向スコア 𝒆 介入/非介入
𝒕 50% 非介入 75% 介入 30% 非介入 10% 非介入 80% 介入結果 𝒚 5 10 3 1 7 𝐴𝑇𝐸!"#$ = 1 𝑁 ( %&' ( 𝑡% 𝑒% 𝑦% − 1 𝑁 ( %&' ( 1 − 𝑡% 1 − 𝑒% 𝑦% 重み付けした結果を平均すると因果効果が推定できる推定因果効果 = 1.33 重み付け結果 𝑻𝑬𝑰𝑷𝑻𝑾 -10 13.3 -4.2 -1.1 8.7

AI 17 介入サンプルに対しては傾向スコアが高く非介入サンプルに対しては低く算出される傾向スコアを推定するモデルや仮説が正しい場合傾向スコアの値に重み付けする事で影響度を調整する重み付けによる効果推定の理解 Freaquency Propensity Score 介入群
非介入群両方のサンプルが重なりやすい場所に重み掛ける ※…重みの掛け方は種類によって異なる非介入群に対しては介入群と重なりやすいスコアに重み付け介入群に対しては非介入群と重なりやすいスコアに重み付け

AI 18 得られた傾向スコア値を逆数に変換しサンプルに対して重み付けする手法逆数を利用する為、得られた傾向スコアが極端な場合は推定効果の分散と信頼区間が極端になる極端な傾向スコアはTrimingしたりTruncationする必要がある IPTW(Inverse Probability Treatment Weights)
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8757413/ 傾向スコア 𝒆 介入/非介入 𝒕 50% 非介入 75% 介入 30% 非介入 10% 非介入 80% 介入 2 1.3 1.4 1.1 1.25 重み : 𝒕 𝒆 + 𝟏+𝒕 𝟏+𝒆 極端な重みが発生するためサンプルから除外するTrimingや Truncationする必要がある

AI 19 得られた傾向スコアをオッズに変換しサンプルに対して重み付けする手法 IPTWと比較して原因(介入)が2値以外の場合でも利用する事ができる得られた傾向スコアの分布が極端な場合は推定効果の分散と信頼区間が極端になる極端な傾向スコアはTrimingしたりTruncationする必要がある SMRW(Standardised Mortality Ratio Weights)
https://www.bmj.com/content/bmj/367/bmj.l5657.full.pdf 傾向スコア 𝒆 介入/非介入 𝒕 50% 非介入 75% 介入 30% 非介入 10% 非介入 80% 介入 1.0 1.0 0.4 0.1 1.0 重み : 𝐭 + 𝐞 𝟏+𝐭 𝟏+𝒆 極端な重みが発生するためサンプルから除外するTrimingや Truncationする必要がある

AI 20 得られた傾向スコアを0~1の範囲の重みに変換しサンプルに対して重み付けする手法極端な重みが制限され傾向スコアのTrimingが必要なくなる介入群とコントロール群の比率が類似する時の推定値はATEに近く、類似しない場合の推定値はATTに近くなる MW(Matching Weights) https://www.bmj.com/content/bmj/367/bmj.l5657.full.pdf 傾向スコア
𝒆 介入/非介入 𝒕 50% 非介入 75% 介入 30% 非介入 10% 非介入 80% 介入 1.0 0.3 0.4 0.1 0.2 重み : 𝐦𝐢𝐧 𝐞,𝟏+𝐞 𝒕𝒆2(𝟏+𝒕)(𝟏+𝒆)

AI 21 得られた傾向スコアから逆の群に属する確率を利用しサンプルに対し重み付けする手法傾向スコアによる重み付け手法の中では最も分散が低くなる極端な重みが制限され傾向スコアのTrimingが必要なくなる重み付けの特性上共変量バランスが均一になる OW(Overlap Weights) https://www.bmj.com/content/bmj/367/bmj.l5657.full.pdf 傾向スコア
𝒆 介入/非介入 𝒕 50% 非介入 75% 介入 30% 非介入 10% 非介入 80% 介入 0.5 0.25 0.3 0.1 0.2 重み : 𝐭 𝟏 − 𝐞 + 𝟏 − 𝐭 𝐞

AI 22 得られた傾向スコアでサブグループを作成しサブグループ毎に重みを設定するサブグループの数は分析者に依存する、推奨は10グループ重みに傾向スコアは利用せず、サブグループ毎に含まれる2群のサンプル数を利用する得られた傾向スコアの分布が極端、介入サンプル比率が低い場合でも有効になる FSW(Fine Stratification Weights) サンプル数
𝒏𝟎 サンプル数 𝒏𝟏 100 10 80 15 60 20 40 25 20 30 𝟏𝟏𝟎 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟏𝟎 = 𝟐. 𝟕𝟓 重みサブグループ 𝟎. 𝟎 ≤ 𝒆 < 𝟎. 𝟐 𝟎. 𝟐 ≤ 𝒆 < 𝟎. 𝟒 𝟎. 𝟒 ≤ 𝒆 < 𝟎. 𝟔 𝟎. 𝟔 ≤ 𝒆 < 𝟎. 𝟖 𝟎. 𝟖 ≤ 𝒆 ≤ 𝟏. 𝟎 300 100 Total 合計 𝑵 110 95 80 65 50 400 𝐍 𝑻𝒐𝒕𝒂𝒍𝒏𝟏 ÷ 𝑻𝒐𝒕𝒂𝒍𝑵 𝒏𝟏 𝟗𝟓 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟏𝟓 = 𝟏. 𝟓𝟖 𝟖𝟎 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟐𝟎 = 𝟏 𝟔𝟓 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟐𝟓 = 𝟎. 𝟔𝟓 𝟓𝟎 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟑𝟎 = 𝟎. 𝟒𝟏 https://www.bmj.com/content/bmj/367/bmj.l5657.full.pdf https://journals.lww.com/epidem/FullText/2017/03000/A_Propensity_score_based_Fine_Stratification.14.aspx

AI 23 今回紹介した重み付けの手法は得られたサンプル数や傾向スコアの分布、得たい推定値によって利用する方法を変える事が推奨される重み付け手法のまとめ IPTW SMSW FSW MW OW
計算される重み得られる推定効果 𝒕 𝒆 + 𝟏 − 𝒕 𝟏 − 𝒆 𝐭 + 𝐞 𝟏 − 𝐭 𝟏 − 𝒆 𝐍 𝑻𝒐𝒕𝒂𝒍𝒏𝟏 ÷ 𝑻𝒐𝒕𝒂𝒍𝑵 𝒏𝟏 𝐦𝐢𝐧 𝐞, 𝟏 − 𝐞 𝒕𝒆 + (𝟏 − 𝒕)(𝟏 − 𝒆) 𝐭 𝟏 − 𝐞 + 𝟏 − 𝐭 𝐞 名称逆確率重み付け標準化オッズ重み付けマッチング重み付けオーバーラップ重み付けサブグループ重み付け全サンプルにおけるATE ATT 部分集合におけるATE 重複サンプルにおけるATE 全サンプルにおけるATE または ATT 補足母集団に対する介入効果として解釈できる介入群に対する介入効果として解釈できる 2群のサンプル数と傾向スコアの分布によって解釈が変わる。傾向スコアの重複が発生している部分における介入効果として解釈できる推定方法によって解釈が変わる

AI 24 まとめ

AI 25 傾向スコアは因果推論における銀の弾丸ではなく、いくつかの問題点がある未測定の交絡因子を制御できないマッチングを利用することで不均衝、非効率、モデル依存、バイアスが増加する可能性がある問題点を理解し、分析結果に対する分析者の解釈を含めた結論を出すべきである傾向スコアは銀の弾丸？

AI 26 因果推論におけるバイアスの発生について紹介傾向スコアを利用して効果量を推定する時の手法について紹介傾向スコアを利用した重み付け手法について、それぞれの特徴を交えて紹介重み付け手法を選択する時の基準について紹介まとめ

傾向スコアの重み付け手法

傾向スコアの重み付け手法

akki-

More Decks by akki-

Featured

Transcript

AI 2024.07.04 秋月達樹株式会社ディー・エヌ・エー＋ GO株式会社傾向スコアの重み付け手法について

AI 2 自己紹介 GO株式会社 AI技術開発部分析グループ / 秋月達樹工場勤務から海外駐在を経験したのち、人材事業と広告事業においてデータ分

AI 3 項目 01｜因果推論と傾向スコア 02｜傾向スコアを使った因果推論 03｜重み付け手法の紹介 04｜まとめ

AI 4 因果推論と傾向スコア

AI 5 n 2つの要素で片方が原因であり片方が結果である状態を因果関係があると言う n 原因の事を介入と呼ばれることもある n これらの因果関係について影響の大きさを推論することを因果推論と呼ぶ因果推論について 𝑇

AI 9 傾向スコアを使った因果推論

AI 15 重み付け手法の紹介

AI 23 今回紹介した重み付けの手法は得られたサンプル数や傾向スコアの分布、得たい推定値によって利用する方法を変える事が推奨される重み付け手法のまとめ IPTW SMSW FSW MW OW

AI 24 まとめ