Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
傾向スコアの重み付け手法
Search
akki-
July 12, 2024
0
97
傾向スコアの重み付け手法
社内の勉強会で傾向スコアにおける重み付け手法の各種について説明した資料
akki-
July 12, 2024
Tweet
Share
More Decks by akki-
See All by akki-
Synthetic Controlを利用した因果推論
akidukin
0
110
Featured
See All Featured
Bash Introduction
62gerente
608
210k
[RailsConf 2023] Rails as a piece of cake
palkan
51
4.8k
RailsConf 2023
tenderlove
29
870
VelocityConf: Rendering Performance Case Studies
addyosmani
325
24k
How STYLIGHT went responsive
nonsquared
95
5.1k
Measuring & Analyzing Core Web Vitals
bluesmoon
0
28
XXLCSS - How to scale CSS and keep your sanity
sugarenia
246
1.3M
Code Reviewing Like a Champion
maltzj
519
39k
How to train your dragon (web standard)
notwaldorf
88
5.6k
Building Applications with DynamoDB
mza
90
6k
Statistics for Hackers
jakevdp
796
220k
YesSQL, Process and Tooling at Scale
rocio
167
14k
Transcript
AI 2024.07.04 秋月 達樹 株式会社ディー・エヌ・エー + GO株式会社 傾向スコアの重み付け手法 について
AI 2 自己紹介 GO株式会社 AI技術開発部 分析グループ / 秋月 達樹 工場勤務から海外駐在を経験したのち、人材事業と広告事業においてデータ分
析や機械学習エンジニアリングを担当。 2021年4月にGO株式会社(旧・ Mobility Technologies)に中途入社しデータ分析を担当 ------------------------------------------ @akidukin
AI 3 項目 01|因果推論と傾向スコア 02|傾向スコアを使った因果推論 03|重み付け手法の紹介 04|まとめ
AI 4 因果推論と傾向スコア
AI 5 n 2つの要素で片方が原因であり片方が結果である状態を因果関係があると言う n 原因の事を介入と呼ばれることもある n これらの因果関係について影響の大きさを推論することを因果推論と呼ぶ 因果推論について 𝑇
𝑌 薬剤の投与(原因)は病気の治療(結果)に因果関係がある この時の薬剤の投与が与える影響の大きさを推定する 薬剤の投与 病気の治療
AI 6 因果推論の根本問題により因果効果は不可知である そのため得られたデータを元に統計的に因果効果を推定する必要がある 統計的に因果推論をする場合、共変量の存在によりバイアスが発生することがある 無作為化比較試験(RCT)の場合は、共変量の影響が無作為化されるためバイアスは無視できる 因果推論におけるバイアスの発生 薬剤 投与 あり
なし 病気の重篤度 低い 𝑋 𝑌 薬剤の投与 病気の治療 𝑇 病気の重篤度 15% 210/1400 30% 30/100 10% 5/50 20% 100/500 高い 16% 510/2400 19% 105/550 TOTAL 病気の重篤度毎にみると薬剤を投与した方が治療する確率が高い が、合計でみると薬剤を投与しない方が良い結果になっている 病気の重篤性が薬剤の投与と病気の治療に対して バイアスを発生させている
AI 7 共変量によって引き起こされるバイアスは除去する必要がある 介入と結果に対して影響を与えると考えられる変数を調整(条件付け)する必要がある どの変数を調整するかは分析者の主観に基づき決められる バイアスを抑制する 薬剤 投与 あり なし
病気の重篤度 低い 𝑋 𝑌 薬剤の投与 病気の治療 𝑇 病気の重篤度 15% 210/1400 30% 30/100 10% 5/50 20% 100/500 高い 19.4% 1450 2050 ×0.15 + 600 2050 ×0.3 12.9% 1450 2050 ×0.1 + 600 2050 ×0.2 TOTAL サンプル数 1450 600 2050 サンプル数で条件付けし、バイアスを除外する サンプル数で調整する事で X → 𝑇 に与えていた影 響を除外する事ができる
AI 8 バイアスの除去は共変量の次元が増えるほど難しくなる 条件付け後に一致するサンプル数が少なくなってしまう その問題を解決する手法の一つに傾向スコアが挙げられる 介入が割り当てられる確率を共変量から推定し、推定値を元に因果推論を行う手法 傾向スコアとは 共変量𝒙 介入𝒕 介入
非介入 結果𝒚 共変量𝒙 介入𝒕 介入 非介入 結果𝒚 傾向スコア𝒆 𝑒! = 𝑝 𝑧! = 1 𝑥! (ただし 0 ≤ 𝑒! ≤ 1)
AI 9 傾向スコアを使った因果推論
AI 10 一般的に傾向スコアを利用する場合には5つの手順が推奨されている 傾向スコアを利用した因果効果の推定手順 https://www.jstage.jst.go.jp/article/ace/4/4/4_22013/_html/-char/en 1. モデルによる傾向スコアの 算出 2. 傾向スコアの分布の確認
3. 推論手法の選択 (マッチングor重み付け..) 4. 共変量のバランス調査 5. 因果効果の推定 High overlap リサーチクエッション の再考 十分にバランスが 取れている バランスが取れて いない low overlap
AI 11 傾向スコアを推定するために決められた統計モデルや機械学習モデルは存在しない ロジスティック回帰、RandomForest、BoostingTreeなど色々なものが使える 傾向スコアの精度を高くするのが目的ではなく推論時のバイアスを減らす事が目的 モデルの予測精度より、どの変数を含めた推定モデルを作るかの観点が必要 傾向スコアの推定 https://academic.oup.com/aje/article/163/12/1149/97130 𝑋1 𝑋2
𝑋3 𝑇 介入変数 𝑌 結果変数 結果変数に影響を 与える共変量 両方に影響を与え る共変量 ※…他にも種類がありますが、本資料では説明しません。 絶対に利用する 利用しないとバイアスが除去できない 利用した方が良い 利用しなくてもバイアスは発生しないが𝑌の推定精度が上がる 利用しない方が良い 使ってもバイアスは発生しないが𝑌の推定精度が下がる 介入変数に影響を 与える共変量
AI 12 得られた傾向スコアの値の分布の重複によって推定値の解釈が異なる 重複がない場合、雑にいうと比較対象となる群が全くないため因果推論は出来ない 別の手法を検討する必要があったり、そもそもの検証目的の変更が必要になる 傾向スコアの分布の確認 https://www.jstage.jst.go.jp/article/ace/4/4/4_22013/_html/-char/en Frequ ency 2群の傾向スコアの分布
が一致している場合は ATEを推定できる 非介入群の一部が介入群 の分布と一致している場 合はATTが推定できる 2群の分布が一致してい ない場合、介入効果は推 定できない 介入群 非介入群 介入群 非介入群 介入群 非介入群 ※…ATEやATTについては今回の資料では説明しません。
AI 13 一般的には傾向スコアを利用してマッチング、サブグループ解析または重み付けを行い 因果効果を推定する 傾向スコアを利用した因果効果の推定 https://www.jstage.jst.go.jp/article/ace/4/4/4_22013/_html/-char/en マッチング 傾向スコアを利用して介入群と非介入群をマッチングさせて因 果効果を推定する サブグループ解析
傾向スコアを利用して幾つかのサブグループに分割し、サブグ ループ内の介入群と非介入群を比較し因果効果を推定する 重み付け 傾向スコアを利用して各サンプルに対して重みを付与し因果効 果を推定する
AI 14 傾向スコアによる調整後に2群の間の共変量が揃っているかを確認する 共変量が揃っていない場合バイアスが残っている状態 揃っていない場合は、傾向スコアの推定モデルを修正(交互作用を含める等)する必要がある 共変量のバランス調査 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4626409/ 0 (SD) 𝑥"
𝑥# 𝑥$ 𝑥% 調整前 調整後 𝑠𝑑 = |𝑋! − 𝑋" | 𝑠𝑑! # + 𝑠𝑑" # 2 𝑠𝑑 = |𝑝! − 𝑝" | 𝑝! (1 − 𝑝! ) + 𝑝" (1 − 𝑝" ) 2 最も推奨される共変量のバランス調査方法は標準 化差絶対値を共変量毎に出し比較する方法
AI 15 重み付け手法の紹介
AI 16 マッチングやサブグループ解析ではサンプル数によって推定が難しい場合がある 共変量の次元が多い、介入が割り当てられたサンプル数がすくない 等 得られた傾向スコアの値を利用してサンプル毎に介入効果の推定時に重み付けを行う 傾向スコアを利用した重み付け 傾向スコア 𝒆 介入/非介入
𝒕 50% 非介入 75% 介入 30% 非介入 10% 非介入 80% 介入 結果 𝒚 5 10 3 1 7 𝐴𝑇𝐸!"#$ = 1 𝑁 ( %&' ( 𝑡% 𝑒% 𝑦% − 1 𝑁 ( %&' ( 1 − 𝑡% 1 − 𝑒% 𝑦% 重み付けした結果を平均すると因 果効果が推定できる 推定因果効果 = 1.33 重み付け結果 𝑻𝑬𝑰𝑷𝑻𝑾 -10 13.3 -4.2 -1.1 8.7
AI 17 介入サンプルに対しては傾向スコアが高く非介入サンプルに対しては低く算出される 傾向スコアを推定するモデルや仮説が正しい場合 傾向スコアの値に重み付けする事で影響度を調整する 重み付けによる効果推定の理解 Freaquency Propensity Score 介入群
非介入群 両方のサンプルが重なりやすい場所に重み掛ける ※…重みの掛け方は種類によって異なる 非介入群に対しては介入群と重な りやすいスコアに重み付け 介入群に対しては非介入群と重な りやすいスコアに重み付け
AI 18 得られた傾向スコア値を逆数に変換しサンプルに対して重み付けする手法 逆数を利用する為、得られた傾向スコアが極端な場合は推定効果の分散と信頼区間が極 端になる 極端な傾向スコアはTrimingしたりTruncationする必要がある IPTW(Inverse Probability Treatment Weights)
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8757413/ 傾向スコア 𝒆 介入/非介入 𝒕 50% 非介入 75% 介入 30% 非介入 10% 非介入 80% 介入 2 1.3 1.4 1.1 1.25 重み : 𝒕 𝒆 + 𝟏+𝒕 𝟏+𝒆 極端な重みが発生するためサンプ ルから除外するTrimingや Truncationする必要がある
AI 19 得られた傾向スコアをオッズに変換しサンプルに対して重み付けする手法 IPTWと比較して原因(介入)が2値以外の場合でも利用する事ができる 得られた傾向スコアの分布が極端な場合は推定効果の分散と信頼区間が極端になる 極端な傾向スコアはTrimingしたりTruncationする必要がある SMRW(Standardised Mortality Ratio Weights)
https://www.bmj.com/content/bmj/367/bmj.l5657.full.pdf 傾向スコア 𝒆 介入/非介入 𝒕 50% 非介入 75% 介入 30% 非介入 10% 非介入 80% 介入 1.0 1.0 0.4 0.1 1.0 重み : 𝐭 + 𝐞 𝟏+𝐭 𝟏+𝒆 極端な重みが発生するためサンプ ルから除外するTrimingや Truncationする必要がある
AI 20 得られた傾向スコアを0~1の範囲の重みに変換しサンプルに対して重み付けする手法 極端な重みが制限され傾向スコアのTrimingが必要なくなる 介入群とコントロール群の比率が類似する時の推定値はATEに近く、類似しない場合の推定値 はATTに近くなる MW(Matching Weights) https://www.bmj.com/content/bmj/367/bmj.l5657.full.pdf 傾向スコア
𝒆 介入/非介入 𝒕 50% 非介入 75% 介入 30% 非介入 10% 非介入 80% 介入 1.0 0.3 0.4 0.1 0.2 重み : 𝐦𝐢𝐧 𝐞,𝟏+𝐞 𝒕𝒆2(𝟏+𝒕)(𝟏+𝒆)
AI 21 得られた傾向スコアから逆の群に属する確率を利用しサンプルに対し重み付けする手法 傾向スコアによる重み付け手法の中では最も分散が低くなる 極端な重みが制限され傾向スコアのTrimingが必要なくなる 重み付けの特性上共変量バランスが均一になる OW(Overlap Weights) https://www.bmj.com/content/bmj/367/bmj.l5657.full.pdf 傾向スコア
𝒆 介入/非介入 𝒕 50% 非介入 75% 介入 30% 非介入 10% 非介入 80% 介入 0.5 0.25 0.3 0.1 0.2 重み : 𝐭 𝟏 − 𝐞 + 𝟏 − 𝐭 𝐞
AI 22 得られた傾向スコアでサブグループを作成しサブグループ毎に重みを設定する サブグループの数は分析者に依存する、推奨は10グループ 重みに傾向スコアは利用せず、サブグループ毎に含まれる2群のサンプル数を利用する 得られた傾向スコアの分布が極端、介入サンプル比率が低い場合でも有効になる FSW(Fine Stratification Weights) サンプル数
𝒏𝟎 サンプル数 𝒏𝟏 100 10 80 15 60 20 40 25 20 30 𝟏𝟏𝟎 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟏𝟎 = 𝟐. 𝟕𝟓 重み サブ グループ 𝟎. 𝟎 ≤ 𝒆 < 𝟎. 𝟐 𝟎. 𝟐 ≤ 𝒆 < 𝟎. 𝟒 𝟎. 𝟒 ≤ 𝒆 < 𝟎. 𝟔 𝟎. 𝟔 ≤ 𝒆 < 𝟎. 𝟖 𝟎. 𝟖 ≤ 𝒆 ≤ 𝟏. 𝟎 300 100 Total 合計 𝑵 110 95 80 65 50 400 𝐍 𝑻𝒐𝒕𝒂𝒍𝒏𝟏 ÷ 𝑻𝒐𝒕𝒂𝒍𝑵 𝒏𝟏 𝟗𝟓 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟏𝟓 = 𝟏. 𝟓𝟖 𝟖𝟎 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟐𝟎 = 𝟏 𝟔𝟓 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟐𝟓 = 𝟎. 𝟔𝟓 𝟓𝟎 𝟏𝟎𝟎 ÷ 𝟒𝟎𝟎 ÷ 𝟑𝟎 = 𝟎. 𝟒𝟏 https://www.bmj.com/content/bmj/367/bmj.l5657.full.pdf https://journals.lww.com/epidem/FullText/2017/03000/A_Propensity_score_based_Fine_Stratification.14.aspx
AI 23 今回紹介した重み付けの手法は得られたサンプル数や傾向スコアの分布、得たい推定値 によって利用する方法を変える事が推奨される 重み付け手法のまとめ IPTW SMSW FSW MW OW
計算される重み 得られる推定効果 𝒕 𝒆 + 𝟏 − 𝒕 𝟏 − 𝒆 𝐭 + 𝐞 𝟏 − 𝐭 𝟏 − 𝒆 𝐍 𝑻𝒐𝒕𝒂𝒍𝒏𝟏 ÷ 𝑻𝒐𝒕𝒂𝒍𝑵 𝒏𝟏 𝐦𝐢𝐧 𝐞, 𝟏 − 𝐞 𝒕𝒆 + (𝟏 − 𝒕)(𝟏 − 𝒆) 𝐭 𝟏 − 𝐞 + 𝟏 − 𝐭 𝐞 名称 逆確率 重み付け 標準化オッズ 重み付け マッチング 重み付け オーバーラップ 重み付け サブグループ 重み付け 全サンプルに おけるATE ATT 部分集合にお けるATE 重複サンプル におけるATE 全サンプルに おけるATE ま たは ATT 補足 母集団に対する 介入効果として 解釈できる 介入群に対する 介入効果として 解釈できる 2群のサンプル数と傾 向スコアの分布によっ て解釈が変わる。 傾向スコアの重複が 発生している部分に おける介入効果とし て解釈できる 推定方法によっ て解釈が変わる
AI 24 まとめ
AI 25 傾向スコアは因果推論における銀の弾丸ではなく、いくつかの問題点がある 未測定の交絡因子を制御できない マッチングを利用することで不均衝、非効率、モデル依存、バイアスが増加する可能性がある 問題点を理解し、分析結果に対する分析者の解釈を含めた結論を出すべきである 傾向スコアは銀の弾丸?
AI 26 因果推論におけるバイアスの発生について紹介 傾向スコアを利用して効果量を推定する時の手法について紹介 傾向スコアを利用した重み付け手法について、それぞれの特徴を交えて紹介 重み付け手法を選択する時の基準について紹介 まとめ