Upgrade to Pro — share decks privately, control downloads, hide ads and more …

傾向スコアによる効果検証 / Propensity Score Analysis and Ca...

Ikuma_w
January 08, 2025

傾向スコアによる効果検証 / Propensity Score Analysis and Causal Effect Estimation

Ikuma_w

January 08, 2025
Tweet

More Decks by Ikuma_w

Other Decks in Science

Transcript

  1. 目次 1. 効果検証と因果推論について なぜ効果を測るのか? / セレクションバイアスと誤った効果測定 / 数式で見るセレクション バイアス /

    因果推論の根本問題 / ランダム化比較実験と平均的効果 / ランダム化比較実 験の難しさ / 因果推論とは / 因果推論の手法 2. 傾向スコアについて 傾向スコアを用いた効果検証の概要 / 効果の種類 / 傾向スコアを用いる場合の仮定 / 傾 向スコアとは / 手法1:傾向スコアマッチングについて / 手法2:逆確率重み付け法(IPW)に ついて / 標準化平均差について 3. LaLondeデータの分析 分析の問題設定とデータの概要 / データの可視化 / 傾向スコア分析:傾向スコアの計算 / 傾向スコアマッチング(CPS1のATTの推定) / IPW(CPS1のATE推定) / IPWでのCPS1のATT 推定 4. まとめとその他
  2. セレクションバイアスと誤った効果検証 真の効果の測定は難しく、良い意思決定には信頼できる効果検証手法が必要 ▪ 例. メールマーケティングにおける誤った施策の検証 ※ 比較しているグループの潜在的な傾向が違うことによって生じるバイアス(”データを分析して求めた結果”と”本当の効果”の乖離) ・・・ ・・・ ・・・

    メール配信無し メール配信有り • 過去の購入量が一定以上か? • 最近購入したか? etc,,, そもそも購買量が 小さいグループ そもそも購買量が 大きいグループ メール配信が 可能な ユーザ 施策時はある 程度見込みの あるユーザーに 配信する メール配信無し メール配信有り 購 買 量 メールが 無くても 買う量 セレクション バイアス※ 単純な比較で 効果と思い込む 部分 本当の メールの 効果 潜在的な購買量の差によってセレクションバイアスが発生し、 メールマーケティングの効果が見かけ上大きくなる ある程度見込みのあるユーザにメール配信する
  3. (補足)数式で見るセレクションバイアス ▪文字の意味 τ:本当の効果 τ naive :グループ間の平均の差 Y(1):介入がある場合の購買量 Y(0):介入が無い場合の購買量 E(a):aの期待値 ▪数式で見たセレクションバイアス

    グループ間の平均の比較は条件付き期待値の差の比較となるので、 τ naive = E[Y(1)|Z=1] - E[Y(0)|Z=0] またこれを式変形すると、 τ naive = E[Y(1)|Z=1] + (E[Y(0)|Z=1]-E[Y(0)|Z=1]) - E[Y(0)|Z=0] = E[Y(1) – Y(0)| Z=1] + E[Y(0) | Z=1] - E[Y(0) | Z=0] Z(介入の有無)と効果の大きさに関係性が無いとすると、 E[Y(1) – Y(0)| Z=1] = E[Y(1) – Y(0)] となるので、 τ naive = E[Y(1) – Y(0)] + E[Y(0) | Z=1] - E[Y(0) | Z=0] となる。 したがって、 τ naive は本当の効果とセレクションバイアスを足し合わせたものと考えれらる セレクションバイアスの説明 セレクションバイアスのイメージ メール配信無し メール配信有り 購 買 量 メールが無くても買う量 E[Y(0) | Z=1] セレクションバイアス E[Y(0) | Z=1] - E[Y(0) | Z=0] 本当のメールの効果 τ メールが無くても買う量 E[Y(0) | Z=0]
  4. ランダム化比較実験(RCT)と平均的効果 平均的な効果であれば、RCTの実施で信頼できる効果を測定できる RCTのイメージ RCTで正しく効果検証できる理由 ① 系統誤差を減らせる • 2群の平均の差が施策効果というためには、以下の仮定が成立する 必要がある ➢

    施策が実施されなかった時の各群のアウトカムが等しい (セレクションバイアスが0) 式. E[Y(0) | Z=1] = E[Y(0) | Z=0] ➢ 各群で施策効果は等しい 式. E[Y(1) – Y(0)|Z=1] = E[Y(1) – Y(0)|Z=0] • ランダム化されていないと、処置以外の要因が偏っている可能性が あるため、アウトカムの差に処置以外の要因の影響が無いことを保 証できない。ランダム化することで、群間で処置以外のあらゆる要因 が平均的に同じような分布になる(系統誤差を偶然誤差に取り込め る)、つまり処置以外の要因の系統誤差を減らすことができる。 よって、ランダム化することで上記の仮定が成立する。 ② 標本平均は不偏推定量であるため、各群の期待値=各群の真のア ウトカムとなる 2群の平均値の差が施策効果となる ※ ただし完全な無作為化が困難なこと、サンプルサイズの問題などで精度や不偏性が 損なわれることもあるので実験設計をよく検討することが重要 メール配信無し ・・・ ・・・ ・・・ メール配信有り メール配信が 可能な ユーザ 1. ランダムに振り分け、 施策の有無以外は同等 な集団をつくる 2. 平均の差を比較 処置以外の要因を揃えて比較することで、処置の効果を正確に測れる
  5. ランダム化比較実験の難しさ 実務面の制約により、ランダム化比較実験でのデータ取得はままならない 例1. 倫理的な問題 一部の顧客にのみ有利なサービスまたは製品提供を 行った場合、公平性を書くと受け取られる可能性がある。 ex) ECサイトで一部顧客のみにクーポン提供を行う 例2. コストとリソースの問題

    施策実施自体およびRCTの設計・分析 のコストが大きくなる場合、決済者に抵抗 感をもたれる。 ex) 決裁者にRCTの必要性をうまく伝えら れないと、RCT実施の許可が出ない 例3. 施策実施後の分析依頼 受託的な分析案件では、施策実施後の データでの分析が発生する。施策実施時は 機会損失を抑えるインセンティブが働くため、 取得できるデータはバイアスが発生している可 能性が高い。 ex) 購買意欲の高い顧客に向けた広告や メールマーケティング実施後のデータ分析 実務面での種々の事情により、RCTの実施が困難な 場面は少なく無く、バイアスのあるデータに対して適切 な因果推論の手法を適用し、効果検証することが求め られる。 ▪RCTの実施が難しいケース例
  6. 因果推論とは 観察データ(バイアスがあるデータ)に対して、何かしらの前提を置くことで、RCTに 近似するように効果が測れる手法 ▪因果推論の大まかな考え方(ポテンシャルアウトカムフレームワーク※) ※ Rubin流といわれており、因果推論の考え方においてPerl流と併せて2つの流派がある メール配信された メール配信されな かった 売上:

    2,000円 売上: 500円 理想的にはここの差を 比較したいが、同じサン プルにおいて現実ではど ちらか一方しか観測で きない(因果推論の 根本問題) 観測されない 観測できる メール配信された メール配信されな かった 売上: 2,000円 売上: 500円 観測できなかったサ ンプル(反実仮 想)のアウトカムを 推定し、比較するこ とで擬似的にRCTを 達成する 推測する 観測できる
  7. 因果推論の手法 様々な手法が開発されているが、使える条件や効果の厳密さが異なるので適切に 選択する必要がある ▪因果推論各手法の概要(ただしどの手法も発展形が開発されており、一概にこのとおりとはいえない) 手法 概要 厳密さ メリット デメリット 回帰不連続

    デザイン(RDD) 傾向スコア分析 操作変数法(V) 差分の差分法 (DID) 回帰分析 ある閾値の前後で処置を受ける・受 けないが決まる場合に、閾値付近 だけに着目して推定する 処置群と対照群を「できるだけ似た 集団」に整え、推定する 処置と強く相関かつアウトカムに直 接の影響を持たない変数を探し、そ の外生的な変動から推定する 介入が行われる前後の変化(差分) を、処置群と対照群それぞれでとり、 その差で推定する 処置とアウトカムの関係を線形回帰 を用いて推定する • 効果の信頼度が高く、バイアス が比較的小さくできると考えら れる • 共変量のバランスを確認でき る • 複数の分析方法がある 適切な操作変数があれば、バイ アスを排除できる 単純な2時点のパネルデータで 適用できる モデル構造がわかりすく解釈し やすい • サンプルサイズが小さくなりや すい • 外的妥当性が低い 未観測交絡は除去ができない 操作変数の発見が困難 共通トレンド仮定が強い仮定で ある 重要な共変量が含まれないと、 推定結果にバイアスがかかる 高い 低い
  8. 傾向スコアを用いた効果検証の概要 Z i = σ ( βX i + u

    i ) σ(x) = 1 / ( 1 + e-x ) ෠ 𝑃( X i ) = ෡ 𝑍𝑖 = σ(෠ βX i ) 傾向スコアで効果が比較できる仕組み ・・・ 傾向スコア=0.8 • 傾向スコア:各個体において介入が行われる確率 Z=1, Y(1) Z=0, Y(0) 比較 • 同一のユーザの中ではランダムに比較ができていると考えられる ෠ 𝑃 : 傾向スコア、Z : 処置変数、 X : 共変量、 σ : シグモイド関数、ui : 誤差項、β : 推定パラメータ 傾向スコアを用いた分析の手順 (イメージ例) • 確率をモデル化できるものを用いる • ロジスティック回帰がよく紹介される(機械学習でよく 用いられるGBDTなどでもOK) 介入確率を推定し、同一のユーザの中で結果を比較する STEP1. 傾向スコアの推定 STEP2. 傾向スコアでデータを調整し、効果を推定 • 調整する目的:共変量の分布を均等にする(背景情報を同じにす る)ことで、交絡の影響を取り除く • 複数の手法があり、今回は以下を紹介 ➢ 傾向スコアマッチング ➢ 逆確率重み付け法(IPW) ▪ ロジスティック回帰式
  9. (補足)効果の種類 ※wataru.okamotoさん資料(DIDについて)から引用 ITE (Individual Treatment Effect) ATT (Average Treatment effect

    on Treated) ATE (Average Treatment Effect) ATU (Average Treatment effect on Untreated) LATE (Local Average Treatment Effect) CATE (Conditional Average Treatment Effect) ある個人iに対する処置効果 母集団の内、実際に処置を受けた群における平均的な処置の効果 母集団に対する平均的な処置の効果 母集団の内、実際に処置を受けなかった群における平均的な処置の効果 母集団に対する平均的な処置の効果の内、説明変数の特定の値周りでのATE 母集団のうち一部のグループに対する平均的な処置の効果 処置効果の種類 定義
  10. 傾向スコアを用いる場合の仮定 仮定1:SUTVA(因果推論での重要な仮定) 1. 相互干渉が無い:個体Aに対しての処置が、別の個体Bに 対して影響を及ぼさない 相互干渉がある例と対策: インフルエンザの予防接種を受けたために、一緒に生活してい る人も罹りにくくなる。対策としては、分析の単位を個人でなく、 世帯、市区町村、学校などの集団にする。 2.

    個体に対する隠れた処置が無い:ある処置を受ける個体が、 その別の形で受けてはいけない 隠れた処置がある例と対策: 補習授業が2クラスある場合に、異なる先生が行うことで効 果が変わる。対策としては「A先生の補習」、「B先生の補習 を受けた」、「補習を受けていない」というように、処置の粒度 を変更する。 • 共変量Xを条件とした時に、処置変数Zが潜在的結果変数 の組{Y(1), Y(0)}に依存しない。 • 処置の割り付けに影響を与えるのは観測された共変量のみ {Y(1), Y(0)} ⊥ Z | X 仮定2:条件付き独立性 仮定3:条件付き正値性 • 共変量Xを条件としたときに、どの個体も処置群または対照 群に割り付けられる確率が0または1で無いこと • どの個体も、どちらにも割り付けられる可能性がある 0 < Pr(Z = 1 | X) < 1
  11. 手法1:傾向スコアマッチングについて 傾向スコアの近いサンプルを抽出したデータで差を比較する 推定のイメージ 特徴 Y(1) Y(1) Y(1) ・・・ Z =

    1のデータ Y(0) Y(0) Y(0) ・・・ Z = 0のデータ Y(1) Y(1) - = 効果 1 2 3 1 2 3 処置群からサンプルを1つ取り出す 対照群から傾向スコアが近いサンプルを取り出す (マッチング手法は複数ある) 結果変数の差を計算する • ො τmatch =E(E(Y| ෣ 𝑃(𝑋) , Z=1)−E(Y| ෣ 𝑃(𝑋) ,Z=0)|Z=1) • ATTを推定していることになる 数式 • アイデアがシンプルである メリット • 計算時間が長い • 処置群、対照群で傾向スコアが一致するサ ンプルがあるとは限らないため、データを全 部使えない デメリット
  12. 手法2:逆確率重み付け法(IPW)について 傾向スコアの逆数の重み付けで調整したデータで差を比較する 推定のイメージ 特徴 • ො τipw = ෢ 𝑌(1)

    – ෢ 𝑌(0) = σ 𝑖=1 𝑁 𝑍𝑖𝑌𝑖 𝑃 (𝑋𝑖) / σ 𝑖=1 𝑁 𝑍𝑖 𝑃 (𝑋𝑖) - σ 𝑖=1 𝑁 (1−𝑍𝑖)𝑌𝑖 1−𝑃 (𝑋𝑖) / σ 𝑖=1 𝑁 (1−𝑍𝑖) 1−𝑃(𝑋𝑖) • ATEを推定していることになる 数式 • データを捨てずに効果推定できる メリット • 傾向スコアが極端な値を取る場合、計算結 果が不安定になる ➢ 処置群と対照群のデータセットの傾向 が大きく異なる場合、信頼しにくい デメリット ෣ 𝑃(𝑥) 処 置 群 対 照 群 IPWにおけるバイアスの考え方: 処置群に属しているかつ傾向スコ ア(介入が行われる確率)が低い 個体は、RCTであった場合と比較 して、観測した量が少ない個体と 考えられる。 仮に෣ 𝑃(𝑥)とY(1)に正の相関があっ た場合、処置群と対照群のYの 差は本来よりも大きくなってしまう。 傾向スコアの逆数でYを重み付け することで、見かけ上各傾向スコ アのサンプル数が調整された様な 状況になる。 その状況でY(1)とY(0)の期待値の 差を計算することで、バイアスが削 減された効果推定ができていると 考える。 ෣ 𝑃(𝑥) 1/p(x)で調整 1/(1-p(x))で 調整
  13. 標準化平均差(ASAM※1)について 処置群と対照群の共変量のバランスが取れているかの指標 概要※2 可視化のイメージ ※1 Average Standardized Absolute Mean distance

    ※2 参考 https://best-biostatistics.com/summary/smd.html?utm_source=chatgpt.com • 定義 • 調整前後で小さくなれば、バランスがとれている • 0.1以下になれば十分といわれている様
  14. 分析の問題設定とデータの概要 CPS1への傾向スコア分析で、NSWでの効果が再現できるか確認する データの作り方 データの説明 NSW(RCTによる実験データ) CPS1(手法の評価用のデータ) ・・・ Z = 0

    ランダム Z = 1 条件を満たす 失業者に就労 経験を与えると、 どの程度収入 に変化がある かを実験した データ ・・・ ランダム Z = 1 削除 + ・・・ Z = 0 CPSデータ(NSWと別の調査データ) • 対照群を CPSに変更し たデータ • 就労者も含 まれているた め、何かしら のバイアスが 生じている ▪ 分析に使用する変数 • 結果変数:re78(収入) • 処置変数:treat(就労経験を与えたかどう か) • その他共変量:age(年齢)、education(教 育年数)、black(人種)、hispanic(人種)、 married(結婚しているかどうか)、 nodegree(学位の有無)、re75(過去の収 入)、re74(過去の収入) ▪ 処置の分布 NSW CPS1 185 260 185 15,992 Z = 1 Z =0 平均の差:$1,794 (再現したい効果) 平均の差:$-8,497 傾向スコア分析でNSW と同等の効果が再現で きるか分析する
  15. データの可視化 CPS1は分布が大きく異なっており、バイアスが生じている ▪連続値の分布の確認 年 齢 教 育 年 数 収

    入 NSW CPS1 • NSWは処置群と対照群の分布が似 ており、バランスが取れている • CPS1は処置群のボリュームが低い 側にある
  16. 傾向スコアマッチング(CPS1のATTの推定) NSWの実験の再現に適しているため、有意な結果で効果推定ができている 共変量のバランス 推定結果 • マッチングアルゴリズム:最近傍法、非復元、Caliper:0.2 • 調整後の結果 ➢ サンプル数

    360:マッチしなかったサンプルは5個 ➢ 標準化平均差の可視化:hispanicは悪化しているが、 全体的にバランスはよく調整できている • 重回帰分析で解析 ➢ 処置変数の係数は有意に得られた ➢ RCTの結果と比較的近く、良好に推定できている (平均値の差も1,688とRCTに近かった)
  17. (補足)IPWでのCPS1のATT推定 ATEの推定に比べると、良く推定できている 分析結果 IPWでのATT推定の仕組み • 加重最小二乗法の重回帰分析 ➢ 推定効果は正の値となり改善 • 共変量のバランス調整

    ➢ 十分に調整できていそう • ො τATT = 𝐸[𝑌(1) | 𝑍 = 1 ] − 𝐸[𝑌(0) | 𝑍 = 1 ] = σ 𝑖=1 𝑁 𝑍𝑖 𝑌𝑖 / σ 𝑖=1 𝑁 𝑍𝑖 - σ 𝑖=1 𝑁 (1−𝑍𝑖)𝑃 (𝑋𝑖)𝑌𝑖 1−𝑃 (𝑋𝑖) / σ 𝑖=1 𝑁 (1−𝑍𝑖)𝑃 (𝑋𝑖) 1−𝑃(𝑋𝑖) 数式 補正 イメージ ෣ 𝑃(𝑥) ෣ 𝑃(𝑥) ෣ 𝑃(𝑥) • 対照群の傾向スコアの分布を処置群に揃え にいくイメージ 1/(1 – p(x)) p(x) ෣ 𝑃(𝑥) ෣ 𝑃(𝑥) 1 / p(x) ATE推定時の 介入群の 補正イメージ
  18. まとめとその他 分析結果まとめ • 再現したい効果がNSWでの実験であり、データセットの特徴を考慮すると、測定するべき効果はATTであった。そのため傾向スコアマッ チングが適していた • 重み付けよりマッチングの方が使いやすいように感じた。分析対象となるデータが絞られてはしまうが、「できる範囲で推定する」感があり、 使いやすそう。 その他気になること •

    傾向スコアの推定をランダムフォレストなどの機械学習で行うとキャリブレーションを行う必要がある様 • 今回の傾向スコアマッチングのやり方(最近傍法、非復元、1:1マッチング)はしてはいけないという報告 • 傾向スコアの真偽がわかっていたとしても、推定した傾向スコアの値を用いる方が、標本データの共変量のバランシングを良くする様 傾向スコアの精度の考え方 • マッチング:正確に予測できているかどうかは、あまり大きな問題では無い • IPW:重みが不安定なため、正確な予測が必要。正確な予測であれば、重みが大きくなることは問題無いが、精度が悪いため重み が大きくなってしまうことは問題
  19. 【参考】 • 安井翔太(著). (2020). 効果検証入門 正しい比較のための因果推論/計量経済学の基礎. 技術評論者. • 高橋将宜(著). (2022).

    WonderFul R5 統計的因果推論の理論と実装 潜在的結果変数と欠測データ. 共立出版. • 「効果検証入門」をPythonで書いた:https://qiita.com/nekoumei/items/648726e89d05cba6f432 • 傾向スコアを用いた処置効果推定:https://qiita.com/iitachi_tdse/items/73459d7b6725daec2c36#4-1- att%E3%81%AE%E5%AE%9A%E7%BE%A9