Upgrade to Pro — share decks privately, control downloads, hide ads and more …

統計的因果推論の理論と実装「傾向スコア」

 統計的因果推論の理論と実装「傾向スコア」

社内勉強会の発表資料です.高橋先生の「統計的因果推論の理論と実装」のChapter11・12の内容(傾向スコアマッチングや層化解析法,逆確率重み付け法)についてまとめています.

参考リンク

- 因果推論で推薦システムを問い直す
https://qiita.com/usaito/items/c88fd84bce339380b8fa

- 回帰分析とT-Learner
https://speakerdeck.com/s1ok69oo/ji-jie-xue-xi-woyong-itaxiao-guo-jian-zheng-hui-gui-fen-xi-tot-learner

- 傾向スコアとX-Learner
https://speakerdeck.com/s1ok69oo/ji-jie-xue-xi-woyong-itaxiao-guo-jian-zheng-qing-xiang-sukoatox-learner

- 傾向スコアを用いた効果検証
https://zenn.dev/s1ok69oo/articles/c058108acb83e7

- 統計的因果推論の理論と実装「潜在的結果変数の枠組み」
https://speakerdeck.com/s1ok69oo/tong-ji-de-yin-guo-tui-lun-noli-lun-toshi-zhuang-qian-zai-de-jie-guo-bian-shu-nowaku-zu-mi

- EconML公式ドキュメント
https://econml.azurewebsites.net/

- PythonによるT-Learnerの実装
https://zenn.dev/s1ok69oo/articles/4a36fee0297234

- PythonによるX-Learnerの実装
https://zenn.dev/s1ok69oo/articles/58580b8f4fbdf8

うとしん

April 05, 2023
Tweet

More Decks by うとしん

Other Decks in Science

Transcript

  1. 未観測の交絡因子がないという仮定が正 しければ,この2人の 「結果」の違い(77 - 63 = 14)は 「処置」の違い(0 or 1)が原因と主張

    統計的因果推論における「マッチング」 異なる個体であるが,観察される共変量が同じ個体をペアにする 被験者 処置 結果 年齢 性別 1 0 63 20 男 2 0 55 25 女 3 0 59 38 男 8 1 81 26 女 9 1 77 20 男 10 1 81 54 女 ※ テキストの表11.2を一部修正 被験者 処置 結果 年齢 性別 1 0 63 20 男 9 1 77 20 男 マッチング
  2. 使用するデータ(1/3) データの生成プロセス - 共変量: x1, x2, x3, x4, x5, x6

    - 平均値1, 標準偏差1の多変量対数正規分布に従う乱数 - 相関行列は対角線沿いの値が一手となるテプリッツ行列 - 潜在的結果変数: Y1, Y0 - Y1 = 5 + 2X 1 + 4X 2 - 6X 3 + 8X 4 + 10X 5 + 12X 6 + ε - Y0 = 1 + X 1 - 3X 2 + 5X 3 + 7X 4 + 9X 5 + 11X 6 + ε - ε: 標準正規乱数 - 処置変数: T - Y0が中央値より大きいとき50%の確率でT=1, 中央値以下のとき25%の確率でT=1 - Y0が中央値より大きいとき50%の確率でT=0, 中央値以下のとき75%の確率でT=0
  3. 傾向スコアによる層化解析法(1/3) 交絡因子を使って層に分け,交絡因子の影響を除去 被験者 処置 結果 年齢 性別 1 0 63

    20 男 2 0 55 25 女 3 0 59 38 男 8 1 81 26 女 9 1 77 20 男 10 1 81 54 女 層 被験者 処置 結果 年齢 性別 1 1 0 63 20 男 3 0 59 38 男 9 1 77 20 男 2 8 0 55 25 女 8 1 81 26 女 10 1 81 54 女 性別で層化 ※ テキストの表12.1を一部修正 ※ テキストの表12.2を一部修正
  4. 傾向スコアによる層化解析法(2/3) 平均処置効果(ATE)とその分散は次のように計算できる ただし, - K: 層の数 - N: 全体の標本サイズ -

    n k : k番目の層における標本サイズ - Y k (1): k番目の層における処置群の平均値 - Y k (0): k番目の層における東征軍の平均値 このような因果推論の妥当性は 「未観測の交絡がないという仮定」の妥当性に依存
  5. マッチングor層化解析 傾向スコアそのものが正確に予測 できているかどうかはあまり大き な問題ではない. → むしろ,傾向スコアの真値より もモデルから計算した値の方が,標 本データにおけるバランシングを 良くすることも知られている. 補足:

    傾向スコアの予測精度 逆確率重みづけ法(IPW) 傾向スコアの予測値が正確である ことが求められる. → 傾向スコアの値が小さい場合, 少しの誤差でもその逆数に大きく 影響するため. 特に,傾向スコアの 分布が端に寄ってい る時は要注意な印象
  6. X-Learner T-Learnerに傾向スコアを掛け合わせた手法 処置あり・なしの2つの予測モデルを作成し,各々のモデルによる予測値を 傾向スコアの逆確率で重みづけた差分を効果として推定 手元のデータ 処置ありの予測値 × (1 / e)

    処置なしの予測値 × (1 / 1-e) 効果 処置の有無別に 予測モデルを作成 処置ありの 予測モデル 処置なしの 予測モデル 処置の有無に関わらず 各々のモデルに投入
  7. 傾向スコア定理の補足(定理1:バランシングの証明) X ⊥ T | e(X) (証明) X ⊥ T

    | e(X) ⇔ P(X, T=1|e(X)) = P(X|e(X))*P(T=1|e(X)) … (*) と書けるので,これを示す.一般に P(X, T=1|e(X)) = P(X|e(X))*P(T=1|X, e(X)) = P(X|e(X))*P(T=1|X)  ∵ e(X)はXの関数 = P(X|e(X))*e(X) … (1) ∵ 傾向スコアの定義: e(X)=P(T=1|X) ここで, P(T=1|e(X))= E T [T|e(X)] =E T [E X [T|X]|e(X)] =E X [P(T=1|X)|X] = e(X) …(2) となるから,(2)式のe(X)=P(T=1|e(X))を(1)式に代入すると(*)が得られる▪
  8. 傾向スコア定理の補足(定理2:条件付き独立性の証明) {Y1, Y0} ⊥ T | e(X) (証明){Y1, Y0} ⊥

    T | e(X) ⇔ P(T=1|{Y1, Y0}, e(X)) = P(T=1|e(X)) …(*) と書けるので,これを示す.バランシングの証明の(2)式より (*) ⇔ P(T=1|{Y1, Y0}, e(X)) = e(X) …(**) ここで P(T=1|{Y1, Y0}, e(X)) = E[P(T=1|{Y1, Y0}, X)|{Y1, Y0}, e(X)] = E[P(T=1|X)|{Y1, Y0}, e(X)] ∵ 条件2:(共変量の)条件付き独立性 = E[e(X)|{Y1, Y0}, e(X)] = e(X) (**)が示されたので,(*)が示された▪
  9. 傾向スコア定理の補足(平均処置効果の計算) 平均処置効果(ATE) = E[Y1 - Y0] まず、E[Y1 - Y0| e(X)]を考える

    E[Y1 - Y0| e(X)] = E[Y1|e(X)] - E[Y0|e(X)] = E[Y1|T=1, e(X)] - E[Y0|T=0, e(X)] = E[Y|T=1, e(X)] - E[Y|T=0, e(X)] ∵傾向スコアe(X)の条件付き独立性 よって、平均処置効果は E[Y1 - Y0] = E e(X) [E[Y1 - Y0| e(X)]] = E e(X) [E[Y|T=1, e(X)] - E[Y| T=0, e(X)]] 3行目が潜在的結果変数Y1, Y0ではなく, 観測される値Yで表されている点がポイント
  10. 参考文献(Webスライド) - 回帰分析とT-Learner https://speakerdeck.com/s1ok69oo/ji-jie-xue-xi-woyong-itaxiao-guo-jian-zheng-hu i-gui-fen-xi-tot-learner - 傾向スコアとX-Learner https://speakerdeck.com/s1ok69oo/ji-jie-xue-xi-woyong-itaxiao-guo-jian-zheng-qi ng-xiang-sukoatox-learner -

    統計的因果推論の理論と実装「潜在的結果変数の枠組み」 https://speakerdeck.com/s1ok69oo/tong-ji-de-yin-guo-tui-lun-noli-lun-toshi-zhua ng-qian-zai-de-jie-guo-bian-shu-nowaku-zu-mi