Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習を用いた効果検証~DR-Learner~

うとしん
August 19, 2022
1k

 機械学習を用いた効果検証~DR-Learner~

LabBase様主催のイベントにて、2022/08/19にお話しさせていただいた際の登壇資料です。DR法(Doubly Robust Estimator)に機械学習を拡張したDR-Learner(Doubly Robust Learner)という因果推論手法についてまとめました。

参考リンク(マイメディア)

- 回帰分析を用いた効果検証
https://zenn.dev/s1ok69oo/articles/f0b91f19da2812
- 傾向スコアを用いた効果検証
https://zenn.dev/s1ok69oo/articles/c058108acb83e7
- PythonによるDoubly Robust Learnerの実装
https://zenn.dev/s1ok69oo/articles/1d35bc0cfaec49
- 機械学習で因果推論
https://zenn.dev/s1ok69oo/articles/1eeebe75842a50
- 機械学習を用いた効果検証~回帰分析とT-Learner~
https://speakerdeck.com/s1ok69oo/ji-jie-xue-xi-woyong-itaxiao-guo-jian-zheng-hui-gui-fen-xi-tot-learner
- 機械学習を用いた効果検証~傾向スコアとX-Learner~
https://speakerdeck.com/s1ok69oo/ji-jie-xue-xi-woyong-itaxiao-guo-jian-zheng-qing-xiang-sukoatox-learner

うとしん

August 19, 2022
Tweet

Transcript

  1. 自己紹介(経歴) - 九州大学経済学部卒(計量経済学とか) - データアナリスト - EC事業の効果検証 - MaaS事業のDX -

    受託分析のデータサイエンティスト ← 今ココ 所属・団体に関するお話はしない(できかねます)ので、ご了承くださいませ
  2. 効果検証とは 広告を見た場合の売上 広告を見てない場合の売上 効果 iさん Y1 Y0 Y1 - Y0

    計測不可 N人分のデータを利用して、 効果(Y1 - Y0) あるいは 期待値 E(Y1 - Y0) を理論的に算出するというアプローチ ➢ Y1 - Y0 を”ITE”, E(Y1 - Y0)を”ATE”と呼ぶ
  3. 傾向スコアを用いた因果推論手法 - 傾向スコア(ps)を用いた因果推論手法には - 傾向スコアマッチング - IPW: Inverse Probability Weighting

    - DR法: Doubly Robust Estimation などがある(詳細はこちらのZenn記事を参照) 今回はDR法(Doubly Robust Estimation)を紹介
  4. どこが “Doubly Robust” なの? 1. Xから広告を見たかどうかを予測する分類モデル 2. 共変量(X,T)から売上Yを予測する線形回帰モデル ➢ 1.

    2. のどちらかの推定モデルが正しければ、 ATEをバイアスなく推定することができるんです!
  5. 設定(1)データの仕様 - ダイエットへの意識の高さx: 一様分布(-1, 1)に従う - 広告閲覧ダミーT: 1(x+noise>0), 0(otherwise) -

    noiseは標準正規分布に従う - 売上Y: [ 3x + T + 3 + noise] × 1,000 - ただし、[x]はxを超えない最大の整数 - noiseは一様分布(0, 1)に従う
  6. 設定(1)売上 - 真のモデル: Y = [ 3x + T +

    3 + noise] × 1,000 - ダイエットへの意識の高さと広告閲覧に依存 - 広告の効果は一律1,000円
  7. 設定(2)概要 - 次の例で、広告の効果を考える - 広告を見る確率「ダイエットへの意識の高さ」に依存 - 売上は下記2つのデータに依存する - 「ダイエットへの意識の高さ」 -

    「広告を見たかどうか」 - 広告の真の効果は「ダイエットへの意識の高さ」に依存 - 1,000円、2,000円、3,000円と変動
  8. 設定(2)データの仕様 - ダイエットへの意識の高さx: 一様分布(-1, 1)に従う - 広告閲覧ダミーT: 1(x+noise>0), 0(otherwise) -

    noiseは標準正規分布に従う - 広告効果ダミーt: 1(x<0), 2(x<0.5), 3(otherwise) - 売上Y: [ 3x + Tt + 3 + noise] × 1,000 - ただし、[x]はxを超えない最大の整数 - noiseは一様分布(0, 1)に従う
  9. 設定(2)売上 - 真のモデル: Y = [ 3x + Tt +

    3 + noise] × 1,000 - ダイエットへの意識の高さと広告閲覧に依存 - 広告の効果はダイエットへの意識の高さに依存
  10. DR-Learnerのアルゴリズム(2/8) - 処置群(T=1)と対照群(T=0)にデータを分割 ※ (処置群のデータ数, 対照群のデータ数) = (n, N-n)とする 処置群(広告を見た)

    ダイエットへの 意識の高さ 売上 0.43 7,000 0.21 6,000 対照群(広告を見てない) ダイエットへの 意識の高さ 売上 0.09 3,000 -0.15 2,000
  11. DR-Learnerのアルゴリズム(3/8) - 処置群(T=1)のデータを用いて、広告を見た(T=1)場合の売 上Y 1 を予測する回帰モデルM 1 を作成 処置群(広告を見た) ダイエットへの

    意識の高さ 売上 0.43 7,000 0.21 6,000 広告を見た(T=1)場合の 売上Yを予測する回帰モデルM 1 学習器はなんでもOK!
  12. DR-Learnerのアルゴリズム(4/8) - 対照群(T=0)のデータを用いて、広告を見ていない(T=0)場 合の売上Y 0 を予測する回帰モデルM 0 を作成 対照群(広告を見てない) ダイエットへの

    意識の高さ 売上 0.09 3,000 -0.15 2,000 広告を見ていない(T=0)場合の 売上Yを予測する回帰モデルM 0 学習器はM 1 と合わせるのが通例
  13. DR-Learnerのアルゴリズム(5/8) - 傾向スコアps・予測モデルM 0 , M 1 ・処置群(T=1)のデータを 用いて、n個のITE 1

    を算出 Y 1 の予測値 M 1 による予測値を実績値 Yと傾向 スコアpsで調整 Y 0 の予測値 T=0の場合の実績値Yは存在せ ず、M 0 による予測値を利用
  14. DR-Learnerのアルゴリズム(6/8) - 傾向スコアps・予測モデルM 0 , M 1 ・対照群(T=0)のデータを 用いて、N-n個のITE 0

    を算出 Y 1 の予測値 T=1の場合の実績値Yは存在せ ず、M 1 による予測値を利用 Y 0 の予測値 M 0 による予測値を実績値 Yと傾向 スコアpsで調整
  15. DR-Learnerのアルゴリズム(7/8) - N個すべてのデータ(X 0 , X 1 , ITE 0

    , ITE 1 )を利用して、共変量X からITEを予測するモデルM DR を作成 ダイエットへの 意識の高さ ITE (推定値) 0.43 2,200 (広告を見た) 0.29 2,100 (広告を見た) 0.09 1,600 (広告を見ていない) -0.15 900 (広告を見ていない) 目的変数 特徴量
  16. 書籍 - 西山他「New Liberal Arts Selection 計量経済学」有斐閣 (2019) - 岩崎「統計的因果推論」朝倉書店(2015)

    - 星野「調査観察データの統計科学」岩波書店(2009) - 岩波データサイエンス刊行委員会編「岩波データサイエンス Vol.3-[特集]因果推論-実世界のデータから因果を読む」岩 波新書(2016)
  17. 書籍以外 - EconML公式ドキュメント - CausalML公式ドキュメント - Sören R. Künzel, Jasjeet

    S. Sekhon, Peter J. Bickel, Bin Yu 「Meta-learners for Estimating Heterogeneous Treatment Effects using Machine Learning」(2017)