[勉強会資料メモ] Double/Debiased ML

Slide 1

Slide 1 text

Double/Debiased ML  30分LT用：手を動かしてイメージをつかむ  2021.11.20 twitter @asas_mimi 1

Slide 2

Slide 2 text

理論的詳細は割愛  詳細は下記をチェック     Chernozhukov , Victor, et al.: Double/Debiased Machine Learning for Treatment and Structural Parameters. The Econometrics Journal, Volume 21, 2018  https://academic.oup.com/ectj/article/21/1/C1/5056401     Econ ML https://econml.azurewebsites.net/spec/estimation/dml.html  2 とりあえず、  データを転がしてみよう的なLT 

Slide 3

Slide 3 text

LTの流れ  1  問題設定  ● 部分線形問題の説明 ● Xが高次元だとML使いたくなるよね？ ● MLを素朴に適用すると √n-consistentを達成できない！！　 2  DMLの工夫  [モチベーション]regularization(正則化)と overfitting(過学習)から来る biasesに同時に対応したい ● bias from regularization => 直交化 ● bias from overfitting => cross fitting 3  Pythonコード一部  [追実験] Causal Inference in the Wild: Elasticity Pricing( blog ) https://towardsdatascience.com/causal-infe renceexample-elasticity-de4a3e2e621b - EconMLは一体どんなことやってるの？ - CATEは計算できる？ [Tが二値] - 401kの効果検証データ 3 notebookは別途共有  要点のみ 

Slide 4

Slide 4 text

定式的に書くと： Xがとっても高次元の場合： - MLモデルを使いたくなりますよね？ - ナイーブにML使うと、ダメですよ（正則化/過学習bias） - 直交化とcross-ﬁttingでroot-n consistent を達成しよう！という手法を紹介します部分線形問題とML  4 関心があるパラメータ局外母数 nuisance parameters T Y X X X X X τ g() m() V U 観察可能

Slide 5

Slide 5 text

Naive ML Approach  単純なMLアプローチによるτの推定量：これは n1/2 consistent（√n一致性）を達成できない： - 簡単な話、収束レートが遅い(だいたい n1/4 -consistent ※ 雑記で補足) MLモデルの推定値 5

Slide 6

Slide 6 text

bias from regularization  誤差項のここがダメ！ここはN(0,Σ*) になるので無視 regularization bias - ML特有の正則化項の影響 - O(n-1/2)では収束しない (だいたいn1/4-consistent) 6

Slide 7

Slide 7 text

Frisch–Waugh–Lovell theorem  残差回帰問題（FWL定理）とほぼ同じ発想で今から工夫を入れていく 7 [例題] 価格弾力性の推定問題（データ元は後述） LnQ ~ LnP + sku_avg_p + stock_age_days + C(month) + C(DoM) + C(DoW) LnQをY、 LnPをTとして、その他はX(共変量) 1. 重回帰でT->Yのインパクト(価格弾力性) 2. 残差回帰でT->Yのインパクト同じ結果になる (同じことをしている)

Slide 8

Slide 8 text

重回帰モデルの推定値  8

Slide 9

Slide 9 text

残差回帰 (FWL定理）  9 1. X -> Yの回帰 (Tは除く) 2. X -> Tの回帰 3. 残差を計算 4. 残差 on 残差で回帰 5. 結果は一致

Slide 10

Slide 10 text

Orthogonalization  Tの残差 on Yの残差この時の誤差は？ Tの残差（mモデルの推定誤差）次のスライドより、ここの性質を吟味するなので、aは無視できる ~ N(0, Σ*) 操作変数法っぽい 10

Slide 11

Slide 11 text

Overcoming regularization bias  誤差 b term mモデルの残差 ✖ 　gモデルの残差 n1/2-consistentを達成しているそれぞれの収束レートは遅い(だいたいn1/4-consistent) ただし、直交化により、n1/2-consistent (雑イメージn1/4✖n1/4) 11

Slide 12

Slide 12 text

誤差 c term この termを含んでしまう: 考えてみる： ● g^ o がoverﬁttingしている場合、その推定誤差内に U の情報が多く含まれることになる ● UとVが独立である保証がない（極端な場合、未補足の共変量） ● 仮に、UとVが関連していた場合、この誤差項 cが収束しない bias from overfitting  これはただのerror term (estimated error ではない) gがoverﬁtting => Uが推定誤差の中に登場 12

Slide 13

Slide 13 text

データをk個（以下の図では２つ）にランダムに分割し、学習と推定のサンプルを分ける Cross fitting  13

Slide 14

Slide 14 text

Overcoming overfitting bias  14

Slide 15

Slide 15 text

細かい話は割愛  15

Slide 16

Slide 16 text

再びNaive ML Approach  単純なMLアプローチによるτの推定量： score function： - Wはデータセット。モーメント条件 - ただし、 g(nuisance parameter)の方向微分(Gateaux derivative)は非ゼロになる MLモデルの推定値省　略   推定値ｇの微小変化に対して、モーメント条件が脆弱 16

Slide 17

Slide 17 text

DML：Neyman orthogonality  score function： Neyman orthogonality： - パラメータη(nuisance parameters)の方向微分(Gateaux derivative)はゼロになる - => gやmの微小変動（推定誤差）に対して、モーメント条件はロバスト省　略   17

Slide 18

Slide 18 text

簡単なデータで試してみよう  18

Slide 19

Slide 19 text

価格弾力性の推定問題  練習   データ元：Kaggle https://www.kaggle.com/vijayuv/onlineretail データ加工参考： Causal Inference in the Wild: Elasticity Pricing (toward data science blog ) https://towardsdatascience.com/causal-inferenceexample-elastici ty-de4a3e2e621b 上記ブログのgithub https://github.com/larsroemheld/causalinf_ex_elasticity 19

Slide 20

Slide 20 text

任意のMLモデルで cross fitting  練習   　任意のMLモデル  - m(X) : first_t_model - g (X) : first_y_model (ハイパラは決め打ち ) 　Cross fittingで残差計算 sklearn.model_selectio n.cross_val_predictを利用残差は単純に引くだけ (binaryの場合は後述) 20

Slide 21

Slide 21 text

最後に残差on残差の回帰  練習   　回帰  MLモデルから算出された残差を回帰しているだけ　価格弾力性回帰係数を確認すればよい <注意> 価格弾力性というのはちょっと例が悪かったこれはあくまで全体の平均効果（ちょっと非現実的） 21

Slide 22

Slide 22 text

練習   x軸がtの残差 y軸がyの残差これの回帰をしているだけ 22

Slide 23

Slide 23 text

CATEも知りたい！！  23

Slide 24

Slide 24 text

Linear CATEモデル  Linear CATEモデル： CATE算出法： CATE  相互作用項を仕込めばよい 24

Slide 25

Slide 25 text

Linear CATEモデル  CATE  25

Slide 26

Slide 26 text

non-linear CATEモデル： CATE ~ 実は教師あり学習問題: non-linear CATEモデル  CATE  sample weight  教師ラベル  教師ありモデル  26

Slide 27

Slide 27 text

教師あり学習の設定： V2 : 重み model_weight U/V : 教師ラベル cate_model_y モデルの推定値がそのままCATE cateそのものを推定するモデルになっているので、predictメソッドの値を cateとして使う non-linear CATEモデル  CATE  27

Slide 28

Slide 28 text

（厳密な意味での原因でなくとも）なんでCATEモデルが以下のように判断したのかは気になりますよね non-linear CATE モデルのWHYが知りたい  CATE  -40.97!!!  -0.95!!!  28

Slide 29

Slide 29 text

SAHPを使うと便利  CATE  29

Slide 30

Slide 30 text

一言注意  CATE  どの特徴量がどの程度、 CATEに寄与しているか可視化できますね注意：ここで得られるCATEは、（本来非線形であったかもしれない）真のCATEに対して局所的な線形近似を与えるようなもの。使い方には注意 30

Slide 31

Slide 31 text

Tが２値変数だった場合  介入する？しない？  31

Slide 32

Slide 32 text

Data set on financial wealth and 401(k) plan participation.  2値   論文： ● Abadie, A. (2003), Semiparametric instrumental variable estimation of treatment response models. Journal of Econometrics, 113(2): 231-263. ● Chernozhukov, V., Chetverikov, D., Demirer, M., Duﬂo, E., Hansen, C., Newey, W. and Robins, J. (2018), Double/debiased machine learning for treatment and structural parameters. The Econometrics Journal, 21: https://doi.org/10.1111/ectj.12097 データ: DoubleML(R)より https://rdrr.io/cran/DoubleML/src/R/datasets.R 説明: 1991年のSurvey of Income and Program Participation (SIPP)から抽出された9,915件の世帯レベルの観測値で構成 (すべての変数は1990年を基準) ● e401 : 401kプランの参加資格有無 (介入変数) ● net_tfa: 観察年数後の純資産 (アウトカム) 32

Slide 33

Slide 33 text

Data set on financial wealth and 401(k) plan participation.  2値   e 401 資産 X X X X X τ g() m() DAG 介入変数は二値変数 401kの権利が与えられているか (1)/否か(0) 33

Slide 34

Slide 34 text

残差は “T - model.predict_proba”それ以外は同じ  2値   2値なのでClassifier ゼロ割防止のため、念のためclip predict_probaで出力あとは今までと同じ 34

Slide 35

Slide 35 text

notebookを確認してみましょう  35

Slide 36

Slide 36 text

これを読んでください！！(参考文献)  36 [メイン論文]  ● Chernozhukov , Victor, et al.: Double/Debiased Machine Learning for Treatment and Structural Parameters. The Econometrics Journal, Volume 21, 2018 https://academic.oup.com/ectj/article/21/1/C1/5056401  [実　装]  ● EconML https://econml.azurewebsites.net/spec/estimation/dml.html  ● EconML issue https://github.com/microsoft/EconML/issues/534#event-5598568133  [データ] ● Causal Inference in the Wild: Elasticity Pricing(toward data science blog ) https://towardsdatascience.com/causal-inferenceexample-elasticity-de4a3e2e621b ● 上記ブログのgithub https://github.com/larsroemheld/causalinf_ex_elasticity ● DoubleML（ Rパッケージ） https://rdrr.io/cran/DoubleML/src/R/datasets.R [解説スライド等] ● Lester Mackey (2018) Orthogonal Machine Learning: Power and Limitations https://simons.berkeley.edu/sites/default/files/docs/10802/orthogonalml-slides.pdf ● Chris Felton (2018) Chernozhukov et al. on Double / Debiased Machine Learning https://scholar.princeton.edu/sites/default/files/bstewart/files/felton.chern_.slides.20190318.pdf CATE系やSHAPの活用はほとんど EconMLのドキュメントから   とても良いが骨が折れる   入門解説  元論文 

Slide 37

Slide 37 text

直接関係ないけど、事前に読んだ方が良い本（ML出身向け）  37 末石直也 (2015)  『計量経済学ミクロデータ分析へのいざない』日本評論社    ● 機械学習界隈からこの世界（因果推論の世界）に入門すると、漸近理論とか知らない人が多い（僕もそうです）  ● 日本語で読めて、かつ計量経済学の文脈でしっかり説明してくれる教科書だと末石先生のこの本が個人的にBESTでした  ● 特に以下の章は本当に面白い  ○ 第１章　線形回帰とOLS  ○ 第４章行列表記と漸近理論  ○ 第５章　直交条件とGMM  ○ 第９章　ノンパラメトリック法  ● 〇〇法、XX法とかを調べ漁る前に、じっくり読んでみても損はないと思いました（自戒を込めて書いてます！！） 

Slide 38

Slide 38 text

以下、雑記  38

Slide 39

Slide 39 text

[補足] 本当にMLは n1/4-consistent ?  39 ● 上記のスライドで、適当に「MLをn1/4-consistent」としてました。 ● 正確には、多くのMLモデルはn1/4-consistentと書いた方が正確（元論文もそう書いてあります） ● 実際には各モデル毎に、収束レートに関する考察等論文がでています。（が、もちろん全部終えていません！）右図は冨岡(2015)第３章図3.4から借用 ● Optimal: 真の非ゼロ変数を知った状態での普通の回帰 ● L1: L1正則化 ● L2: L2正則化予備知識あり/なしの違いが明確なので、「だから何？」と思うかもしれませんが、収束レートのイメージはこんな感じ。スパース推定の収束レートの理論式は、冨岡 (2015) の第４章以降をご参考 => 冨岡亮太(2015)『スパース性に基づく機械学習』講談社 [出典] https://github.com/ryotat/smlbook

Slide 40

Slide 40 text

[補足] MLの収束レートに関する神資料等  40 ● 鈴木大慈(2012)「統計的学習理論チュートリアル : 基礎から応用まで」 https://ibisml.org/archive/ibis2012/ibis2012-suzuki.pdf ● 鈴木大慈(2019)「深層学習の数理」p.111 https://www.slideshare.net/trinmu/ss-161240890 ● [本論文でも紹介されてるやつ 1つピックアップ] Chen, X. and H. White (1999). Improved rates and asymptotic normality for nonparametric neural network estimators. IEEE Transactions on Information Theory 45, 682–91. https://www.researchgate.net/publication/3079737_Improved_Rates_and_Asymptotic_Normality_ for_Nonparametric_Neural_Network_Estimators ● [用語解説] Donsker's theorem https://en.wikipedia.org/wiki/Donsker%27s_theorem