Upgrade to Pro — share decks privately, control downloads, hide ads and more …

白金鉱業Meetup Vol.15 DMLによる条件付処置効果の推定_sotaroIZUMI_...

BrainPad
September 23, 2024

白金鉱業Meetup Vol.15 DMLによる条件付処置効果の推定_sotaroIZUMI_20240919

2024年9月19日に実施した、白金鉱業 Meetup Vol.15@六本木(効果検証)でのブレインパッド泉さんの登壇スライドです。

イベントURL
https://brainpad-meetup.connpass.com/event/324913/

泉さんX/Twitterアカウント
https://x.com/bebebeBayes

BrainPad

September 23, 2024
Tweet

More Decks by BrainPad

Other Decks in Science

Transcript

  1. ©BrainPad Inc. Strictly Confidential 3 泉 荘太朗(いずみ そうたろう) 新卒2年目 データサイエンティスト

    • 専攻:心理統計学 心理統計学とは? こころの働きを測定するための統計的方法の開発 効果検証との接点は? 1.実験計画法 2.テスト理論→(欠測データ)→因果推論(Donald Rubin) • 趣味:書店巡り、読書、野球観戦、ラーメン 本とラーメン二郎のことは任せてください • Xのアカウント:@bebebeBayes 自己紹介
  2. 4 ©BrainPad Inc. Strictly Confidential 今日話すことの概要 条件付処置効果(CATE)の必要性と、その推定に用いられるdouble/debiased machine learning(DML)とい う方法の優位性について話します。

    今日の目的 CATEの必要性を理解し、DMLに興味を持ってもらう 話すこと CATEを考える意義、DMLの強み 話さないこと DMLの理論的な話題
  3. 10 ©BrainPad Inc. Strictly Confidential CATEを考慮しよう 男女別の処置効果を計算すると、確かに男女差があった! 購入予定金額 男性0円 女性1,000円

    実際の購入金額 男性0円 女性2,000円 条件付処置効果(CATE): θ(男性)=0円、θ(女性)=1000円 平均処置効果(ATE): 500円
  4. 17 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! 処置変数Tとそれ以外の説明変数Xに分け、Xは関数系を指定せずに定式化します。 θ: ATE *

    Y: 結果変数 X: 説明変数 T: 処置変数 ε: 誤差項 処置変数のみ分ける 処置変数以外は関数系を指定しない * 因果推論の諸手法(IPWと回帰調整など)と同様に、ATEと解釈するには条件付独立性などが必要。
  5. 19 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! クロスフィッティングを行いθを推定します E[Y|X]とE[T|X]は機械学習によって推定します クロスフィッティング 1.

    データをK個のフォールドに分割 2. K-1個のフォールドから、E[Y|X]とE[T|X] を推定(機械学習モデルを利用) 3. 1個のフォールドを用いて下式からθを推定。 このとき、2.の推定量を利用 4. 3に利用するフォールドが重複しないよう2と 3をK回繰り返し、K個のθ^の平均値を推 定値とする STEP2: E[Y|X]とE[T|X]を推定 STEP3: STEP2で推定したモデルからE[Y|X=x]と E[T|X=x]を得て、θを推定 (K=3の場合) STEP4: 別のフォールドでも、2と3の推定を実行し、K回分のθ^の平均を最終的な推定値とする 2回目:STEP2 3回目:STEP2 →1~3回目の推定で得た3個の推定値を平均し、最終的な推定値とする 2回目:STEP3 3回目:STEP3 STEP2で使っていないデータでSTEP3を 行うのがポイント! (前スライドから再掲)
  6. 26 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! メタラーナーよりもDMLの方が推定量の分散が小さい! 横軸: 真のCATEの値 100回データを取り直す+推定す

    ると、 メタラーナーでは分散が大きい DMLでは分散が小さい! DMLによるCATE推定は、メタラーナーよりも分散が小さい (それぞれn=1,000、5,000の場合) 縦軸: CATEの推定値 ▪メタラーナー(X-ラーナー) ▪ DML