Slide 1

Slide 1 text

DMLによる条件付処置効果の推定 2024年 9月 19日

Slide 2

Slide 2 text

©BrainPad Inc. Strictly Confidential 2 1. 今日話す内容の概要 2. CATEを考慮しよう! 3. CATEはDMLで推定しよう! 目次

Slide 3

Slide 3 text

©BrainPad Inc. Strictly Confidential 3 泉 荘太朗(いずみ そうたろう) 新卒2年目 データサイエンティスト • 専攻:心理統計学 心理統計学とは? こころの働きを測定するための統計的方法の開発 効果検証との接点は? 1.実験計画法 2.テスト理論→(欠測データ)→因果推論(Donald Rubin) • 趣味:書店巡り、読書、野球観戦、ラーメン 本とラーメン二郎のことは任せてください • Xのアカウント:@bebebeBayes 自己紹介

Slide 4

Slide 4 text

4 ©BrainPad Inc. Strictly Confidential 今日話すことの概要 条件付処置効果(CATE)の必要性と、その推定に用いられるdouble/debiased machine learning(DML)とい う方法の優位性について話します。 今日の目的 CATEの必要性を理解し、DMLに興味を持ってもらう 話すこと CATEを考える意義、DMLの強み 話さないこと DMLの理論的な話題

Slide 5

Slide 5 text

©BrainPad Inc. Strictly Confidential CATEを考慮しよう!

Slide 6

Slide 6 text

6 ©BrainPad Inc. Strictly Confidential CATEを考慮しよう 売上増のために、化粧品のクーポンを郵便で配布することになった 購入予定金額 男性0円 女性1,000円

Slide 7

Slide 7 text

7 ©BrainPad Inc. Strictly Confidential CATEを考慮しよう どうもクーポンには効果があるらしい 購入予定金額 男性0円 女性1,000円 実際の購入金額 男性0円 女性2,000円

Slide 8

Slide 8 text

8 ©BrainPad Inc. Strictly Confidential CATEを考慮しよう 平均処置効果は500円! 購入予定金額 男性0円 女性1,000円 実際の購入金額 男性0円 女性2,000円 平均処置効果(ATE): 500円

Slide 9

Slide 9 text

9 ©BrainPad Inc. Strictly Confidential CATEを考慮しよう 「化粧品のクーポンなんだから、処置効果には男女差があるはずだよ!配布もタダじゃないんだよ!」

Slide 10

Slide 10 text

10 ©BrainPad Inc. Strictly Confidential CATEを考慮しよう 男女別の処置効果を計算すると、確かに男女差があった! 購入予定金額 男性0円 女性1,000円 実際の購入金額 男性0円 女性2,000円 条件付処置効果(CATE): θ(男性)=0円、θ(女性)=1000円 平均処置効果(ATE): 500円

Slide 11

Slide 11 text

11 ©BrainPad Inc. Strictly Confidential CATEを考慮しよう 効果の見込める女性だけに配布する方が効果的 購入予定金額 男性0円 女性1,000円 実際の購入金額 男性0円 女性2,000円

Slide 12

Slide 12 text

12 ©BrainPad Inc. Strictly Confidential CATEに基づいた意思決定をしよう! CATEも考慮しよう

Slide 13

Slide 13 text

©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう!

Slide 14

Slide 14 text

14 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! DMLでCATEを推定できる!

Slide 15

Slide 15 text

15 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! 推定方法は込み入った話になります… すぐに分からなくても気にしないでください

Slide 16

Slide 16 text

16 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! まずはATEから! その次にCATEに拡張!

Slide 17

Slide 17 text

17 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! 処置変数Tとそれ以外の説明変数Xに分け、Xは関数系を指定せずに定式化します。 θ: ATE * Y: 結果変数 X: 説明変数 T: 処置変数 ε: 誤差項 処置変数のみ分ける 処置変数以外は関数系を指定しない * 因果推論の諸手法(IPWと回帰調整など)と同様に、ATEと解釈するには条件付独立性などが必要。

Slide 18

Slide 18 text

18 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! Xの条件付期待値を取り、元のモデルからの残差を回帰すればθの推定量を得られます E[Y|X]とE[T|X]は未知なので、推定する必要があります Xの条件付期待値を取って(ただし、E[ε|X]=0となるよう適当な仮定が必要) 1式と2式を辺々引くと、g(X)が消えて 最小二乗法で推定して 前ページから再掲

Slide 19

Slide 19 text

19 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! クロスフィッティングを行いθを推定します E[Y|X]とE[T|X]は機械学習によって推定します クロスフィッティング 1. データをK個のフォールドに分割 2. K-1個のフォールドから、E[Y|X]とE[T|X] を推定(機械学習モデルを利用) 3. 1個のフォールドを用いて下式からθを推定。 このとき、2.の推定量を利用 4. 3に利用するフォールドが重複しないよう2と 3をK回繰り返し、K個のθ^の平均値を推 定値とする STEP2: E[Y|X]とE[T|X]を推定 STEP3: STEP2で推定したモデルからE[Y|X=x]と E[T|X=x]を得て、θを推定 (K=3の場合) STEP4: 別のフォールドでも、2と3の推定を実行し、K回分のθ^の平均を最終的な推定値とする 2回目:STEP2 3回目:STEP2 →1~3回目の推定で得た3個の推定値を平均し、最終的な推定値とする 2回目:STEP3 3回目:STEP3 STEP2で使っていないデータでSTEP3を 行うのがポイント! (前スライドから再掲)

Slide 20

Slide 20 text

20 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! 前のスライドの・・・ Xの条件付期待値を取って(ただし、E[ε|X]=0となるよう適当な仮定が必要) 1式と2式を辺々引くと、g(X)が消えて 最小二乗法で推定して 前ページから再掲

Slide 21

Slide 21 text

21 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! この部分のθを・・・ Xの条件付期待値を取って(ただし、E[ε|X]=0となるよう適当な仮定が必要) 1式と2式を辺々引くと、g(X)が消えて 最小二乗法で推定して 前ページから再掲

Slide 22

Slide 22 text

22 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! θ(X)に置き換える!

Slide 23

Slide 23 text

23 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! Y~=θ(X)T~+εの形になるので、 あとはθ(X)に適切なモデルを仮定して推定すればOK θ(X)には適切なモデルを仮定する! (例) θ(X)=θ: 平均処置効果 θ(X)=θX2: 2乗に比例する処置効果

Slide 24

Slide 24 text

24 ©BrainPad Inc. Strictly Confidential でも、メタラーナーでも推定できるんじゃ・・・ CATEはDMLで推定しよう!

Slide 25

Slide 25 text

25 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! 「点推定値だけじゃ役に立たないよ!推定量の不確実性も評価しないといけないよ!」

Slide 26

Slide 26 text

26 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! メタラーナーよりもDMLの方が推定量の分散が小さい! 横軸: 真のCATEの値 100回データを取り直す+推定す ると、 メタラーナーでは分散が大きい DMLでは分散が小さい! DMLによるCATE推定は、メタラーナーよりも分散が小さい (それぞれn=1,000、5,000の場合) 縦軸: CATEの推定値 ■メタラーナー(X-ラーナー) ■ DML

Slide 27

Slide 27 text

27 ©BrainPad Inc. Strictly Confidential CATEはDMLで推定しよう! 「メタラーナーよりもDMLを使ったほうが、確実な意思決定ができそうだね!」

Slide 28

Slide 28 text

28 ©BrainPad Inc. Strictly Confidential Enjoy!

Slide 29

Slide 29 text

株式会社ブレインパッド 106-0032 東京都港区六本木三丁目1番1号 六本木ティーキューブ TEL:03-6721-7002 FAX:03-6721-7010 www.brainpad.co.jp [email protected] 本資料は、未刊行文書として日本及び各国の著作権法に基づき保護されております。本資料には、株式会社ブレインパッド所有の特定情報が含まれており、これら情報に基づく本資料の内容は、貴社以外の第三者に開示されること、また、本資料を評価する以外の目的で、その 一部または全文を複製、使用、公開することは、禁止されています。また、株式会社ブレインパッドによる書面での許可なく、それら情報の一部または全文を使用または公開することは、いかなる場合も禁じられております。 ©BrainPad Inc.

Slide 30

Slide 30 text

30 ©BrainPad Inc. Strictly Confidential シミュレーションの設定 異質性のある変数は1変数だけに設定し、真のCATEは以下の表のように設定しました。 また、真のCATEの平均(=真のATE)が1となるよう標準化し、標準化後の値を用いました。 * ランダムに生成したデータを標準化しているため、一意には定まらない。 X -0.67以下 -0.67~0 0~0.67 0.67以上 真のCATE 0 0.5 1.5 2 標準化後* 0 約0.67 約1.33 約2.0