DMLによる差分の差推定

計量経済学・機械学習ゼミ差分の差推定量第？回 Double/debiased machine learning AI事業本部 AdEconチーム加藤真大 1

n Neng-Chieh Chang, Double/debiased machine learning for difference-in-difference models The
Econometrics Journal 2020 • 差分の差推定量のためのDMLの論文． • https://academic.oup.com/ectj/article/23/2/177/5722119 DMLの応用例：差分の差推定量 2

n 𝑌!(𝑡)：個人𝑖の時点𝑡におけるアウトカム． n 𝐷! 𝑡 ∈ {0,1}：処置． n 時刻は𝑡 =
0と𝑡 = 1の2期間．𝑡 = 0は処置（実験）前．𝑡 = 1は処置後． n 潜在アウトカム：𝑌! 𝑡 = 𝑌! " 𝑡 + 𝑌! # 𝑡 − 𝑌! " 𝑡 𝐷!(𝑡)． • 𝑌! " 𝑡 ：個人𝑖が時刻𝑡に処置を受けなかった時の潜在アウトカム． • 𝑌! # 𝑡 ：個人𝑖が時刻𝑡に処置を受けた時の潜在アウトカム． • 全ての𝑖に対して（実験前なので）𝐷! 0 = 0． n 表記を簡略にするために𝐷! = 𝐷!(1)とする．問題設定 3

n 潜在アウトカム：𝑌! 𝑡 = 𝑌! " 𝑡 + 𝑌! #
𝑡 − 𝑌! " 𝑡 𝐷!(𝑡)． • 𝑌! " 𝑡 ：個人𝑖が時刻𝑡に処置を受けなかった時のアウトカム． • 𝑌! # 𝑡 ：個人𝑖が時刻𝑡に処置を受けた時のアウトカム． • 全ての𝑖に対して𝐷! 0 = 0． n 𝑡 = 0のとき： 𝑌! 0 = 𝑌! " 0 + 𝑌! # 0 − 𝑌! " 0 0 = 𝑌! " 0 . n 𝑡 = 1のとき 𝑌! 1 = 𝑌! " 1 + 𝑌! # 1 − 𝑌! " 1 𝐷! 1 . 𝐷! = 𝐷!(1) 潜在アウトカムの例 4

n 伝統的な（共変量を）伴わない線形DiDは， 𝑌! 𝑡 = 𝜇 + 𝜏 ⋅ 𝐷!
1 + 𝛿 ⋅ 𝑡 + 𝛼 ⋅ 𝐷! 𝑡 + 𝜀! 𝑡 𝑌! 0 = 𝜇 + 𝜏 ⋅ 𝐷! 1 + 𝛿 ⋅ 𝑡 + 𝜀! 𝑡 𝑌! 1 = 𝜇 + (𝜏 + 𝛼) ⋅ 𝐷! 1 + 𝛿 ⋅ 𝑡 + 𝜀! 𝑡 として表される．ここで， • 𝛼：関心のあるパラメータ（処置効果）； • 𝜀!(𝑡)：平均0の外生的ショック；共変量を伴わない線形DiD 5

n 処置群と対照群がランダムに決まっていない場合，共変量を用いて制御することが考えられる． n 共変量𝑋! ∈ ℝ! $に対して， 𝑌! 𝑡
= 𝜇 + 𝑋! %𝜋 𝑡 + 𝜏 ⋅ 𝐷! + 𝛿 ⋅ 𝑡 + 𝛼 ⋅ 𝐷! 𝑡 + 𝜀!(𝑡) 共変量を伴う線形DiD 6

n Meyer, Viscusi, and Durbin (1995) • グループごとに異なる（異質な）処置効果を持つ場合を考える． → 線形回帰モデルに制御変数を含めることは不適切かもしれない．
• 𝑋! と𝐷!(𝑡)の間の交差項の必要性． n Abadie (2005)のように，制御変数をノンパラメトリックに取り入れると良い． n AbadieのセミパラメトリックDiD推定量を紹介する．異質な処置効果とノンパラメトリックモデル 7

n 推定したいものは，処置群の平均処置効果（ATT）であるとする． n ATTは 𝜃" = 𝔼[𝑌! # 1 −
𝑌! " 1 |𝐷! = 1] として定義される． • 𝑡 = 1における，処置群の，期待処置効果． n Abadie (2005)は，以下の三つのタイプを議論した． 1. 繰り返しアウトカム． 2. 繰り返しクロスセクション． 3. マルチレベル処置．処置群の平均処置効果 8

n 処置前と処置後のアウトカムを観測できるとする． n つまり， 𝑌! 0 , 𝑌! 1 ,
𝐷!(1), 𝑋! !&# ' を観測できるとする．繰り返しアウトカム 9

𝑡 − 𝑌! " 𝑡 𝐷!(𝑡)． • 𝑌! " 𝑡 ：個人𝑖が時刻𝑡に処置を受けなかった時のアウトカム． • 𝑌! # 𝑡 ：個人𝑖が時刻𝑡に処置を受けた時のアウトカム． • 全ての𝑖に対して𝐷! 0 = 0． n 𝑡 = 0のとき： 𝑌! 0 = 𝑌! " 0 + 𝑌! # 0 − 𝑌! " 0 0 = 𝑌! " 0 . n 𝑡 = 1のとき 𝑌! 1 = 𝑌! " 1 + 𝑌! # 1 − 𝑌! " 1 𝐷! 1 . 𝐷! = 𝐷!(1) 潜在アウトカムの表記の確認 10

n 繰り返しアウトカムの設定のもとで，ATTを識別するための仮定． n 仮定２．１： 𝔼 𝑌! " 1 − 𝑌!
" 0 𝑋!, 𝐷! = 1 = 𝔼 𝑌! " 1 − 𝑌! " 0 𝑋!, 𝐷! = 0]. n 仮定２．２：確率1で，𝑃 𝐷! = 1 > 0，かつ，𝑃 𝐷! = 1 𝑋!) < 1． • 仮定２．１は条件付きパラレルトレンド仮定であることを仮定している． - 𝑋! で条件づけると，処置群と対照群で，処置をしなかった場合のアウトカムが同じトレンドを持っている． - 処置をしない（𝑌! " 𝑡 ）場合のアウトカムの変化𝑌! " 1 − 𝑌! " 0 は，処置群 𝐷!(1) = 1と対称群𝐷!(1) = 0で同じ． • 仮定２．２は処置群の傾向スコアのサポートが，対照群のサポートの部分集合であることを仮定している．繰り返しアウトカムの仮定 11

n 仮定２．１と仮定２．２のもとで，Abadie (2005)はATTを 𝜃" = 𝔼 𝑌! 1 − 𝑌!
0 𝑃 𝐷! = 1 𝐷! − 𝑃 𝐷! = 1 𝑋!) 1 − 𝑃 𝐷! = 1 𝑋! . として識別した．繰り返しアウトカムにおけるATTの識別 12

n 研究者は，繰り返しクロスセクションデータを観測できるとする． • つまり， 𝑌!, 𝐷!, 𝑇!, 𝑋! !&# '
を観測できるとする．ここで， 𝑌! = 𝑌! 0 + 𝑇! 𝑌! 1 − 𝑌! 0 である． n 𝑇! は時間のインディケータである．観測値が処置後データに属する場合，値1を取る． • 𝑇! = 1の場合は，𝑌! 1 = 𝑌! " 1 + 𝑌! # 1 − 𝑌! " 1 𝐷!(1)のみを， • 𝑇! = 0の場合は， 𝑌! 0 = 𝑌! " 0 のみを観測できる． • つまり，(𝑌! 1 , 𝐷!, 𝑇! = 1, 𝑋!)か(𝑌! 0 , 𝐷!, 𝑇! = 0, 𝑋!)のみを観測できる．繰り返しクロスセクション 13

𝑡 − 𝑌! " 𝑡 𝐷!(𝑡)． • 𝑌! " 𝑡 ：個人𝑖が時刻𝑡に処置を受けなかった時のアウトカム． • 𝑌! # 𝑡 ：個人𝑖が時刻𝑡に処置を受けた時のアウトカム． • 全ての𝑖に対して𝐷! 0 = 0． n 𝑡 = 0のとき： 𝑌! 0 = 𝑌! " 0 + 𝑌! # 0 − 𝑌! " 0 0 = 𝑌! " 0 . n 𝑡 = 1のとき 𝑌! 1 = 𝑌! " 1 + 𝑌! # 1 − 𝑌! " 1 𝐷! 1 . 𝐷! = 𝐷!(1) 潜在アウトカムの表記の確認 14

n 仮定２．３ • 𝑇 = 0のとき，データは分布 𝑌 0 , 𝐷,
𝑋 からi.i.d.に生成されている． • 𝑇 = 1のとき，データは分布（𝑌(1), 𝐷, 𝑋）からi.i.d.に生成されている．繰り返しクロスセクションの仮定 15

n 仮定２．１と仮定２．３が成立すると仮定する． n ATTは 𝜃" = 𝔼 𝑇! − 𝜆"
𝜆"(1 − 𝜆") 𝑌! 𝑃(𝐷! = 1) 𝐷! − 𝑃(𝐷! = 1|𝑋!) 1 − 𝑃(𝐷! = 1|𝑋!) として識別される．ここで，𝜆" ≡ 𝑃(𝑇! = 1)である．繰り返しクロスセクションにおけるATTの識別 16

n セミパラメトリックDiD推定量は，これらのATTのサンプル近似． n 繰り返しアウトカムの場合： F 𝜃 = 1 𝑁 H
!&# ' 𝑌! 1 − 𝑌!(0) ̂ 𝑝 𝐷! − K 𝑔(𝑋!) 1 − K 𝑔(𝑋!) . • ここで， ̂ 𝑝は𝑝" ≡ 𝑃(𝐷 = 1)の推定量であり， K 𝑔(𝑋!)は傾向スコア𝑔( 𝑋 ≡ 𝑃(𝐷 = 1|𝑋)の推定量である． n K 𝑔を機械学習的な手法で推定することを考える．セミパラメトリックDiD推定量 17

n 機械学習的な方法で K 𝑔を構築する場合， 𝑁一致性はもたない． n 理由１：スコア関数は 𝜓 𝑊, 𝜃",
𝑝", 𝑔" ≡ 𝑌 1 − 𝑌 0 𝑃 𝐷 = 1 𝐷 − 𝑔" 𝑋 1 − 𝑔" 𝑋 − 𝜃" で定義される．これは， 𝑔" （傾向スコア）に非ゼロな方向微分（ガトー微分） 𝜕)𝔼 𝜑 𝑊, 𝜃", 𝑝", 𝑔" 𝑔 − 𝑔" ≠ 0 を有する． • 局外母数（傾向スコア）に対して，推定したパラメータ（スコア関数）が変動．機械学習的な手法を用いることによる問題 18

n 理由２：機械学習モデルの収束レートが遅い（ドンスカー条件）． Ø 理由１を解決するために，非ゼロな方向微分をもつ（ネイマン直交条件）スコア関数を定義する． Ø 理由２を解決するために，ChernozhukovのDouble/debiased machine learning (DML)
で使われている交差適合(cross-fitting)を適用する．機械学習的な手法を用いることによる問題 19

n DML DiD推定量を提案する． n DMLを行うために，新しいスコア関数を定義する． DML DiD推定量 20

n Abadieのスコア関数： 𝜓 𝑊, 𝜃", 𝑝", 𝑔" ≡ 𝑌 1
− 𝑌 0 𝑃 𝐷 = 1 𝐷 − 𝑔" 𝑋 1 − 𝑔" 𝑋 − 𝜃" n 新しいスコア関数 𝜓 𝑊, 𝜃", 𝑝", 𝑔" ≡ 𝑌 1 − 𝑌 0 𝑃 𝐷 = 1 𝐷 − 𝑔" 𝑋 1 − 𝑔" 𝑋 − 𝜃" − 𝐷 − 𝑔"(𝑋) 𝑃 𝐷 = 1 1 − 𝑔"(𝑋) 𝔼 𝑌 1 − 𝑌 0 𝑋, 𝐷 = 0 . n 局外母数は𝜂" = 𝑃 𝐷 = 1 𝑋 , 𝔼 𝑌 1 − 𝑌 0 𝑋, 𝐷 = 0 ≡ (𝑔", ℓ#")．繰り返しアウトカムのスコア関数 21

n Abadieのスコア関数： 𝜓 𝑊, 𝜃", 𝑝", 𝑔" ≡ 𝑇 −
𝜆" 𝜆"(1 − 𝜆") 𝑌 𝑃(𝐷 = 1) 𝐷 − 𝑃(𝐷 = 1|𝑋) 1 − 𝑃(𝐷 = 1|𝑋) − 𝜃" n 新しいスコア関数 𝜓 𝑊, 𝜃", 𝑝", 𝑔" ≡ 𝑇 − 𝜆" 𝜆"(1 − 𝜆") 𝑌 𝑃(𝐷 = 1) 𝐷 − 𝑃(𝐷 = 1|𝑋) 1 − 𝑃(𝐷 = 1|𝑋) − 𝜃" − 𝐷 − 𝑃 𝐷 = 1 𝑋 𝜆"(1 − 𝜆")𝑃 𝐷 = 1 1 − 𝑃 𝐷 = 1 𝑋 𝔼 (1 − 𝜆")𝑌 𝑋, 𝐷 = 0 . n 局外母数は𝜂" = 𝑃 𝐷 = 1 𝑋 , 𝔼 (1 − 𝜆")𝑌 𝑋, 𝐷 = 0 ≡ (𝑔", ℓ*")．繰り返しクロスセクションのスコア関数 22

n Abadieのスコア関数と，新しいスコア関数は，期待値では同じ． n 新しいスコア関数の目的は，新しいスコア関数のガトー微分を，𝑔" についてゼロにすること． n この条件は，ネイマン直交条件と呼ばれている． n ネイマン直交条件を満たす（後で証明される）新しいスコア関数に，交差適
合を適用する． n 漸近正規性を有するパラメータを得ることができる．新しいスコア関数の目的 23

交差適合（cross-fitting） 24

n Chernozhukov et al. (2018)とは少し異なる定義を行う． • Chernozhukov et al. (2018)︓全ての局外母数に対して直交．
n DiDでは，無限次元になりうる局外母数に対してのみ直交化する．ネイマン直交条件 25

n 関心のある低次元パラメータの真値：𝜃" ∈ Θ． n 有限次元の局外母数の真値：𝜌" ． n 無限次元の局外母数の真値：𝜂" ．
n 無限次元の局外母数の表記：𝜂 ∈ 𝒯． n 𝑊は確率測度𝑃で可測空間(𝒲, 𝒜𝒲)の値をとる確率変数．ネイマン直交条件 26

n 無限次元の局外母数𝐷,: Z 𝒯 → ℝと𝑟 ∈ [0,1)に対して，方向微分（ガトー微分）を 𝐷,
𝜂 − 𝜂" ≡ 𝜕, 𝔼- 𝜓 𝑊, 𝜃", 𝜌", 𝜂" + 𝑟 𝜂 − 𝜂" , 𝜂 ∈ 𝒯 として定義する．ここで， Z 𝒯 = 𝜂 − 𝜂": 𝜂 ∈ 𝒯 ． • 簡略化のため， 𝜕.𝔼-𝜓 𝑊, 𝜃", 𝜌", 𝜂" 𝜂 − 𝜂" ≡ 𝐷" 𝜂 − 𝜂" , 𝜂 ∈ 𝒯 と表記する． n 加えて，𝒯 ' ⊂ 𝒯を，𝜂" の推定量が高確率で取る関数の集合である，局外実現集合として定義する．ネイマン直交条件 27

n 定義２： • スコア関数𝜓が，局外母数実現集合𝒯 ' ⊂ 𝒯に関して，(𝜃", 𝜌", 𝜂")において，ネイマン直交条件に従うとは，以下を満たすことである．
• 方向微分写像𝐷,[𝜂 − 𝜂"]が全ての𝑟 ∈ [0,1)と𝜂 ∈ 𝒯 ' に対して存在し，かつ， 𝑟 = 0において消失する．すなわち， 𝜕.𝔼-𝜓 𝑊, 𝜃", 𝜌", 𝜂" 𝜂 − 𝜂" = 0, for all 𝜂 ∈ 𝒯 '. n 補題３．１新しく定義されたスコア関数は，ネイマン直交条件を満たす．ネイマン直交条件 28

n 交差適合によって得られる推定量 Z 𝜃の性質を調べる． n 𝜅と𝐶：正の定数． n 𝐾 ≥ 2：整数．
n 𝜀' ：0に収束する正の定数の系列． n ⋅ -,0 ：ある確率測度𝑃のもとでの𝐿0ノルム: 𝑓 -,0 ≡ i 𝑓 𝑤 0𝑑𝑃 𝑤 # 0 and 𝑓 -,1 ≡ sup 2 𝑓 𝑤 . 漸近的性質 29

n 𝑃を(𝑌 0 , 𝑌 1 , 𝐷, 𝑋)の確率法則とする． n
𝐷 = 𝑔" 𝑋 + 𝑈，かつ，𝑌 1 − 𝑌 0 = ℓ#" 𝑋 + 𝑉# とする． n ここで，𝔼- 𝑈 𝑋 = 0，かつ，𝔼 𝑉# 𝑋, 𝐷 = 0 = 0． n 𝐺#3" ≡ 𝔼- 𝜕3𝜓# 𝑊, 𝜃", 𝑝", 𝜂#" ，かつ， n Σ#" ≡ 𝔼- 𝜓# 𝑊, 𝜃", 𝑝", 𝜂#" + 𝐺#3"(𝐷 − 𝑝") * を定義する．繰り返しアウトカムの正則条件（仮定３．１） 30

n 以下が成立する．（a）Pr 𝜅 ≤ 𝑔" 𝑋 ≤ 1 −
𝜅 = 1; （b） 𝑈𝑉# -,4 ≤ 𝐶; （c）𝔼 𝑈# * 𝑋 ≤ 𝐶；（d）𝔼 𝑉# * 𝑋 ≤ 𝐶︔ （e）Σ#" > 0︔ 繰り返しアウトカムの正則条件（仮定３．１） 31

（f）補助的なサンプル（交差検証で得られたサンプル）𝐼5 6のもとで，推定量 ̂ 𝜂#5 = K 𝑔5, , x ℓ#5
は以下の条件に従う：確率1 − 𝑜(1)で， ̂ 𝜂#5 − 𝜂#" -,* ≤ 𝜀', K 𝑔5 − 1 2 -,1 ≤ 1 2 − 𝜅, K 𝑔5 − 𝑔" -,* * + K 𝑔5 − 𝑔" -,*× x ℓ#5 − ℓ#" -,* ≤ 𝜀' *. 繰り返しアウトカムの正則条件（仮定３．１） 32

n 繰り返しクロスセクションの正則条件も，繰り返しアウトカムの正則条件と同様に定義される．繰り返しクロスセクションの正則条件（仮定３．２） 33

n 定理３．１ • 繰り返しアウトカムモデル：仮定２．１，仮定２．２，仮定３．１が成立． • 繰り返しクロスセクションモデル：仮定２．１，仮定２．３，仮定３．２が成立． • 𝜀'
= 𝑜 𝑁7! " であるならば，ATT推定量 Z 𝜃は 𝑁 Z 𝜃 − 𝜃" → 𝒩 0, Σ に従う．ここで，繰り返しアウトカムモデルの場合はΣ = Σ#" ，繰り返しクロスセクションモデルの場合はΣ = Σ*" ．漸近分布 34

n 真の処置効果𝜃" を𝜃" = 3とするときの数値実験． n 設定は，繰り返しアウトカムの設定．数値実験 35

数値実験 36

n モザンビークと南アフリカの貿易における賄賂． n 関税が高いことが賄賂の原因？ n 関税を低くすると • 賄賂が減る？ • 収入が増えるので賄賂も増える？
n ATT: 関税を減らした時の賄賂の変化率．賄賂と関税 37

賄賂と関税 38

DMLによる差分の差推定

DMLによる差分の差推定

More Decks by MasaKat0

Other Decks in Research

Featured

Transcript