Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DMLによる差分の差推定

Bb6c3fc8c577710c72d03aeb4fa56bf6?s=47 MasaKat0
August 31, 2021

 DMLによる差分の差推定

DMLによる差分の差推定

Bb6c3fc8c577710c72d03aeb4fa56bf6?s=128

MasaKat0

August 31, 2021
Tweet

Transcript

  1. 計量経済学・機械学習ゼミ 差分の差推定量 第?回 Double/debiased machine learning AI事業本部 AdEconチーム 加藤真大 1

  2. n Neng-Chieh Chang, Double/debiased machine learning for difference-in-difference models The

    Econometrics Journal 2020 • 差分の差推定量のためのDMLの論文. • https://academic.oup.com/ectj/article/23/2/177/5722119 DMLの応用例:差分の差推定量 2
  3. n 𝑌!(𝑡):個人𝑖の時点𝑡におけるアウトカム. n 𝐷! 𝑡 ∈ {0,1}:処置. n 時刻は𝑡 =

    0と𝑡 = 1の2期間.𝑡 = 0は処置(実験)前.𝑡 = 1は処置後. n 潜在アウトカム:𝑌! 𝑡 = 𝑌! " 𝑡 + 𝑌! # 𝑡 − 𝑌! " 𝑡 𝐷!(𝑡). • 𝑌! " 𝑡 :個人𝑖が時刻𝑡に処置を受けなかった時の潜在アウトカム. • 𝑌! # 𝑡 :個人𝑖が時刻𝑡に処置を受けた時の潜在アウトカム. • 全ての𝑖に対して(実験前なので)𝐷! 0 = 0. n 表記を簡略にするために𝐷! = 𝐷!(1)とする. 問題設定 3
  4. n 潜在アウトカム:𝑌! 𝑡 = 𝑌! " 𝑡 + 𝑌! #

    𝑡 − 𝑌! " 𝑡 𝐷!(𝑡). • 𝑌! " 𝑡 :個人𝑖が時刻𝑡に処置を受けなかった時のアウトカム. • 𝑌! # 𝑡 :個人𝑖が時刻𝑡に処置を受けた時のアウトカム. • 全ての𝑖に対して𝐷! 0 = 0. n 𝑡 = 0のとき: 𝑌! 0 = 𝑌! " 0 + 𝑌! # 0 − 𝑌! " 0 0 = 𝑌! " 0 . n 𝑡 = 1のとき 𝑌! 1 = 𝑌! " 1 + 𝑌! # 1 − 𝑌! " 1 𝐷! 1 . 𝐷! = 𝐷!(1) 潜在アウトカムの例 4
  5. n 伝統的な(共変量を)伴わない線形DiDは, 𝑌! 𝑡 = 𝜇 + 𝜏 ⋅ 𝐷!

    1 + 𝛿 ⋅ 𝑡 + 𝛼 ⋅ 𝐷! 𝑡 + 𝜀! 𝑡 𝑌! 0 = 𝜇 + 𝜏 ⋅ 𝐷! 1 + 𝛿 ⋅ 𝑡 + 𝜀! 𝑡 𝑌! 1 = 𝜇 + (𝜏 + 𝛼) ⋅ 𝐷! 1 + 𝛿 ⋅ 𝑡 + 𝜀! 𝑡 として表される.ここで, • 𝛼:関心のあるパラメータ(処置効果); • 𝜀!(𝑡):平均0の外生的ショック; 共変量を伴わない線形DiD 5
  6. n 処置群と対照群がランダムに決まっていない場合,共変量を用いて制御す ることが考えられる. n 共変量𝑋! ∈ ℝ! $に対して, 𝑌! 𝑡

    = 𝜇 + 𝑋! %𝜋 𝑡 + 𝜏 ⋅ 𝐷! + 𝛿 ⋅ 𝑡 + 𝛼 ⋅ 𝐷! 𝑡 + 𝜀!(𝑡) 共変量を伴う線形DiD 6
  7. n Meyer, Viscusi, and Durbin (1995) • グループごとに異なる(異質な)処置効果を持つ場合を考える. → 線形回帰モデルに制御変数を含めることは不適切かもしれない.

    • 𝑋! と𝐷!(𝑡)の間の交差項の必要性. n Abadie (2005)のように,制御変数をノンパラメトリックに取り入れると良い. n AbadieのセミパラメトリックDiD推定量を紹介する. 異質な処置効果とノンパラメトリックモデル 7
  8. n 推定したいものは,処置群の平均処置効果(ATT)であるとする. n ATTは 𝜃" = 𝔼[𝑌! # 1 −

    𝑌! " 1 |𝐷! = 1] として定義される. • 𝑡 = 1における,処置群の,期待処置効果. n Abadie (2005)は,以下の三つのタイプを議論した. 1. 繰り返しアウトカム. 2. 繰り返しクロスセクション. 3. マルチレベル処置. 処置群の平均処置効果 8
  9. n 処置前と処置後のアウトカムを観測できるとする. n つまり, 𝑌! 0 , 𝑌! 1 ,

    𝐷!(1), 𝑋! !&# ' を観測できるとする. 繰り返しアウトカム 9
  10. n 潜在アウトカム:𝑌! 𝑡 = 𝑌! " 𝑡 + 𝑌! #

    𝑡 − 𝑌! " 𝑡 𝐷!(𝑡). • 𝑌! " 𝑡 :個人𝑖が時刻𝑡に処置を受けなかった時のアウトカム. • 𝑌! # 𝑡 :個人𝑖が時刻𝑡に処置を受けた時のアウトカム. • 全ての𝑖に対して𝐷! 0 = 0. n 𝑡 = 0のとき: 𝑌! 0 = 𝑌! " 0 + 𝑌! # 0 − 𝑌! " 0 0 = 𝑌! " 0 . n 𝑡 = 1のとき 𝑌! 1 = 𝑌! " 1 + 𝑌! # 1 − 𝑌! " 1 𝐷! 1 . 𝐷! = 𝐷!(1) 潜在アウトカムの表記の確認 10
  11. n 繰り返しアウトカムの設定のもとで,ATTを識別するための仮定. n 仮定2.1: 𝔼 𝑌! " 1 − 𝑌!

    " 0 𝑋!, 𝐷! = 1 = 𝔼 𝑌! " 1 − 𝑌! " 0 𝑋!, 𝐷! = 0]. n 仮定2.2: 確率1で,𝑃 𝐷! = 1 > 0,かつ,𝑃 𝐷! = 1 𝑋!) < 1. • 仮定2.1は条件付きパラレルトレンド仮定であることを仮定している. - 𝑋! で条件づけると,処置群と対照群で,処置をしなかった場合のアウトカ ムが同じトレンドを持っている. - 処置をしない(𝑌! " 𝑡 )場合のアウトカムの変化𝑌! " 1 − 𝑌! " 0 は,処置群 𝐷!(1) = 1と対称群𝐷!(1) = 0で同じ. • 仮定2.2は処置群の傾向スコアのサポートが,対照群のサポートの部分 集合であることを仮定している. 繰り返しアウトカムの仮定 11
  12. n 仮定2.1と仮定2.2のもとで,Abadie (2005)はATTを 𝜃" = 𝔼 𝑌! 1 − 𝑌!

    0 𝑃 𝐷! = 1 𝐷! − 𝑃 𝐷! = 1 𝑋!) 1 − 𝑃 𝐷! = 1 𝑋! . として識別した. 繰り返しアウトカムにおけるATTの識別 12
  13. n 研究者は,繰り返しクロスセクションデータを観測できるとする. • つまり, 𝑌!, 𝐷!, 𝑇!, 𝑋! !&# '

    を観測できるとする.ここで, 𝑌! = 𝑌! 0 + 𝑇! 𝑌! 1 − 𝑌! 0 である. n 𝑇! は時間のインディケータである. 観測値が処置後データに属する場合,値1を取る. • 𝑇! = 1の場合は,𝑌! 1 = 𝑌! " 1 + 𝑌! # 1 − 𝑌! " 1 𝐷!(1)のみを, • 𝑇! = 0の場合は, 𝑌! 0 = 𝑌! " 0 のみを観測できる. • つまり,(𝑌! 1 , 𝐷!, 𝑇! = 1, 𝑋!)か(𝑌! 0 , 𝐷!, 𝑇! = 0, 𝑋!)のみを観測できる. 繰り返しクロスセクション 13
  14. n 潜在アウトカム:𝑌! 𝑡 = 𝑌! " 𝑡 + 𝑌! #

    𝑡 − 𝑌! " 𝑡 𝐷!(𝑡). • 𝑌! " 𝑡 :個人𝑖が時刻𝑡に処置を受けなかった時のアウトカム. • 𝑌! # 𝑡 :個人𝑖が時刻𝑡に処置を受けた時のアウトカム. • 全ての𝑖に対して𝐷! 0 = 0. n 𝑡 = 0のとき: 𝑌! 0 = 𝑌! " 0 + 𝑌! # 0 − 𝑌! " 0 0 = 𝑌! " 0 . n 𝑡 = 1のとき 𝑌! 1 = 𝑌! " 1 + 𝑌! # 1 − 𝑌! " 1 𝐷! 1 . 𝐷! = 𝐷!(1) 潜在アウトカムの表記の確認 14
  15. n 仮定2.3 • 𝑇 = 0のとき,データは分布 𝑌 0 , 𝐷,

    𝑋 からi.i.d.に生成されている. • 𝑇 = 1のとき,データは分布(𝑌(1), 𝐷, 𝑋)からi.i.d.に生成されている. 繰り返しクロスセクションの仮定 15
  16. n 仮定2.1と仮定2.3が成立すると仮定する. n ATTは 𝜃" = 𝔼 𝑇! − 𝜆"

    𝜆"(1 − 𝜆") 𝑌! 𝑃(𝐷! = 1) 𝐷! − 𝑃(𝐷! = 1|𝑋!) 1 − 𝑃(𝐷! = 1|𝑋!) として識別される.ここで,𝜆" ≡ 𝑃(𝑇! = 1)である. 繰り返しクロスセクションにおけるATTの識別 16
  17. n セミパラメトリックDiD推定量は,これらのATTのサンプル近似. n 繰り返しアウトカムの場合: F 𝜃 = 1 𝑁 H

    !&# ' 𝑌! 1 − 𝑌!(0) ̂ 𝑝 𝐷! − K 𝑔(𝑋!) 1 − K 𝑔(𝑋!) . • ここで, ̂ 𝑝は𝑝" ≡ 𝑃(𝐷 = 1)の推定量であり, K 𝑔(𝑋!)は傾向スコア𝑔( 𝑋 ≡ 𝑃(𝐷 = 1|𝑋)の推定量である. n K 𝑔を機械学習的な手法で推定することを考える. セミパラメトリックDiD推定量 17
  18. n 機械学習的な方法で K 𝑔を構築する場合, 𝑁一致性はもたない. n 理由1:スコア関数は 𝜓 𝑊, 𝜃",

    𝑝", 𝑔" ≡ 𝑌 1 − 𝑌 0 𝑃 𝐷 = 1 𝐷 − 𝑔" 𝑋 1 − 𝑔" 𝑋 − 𝜃" で定義される.これは, 𝑔" (傾向スコア)に非ゼロな方向微分(ガトー微分) 𝜕)𝔼 𝜑 𝑊, 𝜃", 𝑝", 𝑔" 𝑔 − 𝑔" ≠ 0 を有する. • 局外母数(傾向スコア)に対して,推定したパラメータ(スコア関数)が変動. 機械学習的な手法を用いることによる問題 18
  19. n 理由2:機械学習モデルの収束レートが遅い(ドンスカー条件). Ø 理由1を解決するために,非ゼロな方向微分をもつ(ネイマン直交条件)ス コア関数を定義する. Ø 理由2を解決するために,ChernozhukovのDouble/debiased machine learning (DML)

    で使われている交差適合(cross-fitting)を適用する. 機械学習的な手法を用いることによる問題 19
  20. n DML DiD推定量を提案する. n DMLを行うために,新しいスコア関数を定義する. DML DiD推定量 20

  21. n Abadieのスコア関数: 𝜓 𝑊, 𝜃", 𝑝", 𝑔" ≡ 𝑌 1

    − 𝑌 0 𝑃 𝐷 = 1 𝐷 − 𝑔" 𝑋 1 − 𝑔" 𝑋 − 𝜃" n 新しいスコア関数 𝜓 𝑊, 𝜃", 𝑝", 𝑔" ≡ 𝑌 1 − 𝑌 0 𝑃 𝐷 = 1 𝐷 − 𝑔" 𝑋 1 − 𝑔" 𝑋 − 𝜃" − 𝐷 − 𝑔"(𝑋) 𝑃 𝐷 = 1 1 − 𝑔"(𝑋) 𝔼 𝑌 1 − 𝑌 0 𝑋, 𝐷 = 0 . n 局外母数は𝜂" = 𝑃 𝐷 = 1 𝑋 , 𝔼 𝑌 1 − 𝑌 0 𝑋, 𝐷 = 0 ≡ (𝑔", ℓ#"). 繰り返しアウトカムのスコア関数 21
  22. n Abadieのスコア関数: 𝜓 𝑊, 𝜃", 𝑝", 𝑔" ≡ 𝑇 −

    𝜆" 𝜆"(1 − 𝜆") 𝑌 𝑃(𝐷 = 1) 𝐷 − 𝑃(𝐷 = 1|𝑋) 1 − 𝑃(𝐷 = 1|𝑋) − 𝜃" n 新しいスコア関数 𝜓 𝑊, 𝜃", 𝑝", 𝑔" ≡ 𝑇 − 𝜆" 𝜆"(1 − 𝜆") 𝑌 𝑃(𝐷 = 1) 𝐷 − 𝑃(𝐷 = 1|𝑋) 1 − 𝑃(𝐷 = 1|𝑋) − 𝜃" − 𝐷 − 𝑃 𝐷 = 1 𝑋 𝜆"(1 − 𝜆")𝑃 𝐷 = 1 1 − 𝑃 𝐷 = 1 𝑋 𝔼 (1 − 𝜆")𝑌 𝑋, 𝐷 = 0 . n 局外母数は𝜂" = 𝑃 𝐷 = 1 𝑋 , 𝔼 (1 − 𝜆")𝑌 𝑋, 𝐷 = 0 ≡ (𝑔", ℓ*"). 繰り返しクロスセクションのスコア関数 22
  23. n Abadieのスコア関数と,新しいスコア関数は,期待値では同じ. n 新しいスコア関数の目的は,新しいスコア関数のガトー微分を,𝑔" につい てゼロにすること. n この条件は,ネイマン直交条件と呼ばれている. n ネイマン直交条件を満たす(後で証明される)新しいスコア関数に,交差適

    合を適用する. n 漸近正規性を有するパラメータを得ることができる. 新しいスコア関数の目的 23
  24. 交差適合(cross-fitting) 24

  25. n Chernozhukov et al. (2018)とは少し異なる定義を行う. • Chernozhukov et al. (2018)︓全ての局外母数に対して直交.

    n DiDでは,無限次元になりうる局外母数に対してのみ直交化する. ネイマン直交条件 25
  26. n 関心のある低次元パラメータの真値:𝜃" ∈ Θ. n 有限次元の局外母数の真値:𝜌" . n 無限次元の局外母数の真値:𝜂" .

    n 無限次元の局外母数の表記:𝜂 ∈ 𝒯. n 𝑊は確率測度𝑃で可測空間(𝒲, 𝒜𝒲)の値をとる確率変数. ネイマン直交条件 26
  27. n 無限次元の局外母数𝐷,: Z 𝒯 → ℝと𝑟 ∈ [0,1)に対して,方向微分(ガトー微 分)を 𝐷,

    𝜂 − 𝜂" ≡ 𝜕, 𝔼- 𝜓 𝑊, 𝜃", 𝜌", 𝜂" + 𝑟 𝜂 − 𝜂" , 𝜂 ∈ 𝒯 として定義する.ここで, Z 𝒯 = 𝜂 − 𝜂": 𝜂 ∈ 𝒯 . • 簡略化のため, 𝜕.𝔼-𝜓 𝑊, 𝜃", 𝜌", 𝜂" 𝜂 − 𝜂" ≡ 𝐷" 𝜂 − 𝜂" , 𝜂 ∈ 𝒯 と表記する. n 加えて,𝒯 ' ⊂ 𝒯を,𝜂" の推定量が高確率で取る関数の集合である,局外 実現集合として定義する. ネイマン直交条件 27
  28. n 定義2: • スコア関数𝜓が,局外母数実現集合𝒯 ' ⊂ 𝒯に関して,(𝜃", 𝜌", 𝜂")において, ネイマン直交条件に従うとは,以下を満たすことである.

    • 方向微分写像𝐷,[𝜂 − 𝜂"]が全ての𝑟 ∈ [0,1)と𝜂 ∈ 𝒯 ' に対して存在し,かつ, 𝑟 = 0において消失する.すなわち, 𝜕.𝔼-𝜓 𝑊, 𝜃", 𝜌", 𝜂" 𝜂 − 𝜂" = 0, for all 𝜂 ∈ 𝒯 '. n 補題3.1 新しく定義されたスコア関数は,ネイマン直交条件を満たす. ネイマン直交条件 28
  29. n 交差適合によって得られる推定量 Z 𝜃の性質を調べる. n 𝜅と𝐶:正の定数. n 𝐾 ≥ 2:整数.

    n 𝜀' :0に収束する正の定数の系列. n ⋅ -,0 :ある確率測度𝑃のもとでの𝐿0ノルム: 𝑓 -,0 ≡ i 𝑓 𝑤 0𝑑𝑃 𝑤 # 0 and 𝑓 -,1 ≡ sup 2 𝑓 𝑤 . 漸近的性質 29
  30. n 𝑃を(𝑌 0 , 𝑌 1 , 𝐷, 𝑋)の確率法則とする. n

    𝐷 = 𝑔" 𝑋 + 𝑈,かつ,𝑌 1 − 𝑌 0 = ℓ#" 𝑋 + 𝑉# とする. n ここで,𝔼- 𝑈 𝑋 = 0,かつ,𝔼 𝑉# 𝑋, 𝐷 = 0 = 0. n 𝐺#3" ≡ 𝔼- 𝜕3𝜓# 𝑊, 𝜃", 𝑝", 𝜂#" ,かつ, n Σ#" ≡ 𝔼- 𝜓# 𝑊, 𝜃", 𝑝", 𝜂#" + 𝐺#3"(𝐷 − 𝑝") * を定義する. 繰り返しアウトカムの正則条件(仮定3.1) 30
  31. n 以下が成立する. (a)Pr 𝜅 ≤ 𝑔" 𝑋 ≤ 1 −

    𝜅 = 1; (b) 𝑈𝑉# -,4 ≤ 𝐶; (c)𝔼 𝑈# * 𝑋 ≤ 𝐶; (d)𝔼 𝑉# * 𝑋 ≤ 𝐶︔ (e)Σ#" > 0︔ 繰り返しアウトカムの正則条件(仮定3.1) 31
  32. (f)補助的なサンプル(交差検証で得られたサンプル)𝐼5 6のもとで,推定量 ̂ 𝜂#5 = K 𝑔5, , x ℓ#5

    は以下の条件に従う: 確率1 − 𝑜(1)で, ̂ 𝜂#5 − 𝜂#" -,* ≤ 𝜀', K 𝑔5 − 1 2 -,1 ≤ 1 2 − 𝜅, K 𝑔5 − 𝑔" -,* * + K 𝑔5 − 𝑔" -,*× x ℓ#5 − ℓ#" -,* ≤ 𝜀' *. 繰り返しアウトカムの正則条件(仮定3.1) 32
  33. n 繰り返しクロスセクションの正則条件も,繰り返しアウトカムの正則条件と 同様に定義される. 繰り返しクロスセクションの正則条件(仮定3.2) 33

  34. n 定理3.1 • 繰り返しアウトカムモデル: 仮定2.1,仮定2.2,仮定3.1が成立. • 繰り返しクロスセクションモデル: 仮定2.1,仮定2.3,仮定3.2が成立. • 𝜀'

    = 𝑜 𝑁7! " であるならば,ATT推定量 Z 𝜃は 𝑁 Z 𝜃 − 𝜃" → 𝒩 0, Σ に従う.ここで,繰り返しアウトカムモデルの場合はΣ = Σ#" ,繰り返しクロスセ クションモデルの場合はΣ = Σ*" . 漸近分布 34
  35. n 真の処置効果𝜃" を𝜃" = 3とするときの数値実験. n 設定は,繰り返しアウトカムの設定. 数値実験 35

  36. 数値実験 36

  37. n モザンビークと南アフリカの貿易における賄賂. n 関税が高いことが賄賂の原因? n 関税を低くすると • 賄賂が減る? • 収入が増えるので賄賂も増える?

    n ATT: 関税を減らした時の賄賂の変化率. 賄賂と関税 37
  38. 賄賂と関税 38