Upgrade to Pro — share decks privately, control downloads, hide ads and more …

統計・機械学習若手シンポジウム

Bb6c3fc8c577710c72d03aeb4fa56bf6?s=47 MasaKat0
February 09, 2022

 統計・機械学習若手シンポジウム

資料.

Bb6c3fc8c577710c72d03aeb4fa56bf6?s=128

MasaKat0

February 09, 2022
Tweet

More Decks by MasaKat0

Other Decks in Research

Transcript

  1. 経済学と機械学習 因果推論と密度比推定を中心に 加藤真大 (CyberAgent AILab) 第6回 統計・機械学習若手シンポジウム 1

  2. n 経済学と機械学習のどちらもデータから知見を得るための学問. n 計量経済学: 経済学の実証分析のための手法を研究する学問. • 経済学によって仮定されるモデルの検証・推定を行う. n 近年,経済学と機械学習の相互交流が進んでいる. •

    NeurIPSなどで経済学・因果推論系ワークショップ開催・経済学者の登壇. • 経済学トップジャーナルに機械学習系の論文が採択. 経済学と機械学習 2
  3. n 特に,昨年ノーベル賞を受賞したImbens教授らが機械学習の使用を推進. 経済学と機械学習 3 • Athey, Imbens, Metzger, and Munro.

    Using Wasserstein Generative Adversarial Networks for the Design of Monte Carlo Simulations (Journal of Economerics 2020). • Doudchenko, Khosravi, Pouget-Abadie, Lahaie, Lubin, Mirrokni, Spiess, Imbens. Synthetic Design: An Optimization Approach to Experimental Design with Synthetic Controls (NeurIPS 2021)
  4. n 経済総合誌 • Econometrica,American Economic Reviewなど. n 計量経済学専門誌 • Journal

    of Econometricsなど. n 統計誌 • Annals of Statistics,Journal of the American Statistical Associationなど. n Econometricaなどで機械学習系論文の採択が増加. 経済学と機械学習 4
  5. n 因果推論と密度比推定をテーマに経済学×機械学習を俯瞰. 1. 内生性と操作変数法 2. 共変量シフト適応 3. Debiased Machine Learning

    n CyberAgent AILabではインターンを募集. • 経済学や機械学習の手法の社会実装. • バンディット問題のアルゴリズムの研究・実装. 概要 5
  6. 内生性と操作変数法 6

  7. n 2つの変数𝑌と𝑋に対する回帰分析を考える. n 二つの変数の間に以下の線形回帰モデルを仮定する: 𝑌 = 𝑋!𝛽 + 𝜀. •

    𝜀は変数𝑋と独立な平均ゼロの誤差項であるとする.つまり𝔼 𝑋!𝜀 = 0. n 観測値 𝑋", 𝑌" "#$ % からパラメータ𝛽を推定することを考える. n OLS法で回帰係数𝛽を推定できる. 回帰分析 7
  8. n 以下のような線形モデルを仮定する. 𝑌 = 𝑋!𝛽 + 𝜀, 𝔼 𝑿!𝜺 ≠

    𝟎. n 𝔼 𝑋!𝜀 ≠ 0は誤差項𝜀と変数𝑋の間に相関があることを意味する. • 経済学では内生性と呼ばれる問題.𝑋は内生変数と呼ばれている. • この場合,OLS推定量には一致性も不偏性もない. • 𝑋!𝛽は条件付き期待値𝔼[𝑌|𝑋]を表すものではない(𝔼 𝑌 𝑋 ≠ 𝑋!𝛽). n このようなモデルは構造方程式,𝛽は構造パラメータと呼ばれている. 構造方程式と内生性 8
  9. n なぜ「構造方程式」なのか? • 線形モデル𝑌 = 𝑋!𝛽 + 𝜀が何かしらの経済学的構造を表しているから. n 内生性の例1:

    モデルの誤特定 • ある変数𝑊 ∈ ℝのもとで,𝑌が𝑌 = 𝛽& + 𝑊𝛽$ + 𝑊'𝛽' + 𝑢に従うとする. • ここで,𝑢は𝑊とは独立な平均ゼロのノイズであるとする. • このとき,誤って𝑌 = 𝛽& + 𝑊𝛽$ + 𝜀というモデルを仮定する. • 誤差項は𝜀 = 𝑊'𝛽' + 𝑢となり,𝑊と相関する. 構造方程式と内生性 9
  10. n 内生性の例2: 賃金方程式. • 真のモデル: log賃金 = 𝛽& + 学歴×𝛽$

    + 能力×𝛽' + 𝑢, 𝔼 𝑢 学歴, 能力 = 0 • 能力を表す変数を観測できないため,以下のモデルを仮定する. log賃金 = 𝛽& + 学歴×𝛽$ + 𝜀, 𝜀 = 能力×𝛽' + 𝑢. • 学歴と能力が相関する場合𝔼 学歴×𝜀 ≠ 0 → OLS法で𝛽$ は推定できない. 構造方程式と内生性 10
  11. n 計量経済学では操作変数の存在を仮定することで内生性に取り組む. n 操作変数とは以下の条件を満たす確率変数𝑍のこと: • 誤差項と無相関である: 𝔼 𝑍!𝜀 = 0.

    • 説明変数と相関がある. 操作変数法 11 𝑍(操作変数) 𝑋(学歴) 𝑌(賃金) 𝑈(能力) 𝛽
  12. Angrist and Krueger (1991) n 操作変数の条件:教育年数と相関し,能力とは無関係な変数. n Angrist and Krueger

    (1991)はアメリカの義務教育制度を利用. • 6歳になる年に小学校に入学.16歳の誕生日を迎えるまで退学不可. • A君:1989年12月31日生,1995年9月入学,2005年12月31日退学. • B君:1990年1月1日生,1996年9月入学,2006年1月1日退学. • 誕生日が一日違うだけで義務教育年数が1年変わる(A君が1年長い). • 誕生日は教育年数と相関し,能力とは無関係. 12
  13. n モーメント条件𝔼 𝑍!𝜀 = 0を用いて構造パラメータ𝛽を推定. • dim 𝑍 = dim

    𝑋 の場合を考える. 1 𝑛 > "#$ % 𝑍" ! 𝑌 − 𝑋" !𝑏 = 0 を満たすようなベクトル𝑏を構造パラメータ𝛽の推定量とする. • この推定量はIV推定量と呼ばれている. IV推定量 13
  14. n dim 𝑍 > dim 𝑋 の場合に対応するためにIV推定量を拡張する. • 簡単化のためdim 𝑋

    = 1とする. n 2SLS推定量: • 第1段階: 操作変数𝑍で独立変数𝑋を回帰.つまり,𝑋 = 𝑍!𝛾 + 𝜂を推定. • 第2段階: 第1段階目の推定量D 𝛾を用いて, E 𝑋 = 𝑍! D 𝛾で𝑌を回帰.つまり, $ % ∑"#$ % 𝑌" − E 𝑋"𝑏 ' を最小化する𝑏を構造パラメータ𝛽の推定量とする. 2段階最小二乗(2SLS)推定量 14
  15. n 線形モデルではなくより広いクラスのモデルを考える. n 以下のようなノンパラメトリックモデルを仮定する: 𝑌 = 𝑔∗ 𝑋 + 𝜀,

    𝔼 𝜀 𝑋 ≠ 0. • この場合も最小二乗法では推定できない arg min ) 𝔼 𝑌 − 𝑔 𝑋 ' ≠ 𝑔∗ 𝑋 . n ノンパラメトリック関数𝑔∗ 𝑋 を推定する方法を考える. ノンパラメトリック関数と操作変数法 15
  16. n 線形(線形)モデルの場合と同様に操作変数を用いる. n 誤差項の操作変数で条件づけた期待値がゼロであることを仮定する. 𝔼 𝜀 𝑍 = 0 •

    線形モデルの場合は𝔼 𝑍!𝜀 = 0なので,𝔼 𝜀 𝑍 = 0はより強い条件. n 𝔼 𝜀 𝑍 をモーメント条件として,以下を満たす関数𝑔を𝑔∗の推定量とする. 𝔼 𝑌 − 𝑔 𝑋 𝑍 = 0 • 線形モデルと異なり条件付き期待値でのモーメント条件であることに注意. ノンパラメトリック関数と操作変数法 16
  17. n Newey and Powell (Econometrica 2003). • 線形モデルの2SLS法をノンパラメトリックモデルを扱えるように拡張. n Ai

    and Chen (Econometrica 2003). • 𝑌 = 𝑔∗ 𝑋 + 𝜀の推定を特殊な場合とするより一般的なモデルを考察. • セミパラメトリックモデル:𝔼 𝑚 𝑋", 𝜃, 𝜂 𝑍" = 0 (𝜃は関心のあるパラメータ,𝜂は興味のないパラメータ) • 手法は一般化モーメント法を拡張したもの. ノンパラメトリック操作変数法 17
  18. n ノンパラメトリック操作変数法への機械学習的な手法の導入. • 高次元なデータを分析. • 予測性能の向上. n DeepIV: Hartford, Lewis,

    Leyton-Brown, and Taddy (ICML 2017) n KernelIV: Singh, Sahani,, and Gretton (NeurIPS 2019) n DFIV: Xu, Chen, Srinivasan, de Freitas, Doucet, and Gretton (ICLR 2021) 機械学習によるアプローチ 18
  19. n 近年特に注目されているアプローチ. • GANのようなミニマックス最適化によるノンパラメトリック操作変数法. n アイデア: • 𝔼 𝜀 𝑍

    = 𝔼 𝑌 − 𝑔∗ 𝑋 𝑍 = 0が成立している. • 適当な関数クラス内の全てのℎ(𝑍)に対して以下が成立. 𝔼 𝑌 − 𝑔∗ 𝑋 ℎ 𝑍 = 𝔼 𝔼 𝑌 − 𝑔∗ 𝑋 𝑍 ℎ 𝑍 = 0 ミニマックス最適化 19
  20. n 適当な関数クラスℋに対して, max *∈ℋ min ) 1 𝑛 > "

    % 𝑌" − 𝑔 𝑋" ℎ 𝑍" ' n Bennett, Kallus, and Schnabel (NeurIPS 2019) • このアイデアをもう少し整理した論文(定式化はやや異なる). n 無限個のモーメント条件やミニマックス最適化のアイデア自体は古い. • Santos (Econometrica 2012)やNewey and Smith (Econometrica 2004)など. ミニマックス最適化 20
  21. n ミニマックス最適化による推定量が理論的に良い性能を持つことが報告. n Dikkala, Lewis, Mackey, and Syrgkanis (NeurIPS 2020).

    • ミニマックス最適化がノンパラメトリック推定の良い収束レートを達成. n Chernozhukov, Newey, Singh, Syrgkanis (2020)がさらに一般化. • 経済学×機械学習で重要なテーマであるDebiased機械学習に関連. ミニマックス最適化 21
  22. n 共変量シフト適応の考え方の応用によるNPIVの解法. • 共変量シフト適応そのものについては後述. n Kato, Imaizumi, McAlinn, Kakehi, and

    Yasui (ICLR 2022) • 条件付き密度比𝑟 𝑦, 𝑥 𝑧 = -(/,1,2) - /,1 -(2) = -(/,1|2) -(/,1) のもとで 𝔼 𝑌 − 𝑔(𝑋) 𝑟 𝑌, 𝑋 𝑧 = 𝔼 𝑌 − 𝑔(𝑋) 𝑧 . • 条件付き期待値でのモーメント条件を条件なし期待値に変換. 共変量シフト適応からのアプローチ 22
  23. n 条件付きモーメント条件のサンプル近似. 𝔼 𝑌 − 𝑔(𝑋) 𝑧 ≈ 1 𝑛

    > "#$ % 𝑌" − 𝑔 𝑋" ̂ 𝑟 𝑌", 𝑋" 𝑧 n データ 𝑋", 𝑌", 𝑍" "#$ % と密度比の推定量 ̂ 𝑟を用いて以下のように推定: ! 𝑔 = arg min ! 1 𝑛 , "#$ % 1 𝑛 , &#$ % 𝑌& − 𝑔 𝑋& ̂ 𝑟 𝑌& , 𝑋& 𝑍" ' n 実は条件なし期待値への変換のアイデアも歴史が古い. • Otsu (Econometrics Theory 2011) 共変量シフト適応からのアプローチ 23
  24. n 計算の難しいミニマックス最適化を避けることができる. (欠点)収束レートが遅い. • 𝑟 − ̂ 𝑟 5( =

    𝑂-(𝑛6$/('89))(0 < 𝛾 < 2). n 後述するDebiased Machine Learningと関連する問題. • 共変量シフト適応などでプラグイン推定量で使うと共通して起こる問題. • 先述したミニマックス最適化はこのようなレートの問題に対処. 共変量シフト適応からのアプローチ 24
  25. n 条件付き密度比推定. • 以下の二乗損失を最小化する: 1 2 𝔼:,; 𝔼< 𝑟∗ 𝑌",

    𝑋"|𝑍= − 𝑟 𝑌", 𝑋"|𝑍" ' . • LSIF(Kanamori et al. 2009など)と同様に,以下の最小化に帰着: −𝔼:,;,< 𝑟 𝑌", 𝑋"|𝑍= + 1 2 𝔼:,; 𝔼< 𝑟' 𝑌", 𝑋"|𝑍= . • Suzuki et al. (2008): KLIEP形式で条件付き密度比を推定. 共変量シフト適応からのアプローチ 25
  26. 共変量シフト適応と密度比推定 26

  27. n 内生性の問題を考える. n 一般的に操作変数を見つけることは難しい. → 構造モデルの推定を諦める. → 構造(因果関係)ではなく予測の意味でいい関数を学習することを考える. • テストデータの分布が与えられる状況を考える.

    • その分布に対してもっとも予測の意味で良いモデルを学習する. 共変量シフト適応 27
  28. n 共変量シフト:訓練データとテストデータで共変量𝑋の分布だけ動く状況. • 訓練データとテストデータの𝑋の密度関数を𝑝(𝑥)と𝑞(𝑥)と表記する. • 仮定:𝑌の条件付き確率密度𝑝(𝑦|𝑥)は訓練データとテストデータで不変. • 𝑝 𝑥 ≠

    𝑞(𝑥)であるような設定. n Shimodaira (2000)やSugiyama et al. (2007). 共変量シフト適応 28
  29. n 内生性がある場合,訓練データの分布によって最適解が変わる. • ある密度ℎ(𝑥)のもとでの期待二乗誤差最小化で得られるパラメータ. ^ 𝛽 = 𝔼* 𝑋𝑋! 6$𝔼*

    𝑋!𝑌 = 𝔼*𝑋𝑋!6$ 𝔼* 𝑋!(𝑋𝛽 + 𝜖) = 𝛽 + 𝔼* 𝑋𝑋! 6$𝔼* 𝑋!𝜖 (𝔼ℎ は𝑝(𝑦|𝑥)ℎ(𝑥)上の期待値) n 𝔼* 𝑋!𝜖 = 𝔼* 𝑋! 𝑌 − 𝑋𝛽 ≠ 0の場合,密度ℎに応じて ^ 𝛽が変化. n したがって,密度𝑝(𝑥)と𝑞(𝑥)のもとでパラメータが変わりうる. 共変量シフト適応と内生性① 29
  30. n 密度比 𝑟 𝑥 = ? 1 - 1 で損失を重み付けることにより分布のシフトを補正する.

    n 訓練データ 𝑋", 𝑌" "#$ % とテストデータ 𝑍= = @ .𝑋 ∼ 𝑝(𝑥),𝑍 ∼ 𝑞(𝑥). • 第1段階: 𝑋" " %と 𝑍= = @ を用いて密度比関数𝑟の推定量 ̂ 𝑟を得る. • 第2段階: 重み付き二乗損失$ % ∑"#$ % 𝑌" − 𝑋" !𝑏 ' ̂ 𝑟(𝑋")を最小化する𝑏. n ∫ 𝑦 − 𝑥𝑏 '𝑝(𝑦|𝑥) ? 1 - 1 𝑝 𝑥 d𝑥 = ∫ 𝑦 − 𝑥𝑏 '𝑝(𝑦|𝑥) 𝑞 𝑥 d𝑥を利用 密度比重み付けによる共変量シフト適応 30
  31. n 内生性の例:モデル誤特定. • 𝑝(𝑦|𝑥)は不変であるものの,𝑋に関するモデルを誤特定. • 密度比重みづけによる共変量シフト適応で,テストデータに対して予測誤 差を最小化するモデルを学習可能. n Sugiyama (2006):モデル誤特定のもとでのアクティブラーニング.

    共変量シフト適応と内生性② 31
  32. n 内生性の例:賃金方程式.教育年数から将来受け取る賃金を予測する. n 教育年数𝑥と能力(未観測)𝑢での条件付き密度を𝑝(𝑦|𝑥, 𝑢)とする. n 𝑝 𝑦 𝑥, 𝑢)は変わらない.𝑝(𝑦|𝑥)は変わりうる?

    (例)訓練データ:名古屋の人たち.テストデータ:東京の人たち. • 教育年数と地域は(おそらく)無相関.仮定が成立. 共変量シフト適応と内生性② 32
  33. (例)訓練データ:普通の人たち.テストデータ:天才たち. • 普通の人たちと天才とで賃金に対する教育の効果は異なるかもしれない. • 能力𝑢の分布のシフトが𝑝(𝑦|𝑥)を異なるものにしてしまう? n 操作変数法を用いれば能力を固定したもとでの教育の限界効果を推定. 共変量シフト適応と内生性② 33

  34. n 共変量シフト適応を行うためには密度比が必要. n 密度比は未知なのでデータから推定する必要がある. n 独立に生成されたデータセットがあるとする. 𝒳 = 𝑋" "#$

    % , and 𝒵 = 𝑍= =#$ @ • このようなデータ生成過程は層別サンプリングと呼ばれる. n 𝒳と𝒵を用いて密度比を推定. • ブレグマン距離最小化に基づく密度比推定(Sugiyama et al., 2011) 密度比の推定 34
  35. 密度比の最尤推定 n Imbens and Lancaster (1996)らは層別サンプリングの最尤法を議論. n Kato, Imaizumi, Minami

    (2022)は密度比の層別最尤推定を提案. • ノンパラメトリック密度比の層別最尤推定の目的関数は以下. max ! $ "#$ % log 𝑟(𝑋" ) − $ &#$ ' log 𝑟 𝑍& , 𝑠. 𝑡. 21/𝑟 𝑥 𝑝 𝑥 d𝑥 = 2𝑟 𝑧 𝑞 𝑧 d𝑥 = 1 35
  36. n 密度比のモデルにexp 𝑔 𝑥 を仮定すると目的関数をIPMと見なせる. max )∈𝒢 B.D. ∫ $/F

    1 - 1 G1#$, ∫ F 2 ? 2 G1#$ > "#$ % 𝑔(𝑋") − > =#$ @ 𝑔(𝑍=) n 関数の滑らかさへの罰則と関数形の制約. • Good and Gaskin (1978): 過適合により最尤推定量が観測値. • スペクトラル正則化(Miyato et al., 2017)などとの組み合わせが有効. • 密度比の関数クラスをリプシッツ連続な関数にするとWasserstein距離, 密度比の最尤推定 36
  37. n 制約付き最適化の無制約付き最適化への変換 • Silverman (1982)の手法の応用をすることで変換可能. n ブレグマン距離最小化と異なる定式化(特殊な場合にKLIEPと一致) • Wooldridge (2000):層別最尤推定における重み付きM推定量.

    密度比の最尤推定 37
  38. Debiasd Machine Learning 38

  39. n 共変量シフト適応のような二段階推定. n 一段階目の推定誤差が,二段階目の学習に影響を与える. (例)共変量シフト:ニューラルネットで密度比𝑟 𝑥 = ? 1 -

    1 を推定. • 𝑟(𝑥)の収束レートが𝑂-(1/𝑛$/')より遅い. • 望ましい関数クラスに属していない. n 本当に興味のある二段階目の学習にバイアスを生じさせる. • Debiased Machine Learning(DML)︓このバイアスを除去する手法. 二段階推定の問題点 39
  40. n Chernozhukov, Chetverikov, Demirer, Duflo, Hansen, Newey, and Robins (The

    Econometrics Journal, 2018) • 経済学の文脈に即してvan der Laanらの手法をDMLとして整理・紹介. • 一段階目の推定によって生じるバイアスを速いレートで除去する. n 例えば,関心のあるパラメータ𝜃の 𝑛一致性を考える. • 一段階目と二段階目でデータを分割すると,ゆるい条件のもとで達成. • Cross-fittingと呼ばれる手法. Double/debiased Machine Learning 40
  41. n 効果と処置の割り振りを表す確率変数を定義する. • 個人𝑖に処置𝑎 ∈ {0,1}が与えられたときの報酬:𝑌",H ∈ ℝ • 個人𝑖に割り当てられる処置:𝐷"

    ∈ {0,1} n 観測できるアウトカムは𝑌" = 1 𝐷" = 1 𝑌",H + 1 𝐷" = 0 𝑌",& .つまり, • 実際に割り当てた処置(𝐷" = 𝑎な処置𝑎)だけ𝑌",I が分かり, • 割り当てなかった処置(𝐷" ≠ 𝑎な処置𝑎)の𝑌",I は分からない. n 平均処置効果𝔼 𝒀𝒊,𝟏 − 𝔼 𝒀𝒊,𝟎 の推定を考える. (例)Rubinの因果モデルと潜在処置効果 41
  42. n 処置𝐷" とアウトカム𝑌" が独立ではない場合. → 𝐷" = 𝑎であるような𝑌" のサンプル平均は𝔼[𝑌",H]に一致収束しない. •

    𝔼 𝑌",$ 𝐷" = 1 − 𝔼 𝑌",& 𝐷" = 0 ≠ 𝔼 𝑌",$ − 𝔼 𝑌",& . n 共変量𝑿𝒊 ∈ ℝ:個人𝑖の特徴を表す確率変数.観測値 𝑋", 𝐷", 𝑌" "#$ % . n 条件付き期待値での仮定: 𝔼 𝑌",H 𝑋", 𝐷" = 𝑎 = 𝔼 𝑌",H 𝑋", 𝐷" ≠ 𝑎 = 𝔼 𝑌",H 𝑋" • 共変量で条件づけることで期待効果を推定できる. (例)Rubinの因果モデルと潜在処置効果 42
  43. n 平均処置効果の推定で広く用いられている二段階推定量. • 以下の二つの関数を事前に推定しておく(推定量を ̂ 𝑒(𝑥)とD 𝜇H(𝑥)とする). ①傾向スコア: 𝑒 𝑥

    = 𝑝(𝐷" = 1|𝑥) ②条件付き期待処置効果: 𝜇H(𝑥) = 𝔼[𝑌",H|𝑋" = 𝑥] n 二重に頑健な推定量: 1 𝑛 $ "#$ % 1 𝐷" = 1 𝑌" − ̂ 𝜇$ 𝑋" ̂ 𝑒 𝑋" + ̂ 𝜇$ 𝑋" − 1 𝐷" = 0 𝑌" − ̂ 𝜇( 𝑋" 1 − ̂ 𝑒 𝑋" − ̂ 𝜇( 𝑋" 二重に頑健な推定量 43
  44. n 二重に頑健な推定量とCross-fitting. 1. データを2分割する. 2. 片方のデータで①𝒆(𝒙)と②𝝁(𝒙)を推定. 3. もう片方のデータで二重に頑健な推定量を作る 1 𝑛

    , & % 1 𝐷& = 1 𝑌& − ̂ 𝜇$ 𝑋& ̂ 𝑒 𝑋& + ̂ 𝜇$ 𝑋& − 1 𝐷& = 0 𝑌& − ̂ 𝜇) 𝑋& 1 − ̂ 𝑒 𝑋& − ̂ 𝜇) 𝑋& • 条件:局外母数の収束レートの積が 𝑒 − ̂ 𝑒 2 𝜇 − D 𝜇 2 = 𝑜𝑝(𝑛1/2). DMLと二重に頑健な推定量 44
  45. n 密度比重みづけ共変量シフト適応とCross-fitting n Kato (未公開.American Economics Associationでポスター発表) 1. 片方のデータで①𝑓 𝑥

    = 𝔼[𝑌|𝑋 = 𝑥]と②𝑟(𝑥)を推定. 2. もう片方のデータで二重に頑健な推定量を作る 9 𝛽 = 1 𝑚 , "#$ * 𝑍" 𝑍" + ,$ 1 𝑛 , &#$ % 𝑋& + 𝑌& − < 𝑓 𝑋& ̂ 𝑟(𝑋& ) + 1 𝑚 , " * 𝑍" + < 𝑓(𝑍" ) . n Uehara*, Kato*, and Yasui (NeurIPS 2021) • 因果推論の文脈で二重に頑健な共変量シフト適応. DMLと共変量シフト適応 45
  46. 参考⽂献 46

  47. • Angrist, J. D. and Pischke, J.-S. (2008),Mostly Harmless Econometrics:

    An Empiricist’s Companion, Princeton University Press. • Bennett, A., Kallus, N., and Schnabel, T. (2019), “Deep Generalized Method of Moments for Instrumental Variable Analysis,” in Advances in Neural Information Processing Systems, Curran Associates, Inc., vol. 32. • Chernozhukov, V., Chetverikov, D., Demirer, M., Duflo, E., Hansen, C., Newey, W., and Robins, J.(2018), “Double/debiased machine learning for treatment and structural parameters,”Econometrics Journal, 21, C1–C68. • Chernozhukov, V., Newey, W., Singh, R., and Syrgkanis, V. (2020), “Adversarial Estimation of Riesz Representers,” . • Dikkala, N., Lewis, G., Mackey, L., and Syrgkanis, V. (2020), “Minimax Estimation of Conditional Moment Models,” in Advances in Neural Information Processing Systems, Curran Associates, Inc.,vol. 33, pp. 12248–12262. • Good, I. J. and Gaskins, R. A. (1971), “Nonparametric Roughness Penalties for Probability Densities,”Biometrika, 58, 255– 277. 47
  48. • Hartford, J., Lewis, G., Leyton-Brown, K., and Taddy, M.

    (2017), “Deep IV: A Flexible Approach for Counterfactual Prediction,” in Proceedings of the 34th International Conference on Machine Learning ,PMLR, vol. 70 of Proceedings of Machine Learning Research, pp. 1414–1423. • Imbens, G. W. (1997), “One-Step Estimators for Over-Identified Generalized Method of Moments Models,”The Review of Economic Studies, 64, 359–383. • Kanamori, T., Hido, S., and Sugiyama, M. (2009), A least-squares approach to directimportance estimation.Journal of Machine Learning Research, 10(Jul.):1391–1445. • Kato, M., Imaizumi, M., McAlinn, K., Yasui, S., and Kakehi, H. (2022a), “Learning Causal Relationships from Conditional Moment Restrictions by Importance Weighting,” in International Conference on Learning Representations. • Kato, M., Imaizumi, M., and Minami, K. (2022b), “Unified Perspective on Probability Divergence via Maximum Likelihood Density Ratio Estimation: Bridging KL-Divergence and Integral Probability Metrics,” . • Shimodaira, H. (2000), “Improving predictive inference under covariate shift by weighting the log-likelihood function,” Journal of Statistical Planning and Inference, 90, 227–244. 48
  49. • Singh, R., Sahani, M., and Gretton, A. (2019), “Kernel

    Instrumental Variable Regression,” in Advances in Neural InformationProcessing Systems, Curran Associates, Inc., vol. 32. • Sugiyama, M., Suzuki, T., and Kanamori, T. (2011), “Density Ratio Matching under the Bregman Divergence: A Unified Frameworkof Density Ratio Estimation,”Annals of the Institute of Statistical Mathematics, 64.— (2012), Density Ratio Estimation in Machine Learning, New York, NY, USA: Cambridge University Press, 1st ed. • Sugiyama. M. (2006), Active Learning in Approximately Linear Regression Based on Conditional Expectation of Generalization Error. J. Mach. Learn. Res. 7 (12/1/2006), 141–166. • Sugiyama, M., Nakajima, S., Kashima, H., von Bünau, P., and Kawanabe, M. (2007). Direct importance estimation with model selection and its application to covariate shift adaptation. In Proceedings of the 20th International Conference on Neural Information Processing Systems (NIPS'07). Curran Associates Inc., Red Hook, NY, USA, 1433–1440. • Suzuki, T., Sugiyama, M., Sese, Jun., and Kanamori, T. (2008). Approximating mutual information by maximum likelihood density ratio estimation. In Proceedings of the Workshop on New Challenges for Feature Selection in Data Mining and Knowledge Discovery at ECML/PKDD 2008,volume 4 of Proceedings of Machine Learning Research, pp. 5–20. PMLR. 49
  50. • Otsu, T. (2011). Empirical likelihood estimation of conditional moment

    restriction models with unknown functions. Econometric Theory, 27(1):8–46. • Wooldridge, J. M. (2002),Econometric analysis of cross section and panel data, MIT Press.— (2009), Introductory Econometrics: A Modern Approach, ISE - International Student Edition, South-Western. • Xu, L., Chen, Y., Srinivasan, S., de Freitas, N., Doucet, A., and Gretton, A. (2021), “Learning Deep Features in Instrumental Variable Regression,” in International Conference on Learning Representations. • Zheng, W. and van der Laan, M. J. (2011), “Cross-Validated Targeted Minimum-Loss-Based Estimation,” in Targeted Learning: Causal Inference for Observational and Experimental Data. 50