「機械学習と因果推論」入門 ③ 漸近効率な推定量と二重機械学習

1 「機械学習と因果推論」入門 ③漸近効率な推定量と二重機械学習加藤真大大阪公立大学 RIKEN AIP

2 「機械学習と因果推論」入門 ◼ 全5回 ① 因果推論とは ② 回帰分析から因果分析へ ③ 漸近効率な推定量と二重機械学習
④ さまざまな処置効果の推定方法 ⑤ 因果効果推定の一般化 ◼ これらの発表を通じて伝えたいこと / 主張 • 因果分析を回帰分析と同じ枠組みで考えること • 因果推論の目的の多くは、少ない仮定で効率的に因果効果を推定・推論すること • 少ない仮定 = ノンパラメトリック・セミパラメトリック分析 → 二重機械学習 • 平均処置効果推定で用いる手法は一般化して多くの問題に応用できる → 自動バイアス除去学習 • リースの表現定理による記述本スライドの一部の図表や説明は、今後出版予定の拙著「機械学習による因果推論」で使用予定のものを、校正も兼ねて試験的に用いています

3 本講義のポイント ◼ 前回までの復習 • 平均処置効果（ATE）は回帰関数の差分の期待値として書ける • ATEの推定量の例として、回帰関数の推定量の差分のサンプル平均が挙げられる • 回帰分析と因果分析はSUTVAの仮定や非交絡性の仮定で結びつけられる
◼ 本講義で学ぶこと • 平均処置効果のさまざまな推定量を紹介 • 回帰関数の推定量の差分のサンプル平均だけではない（回帰調整推定量） • 例： IPW推定量・二重に頑健な推定量 • どの推定量を選ぶのが良いか、の基準 • 理論的に良い推定量を「漸近分散がもっとも小さい推定量」として定義する • そのような推定量は漸近効率な推定量と呼ばれる • 理論的にもっとも基礎的な推定量は拡張逆確率重み付け（AIPW）推定量 • 二重機械学習 • ネイマン直交スコアとサンプル分割 • 傾向スコアの推定方法

4 設定 ◼ 変数 • 共変量 𝑋 ∈ 𝒳 (𝒳は説明変数の空間).
• （二値の（binary））処置変数 𝐷 ∈ {1,0} • 𝐷 = 1である確率 𝑒0 𝑋 ≔ ℙ 𝐷 = 1 𝑋 を傾向スコア（propensity score）と呼ぶ • 𝐷 = 1は処置群、𝐷 = 0はコントロール群 • アウトカム 𝑌 ∈ 𝒴 ⊆ ℝ (𝒴 はアウトカムの空間). • 潜在アウトカム𝑌(1)と𝑌 0 • 𝑌 = 𝐷𝑌 1 + 1 − 𝐷 𝑌 0 • 回帰関数を 𝑓0 𝑑, 𝑥 ≔ 𝔼[𝑌 ∣ 𝐷 = 𝑑, 𝑋 = 𝑥]とする ◼ 平均処置効果（Average Treatment Effect；ATE） 𝜃0 𝐴𝑇𝐸 = 𝔼[𝑌 1 − 𝑌(0)] ◼ 観測値 • サンプルサイズ 𝑛 のデータセット 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 𝑖=1 𝑛 を観測 • 𝑋𝑖 , 𝐷𝑖 , 𝑌𝑖 は独立同分布に従うデータ

5 漸近効率下限と漸近効率な推定量

6 ATEの推定 ◼ 因果推論的なATE推定の目標 • 可能な限り少ない仮定のもとで平均処置効果（Average Treatment Effect；ATE）を推定 ◼
ATE = 回帰関数の差分の期待値 • 回帰関数 𝑓0 𝐷, 𝑋 = 𝔼[𝑌|𝐷, 𝑋] • ATE は回帰関数の差分の期待値になる： 𝜃0 ATE ≔ 𝔼 𝑌 1 − 𝑌 0 = 𝔼 𝑓0 1, 𝑋 − 𝑓0 0, 𝑋 • 因果効果として解釈するために、SUTVAと非交絡性の仮定が置かれることもある（因果効果をどのように定義するかという問題に過ぎないので、必ず必要なわけではない） ◼ ATEは回帰関数の差分の推定量のサンプル平均によって推定できる መ 𝜃𝑛 RA = 1 𝑛 ෍ 𝑖=1 𝑛 መ 𝑓 1, 𝑋𝑖 − መ 𝑓 0, 𝑋𝑖 • この推定量は回帰調整推定量（regression adjustment；RA）と呼ばれる

7 回帰モデルとATE ◼ 例 • 線形回帰モデル① 𝑓 𝐷, 𝑋 =
𝛼𝐷 + 𝛽⊤𝑋 • ATE 𝜃0 ATE = 𝛼 • 線形回帰モデル② 𝑓 𝐷, 𝑋 = 𝛽1 ⊤𝐷𝑋 + 𝛽0 ⊤ 1 − 𝐷 𝑋 • ATE 𝜃0 ATE = 𝔼 𝛽1 − 𝛽0 ⊤𝑋 • 部分線形回帰モデル 𝑓 𝐷, 𝑋 = 𝛼𝐷 + 𝑔(𝑋) • ATE 𝜃0 ATE = 𝛼 • ノンパラメトリック回帰モデル（もっとも仮定が少ない） • ATE 𝜃0 ATE = 𝔼 𝑓 1, 𝑋 − 𝑓 0, 𝑋

8 モデルと推定のトレードオフ ◼ モデルを細かく特定できている方が推定精度は向上しやすい • 線形回帰モデルを仮定し、それが正しいのであれば、OLSが一番良い • ただし、仮定が外れることに対して脆弱 • 線形回帰モデルはかなり「単純なモデル」を仮定している
◼ モデルの仮定が少なくなるほど • 長所 • 回帰関数の推定を誤ることが少なくなる • 短所 • 推定が難しくなる（より多くのデータを必要とするようになる） • 推定する回帰関数やそのモデルの複雑さが増すほど、ATE推定の理論保証が難しくなる

9 より良い処置効果推定とは  問い：回帰調整推定量 መ 𝜃𝑛 RA ≔ 1
𝑛 ෍ 𝑖=1 𝑛 መ 𝑓𝑛 1, 𝑋𝑖 − መ 𝑓𝑛 0, 𝑋𝑖 は本当に良い推定量なのか？ ◼ 二つの問題点： • モデル誤特定に弱い • 𝑓0 の推定の誤りがそのまま最終的な推定の誤りに直結する • バイアスが大きい • モデル特定の誤りがないようにノンパラメトリックなどを用いる • 𝑓0 の推定誤差が大きくなる → 𝑓0 の推定誤差に伴うバイアスがATEの推定に生じる ◼ 推定量の性能の良さを議論するために評価指標を定義する ◼ 良さの基準 = 漸近正規かつ漸近効率 • サンプルサイズ𝑛が十分大きいとき、推定量のばらつきが正規分布に従い、かつ、 • その漸近分散が理論的な最良値（効率下限）と一致する

10 平均処置効果推定の評価指標 ◼ ATEに限定しない一般論で説明する。推定対象を𝜃0 とし、推定量を መ 𝜃 とする ◼ バイアスと分散（バリアンス）
• バイアス：処置効果を正しく推定できない状況（𝔼 መ 𝜃 − 𝜃0 ）バイアス（偏り）がある • 処置効果の推定値のばらつきが大きい状況（Var መ 𝜃 = 𝔼 መ 𝜃 − 𝔼 መ 𝜃 2 ）分散が大きい（評価指標や文脈によってバイアスと分散の意味は変わりうる） ◼ 漸近正規性 • サンプルサイズ𝑛が大きくなるにつれて推定量のばらつきが正規分布に収束する ◼ 本講義では、「バイアスがない」を 𝑛 መ 𝜃 − 𝜃0 が漸近的に正規分布に従う状態とする真のATEへの高速な収束（ 𝑛-一致性）と、統計的な推論ができることも示される（注） 𝑛より遅い漸近正規性もありうるが、本講義では簡単化のために 𝑛-一致性 = 漸近正規性のように扱う

11 理想的な推定量 ◼ 推定量が満たしていて欲しい性質 • バイアスがなく ≒ 漸近正規性に従う • 分散が小さい
• ただし、バイアスはサンプルサイズが大きくなるにつれて消えれば良い＝漸近正規性を保証する範囲でバイアスを許容 ◼ 漸近正規性（と 𝑛-一致性）を得るためには何が必要？ • 以下のような形式の推定量 መ 𝜃を構築するとする： 𝑛 መ 𝜃 − 𝜃0 →𝑝 𝑛バイアス項 + 𝐺. (𝐺は平均0で適当な分散𝑉の正規分布に従う変数) • 𝑛 で標準化する cf. 中心極限定理 ◼ バイアス項が1/ 𝑛よりも速いレートでゼロになる必要があるこのような推定量を構築したい

12 平均処置効果推定の評価指標 ◼ 漸近正規性が証明される推定量（バイアスが早く消える推定量）の間での良さより漸近分散が小さい推定量が良い • 漸近分散 = 推定量が漸近的に従う正規分布の分散 ◼
分散の理論的最良値？ • Cramer-Rao下限 • 不偏推定量の集合に対して分散の下限（理論的最良値）を与える • 正則推定量に対する漸近効率下限（ Hajek-Le Cam型の効率下限） • 正則推定量と呼ばれる望ましい性質を持つ推定量の集合に対する漸近分散の下限 • 漸近的にバイアスが消えるのであれば、不偏でなくても良い • セミパラメトリックモデルの下限をセミパラメトリック効率下限と呼ぶ ◼ 理論的に漸近分散が最小の推定量（漸近分散の下限と同じ漸近分散を持つ推定量）＝（漸近的に）効率な推定量（efficient estimator）と呼ばれる

13 RAL推定量 ◼ 因果パラメータの効率的な推定量の構築を目指す． • 漸近効率な推定量 = バイアスが漸近的に消失し、漸近分散が最良値と一致 • バイアスが漸近的に消失
＝ 𝑛 መ 𝜃 − 𝜃0 が漸近正規性を有する • 理論的最良値 = 漸近効率下限 ◼ ATE に限定されない一般論 • データを𝑊、観測値を 𝑊𝑖 𝑖=1 𝑛 とする ➢ 推定量が正則かつ漸近線形（Regular and Asymptotically Linear；RAL）なら効率 𝑛 መ 𝜃 − 𝜃0 ≔ 1 𝑛 ෍ 𝑖=1 𝑛 𝜓0 𝑊𝑖 ; 𝜃0 + 𝑜𝑝 1 (𝑛 → ∞). • 𝜓0 は効率スコア（efficient score）関数と呼ばれる • 推定対象𝜃0 ごとに一意に定まる ◼ 𝐽0 ≔ 𝔼[𝜓0 𝑊; 𝜃0 2]は漸近効率下限（asymptotic efficiency bound）= 理論的最良値厳密には、 1 𝑛 σ𝑖=1 𝑛 𝜓0 𝑊𝑖 = 𝐽0 −1 1 𝑛 σ𝑖=1 𝑛 𝜙0 𝑊𝑖 とし、𝜙0 を効率スコア関数と呼び、 𝜓0 𝑊𝑖 を効率影響関数（efficient influence function）と呼無事の方が多いが、二重機械学習的な語法に合わせて𝜓0 を効率スコア関数と呼ぶことにする

14 推定方程式 ◼ 以下の等式を満たすように構築される推定量 መ 𝜃 はRAL → 漸近効率＝
最小漸近分散 1 𝑛 ෍ 𝑖=1 𝑛 𝜓0 𝑊𝑖 ; መ 𝜃 = 0. • なぜ？ 1 𝑛 ෍ 𝑖=1 𝑛 𝜓0 𝑊; መ 𝜃 = 1 𝑛 ෍ 𝑖=1 𝑛 𝜓0 𝑊; 𝜃0 − መ 𝜃 − 𝜃0 = 0 より、効率スコアに対する漸近線形性が成立： 𝑛 መ 𝜃 − 𝜃0 = 1 𝑛 ෍ 𝑖=1 𝑛 𝜓0 𝑊𝑖 ; 𝜃0 . ◼ このように መ 𝜃を構成する方法を推定方程式アプローチと呼ぶ • スコアがゼロになる点を推定量とする = 最尤法と同じような操作 • したがって、 𝜓0 𝑊𝑖 ; 𝜃0 が分かれば良い

15 AIPW 推定量の効率スコアと局外母数 ◼ ATEの効率スコア（ATE推定では𝑊 = (𝑋, 𝐷, 𝑌)） 𝜓0
𝑋𝑖 , 𝐷𝑖 , 𝑌𝑖 ; 𝜃0 = 𝜓 𝑋𝑖 , 𝐷𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 = 𝐷𝑖 𝑒0 𝑋𝑖 + 1 − 𝐷𝑖 1 − 𝑒0 𝑋𝑖 𝑌𝑖 − 𝑓0 𝐷𝑖 , 𝑋𝑖 + 𝑓0 1, 𝑋𝑖 − 𝑓0 0, 𝑋𝑖 ◼ 効率スコア関数は未知の関数に依存している • 傾向スコア𝑒0 𝑋 = 𝑃(𝐷 = 1|𝑋) • 回帰関数 𝑓0 𝐷, 𝑋 = 𝔼 𝑌|𝐷, 𝑋 ◼ これらの関数（パラメータ）は局外母数（nuisance parameter）と呼ばれる • 主たる関心のあるパラメータ（平均処置効果（ATE））と比較して「関心がない」 = 局外 ◼ 推定方程式を用いるためには𝜓0 が必要＝局外母数 𝑓0 と 𝑒0 を推定する必要がある • 以降では、これらの推定量を Ƹ 𝑒と መ 𝑓とする • 具体的にどのように Ƹ 𝑒と መ 𝑓 を構築するかは後述

16 AIPW推定量

17 ATEの推定量の候補 ➢ ATE の推定では主に以下の三つの推定量が用いられる： ⚫ 回帰調整（Regression Adjustment；RA）推定量 መ
𝜃𝑛 RA = 1 𝑛 ෍ 𝑖=1 𝑛 መ 𝑓 1, 𝑋𝑖 − መ 𝑓 0, 𝑋𝑖 ⚫ 逆確率重み付け（Inverse Probability Weighting；IPW ）推定量 መ 𝜃𝑛 IPW = 1 𝑛 ෍ 𝑖=1 𝑛 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1 − 𝐷𝑖 1 − Ƹ 𝑒 𝑋𝑖 𝑌𝑖 • 選択バイアスを補正する推定量として頻出 ⚫ 拡張逆確率重み付け（Augmented IPW；AIPW）推定量 መ 𝜃𝑛 AIPW = 1 𝑛 ෍ 𝑖=1 𝑛 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1 − 𝐷𝑖 1 − Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓 0, 𝑋𝑖 • 二重に頑健な（Doubly Robust；DR）推定量とも呼ばれる

18 AIPW推定量 ◼ 適当な条件のもとで多くの推定量が漸近効率であることが示される ◼ そのなかでも、基本と言えるのはAIPW 推定量： መ 𝜃𝑛 AIPW
= 1 𝑛 ෍ 𝑖=1 𝑛 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 + 1 − 𝐷𝑖 1 − Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓 0, 𝑋𝑖 ◼ AIPW 推定量の漸近効率性と漸近正規性 • 回帰関数 𝑓0 と傾向スコア 𝑒0 の推定量の構築方法と性質に依存 • 適切に回帰関数 𝑓0 と傾向スコア 𝑒0 を推定してAIPWを構築する枠組みには名前がついている • 二重機械学習（Double Machine Learning；DML） • 標的最尤推定（Targeted Maximum Likelihood Estimator；TMLE） ◼ RA 推定量と IPW 推定量は特殊な条件下でないと漸近効率にならない • 推定精度の観点では、AIPW 推定量が理論的にはもっとも適切な選択肢

19 AIPW 推定量の解釈 ① 効率スコアからの導出 ◼ ATE推定における効率スコア関数： 𝜓0 𝐷, 𝑋,
𝑌; 𝜃0 ATE = 𝜓 𝐷, 𝑋, 𝑌; 𝑓0 , 𝑒0 , 𝜃0 ATE = 𝐷 𝑒0 𝑋 − 1 − 𝐷 1 − 𝑒𝑜 𝑋 𝑌 − 𝑓0 𝐷, 𝑋 + 𝑓0 1, 𝑋 − 𝑓0 0, 𝑋 − 𝜃0 ATE • 回帰関数 𝑓0 𝑑, 𝑥 = 𝔼[𝑌 ∣ 𝐷 = 𝑑, 𝑋 = 𝑥] と傾向スコア𝑒0 𝑋 = 𝑃(𝐷 = 1 ∣ 𝑋) ◼ 回帰関数 𝑓0 と傾向スコア 𝑒0 が既知なら、ATEの推定量を以下を満たすように構築： 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , መ 𝜃 = 0 • スコアのサンプル平均をゼロにする = 最尤推定のイメージと同じ 1 ⚫なぜ？ 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , ෠ 𝜃 = 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 ATE − 𝑛 ෠ 𝜃 − 𝜃0 ATE = 0 より、効率スコアに対する漸近線形性が成立： 𝑛 ෠ 𝜃 − 𝜃0 = 1 𝑛 σ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 ⚫効率の意味について無限次元の局外母数を考える場合、スコア関数が祐逸に定まらない。その複数のスコアのなかで、リースの表現定理から一位に定まるスコアを特に効率スコアと呼ぶ。効率スコアは効率下限を導出する

20 AIPW 推定量の解釈 ① 効率スコアからの導出 ◼ 回帰関数 𝑓0 と傾向スコア 𝑒0
は未知なので推定する必要がある ◼ 推定方程式（estimation equation）アプローチ • 置き換えると以下の推定方程式を解くことになる 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, መ 𝜃 = 0. ◼ መ 𝜃 には解析解が存在し、それは逆確率重み付け（AIPW）推定量と呼ばれる መ 𝜃𝑛 AIPW = 1 𝑛 ෍ 𝑖=1 𝑛 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1 − 𝐷𝑖 1 − Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓(0, 𝑋𝑖 ) • 適当な条件のもとで効率スコア関数に対してRAL推定量になる → 漸近正規かつ漸近効率 ⚫ 注記： ATE の推定だけであれば 1 𝑛 σ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, ෠ 𝜃 = 0 という方程式を考えることなく、直接 ෠ 𝜃𝑛 AIPW = ቀ ቁ 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1−𝐷𝑖 1− Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓(0, 𝑋𝑖 ) を考えれば良いが、二重機械学習はATE の推定以外にも使えるため、一般性のために以降でも 1 𝑛 σ𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, ෠ 𝜃 = 0 を用いる 2

21 AIPW 推定量の解釈 ① 効率スコアからの導出 ◼ 最尤法としても解釈できる ◼ 最尤法 =
対数尤度を最大化するようにパラメータを推定する手法 • 対数尤度の最大化問題を解く → 対数尤度の一階微分がゼロになる点を探す！ • 対数尤度の一階微分はスコアと呼ばれる ◼ 因果推論における最尤法的な操作 • スコアがゼロになる点を探す = 推定方程式アプローチ：以下の条件を満たすようにパラメータの推定量 መ 𝜃を構築： 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, መ 𝜃 = 0 • 因果推論ではスコアが（パラメータ𝜃だけでなく）関数 𝑓0 と 𝑒0 にも依存 • スコアを定義するためには関数に対する微分（汎関数微分）を考える必要性 • スコアが一意ではない → 複数のスコアのなかから効率スコアと呼ばれるスコアを選ぶ

22 AIPW 推定量の解釈 ② 二重に頑健な推定量 ◼ 二重頑健性回帰関数と傾向スコアの少なくともどちらか一つが正しく推定されてれば良い → 少なくともどちらか一つが正しく推定されていれば、一致性は保証される：
መ 𝜃𝑛 AIPW → 𝑝 𝜃0 ATE (𝑛 → ∞) ◼ 比較 • RA 推定量：回帰関数が正しく推定されている必要がある • IPW 推定量：傾向スコアが正しく推定されている必要がある ◼ 欠点 • 回帰関数と傾向スコアの両方が同時に正しく推定されていないと、漸近正規性や漸近効率性などの結果を得られなくなる可能性がある • RA 推定量は回帰関数だけが、IPW推定量は傾向スコアだけが正しく推定できれば良い？というわけでもない

23 AIPW 推定量の解釈 ③ バイアス補正 ◼ AIPW 推定量は回帰調整推定量のバイアスを補正する推定量 ◼ 回帰調整推定量：
መ 𝜃𝑛 RA = 1 𝑛 ෍ 𝑖=1 𝑛 መ 𝑓 1, 𝑋𝑖 − መ 𝑓 0, 𝑋𝑖 ◼ AIPW 推定量 መ 𝜃𝑛 AIPW = 1 𝑛 ෍ 𝑖=1 𝑛 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1 − 𝐷𝑖 1 − Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓(0, 𝑋𝑖 ) ◼ AIPW 推定量は回帰調整推定量にバイアス補正項を加えることで、回帰関数𝑓0 の推定に伴うバイアスを補正していると解釈可能 → 最尤法的解釈にしたがって、ニュートン法のように勾配にしたがって推定量を更新バイアス補正項

24 二重機械学習

25 二重機械学習の考え方 ◼ 目標 • 回帰関数や傾向スコアの推定誤差によるバイアスを除去すること • 漸近分散が理論的に最も小さい処置効果の推定量を構築すること ◼ 回帰関数や傾向スコアは局外母数（nuisance
parameter）と呼ばれる • 主たる関心のあるパラメータ（平均処置効果（ATE））と比較して「関心がない」 = 局外 ◼ ネイマン直交スコア • 漸近分散が理論的に最小の推定量 = 漸近効率な推定量 • 推定量が効率スコアに対して正則かつ漸近線形（RAL）であれば漸近効率 • 局外母数の推定によるバイアスを無視できる効率スコア → ネイマン直交スコアと呼ばれる ◼ 二重機械学習手法: ネイマン直交スコア + 推定方程式 + 交差適合達成されること：上記の目標を達成する推定量が得られる

26 二重機械学習 ◼ 二重機械学習を適用できる因果パラメータ • 効率スコアがネイマン直交性（Neyman orthogonality）を満たす • 局外母数を適当な条件のもとで推定できる ◼
手順 • 効率スコア（ネイマン直交スコア）が依存している局外母数を確認 • 局外母数を推定する • 局外母数の推定量が複雑でなければそのまま代入できる • 複雑であればサンプル分割（交差適合）を用いる • 推定された局外母数を効率スコアに代入して、真の効率スコアを推定 • 推定方程式アプローチで因果パラメータを推定 ➢ 注：局外母数の推定量が満たすべき条件については次回講義で詳述

27 漸近効率な推定量としてのAIPW推定量 ◼ ATE推定における効率スコア関数： 𝜓0 𝐷, 𝑋, 𝑌 = 𝜓
𝐷, 𝑋, 𝑌; 𝑓0 , 𝑒0 , 𝜃0 = 𝐷 𝑒0 𝑍 − 1 − 𝐷 1 − 𝑒𝑜 𝑍 𝑌 − 𝑓0 𝐷, 𝑋 + 𝑓0 1, 𝑍 − 𝑓0 0, 𝑍 − 𝜃0 • 回帰関数 𝑓0 𝑑, 𝑥 = 𝔼[𝑌 ∣ 𝐷 = 𝑑, 𝑋 = 𝑥] と傾向スコア𝑒0 𝑋 = 𝑃(𝐷 = 1|𝑋) ◼ 回帰関数 𝑓0 と傾向スコア 𝑒0 が既知なら、ATEの推定量を以下を満たすように構築： 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , መ 𝜃 = 0 • スコアのサンプル平均をゼロにする = 最尤推定のイメージと同じ ⚫ なぜ？ 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , ෠ 𝜃 = 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 − 𝑛 ෠ 𝜃 − 𝜃0 = 0 より、効率スコアに対する漸近線形性が成立： 𝑛 ෠ 𝜃 − 𝜃0 = 1 𝑛 σ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0

28 漸近効率な推定量としてのAIPW推定量 ◼ 回帰関数 𝑓0 と傾向スコア 𝑒0 は未知なので推定する必要がある ◼ 置き換えると以下の推定方程式を解くことになる
1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, መ 𝜃 = 0 ◼ መ 𝜃 には解析解が存在し、それは逆確率重み付け（AIPW）推定量と呼ばれる መ 𝜃𝑛 AIPW = 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1 − 𝐷𝑖 1 − Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓(0, 𝑋𝑖 ) • 適当な条件のもとで効率スコア関数に対してRAL推定量になる → 漸近正規かつ漸近効率 ⚫ 注記： ATE の推定だけであれば 1 𝑛 σ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, ෠ 𝜃 = 0 という方程式を考えることなく、直接 ෠ 𝜃𝑛 AIPW = 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1−𝐷𝑖 1− Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓(0, 𝑋𝑖 ) を考えれば良いが、二重機械学習はATE の推定以外にも使えるため、一般性のために以降でも 1 𝑛 σ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, ෠ 𝜃 = 0 を用いる

29 RA推定量・IPW推定量・AIPW推定量 ◼ 局外母数 • 傾向スコア𝑒0 𝑋 = 𝑃(𝐷 =
1|𝑋) • 回帰関数 𝑓0 𝐷, 𝑋 = 𝔼 𝑌|𝐷, 𝑋 ◼ ATE の推定では主に以下の三つの推定量が用いられる： • RA 推定量 መ 𝜃𝑛 RA = 1 𝑛 σ 𝑖=1 𝑛 መ 𝑓 1, 𝑋𝑖 − መ 𝑓 0, 𝑋𝑖 • 前回講義でも紹介した「回帰関数の推定量の差分のサンプル平均」 • AIPW 推定量 መ 𝜃𝑛 AIPW = 1 𝑛 σ 𝑖=1 𝑛 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1−𝐷𝑖 1− Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓 0, 𝑋𝑖 • 効率スコア関数から導出される • IPW （逆確率重み付け）推定量 መ 𝜃𝑛 IPW = 1 𝑛 σ 𝑖=1 𝑛 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1−𝐷𝑖 1− Ƹ 𝑒 𝑋𝑖 𝑌𝑖 • 選択バイアスを補正する推定量として頻出 ◼ RA 推定量と IPW 推定量は特殊な条件下でないと漸近効率にならない • 推定精度の観点では、AIPW 推定量が理論的にはもっとも適切な選択肢

30 回帰関数と傾向スコアの推定 ◼ 局外母数 • 効率スコアやATEの推定量は回帰関数 𝑓0 と傾向スコア 𝑒0 に依存
• これらは直接関心があるパラメータではない → 局外母数（nuisance parameter）と呼ばれる ◼ 局外母数は通常は未知なので推定する必要がある • 古典的なOLSから機械学習の手法まで、いろいろな手法を用いることができる可能性ある程度「良い」性質を持っていないと、最終的に推定した因果パラメータの推定量の漸近正規性などを保証できない ◼ 「良い」性質とは？ • 適当な収束レート • Donsker条件 ◼ Donsker 条件はサンプル分割で代替可能 • 交差適合（cross-fitting）と呼ばれる

31 交差適合 ◼ 以下の推定方程式を解きたい 1 𝑛 ෍ 𝑖=1 𝑛 𝜓
𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, መ 𝜃 = 0 • 観測値 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 𝑖=1 𝑛 を𝐿 個のデータセットに分割 • それぞれを𝑆1 , … . , 𝑆𝐿 とする • 各ℓ = 1,2, … , 𝐿について、 ෍ (𝑋𝑖,𝐷𝑖,𝑌𝑖)∈𝑆ℓ 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓(ℓ), Ƹ 𝑒(ℓ), መ 𝜃 = 0 を計算 • መ 𝑓(ℓ)は𝑆ℓ 以外のデータを用いる • 最終的に以下を解く： 1 𝑛 ෍ ℓ=1 𝐿 ෍ (𝑋𝑖,𝐷𝑖,𝑌𝑖)∈𝑆ℓ 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓(ℓ), Ƹ 𝑒(ℓ), መ 𝜃 = 0 y軸：因果パラメータの推定量の構築に使用されるサンプル x軸：それらのサンプルで使用される局外母数を推定するために使われるサンプル

32 漸近正規性に関する定理定理（漸近正規性） • SUTVA・共通サポート・非交絡性の仮定が満たされているとする • 局外母数の推定量 መ 𝑓 と
Ƹ 𝑒 が以下を満たす： • サンプル分割（交差適合）を用いて構築されているか、Donsker条件を満たす • 以下の収束レートを満たす（ ⋅ は適当なノルム）： መ 𝑓 − 𝑓0 = 𝑜𝑝 1 , Ƹ 𝑒 − 𝑒0 = 𝑜𝑝 1 , መ 𝑓 − 𝑓0 Ƹ 𝑒 − 𝑒0 = 𝑜𝑝 1 𝑛 このとき、以下の漸近正規性が成立する： 𝑛( መ 𝜃𝑛 AIPW − 𝜃0 ) → 𝑑 𝒩(0, 𝑉∗). ここで、 𝑉∗ は漸近効率下限 ➢ 注意：ランダムフォレストとかは収束レートが示されていなかったりする • 任意の機械学習的手法を使えるわけではない • 高次元の場合、そもそもスパース性などがないと望ましい収束レートを得られない Copyright (c) Mizuho–DL Financial Technology Co., Ltd. All Rights Reserved.

33 推定誤差の分解 ◼ AIPW 推定量 መ 𝜃𝑛 AIPW = 1
𝑛 ෍ 𝑖=1 𝑛 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1 − 𝐷𝑖 1 − Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓 0, 𝑋𝑖 = 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, 𝜃0 ATE + 𝜃0 ATE • ここで、 𝜓 𝐷, 𝑋, 𝑌; 𝑓, 𝑒, 𝜃 = 𝐷 𝑒0 𝑋 − 1 − 𝐷 1 − 𝑒𝑜 𝑋 𝑌 − 𝑓0 𝐷, 𝑋 + 𝑓 1, 𝑋 − 𝑓 0, 𝑋 − 𝜃 ◼ 示したいことは、AIPW推定量が以下の形式（RAL）であること： 𝑛 መ 𝜃𝑛 AIPW − 𝜃0 ATE = 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 + 𝑜𝑝 1 .

34 推定誤差の分解 ◼ 推定誤差の分解： 𝑛 ෠ 𝜃𝑛 AIPW − 𝜃0
ATE = 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, 𝜃0 ATE = 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 ATE − 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 ATE + 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, 𝜃0 ATE = 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 ATE − 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 ATE − 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, 𝜃0 ATE − 𝑛𝔼 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 ATE − 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, 𝜃0 ATE + 𝑛𝔼 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 ATE − 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, 𝜃0 ATE = 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 ATE − 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 ATE − 1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒𝜃0 ATE − 𝑛𝔼 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 ATE − 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, 𝜃0 ATE − 𝑛𝔼 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 ATE − 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, 𝜃0 ATE 経験過程項：Donsker条件、もしくはサンプル分割（交差適合）で𝑜𝑝 (1) 推定誤差のみ：レート条件で𝑜𝑝 (1)

35 回帰調整推定量との比較

36 推定方程式アプローチ ◼ 漸近効率な推定量は以下の形式になる（RAL推定量）： 𝑛 መ 𝜃 − 𝜃0 ≔
1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝑋𝑖 , 𝐷𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 + 𝑜𝑝 1 ◼ ここで， 𝜓 𝑋𝑖 , 𝐷𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 は効率スコア関数： 𝜓 𝑋𝑖 , 𝐷𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 = 𝐷𝑖 𝑒0 𝑋𝑖 + 1 − 𝐷𝑖 1 − 𝑒0 𝑋𝑖 𝑌𝑖 − 𝑓0 𝐷𝑖 , 𝑋𝑖 + 𝑓0 1, 𝑋𝑖 − 𝑓0 0, 𝑋𝑖 − 𝜃0 ◼ どのような推定量がRALになるのか？ • 例：推定方程式アプローチ： • 未知の𝑓0 と 𝑒0 を推定量 መ 𝑓 と Ƹ 𝑒 で置き換え • 次の等式を満たすように መ 𝜃 を推定：1 𝑛 σ 𝑖=1 𝑛 𝜓 𝑋𝑖 , 𝐷𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, መ 𝜃 = 0 • これはAIPW 推定量となる： መ 𝜃𝑛 AIPW = 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 + 1 − 𝐷𝑖 1 − Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓(0, 𝑋𝑖 ) ◼ AIPW推定量は効率スコア関数から直接導出される

37 理想的な推定量と現実的に実行可能な推定量 ◼ 理想的な推定量（ 𝑓0 と 𝑒0 が既知の場合） መ
𝜃理想 = 1 𝑛 ෍ 𝑖=1 𝑛 𝐷𝑖 𝑒0 (𝑋𝑖 ) − 1 − 𝐷𝑖 1 − 𝑒0 (𝑋𝑖 ) 𝑌𝑖 − 𝑓0 𝐷𝑖 , 𝑋𝑖 + 𝑓0 1, 𝑋𝑖 − 𝑓0 0, 𝑋𝑖 • 定義より、この推定量は効率スコア関数に対して漸近線形： 𝑛 መ 𝜃理想 − 𝜃0 ATE = 1 𝑛 ෍ 𝑖=1 𝑛 𝐷𝑖 𝑒0 𝑋𝑖 − 1 − 𝐷𝑖 1 − 𝑒0 𝑋𝑖 𝑌𝑖 − 𝑓0 𝐷𝑖 , 𝑋𝑖 + 𝑓0 1, 𝑋𝑖 − 𝑓0 0, 𝑋𝑖 − 𝜃0 𝐴𝑇𝐸 = 1 𝑛 ෍ 𝑖=1 𝑛 𝜓(𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 ) ◼ 課題：回帰関数 𝑓0 と傾向スコア 𝑒0 は未知 • 理想的な推定量は構築不可能 ◼ 実際に構築可能な推定量は以下のような推定量： መ 𝜃 = 1 𝑛 ෍ 𝑖=1 𝑛 𝐷𝑖 Ƹ 𝑒(𝑋𝑖 ) − 1 − 𝐷𝑖 1 − Ƹ 𝑒(𝑋𝑖 ) 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓 0, 𝑋𝑖

38 ネイマン直交性とバイアスの高速収束 ◼ 局外母数の推定誤差によって生じるバイアス： 𝑛 መ 𝜃 − 𝜃0 ATE
= 𝑛 መ 𝜃 − መ 𝜃理想 + መ 𝜃理想 − 𝜃0 ATE = 𝑛 መ 𝜃理想 − 𝜃0 ATE + 𝑛 መ 𝜃 − መ 𝜃理想 ◼ バイアス 𝑛 መ 𝜃 − መ 𝜃理想 • ここが𝑜𝑝 (1) （ゼロに確率収束する）であれば良い ◼ ネイマン直交性と Donsker 条件もしくはサンプル分割を活用することでバイアスの収束を保証バイアス（余分な項）

39 回帰関数の推定

40 局外母数の推定 ◼ ATEの推定量の構築方法だけでなく、回帰関数や傾向スコアといった局外母数の推定の仕方でも違いが生じる ◼ 回帰関数の推定方法 • ニューラルネットワークやランダムフォレストなど •
標的最尤推定（Targeted Maximum Likelihood Estimation；TMLE） ◼ 傾向スコアの推定方法 • 最尤法 • 共変量バランシング • リース回帰（密度比推定） • キャリブレーション推定 • テイラー損失最小化

41 回帰関数の推定 ◼ 回帰関数 𝑓0 (𝑑, 𝑥) の推定 → 回帰関数に対するモデリングと回帰手法（正則化の有無など）に依存
• 通常の線形モデル → OLSやリッジ回帰 • 高次元線形モデル → ラッソ回帰 • ロジットモデル → ロジスティック回帰 • 特定の関数形を仮定しない → ノンパラメトリックモデル ◼ ノンパラメトリックモデル • 古典的アプローチ：カーネル回帰やシリーズ回帰 • 最近のアプローチ：ランダムフォレストやニューラルネットワーク Copyright (c) Mizuho–DL Financial Technology Co., Ltd. All Rights Reserved.

42 機械学習的手法 ◼ 回帰関数 𝑓0 （と傾向スコアも）はニューラルネットワークやランダムフォレストなどで推定可能 • 機械学習的手法の利点 •
ノンパラメトリック回帰を簡易的に実現 • カーネル回帰やシリーズ回帰によるノンパラメトリック回帰は実装や計算が大変 • 特定の場合により良い理論的性質を有する • 階層構造や区分的多項式など ◼ ATE推定量の漸近正規性や漸近効率性のために必要な条件には注意（後述） • 収束レート • Donsker 条件 or サンプル分割 • Donsker 条件 • 関数が複雑すぎないことが、ATEを含む因果パラメータの推定のために必要 • 関数が複雑である例：被覆エントロピーが無限に発散 Copyright (c) Mizuho–DL Financial Technology Co., Ltd. All Rights Reserved.

43 標的最尤推定 ➢ 標的最尤推定（Targeted Maximum Likelihood；TMLE） • ステップ１．回帰調整推定量を構築： መ 𝜃𝑛
RA ≔ 1 𝑛 ෍ 𝑖=1 𝑛 መ 𝑓 1, 𝑋𝑖 − መ 𝑓 0, 𝑋𝑖 . • ステップ２．標的化更新 መ 𝑓(1) 𝑑, 𝑋𝑖 ← መ 𝑓 𝑑, 𝑋𝑖 + 𝜉(𝑑) • 𝜉(𝑑)はネイマン直交性を満たすように追加される Copyright (c) Mizuho–DL Financial Technology Co., Ltd. All Rights Reserved.

44 メタラーナーズ ◼ メタラーナーズ（メタ学習器） • 回帰関数 𝑓0 や条件付きATE 𝜃0 𝑥
= 𝔼[𝑌 1 − 𝑌 0 ∣ 𝑋 = 𝑥] の学習手法を分類するもの • 例 • S-learner • T-learner • X-learner • IPW-learner • DR-learner • R-learner ポイント • 二重機械学習などと併用して良い • 特に新しい手法ではないし、手法的・理論的な利点は微妙 • R-learnerに対しては最適性が示されている Copyright (c) Mizuho–DL Financial Technology Co., Ltd. All Rights Reserved.

45 傾向スコアの推定

46 傾向スコアのモデリング ◼ 推定したい対象の一つ傾向スコア（処置群に割り当てられる確率）： 𝑒0 𝑋 = 𝑃 𝐷
= 1 𝑋 ◼ 𝑒0 (𝑋) のモデリング（𝑔(𝑋)は適当なモデルとする） • ロジスティック回帰モデル： 𝑒 𝑋 = 1 1 + exp −𝑔 𝑋 • より仮定が少ないモデル： 𝑒 𝑋 = 𝑔 𝑋 ◼ 𝑔(𝑋) のモデリング • 線形モデル：𝑔 𝑋 = 𝛽⊤𝑋 • 基底を用いる線形モデル：𝑔 𝑋 = 𝛽⊤Φ 𝑋 • ニューラルネットワーク • ランダムフォレスト

47 傾向スコアモデルのフィッティング ◼ 傾向スコアモデルのフィッティング • 𝑒 𝑋 もしくは 𝑔(𝑋) をどのように推定するべきか
◼ 二つの推定（フィッティング）方法 • 最尤推定 • 以下の対数尤度の最大化により𝑒 や 𝑔を学習： ℓ 𝑒 ≔ 1 𝑛 ෍ 𝑖=1 𝑛 𝐷𝑖 log 𝑒 𝑋𝑖 + 1 − 𝐷𝑖 log(1 − 𝑒 𝑋𝑖 • リース表現量に対する損失最小化 • ATE の推定では、 𝛼0 𝐷, 𝑋 = 𝐷 𝑒(𝑋) − 1−𝐷 1−𝑒(𝑋) の形式で傾向スコアが現れる • 𝛼0 𝐷, 𝑋 はリース表現量と呼ばれる ✓ 表現量 𝛼0 𝐷, 𝑋 = 𝐷 𝑒(𝑋) − 1−𝐷 1−𝑒(𝑋) に対する予測損失を最小化するように𝑒 や𝑔を学習

48 リース表現量の推定 ◼ AIPW推定量やIPW推定量： • መ 𝜃𝑛 AIPW = 𝐷𝑖
Ƹ 𝑒 𝑋𝑖 − 1−𝐷𝑖 1− Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓(0, 𝑋𝑖 ) • መ 𝜃𝑛 IPW = 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1−𝐷𝑖 1− Ƹ 𝑒 𝑋𝑖 𝑌𝑖 → 傾向スコアは 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1−𝐷𝑖 1− Ƹ 𝑒 𝑋𝑖 の形式で現れる ◼ これをひとまとまりにしてリース表現量と呼ぶ 𝛼0 𝐷, 𝑋 ≔ 𝐷 Ƹ 𝑒 𝑋 − 1 − 𝐷 1 − Ƹ 𝑒 𝑋 ◼ このリース表現量 𝛼0 の推定問題を考える • 実際にATEの推定で使うのは 𝑒0 ではなく 𝛼0 であることに着眼 ◼ 𝛼0 を直接モデリングする • 𝛼 𝐷, 𝑋 = 𝑔 𝐷, 𝑋 や 𝛼 𝐷, 𝑋 = 𝐷 1 + exp −𝑔 𝑋 + 1 − 𝐷 1 + exp 𝑔 𝑋

49 リース表現量の推定 ◼ このリース表現量 𝛼0 の推定問題（フィッティング）を考える！理想：最小二乗法 ത 𝛼
≔ arg min 𝛼∈ℋ 𝔼 𝛼0 𝐷, 𝑋 − 𝛼 𝐷, 𝑋 2 • ℋ は適当なモデル（例：ニューラルネットワーク） ◼ 真のリース表現量を知らずに実行できるのか？→ 実行可能 • 同値な最適化問題 ത 𝛼 ≔ arg min 𝛼∈ℋ −2𝔼 𝛼 1, 𝑋 − 𝛼 0, 𝑋 + 𝔼 𝛼 𝐷, 𝑋 2 • 密度比推定とも呼ばれる • 実際には、期待値をサンプル平均で置き換えた目的関数を最適化する： ො 𝛼 ≔ arg min 𝛼∈ℋ −2 1 𝑛 ෍ 𝑖=1 𝑛 𝛼 1, 𝑋𝑖 − 𝛼 0, 𝑋𝑖 + 1 𝑛 ෍ 𝑖=1 𝑛 𝛼 𝐷𝑖 , 𝑋𝑖 2

50 リース表現量の双対表現 ◼ リース表現量の推定は共変量バランシングとして解釈可能 • リース回帰における最適化問題： ො 𝛼 ≔ arg
min 𝛼∈ℋ −2 1 𝑛 ෍ 𝑖=1 𝑛 𝛼 1, 𝑋𝑖 − 𝛼 0, 𝑋𝑖 + 1 𝑛 ෍ 𝑖=1 𝑛 𝛼 𝐷𝑖 , 𝑋𝑖 2 • 線形リースと双対問題 • 𝛼 𝑋 = 𝛽⊤𝑋 とする • このとき、上の最適化問題の双対問題が共変量バランシングになる＝共変量バランシングはリース表現量の推定と解釈できる！

51 共変量バランシング ◼ 傾向スコアの役割 • バランシングスコア • 処置群とコントロール群の共変量の歪みを補正 1 𝑛
෍ 𝑖=1 𝑛 1 𝑒0 (𝑋𝑖 ) 𝐷𝑖 𝑋𝑖 ≈ 1 𝑛 ෍ 𝑖=1 𝑛 1 1 − 𝑒0 (𝑋𝑖 ) (1 − 𝐷𝑖 )𝑋𝑖 ◼ 適当なノルムのもとで共変量をバランシング（均衡）させるように 1 𝑒0(𝑋𝑖) と 1 1−𝑒0(𝑋𝑖) を推定 • Imai and Ratkovic (JRSSB 2013） Ƹ 𝑒 ≔ arg min 𝑒 1 𝑛 ෍ 𝑖=1 𝑛 1 𝑒 𝑍𝑖 𝐷𝑖 𝑋𝑖 − 1 𝑛 ෍ 𝑖=1 𝑛 1 1 − 𝑒 𝑍𝑖 (1 − 𝐷𝑖 )𝑋𝑖 .

52 共変量バランシング ◼ Imai and Ratkovicの方法で共変量をバランスさせる重みが唯一に定まる • 特に問題はない ◼ 現実には、複数の重みがImai
and Ratkovic の目的関数に対する最適化にになる可能性がある • 適当な尺度で重みを選択する ◼ Hainmueller (Political Analysis 2012) および Zubizarreta (JASA 2015): ෝ 𝑤 = argmin 𝑤∈ℝ𝑛 𝑆 𝑤 s. t. 1 𝑛 ෍ 𝑖=1 𝑛 𝑤𝑖 𝐷𝑖 𝑋𝑖 = 1 𝑛 ෍ 𝑖=1 𝑛 𝑤𝑖 (1 − 𝐷𝑖 )𝑋𝑖 • ここで、ෝ 𝑤𝑖 は𝐷𝑖 = 1のとき 1 𝑒0(𝑋𝑖) の推定量で， 𝐷𝑖 = 0のとき 1 1−𝑒0(𝑋𝑖) の推定量 • 𝑆(𝑤) は適当な評価尺度

「機械学習と因果推論」入門 ③ 漸近効率な推定量と二重機械学習

「機械学習と因果推論」入門 ③ 漸近効率な推定量と二重機械学習

More Decks by MasaKat0

Other Decks in Education

Featured

Transcript