「機械学習と因果推論」入門 ⑤ 因果効果推定の一般化

1 「機械学習と因果推論」入門 ⑤ 因果効果推定の一般化加藤真大大阪公立大学 RIKEN AIP

2 「機械学習と因果推論」入門 ◼ 全5回 ① 因果推論とは ② 回帰分析から因果分析へ ③ 漸近効率な推定量と二重機械学習
④ さまざまな処置効果の推定方法 ⑤ 因果効果推定の一般化 ◼ これらの発表を通じて伝えたいこと / 主張 • 因果分析を回帰分析と同じ枠組みで考えること • 因果推論の目的の多くは、少ない仮定で効率的に因果効果を推定・推論すること • 少ない仮定 = ノンパラメトリック・セミパラメトリック分析 → 二重機械学習 • 平均処置効果推定で用いる手法は一般化して多くの問題に応用できる → 自動バイアス除去学習 • リースの表現定理による記述本スライドの一部の図表や説明は、今後出版予定の拙著「機械学習による因果推論」で使用予定のものを、校正も兼ねて試験的に用いています

3 本講義のポイント ◼ 前回までの復習 • 理論的に良い推定量 = 漸近効率な推定量（漸近分散がもっとも小さい推定量） • 平均処置効果（ATE）推定における二重機械学習
◼ 今回の内容 • 自動バイアス除去学習 • リースの表現定理による二重機械学習の一般化 • 応用例の紹介 • 差分の差法 • 限界効果 • 共変量シフト

4 復習

5 漸近効率下限と漸近効率な推定量 ◼ 因果パラメータの効率的な推定量の構築を目指す． • 漸近効率な推定量 = バイアスが漸近的に消失し，漸近分散が理論的最良値と一致する推定量． • 理論的最良値
= 漸近効率下限 ◼ 推定量が正則かつ漸近線形（Regular and Asymptotically Linear；RAL）なら漸近効率 𝑛 መ 𝜃 − 𝜃0 ≔ 1 𝑛 ෍ 𝑖=1 𝑛 𝜓0 𝑊𝑖 + 𝑜𝑝 1 (𝑛 → ∞). • 𝑊𝑖 は観測値 • 𝜓0 は効率スコア関数と呼ばれる ◼ ATE推定の場合 𝜓0 𝑋𝑖 , 𝐷𝑖 , 𝑌𝑖 = 𝜓 𝑋𝑖 , 𝐷𝑖 , 𝑌𝑖 ; 𝑓0 , 𝑒0 , 𝜃0 = 𝐷𝑖 𝑒0 𝑋𝑖 + 1 − 𝐷𝑖 1 − 𝑒0 𝑋𝑖 𝑌𝑖 − 𝑓0 𝐷𝑖 , 𝑋𝑖 + 𝑓0 1, 𝑋𝑖 − 𝑓0 0, 𝑋𝑖 − 𝜃0

6 AIPW推定量 ◼ 拡張逆確率重み付け（AIPW）推定量： መ 𝜃𝑛 AIPW = 𝐷𝑖 Ƹ
𝑒 𝑋𝑖 + 1 − 𝐷𝑖 1 − Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓(0, 𝑋𝑖 ) • መ 𝑓 と Ƹ 𝑒 は 𝑓0 と 𝑒0 の推定量 • 適当な条件のもとで効率スコア関数に対してRAL推定量になる

7 二重機械学習の考え方 ◼ 目標 • 回帰関数や傾向スコアの推定誤差によるバイアスを除去すること • 漸近分散が理論的に最も小さい処置効果の推定量を構築すること ◼ 回帰関数や傾向スコアは局外母数（nuisance
parameter）と呼ばれる • 主たる関心のあるパラメータ（平均処置効果（ATE））と比較して「関心がない」 = 局外 ◼ ネイマン直交スコア • 漸近分散が理論的に最小の推定量 = 漸近効率な推定量 • 推定量が効率スコアに対して正則かつ漸近線形（RAL）であれば漸近効率 • 局外母数の推定によるバイアスを無視できる効率スコアはネイマン直交スコアと呼ばれる ◼ 二重機械学習手法: ネイマン直交スコア + 推定方程式 + 交差適合達成されること：上記の目標を達成する推定量が得られる

8 二重機械学習 ◼ 二重機械学習を適用できる因果パラメータ • 効率スコアがネイマン直交性（Neyman orthogonality）を満たす • 局外母数を適当な条件のもとで推定できる ◼
手順 • 効率スコア（ネイマン直交スコア）が依存している局外母数を確認 • 局外母数を推定する • 局外母数の推定量が複雑でなければそのまま代入できる • 複雑であればサンプル分割（交差適合）を用いる • 推定された局外母数を効率スコアに代入して、真の効率スコアを推定 • 推定方程式アプローチで因果パラメータを推定 ➢ 注：局外母数の推定量が満たすべき条件については次回講義で詳述

9 漸近効率な推定量としてのAIPW推定量 ◼ 回帰関数 𝑓0 と傾向スコア 𝑒0 は未知なので推定する必要がある ◼ 置き換えると以下の推定方程式を解くことになる
1 𝑛 ෍ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, መ 𝜃 = 0 ◼ መ 𝜃 には解析解が存在し、それは逆確率重み付け（AIPW）推定量と呼ばれる መ 𝜃𝑛 AIPW = 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1 − 𝐷𝑖 1 − Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓(0, 𝑋𝑖 ) • 適当な条件のもとで効率スコア関数に対してRAL推定量になる → 漸近正規かつ漸近効率 ⚫ 注記： ATE の推定だけであれば 1 𝑛 σ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, መ 𝜃 = 0 という方程式を考えることなく、直接 መ 𝜃𝑛 AIPW = 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1−𝐷𝑖 1− Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓(0, 𝑋𝑖 ) を考えれば良いが、二重機械学習はATE の推定以外にも使えるため、一般性のために以降でも 1 𝑛 σ 𝑖=1 𝑛 𝜓 𝐷𝑖 , 𝑋𝑖 , 𝑌𝑖 ; መ 𝑓, Ƹ 𝑒, መ 𝜃 = 0 を用いる

10 RA推定量・IPW推定量・AIPW推定量 ◼ ATE の推定では主に以下の三つの推定量が用いられる： • RA 推定量 መ 𝜃𝑛
RA = 1 𝑛 σ 𝑖=1 𝑛 መ 𝑓 1, 𝑋𝑖 − መ 𝑓 0, 𝑋𝑖 • 前回講義でも紹介した「回帰関数の推定量の差分のサンプル平均」 • AIPW 推定量 መ 𝜃𝑛 AIPW = 1 𝑛 σ 𝑖=1 𝑛 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1−𝐷𝑖 1− Ƹ 𝑒 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓 0, 𝑋𝑖 • 効率スコア関数から導出される • IPW （逆確率重み付け）推定量 መ 𝜃𝑛 IPW = 1 𝑛 σ 𝑖=1 𝑛 𝐷𝑖 Ƹ 𝑒 𝑋𝑖 − 1−𝐷𝑖 1− Ƹ 𝑒 𝑋𝑖 𝑌𝑖 • 選択バイアスを補正する推定量として頻出 • 傾向スコア𝑒0 𝑋 = 𝑃(𝐷 = 1|𝑋) • 回帰関数 𝑓0 𝐷, 𝑋 = 𝔼 𝑌|𝐷, 𝑋 ◼ RA 推定量と IPW 推定量は特殊な条件下でないと漸近効率にならない • 推定精度の観点では、AIPW 推定量が理論的にはもっとも適切な選択肢

11 回帰関数と傾向スコアの推定 ◼ 局外母数 • 効率スコアやATEの推定量は回帰関数 𝑓0 と傾向スコア 𝑒0 に依存
• これらは直接関心があるパラメータではなく、局外母数（nuisance parameter）と呼ばれる ◼ 局外母数は通常は未知なので推定する必要がある • 古典的なOLSから機械学習の手法まで、いろいろな手法を用いることができる可能性ある程度「良い」性質を持っていないと、最終的に推定した因果パラメータの推定量の漸近正規性などを保証できない ◼ 「良い」性質とは？ • 適当な収束レート • Donsker条件 ◼ Donsker 条件はサンプル分割で代替可能 • 交差適合（cross-fitting）と呼ばれる

12 漸近正規性に関する定理定理（漸近正規性） • SUTVA・共通サポート・非交絡性の仮定が満たされているとする • 局外母数の推定量 መ 𝑓 と
Ƹ 𝑒 が以下を満たす： • サンプル分割（交差適合）を用いて構築されているか、Donsker条件を満たす • 以下の収束レートを満たす（ ⋅ は適当なノルム）： መ 𝑓 − 𝑓0 = 𝑜𝑝 1 , Ƹ 𝑒 − 𝑒0 = 𝑜𝑝 1 , መ 𝑓 − 𝑓0 Ƹ 𝑒 − 𝑒0 = 𝑜𝑝 1 𝑛 このとき、以下の漸近正規性が成立する： 𝑛( መ 𝜃𝑛 AIPW − 𝜃0 ) → 𝑑 𝒩(0, 𝑉∗). ここで、 𝑉∗ は漸近効率下限 ➢ 注意：ランダムフォレストとかは収束レートが示されていなかったりする • 任意の機械学習的手法を使えるわけではない • 高次元の場合、そもそもスパース性などがないと望ましい収束レートを得られない Copyright (c) Mizuho–DL Financial Technology Co., Ltd. All Rights Reserved.

13 自動バイアス除去学習

14 設定 ◼ 変数 • リグレッサー（regressor） 𝑅 ∈ ℛ （ℛ
はアウトカムの空間） • 例：𝑅 = 𝐷, 𝑋 （処置と共変量） • アウトカム 𝑌 ∈ 𝒴 ⊆ ℝ （𝒴 はアウトカムの空間） • 回帰関数を 𝑓0 (𝑅) ≔ 𝔼[𝑌 ∣ 𝑅] とする • 𝑊 = 𝑅, 𝑌 と表記する ◼ 因果パラメータ 𝜃0 • 例：ATE・平均限界効果（Average Marginal Effect；AME）など ◼ 観測値 • サンプルサイズ𝑛のデータセット 𝑊𝑖 𝑖=1 𝑛 を観測 ◼ 私たちのタスク • 観測値を用いて因果パラメータ𝜃0 を推定すること．

15 因果パラメータ ➢ 関心のある因果パラメータは以下のような形式で記述できるとする： 𝜃0 ≔ 𝔼 𝑚 𝑊, 𝑓0
• 𝑓0 (𝑅) ≔ 𝔼 𝑌 𝑅 は回帰関数． • 𝑚(𝑊, 𝑓0 ) は（𝑊 = (𝑅, 𝑌)にも依存する）回帰関数の 𝑓0 の線形汎関数． • 𝑚(𝑊, 𝑓0 ) は既知とする．ただし， 𝑓0 は未知． ◼ 例：以下では、𝑅 = (𝐷, 𝑋)とする（一般的にはそうであるとは限らない） • ATE • 𝐷 ∈ {1,0}は0か1の値を取る処置変数であるとする． • ATEは 𝜃0 ≔ 𝔼 𝑓0 1, 𝑋 − 𝑓0 0, 𝑋 と定義される. • 平均限界効果（AME） • 𝐷 ∈ ℝ は連続値を取る処置変数であるとする． • AMEは 𝜃0 (𝑑) ≔ 𝔼 𝜕𝑑 𝑓0 𝑑, 𝑋 と定義される．

16 効率的な推定量 ◼ 因果パラメータの効率的な推定量の構築を目指す． • 漸近効率な推定量 = バイアスが漸近的に消失し，漸近分散が理論的最良値と一致する推定量． • 理論的最良値
• Hayek- Le Camの情報下限を用いる．セミパラメトリック効率下限とも． • Cramer-Raoの下限の拡張． ◼ 推定量が正則かつ漸近線形（Regular and Asymptotically Linear；RAL）であれば漸近効率： 𝑛 መ 𝜃 − 𝜃0 ≔ 1 𝑛 ෍ 𝑖=1 𝑛 𝜓0 𝑊𝑖 + 𝑜𝑝 1 . • 𝜓0 は因果パラメータの効率スコア関数と呼ばれる． • この「スコア」はスコアマッチングの「スコア」とはやや異なり，両者の間の関係はあまりない．

17 単純な推定量 ◼ 単純な推定量を考えてみる． • 因果パラメータは以下の形で書ける： 𝜃0 ≔ 𝔼 𝑚
𝑊, 𝑓0 . → 未知の回帰関数 𝛾0 をその推定量で置き換える ◼ 手順： • 回帰関数 𝑓0 𝑅 = 𝔼[𝑌 ∣ 𝑅] を推定する。その推定量を መ 𝑓(𝑅) と書く • 𝑚(𝑊, 𝑓0 ) における回帰関数 𝑓0 を መ 𝑓 で置き換える • 𝑚 𝑊𝑖 , መ 𝑓 のサンプル平均を計算する。すなわち、以下のような推定量を構築する： መ 𝜃 ≔ 1 𝑛 ෍ 𝑖=1 𝑛 𝑚 𝑊𝑖 , መ 𝑓 . ◼ 問題点： • このような推定量は効率的ではない． ← 回帰関数 𝑓0 の推定量 መ 𝑓 のバイアスが残ることが原因．このバイアスを取り除くには？

18 ネイマン直交スコアとリース表現量 ◼ リースの表現定理 • 𝔼 𝛼 𝑋 2 <
∞であるような関数𝛼0 : ℛ → ℝが存在し，すべての𝔼 𝑓 𝑅 2 < ∞であるような関数𝑓: ℛ → ℝについて，以下が成立する： 𝔼 𝑚 𝑊, 𝑓 = 𝔼 𝛼0 𝑅 𝑓 𝑅 . ◼ 真の局外母数と関心のあるパラメータのもとでのネイマン直交スコアは以下の形式になる： 𝜓 𝑊; 𝜂0 , 𝜃0 = 𝑚 𝑊, 𝑓0 + 𝛼0 𝑅 𝑌 − 𝑓0 𝑋 − 𝜃0 . • 𝜂0 ≔ (𝑓0 , 𝛼0 ) は局外母数 ◼ 関数𝛼0 はリース表現量（Riesz representer）と呼ばれる．問題ごとに異なる： • 平均処置効果（ATE）推定：𝛼0 𝐴𝑇𝐸 𝑅 = 𝛼0 𝐴𝑇𝐸 𝐷, 𝑋 = 𝐷 𝑒𝑜(𝑋) − 1−𝐷 1−𝑒𝑜(𝑋) ． • 平均限界効果（AME）推定：𝛼0 𝐴𝑀𝐸 𝑅 = 𝛼0 𝐴𝑀𝐸 𝐷, 𝑋 = −𝜕𝑑 log 𝑝0 𝑑, 𝑋 |𝑑=𝐷 ． • 共変量シフト適応：𝛼0 𝐶𝑆 𝑅 = 𝛼0 𝐶𝑆 𝐷, 𝑋 = 𝑝1 𝑋 𝑝0(𝑋) ．

19 漸近効率な推定量 ◼ ∗ の形式の効率影響スコアはネイマン直交スコア（Neyman orthogonal scores）と呼ばれる． • ネイマン直交スコアに基づいて以下のような形式の推定量を作る： መ
𝜃 = 1 𝑛 ෍ 𝑖=1 𝑛 ො 𝛼 𝐷𝑖 , 𝑋𝑖 𝑌 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + 𝑚 𝑊𝑖 , መ 𝑓 . • ො 𝛼と መ 𝑓はそれぞれ𝛼0 と𝑓0 の推定量． • 適当な条件を加えると，この推定量は効率． ◼ ො 𝛼と መ 𝑓が以下を満たせば መ 𝜃は漸近効率． • Donsker条件を満たすか， Ƹ 𝜂がサンプル分割を用いて構築されている． • 適当な収束レートを満たす．

20 交差適合 ◼ 以下の推定方程式を解く：1 𝑛 σ 𝑖=1 𝑛 𝜓 𝑊𝑖
; መ 𝑓, ො 𝛼, መ 𝜃 = 0 • 観測値 𝑊𝑖 𝑖=1 𝑛 を𝐿 個のデータセットに分割 • それぞれを𝑆1 , … . , 𝑆𝐿 とする • 各ℓ = 1,2, … , 𝐿について、 ෍ (𝑋𝑖,𝐷𝑖,𝑌𝑖)∈𝑆ℓ 𝜓 𝑊𝑖 ; መ 𝑓(ℓ), ො 𝛼(ℓ), መ 𝜃 = 0 を計算 • መ 𝑓(ℓ)と ො 𝛼(ℓ)の構築には𝑆ℓ 以外のデータを用いる • 最終的に以下を解く： 1 𝑛 ෍ ℓ=1 𝐿 ෍ (𝑋𝑖,𝐷𝑖,𝑌𝑖)∈𝑆ℓ 𝜓 𝑊𝑖 ; መ 𝑓(ℓ), ො 𝛼(ℓ), መ 𝜃 = 0 y軸：因果パラメータの推定量の構築に使用されるサンプル x軸：それらのサンプルで使用される局外母数を推定するために使われるサンプル

21 例 ◼ ATE 推定 • リース表現量: 𝛼0 𝐷, 𝑋
= 𝐷 𝑒0 (𝑋) − 1 − 𝐷 1 − 𝑒0 (𝑋) . • ネイマン直交スコア： 𝜓0 𝑊, 𝜂0 , 𝜃0 ≔ 𝐷 𝑒0 𝑋 − 1 − 𝐷 1 − 𝑒0 𝑋 𝑌 − 𝑓0 𝐷, 𝑋 + 𝑓0 1, 𝑋 − 𝑓0 0, 𝑋 − 𝜃0 . • 効率的な推定量： መ 𝜃 = 1 𝑛 ෍ 𝑖=1 𝑛 𝐷𝑖 Ƹ 𝑒(𝑋𝑖 ) − 1 − 𝐷𝑖 1 − Ƹ 𝑒(𝑋𝑖 ) 𝑌 − መ 𝑓 𝐷𝑖 , 𝑋𝑖 + መ 𝑓 1, 𝑋𝑖 − መ 𝑓 0, 𝑋𝑖 .

22 ここまでのまとめ ◼ 私たちの目標は以下のように定義できる因果パラメータの推定： 𝜃0 ≔ 𝔼 𝑚 𝑊, 𝛾0
. • 𝑚は既知とする． ◼ リースの表現定理により，リース表現量 𝛼0 を用いて，以下のような分解が可能： 𝔼 𝑚 𝑊, 𝛾 = 𝔼 𝛼0 𝐷, 𝑋 𝛾 𝐷, 𝑋 . • 𝛼0 はリース表現量と呼ばれる． ◼ 観測値 𝑋𝑖 , 𝑌𝑖 𝑖=1 𝑛 を用いることで，推定量を以下のように構築する： መ 𝜃𝑛 = 1 𝑛 ෍ 𝑖=1 𝑛 ො 𝛼 𝐷𝑖 𝑋𝑖 𝑌 − ො 𝛾 𝐷𝑖 , 𝑋𝑖 + 𝑚 𝑊, ො 𝛾 • ො 𝛼 と ො 𝛾 を 𝛼0 と 𝛾0 の推定量とする． ◼ 課題 • リース表現量 𝛼0 の推定（ 𝛾0 は適当に推定できる）．

23 リース表現量の推定

24 リース回帰 ◼ リース表現量はリース回帰によって推定可能 ◼ リース回帰（Riesz regression） • 以下の最適化問題を解くことで、リース表現量 𝛼0
を推定： ො 𝛼 ≔ arg min 𝛼∈ℋ 1 𝑛 ෍ 𝑖=1 𝑛 −2𝑚 𝑊, 𝛼 + 𝛼 𝑅 2 . • ℋはリース表現量の適当なモデル． ◼ 例： • ATE推定の場合 ො 𝛼 ≔ arg min 𝛼∈𝒜 1 𝑛 ෍ 𝑖=1 𝑛 −2 𝛼 1, 𝑋 − 𝛼 0, 𝑋 + 𝛼 𝐷, 𝑋 2 .

25 差分の差推定量

26 差分の差法の考え方 ◼ 差分の差法（Difference-in-Difference；DiD） • 二期間のアウトカムの差分を計算することで因果効果を推定する方法 • 推定対象の因果効果は処置群上の平均処置効果（ATE on Treated；ATT）

27 𝟐 × 𝟐 DiD ◼ 設定 • 二期間 𝑡
∈ {0,1} のパネルデータ（または反復横断面） • 観測値 𝑊 = 𝑌0 , 𝑌1 , 𝐷, 𝑋 • 𝑌𝑡 は期 𝑡 のアウトカム • 𝐷 ∈ {0,1} は期 1 で処置を受けたかどうかを表すダミー • 𝑋 は処置を受ける前の期の共変量 • 潜在アウトカム 𝑌𝑡 (𝑑) について 𝑌𝑡 = 𝐷 ⋅ 𝑌𝑡 (1) + (1 − 𝐷) ⋅ 𝑌𝑡 (0) • SUTVAと同じ ◼ 関心パラメータ • 処置群における平均処置効果（ATT） 𝜃0 = 𝔼[𝑌1 (1) − 𝑌1 (0) ∣ 𝐷 = 1] • 𝑌1 (1) は観測値（サンプル）から識別可能だが 𝑌1 (0) は処置群では反実仮想 → これを期0の情報で識別する手法がDiD

28 共変量を伴うDiD ◼ 共変量を用いてDiDを実行する • 以下の平行トレンドの仮定が共変量で条件付けなくても成立するのであれば共変量は不要 ◼ 識別に必要な仮定 • 条件付き平行トレンドの仮定（conditional
parallel trends） 𝔼[𝑌1 (0) − 𝑌0 (0) ∣ 𝐷 = 1, 𝑋] = 𝔼[𝑌1 (0) − 𝑌0 (0) ∣ 𝐷 = 0, 𝑋] • 共通サポートの仮定 0 < ℙ 𝐷 = 1 𝑋 < 1 • 期 0 時点で全員が無処置（no anticipation） ◼ 識別 • 以上の仮定のもとで、𝛥𝑌: = 𝑌1 − 𝑌0 を用いて、ATTを以下のように書ける： 𝜃0 = 𝔼[𝛥𝑌 ∣ 𝐷 = 1] − 𝔼[𝔼[𝛥𝑌 ∣ 𝐷 = 0, 𝑋] ∣ 𝐷 = 1]

29 自動バイアス除去学習 ◼ 𝛽0 = 𝔼[𝔼[𝛥𝑌 ∣ 𝐷 = 0,
𝑋] ∣ 𝐷 = 1]の効率的な推定を考える（ 𝔼 𝛥𝑌 𝐷 = 1 はサンプル平均で計算可能） ◼ リース表現量とネイマン直交スコア • 回帰関数を 𝑓0 (𝑑, 𝑥) = 𝔼[𝛥𝑌 ∣ 𝐷 = 𝑑, 𝑋 = 𝑥] とする • 線形汎関数 𝑚 𝑊, 𝑓0 ≔ 𝐷 𝑝 𝑓0 0, 𝑋 を用いると、 𝛽0 は以下のように書ける： 𝛽0 ≔ 𝔼[𝑚(𝑊, 𝑓0 )] • ここで、𝑝 = ℙ(𝐷 = 1) は母集団の処置割合 • リース表現量 𝛼0 𝐷, 𝑋 ≔ (1 − 𝐷)𝑒0 (𝑋) (1 − 𝑒0 (𝑋))𝑝 • 𝑒0 (𝑥) = ℙ(𝐷 = 1 ∣ 𝑋 = 𝑥) は傾向スコア • ネイマン直交スコア（局外母数𝜂 = (𝑓, 𝛼)） 𝜓 𝑊; 𝜂, 𝛽 = 1 − 𝐷 𝑒0 𝑋 1 − 𝑒0 𝑋 𝑝 𝛥𝑌 − 𝑓0 𝑋 + 𝐷 𝑝 𝑓0 (𝑋) − 𝛽

30 限界効果

31 平均限界効果とは ◼ 動機 • 処置 𝐷 が連続値を取る場合の因果効果を調べたい • 例：広告費・薬の用量・価格・勉強時間
◼ 設定 • 観測値 𝑊 = 𝐷, 𝑋, 𝑌 • 𝐷 ∈ ℝ は連続な処置（0か1だけではなく、0.1や0.5や1.2などの値を許容） • 回帰関数 𝑓0 (𝑑, 𝑥) = 𝔼[𝑌 ∣ 𝐷 = 𝑑, 𝑋 = 𝑥] • 目標 • 平均限界処置効果（Average Marginal Effect；AME）の推定 𝜃0 = 𝔼 𝜕𝑓0 𝑑, 𝑥 𝜕𝑑 ∣𝑑=𝐷 • 処置𝐷 = 𝑑を微小に変化させたときのアウトカム変化の母集団平均

32 自動バイアス除去学習 ◼ リース表現量とネイマン直交スコア • 線形汎関数𝑚(𝑊, 𝑓) = 𝜕𝑓(𝐷, 𝑋)/𝜕𝑑を用いると、
𝜃0 は以下のように書ける： 𝜃0 = 𝔼 𝑚 𝑊, 𝑓0 . • リース表現量 𝛼0 𝐷, 𝑋 ≔ 𝜕 log 𝑓0 (𝑑 ∣ 𝑥) 𝜕𝑑 • ネイマン直交スコア 𝜓 𝑊; 𝜂, 𝜃 = 𝛼 𝐷, 𝑋 𝑌 − 𝑓 𝐷, 𝑋 + 𝜕𝛾(𝐷, 𝑋) 𝜕𝑑 − 𝜃 ◼ リース表現量 𝛼0 𝐷, 𝑋 ≔ 𝜕 log 𝑓0(𝑑∣𝑥) 𝜕𝑑 は拡散モデルにおけるスコアと同じ！ • 拡散モデルのためのスコアマッチングでも推定できる • スコアマッチングはリース回帰からも導出可能

33 媒介分析

34 媒介分析の考え方 ◼ 動機 • 処置 𝐷 → 媒介変数 𝑀
→ アウトカム 𝑌 の因果経路を推定したい ◼ 設定 • 潜在アウトカム 𝑌 𝑑, 𝑀 𝑑′ • 𝑀(𝑑) ∈ ℝ は処置𝑑 ∈ {1,0}を受ける場合の媒介変数 • 観測値 𝑊 = 𝑌, 𝑀, 𝐷, 𝑋 • 𝑀 = 𝐷𝑀 1 + 1 − 𝐷 𝑀(0) ∈ ℝ は観測可能な媒介変数 • 処置 𝐷 ∈ {0,1} • 因果効果 𝜃0 (𝑑, 𝑑′) = 𝔼[𝑌(𝑑, 𝑀(𝑑′))] • 処置を𝑑 ∈ {1,0} に固定し、媒介変数を「処置 𝑑′ ∈ {1,0}を受けた場合の値𝑀(𝑑′)」とする場合の期待アウトカム

35 媒介分析の推定対象 ◼ 因果効果の分解（Robins & Greenland 1992; Pearl 2001） •
全効果 TE ：𝔼[𝑌(1) − 𝑌(0)] • 自然直接効果（NDE）：𝔼[𝑌(1, 𝑀(0)) − 𝑌(0, 𝑀(0))] • 自然間接効果（NIE）：𝔼[𝑌(1, 𝑀(1)) − 𝑌(1, 𝑀(0))]． • 以下が成り立つ： 𝑇𝐸 = 𝑁𝐷𝐸 + 𝑁𝐼𝐸 ◼ 識別のために使われる仮定 I. 𝐷⟂ 𝑌 𝑑, 𝑚 , 𝑀 𝑑 ∣ 𝑋 II. 𝑀⟂𝑌 𝑑, 𝑚 ∣ 𝐷, 𝑋 III. 𝑌(𝑑, 𝑚)⟂𝑀(𝑑′) ∣ 𝑋

36 自動バイアス除去学習 ◼ リース表現量とネイマン直交スコア • 回帰関数を𝑓0 (𝑑, 𝑚, 𝑥) =
𝔼[𝑌 ∣ 𝐷 = 𝑑, 𝑀 = 𝑚, 𝑋 = 𝑥] とする • 反復回帰関数を 𝜂𝑐𝑟𝑜𝑠𝑠 (𝑑, 𝑑′, 𝑥) = 𝔼[𝑓0 (𝑑, 𝑀, 𝑋) ∣ 𝐷 = 𝑑′, 𝑋 = 𝑥] とする • 線形汎関数𝑚(𝑊, 𝑓) = 𝑓0 𝑑, 𝑚, 𝑥 を用いると、 𝜃0 は以下のように書ける： 𝜃0 𝑑, 𝑑′ = ∫ ∫ 𝑓0 𝑑, 𝑚, 𝑥 𝑝𝑀∣𝐷,𝑋 𝑚 𝑑′, 𝑥 𝑑𝑚 𝑑𝑃(𝑥). • リース表現量 𝛼0 𝐷, 𝑋 ≔ 1[𝐷 = 𝑑] 𝑒0 (𝑑, 𝑋) 𝜔0 𝑀, 𝑋 • 媒介密度比 𝜔0 (𝑚, 𝑥; 𝑑, 𝑑′) = 𝑝𝑀∣𝐷,𝑋 (𝑚 ∣ 𝑑′, 𝑥)/𝑝𝑀∣𝐷,𝑋 (𝑚 ∣ 𝑑, 𝑥) • ネイマン直交スコア 𝜓 𝑊; 𝜂, 𝜃 = 1[𝐷 = 𝑑] 𝑒0 (𝑑, 𝑋) 𝜔0 𝑀, 𝑋 𝑌 − 𝑓0 𝑑, 𝑀, 𝑋 + 1[𝐷 = 𝑑′] 𝑒0 (𝑑′, 𝑋) (𝑓0 (𝑑, 𝑀, 𝑋) − 𝜂𝑐𝑟𝑜𝑠𝑠 (𝑑, 𝑑′, 𝑋)) + 𝜂𝑐𝑟𝑜𝑠𝑠 (𝑑, 𝑑′, 𝑋) − 𝜃 ◼ 局外母数 𝜂 = (𝛾0 , 𝜋0 , 𝜔0 , 𝜂𝑐𝑟𝑜𝑠𝑠 ) • 回帰 𝛾0 (𝑑, 𝑚, 𝑥) = 𝔼[𝑌 ∣ 𝐷 = 𝑑, 𝑀 = 𝑚, 𝑋 = 𝑥]，傾向スコア 𝜋0 (𝑑 ∣ 𝑥) = ℙ(𝐷 = 𝑑 ∣ 𝑋 = 𝑥)

37 共変量シフト

38 共変量シフトの考え方 ◼ 半教師あり学習：ラベルなしテストデータを用いて予測を行う ◼ 設定：ソース分布 𝑃𝑆 とターゲット分布 𝑃𝑇 •
観測できる変数 • ラベルあり訓練データ (𝑌, 𝑋) ∼ 𝑃𝑆 • ラベルなしテストデータ 𝑋 ∼ 𝑃𝑇 • 共変量のみ（ターゲットのラベル 𝑌 は未観測） • 共変量シフト問題 • 𝑃𝑇 (𝑌 ∣ 𝑋) = 𝑃𝑆 (𝑌 ∣ 𝑋)．𝑋 の周辺分布だけが動く • 動機：ドメイン適応・外的妥当性（external validity）・RCT からターゲット集団への一般化（transportability） ◼ 関心のあるパラメータ 𝜃0 = 𝔼𝑃𝑇 𝑌 = 𝔼𝑃𝑇 𝑓0 𝑋 • 𝑓0 (𝑥) = 𝔼[𝑌 ∣ 𝑋 = 𝑥] は回帰関数 • 𝔼𝑃𝑇 は𝑃𝑇 上での期待値 • 「ソースで学習した予測モデルをターゲット母集団で平均した値」と解釈できる

39 自動バイアス除去学習 ◼ リース表現量とネイマン直交スコア • 線形汎関数𝑚(𝑊, 𝑓) = 𝑓0 (𝑥)
を用いると、 𝜃0 は以下のように書ける： 𝜃0 = 𝔼 𝑚 𝑊, 𝑓0 . • リース表現量 𝛼0 𝐷, 𝑋 ≔ 𝑝𝑇 𝑥 𝑝𝑆 𝑥 . • 密度比と呼ばれる • ネイマン直交スコア 𝜓 𝑊; 𝜂, 𝜃 = 𝛼 𝑋𝑆 𝑌 − 𝛾 𝑋𝑆 + 𝛾 𝑋𝑇 − 𝜃. ◼ 厳密には二つのiidなサンプル（独立したデータセット）のもとでの漸近論を考える必要がある

「機械学習と因果推論」入門 ⑤ 因果効果推定の一般化

「機械学習と因果推論」入門 ⑤ 因果効果推定の一般化

More Decks by MasaKat0

Other Decks in Education

Featured

Transcript