Counterfactual Cross-Validation: Stable Model Selection Procedure for Causal Inference Models（公開用）

Counterfactual Cross-Validation 個別的因果効果予測における新モデル選択手法の開発 ICML2020 因果推論系論文著者発表会 (オンライン) 東京工業大学学士課程4年齋藤優太
(Yuta Saito)

自己紹介名前：齋藤優太 (Yuta Saito) 研究領域：反実仮想機械学習, 因果推論, 推薦/情報検索研究実績：ICML, SIGIR,
WSDM, RecSys,AdKDDなど私のブックマーク：反実仮想機械学習 (Counterfactual Machine Learning; CFML). という記事を人工知能学会誌に書きました usaito

本日紹介する論文 • 題名：“Countefactual Cross-Validation: Stable Model Selection Procedure for Causal
Inference Models” • 著者：Yuta Saito (Tokyo Tech), Shota Yasui (CyberAgent, Inc.) • 学会：ICML2020 (プレスリリース) • 概要：個別的因果効果予測手法の開発研究が盛り上がりを見せる一方で、その評価を観測可能なデータのみで行う手法はヒューリスティックなものしか存在しなかった。そこで、新たな因果予測モデル選択方法を提案した。

個別的因果効果に基づいた介入最適化の例個別的因果効果予測の必要性とイメージを掴むため以下の簡単な例を考える • ある商品の広告をA・Bさんに配ることで、利益を最大化したい • 商品の定価は1,000円、広告配信にかかるコストは100円相当とする • 広告を配信することで、商品の購入確率が変化することがある介入変数（操作可能）

個別的因果効果に基づいた介入最適化の例個別的因果効果予測の必要性とイメージを掴むため以下の簡単な例を考える • ある商品の広告をA・Bさんに配ることで、利益を最大化したい • 商品の定価は1,000円、広告配信にかかるコストは100円相当とする • 広告を配信することで、商品の購入確率が変化することがある期待利益 =
定価 x 商品の購入確率 - 広告配信コスト介入変数（操作可能）

個別的因果効果に基づいた介入最適化の例 Aさんのタイプ：広告の有無に関わらず購入確率が高い • 購入確率がクーポン有無に関わらず90%の場合を考える商品の定価（円）購入確率広告コスト（円）期待利益
（円）広告有 1,000 0.9 100 800 広告無 1,000 0.9 0 900

個別的因果効果に基づいた介入最適化の例 Aさんのタイプ：広告の有無に関わらず購入確率が高い • 広告を打つことにより、利益が減少し、損をしてしまう商品の定価（円）購入確率広告コスト（円）期待利益
（円）広告有 1,000 0.9 100 800 広告無 1,000 0.9 0 900

個別的因果効果に基づいた介入最適化の例 Bさんのタイプ：広告を打つと購入確率が大きく上昇する • 購入確率が広告配信により20%上昇する場合を考える商品の定価（円）購入確率広告コスト（円）期待利益
（円）広告有 1,000 0.4 100 300 広告無 1,000 0.2 0 200

個別的因果効果に基づいた介入最適化の例 Bさんのタイプ：広告を打つと購入確率が大きく上昇する • 広告を打つことにより、利益を増やすことが可能商品の定価（円）購入確率広告コスト（円）期待利益
（円）広告有 1,000 0.4 100 300 広告無 1,000 0.2 0 200

いつクーポンを配るべきなのか？ • 2つの例で見てきたように、広告を打つことによって、得をすることもあれば、損をすることもある • 商品の販売元は、どのような場合に広告を打つべきなのか、について（ユーザーごとに）正確に意思決定を下す必要がある

いつ広告を打つべきなのか？先ほどの例に従い、広告を打つべきタイミングを決める条件を導く • 広告を打つか否かを、T = {0,1}とする • 広告を打った時/打たなかった時の購入確率を、Y(1)/Y(0)とする期待利益(T) =
1000 • { T• Y(1) + (1-T)• Y(0) } - 100 • T 売上広告コスト

いつ広告を打つべきなのか？先ほどの例に従い、広告を打つべきタイミングを決める条件を導く広告を打つべきなのは、「T=1の時の期待利益がT=0の時のそれよりも大きい場合」期待利益(T=1) - 期待利益(T=0) > 0

いつ広告を打つべきなのか？先ほどの例に従い、広告を打つべきタイミングを決める条件を導く広告を打つべきなのは、「T=1の時の期待利益がT=0の時のそれよりも大きい場合」期待利益(T=1) - 期待利益(T=0) > 0 ⇆
1000 • { Y(1) - Y(0) } > 100 広告配信による売上の上昇幅広告配信コスト

個別的因果効果がわかれば、確実に利益を得ることが可能すなわち、購入確率の変化量（個別的因果効果）を予測できると確実に利益を増やすような広告配信が可能に期待利益(T=1) - 期待利益(T=0) > 0 ⇆
1000 • { Y(1) - Y(0) } > 100 購入確率に対する広告配信の個別的因果効果

個別的因果効果予測が重要な問題の例個別的因果効果予測が重要な実問題は、多くの分野に存在する • クーポンを配ることで、利益が増加するか否か？ • 子供を塾に通わせることで、テストの点数が上がるか否か？ • ある薬を投与することで、患者の生存率が上がるか否か？ • 職業訓練プログラムを実施することで、失業率が下がるか否か？
など、個別的因果効果予測の応用範囲は広く、とても重要なタスク

企業での応用例が多数存在 tech企業での応用も多く存在 • Uberによる離反率減少のためのクーポン配布最適化 [対応論文] ◦ 長いことサービスを使っていないユーザー刺激のためのクーポン ◦ アルゴリズムはすでにサービスに実装されている ◦
所属研究室OGの谷川さんによるuber論文の紹介資料 • Spotifyによるplaylist生成アルゴリズムの個別化 [対応論文] ◦ ユーザーごとに複数の推薦アルゴリズムを使い分けるメタ的個別化 ◦ spotifyで集められた大規模実験データを用いて個別化によるuser engagement の向上を確認

ここまでのまとめ • 個別的因果効果を正確に予測できると、介入（e.g., 広告配信）を最適化することで、望ましい結果（e.g., 利益最大化）を導く事が可能 • 個別的因果効果予測の応用範囲は非常に広範であり、特に利益に直結することから、tech企業が力を入れて研究開発に取り組んでいる以降、個別的因果効果予測問題のきっちりした定式化を導入する

用いる記号適宜補足を加えるが、主に次のnotationを用いる • X: 特徴量・共変量ベクトル • T: 介入有無を表すindicator (T=1なら介入有、T=0なら介入無) •
Y(1): 介入を受けた際の目的変数 • Y(0): 介入を受けなかった際の目的変数 Y(1)やY(0)のような潜在目的変数により因果効果を定式化する方法を Potential Outcome Frameworkと呼ぶ

用いる記号適宜補足を加えるが、主に次のnotationを用いる • e(X): Xという特徴量を持つデータが介入を受ける確率（傾向スコア） • τ(X): Xという特徴量を持つデータの個別的因果効果（予測対象）

因果推論における根本問題仮に、因果効果が直接観測されるならば、教師あり機械学習を適用可能理想的な学習データデータ特徴量因果効果 Aさん XA τA Bさん
XB τB Cさん XC τC この場合は、単に特徴量(X)を入力として、目的変数(τ)を予測する教師あり機械学習問題を解けば良い

因果推論における根本問題実際は、因果効果が直接観測されることはないため、教師あり機械学習をそのまま適用することはできず、特別な工夫が必要現実の学習データデータ特徴量介入有無目的変数反実仮想（観測不能）
因果効果 Aさん XA TA =1 YA (1) YA (0) ？ Bさん XB TB =0 YB (0) YB (1) ？ Cさん XC TC =1 YC (1) YC (0) ？

近年、個別的因果効果予測手法の研究はかなり盛ん応用可能性の広さと、技術的な面白さが背景となり、観測可能なデータのみから個別的因果効果を予測する研究は多数存在 • Counterfactual Regression [Shalit et al. 2017]
• Propensity Dropout [Alaa et al. 2017] • CEVAE [Louizos et al. 2017] • CMGPs [Alaa&Van der Shaar. 2017] • GAN-ITE [Yoon et al. 2018] • SITE [Yao et al. 2018] • ABCEI [Du et al. 2019] • DragonNet [Shi et al. 2019] 予測側だけ研究していれば、実用化できるのか？

近年、個別的因果効果予測手法の研究はかなり盛ん応用可能性の広さと、技術的な面白さが背景となり、観測可能なデータのみから個別的因果効果を予測する研究は多数存在 • Counterfactual Regression [Shalit et al. 2017]
• Propensity Dropout [Alaa et al. 2017] • CEVAE [Louizos et al. 2017] • CMGPs [Alaa&Van der Shaar. 2017] • GAN-ITE [Yoon et al. 2018] • SITE [Yao et al. 2018] • ABCEI [Du et al. 2019] • DragonNet [Shi et al. 2019] 予測側だけ研究していれば、実用化できるのか？モデル選択やハイパラチューニングを行う必要がある

近年、個別的因果効果予測手法の研究はかなり盛ん個別的因果効果予測モデルを観測データのみから選択する設定は実務において必ず発生するステップにも関わらず、研究が少ない • ヒューリスティックスの羅列 [Schuer et al. 2018] •
メタ的な評価指標 [Alaa & van der Schaar. 2019] 個別的因果効果予測モデルの評価や選択というテーマであれば、学部生でも何かできるかもしれない...

評価指標構築における困難個別的因果効果予測モデルの真の性能個別的因果効果予測モデルの候補真の因果効果 (観測されない) 予測側と同じで検証用データにおいても個別的因果効果が観測されないためMSEなどの評価指標を計算することができない

ここまでのまとめ • しかし、因果効果は直接観測されないため、単純な教師あり機械学習を直接適用することは不可能 • 観測可能なデータから個別的因果効果を予測する手法は乱立傾向 • 一方で、予測モデルの候補のうちどれを使えば良いのかを決めるためモデル評価・選択するための指標を作る研究はあまり存在しない

やりたいこと検証用データセットと個別的因果効果予測モデルの候補集合が与えられた時に、以下に定義される最良のモデルを導くなお、

新たな評価指標を構築する上での方針数少ない既存研究[Schuler et al. 2018][Alaa et al. 2019]は、「検証用データセットを使ってモデルの性能を正確に推定」することを目指している
すなわち、をのみを使って統計的に近似真の性能検証用データ

候補モデル真の性能性能の順位評価指標モデル1 0.01 1 0.01 モデル2 0.05 2 0.05 モデル3 0.1 3 0.1 真の性能を直接推定

• この方針は、うまくいけば、最終目的である最良モデル選択を完璧に遂行できる • しかし、因果効果が観測されない以上、非常に困難な問題

新たな評価指標を構築する上での方針よって、本研究[Saito&Yasui. 2020]では、「検証用データセットを使ってモデルの性能を正確に並べ替える」ことを目指すすなわち真の性能の順序評価指標による順序

新たな評価指標を構築する上での方針よって、本研究[Saito&Yasui. 2020]では、「検証用データセットを使ってモデルの性能を正確に並べ替える」ことを目指す候補モデル真の性能性能の順位評価指標モデル1 0.01
1 1 モデル2 0.05 2 10 モデル3 0.1 3 40 最良モデルを特定できている

新たな評価指標を構築する上での方針よって、本研究[Saito&Yasui. 2020]では、「検証用データセットを使ってモデルの性能を正確に並べ替える」ことを目指す • この方針でも、最終目的である最良モデル選択を完璧に遂行可能 • この方針を満足する解は既存研究よりも多く存在する → より簡単にモデル選択を達成できる可能性がある

Performance estimatorの定義以降、評価指標として次の汎用的なクラスを前提とする* 結果的に出来上がる評価指標観測データから計算するplug-in tau 評価したい個別的因果効果予測モデル
評価指標の使い方.

Performance estimatorの定義以降、評価指標として次の汎用的なクラスを前提とする* 性能の順位を保存するという意味で良い評価指標を導くplug-in tauはどのようなものであり、それはどのようにして得ることができるか？ Research Question. 結果的に出来上がる評価指標
観測データから計算するplug-in tau 評価したい個別的因果効果予測モデル

論文のTechnicalな貢献 Research Questionに関連して、本論文の貢献は以下の大きく2点 • 真のモデルの性能の順位を保存する評価指標を構築する上で、望ましいplug-in tauが満たすべき条件（設計指針）を調べた • その条件を満たすようなplug-in tauの具体的な構築方法を提案した

Plug-in tauが満たすべき条件1 条件1: plug-in tauは真の因果効果に対する不偏推定量であるべきである理由（cf. Proposition 1）ならば、評価指標の期待値は、因果効果予測モデルの性能の順位を正確に保存する

Plug-in tauが満たすべき条件1 条件1: plug-in tauは真の因果効果に対する不偏推定量であるべきである理由（cf. Proposition 1）無限の検証用データがあれば（評価指標の期待値が取れるならば）、因果効果予測モデルの性能の真の順位がわかる（識別可能性）
ならば、

有限サンプルによる推定における不確実性の特定実際のところ、使える検証用データセットは有限なので、有限サンプルで評価指標を近似した際の順位変動を調べる必要があるの有限サンプル近似を使用せざるを得ない↓ 結果的に出来上がる評価指標観測データから計算するplug-in tau 評価したい
個別的因果効果予測モデル

有限サンプルによる推定における不確実性の特定実際のところ、使える検証用データセットは有限なので、有限サンプルで評価指標を近似した際の不確実性（順位変動）を調べる真の性能に確率収束する項予測モデルに非依存で、どんな値を取ろうが無視して良い項有限サンプルで順位を乱し得る厄介な項

Plug-in tauが満たすべき条件2 条件2: 条件付き分散の期待値ができるだけ小さいplug-in tauを使用すべき理由（cf. Theorem 2） plug-in tauの条件付き分散
の期待値（操作可能）評価指標の有限サンプル近似において、順位変動を引き起こす厄介な項の分散

ここまでの分析でわかったこと候補因果効果予測モデルの性能の順位を正確に推定するためには、 1. 真の因果効果に対して不偏性を持つplug-in tauを使う（命題1: 性能の順位の識別性の担保） 2. 条件付き分散の期待値が小さいplug-in tauを使う
（定理2: 有限サンプルにおける順位変動の最小化）

ここまでの分析でわかったこと候補因果効果予測モデルの性能の順位を正確に推定するためには、条件1 条件2 注意. これらの条件は結果的に導かれる評価指標が望しい性質を持つためのものであり、plug-in tauそのものの個別的因果効果に対する近似性能には興味なし

ここからのお話では、実際に以下のような性質を持つplug-in tauをどう構築すべき？ 1. 真の因果効果に対して不偏性を持つplug-in tauを使う（命題1: 性能の順位の識別性の担保） 2. 条件付き分散の期待値が小さいplug-in
tauを使う（定理2: 有限サンプルにおける順位変動の最小化）

Doubly Robust class for plug-in tau plug-in tauとして、doubly robust estimatorと同様の形を考える
e(X): 傾向スコア, T: 介入有無, Y: 観測目的変数, f: 何かしらの回帰関数

Doubly robust plug-in tauは因果効果に対し不偏望ましい性質1 (cf. Proposition 3): 使用する関数fに関わらず不偏性を満たす回帰関数fに関わらず、1つめの条件を満たすので、
どのfを使うかを決める際には、2つめの条件のみを考えれば良い

plug-in tauが満たしたていて欲しい条件のおさらい DR plug-in tauについて、満たしたい性質を書き換えると条件1 条件2 plug-in tauの条件付き分散の期待値の最小化問題（条件2） =
条件付き期待値の分散を損失関数とした回帰関数fの学習問題

関数fを条件付き分散期待値最小化の基準で学習望ましい性質2 (cf. Proposition 4&Theorem5): plug-in tauの条件付き分散の期待値の上界であれば、観測可能なデータのみから推定可能, すなわち関数fを得る際の損失関数として利用可能傾向スコアに依存する
重み付き予測誤差介入群・非介入群の特徴量分布間の距離

plug-in tauの具体的な構築方法のまとめ plug-in tauの具体的な構築方法として、次の方法を提案 1. doubly robustなクラスをplug-in tauとすることで不偏性を満たす 2. 回帰関数fをplug-in
tauの条件付き分散の期待値（の上界）を観測可能な情報のみを用いて最小化するような基準で得る期待値が取れると性能の順位が保存されることが保証された上で、有限サンプル近似における順位変動誤差をなるだけ小さくすることが可能

提案評価指標を用いた因果予測モデル評価の流れ以上の議論をもとに、次のような手順をとるのが提案手法 (cf. Algorithm 1) 1. （必要ならば）傾向スコアe(x)をデータから推定 2. plug-in tauの条件付き分散の期待値（の上界）を損失関数として関数fを学習
3. 1,2で得られた要素をもとにdoubly robustなplug-in tauを計算 4. 3で得られたplug-in tauをもとに、評価対象の個別的因果効果予測モデル群の評価指標のサンプル近似値（¥hat{R}）を計算 5. 最も評価指標の値が小さい因果予測モデルを特定

論文の貢献のまとめ • 真の性能の正確な推定を目指す既存研究とは異なり、性能の順位を正確に保存するというモデル選択に特化した方針を採用 • 順位の保存を目指すにあたって、望ましいplug-in tauが満たすべき条件を導出（不偏性・条件付き分散の期待値） • さらに、上記の2つの条件を良く達成するための、具体的なplug-in
tau の構築方法を提案（doubly robust・特別な関数fの学習方法）

実験に使用したデータ IHDPという、ベンチマークsemi-synthetic dataを使う • 実データをもとに、後から人手で作られた真の因果効果が収録（特徴量と介入割り当ては実データ、因果効果は人工データ=semi-synthetic） • データ数747・特徴量の次元25・介入割り当てはbinary • 介入：幼児教育プログラム、目的変数：認知テストスコア
• 多くの個別的因果効果予測の論文の実験で使用される

評価指標を評価するための実験手順 1. 適当に因果効果予測モデルの候補集合(|M|=25)を作っておく* 2. IHDPデータをtrain-val-testの3つの集合に分割 3. trainデータを使って25個の予測モデルを学習 4. valデータで予測モデルを評価/選択（提案+baseline指標で） 5.
testデータを使って予測モデルの真の性能を計算 6. 4での評価指標の値と5での真の性能を比較

評価指標の評価指標1 (Rank correlation) 真のモデルの性能と評価指標の値の順位相関候補1 候補2 ・・・候補25 真の性能の順位 1
2 ・・・ 25 評価指標1の順位 2 1 ・・・ 23 評価指標2の順位 24 22 ・・・ 1

評価指標の評価指標2 (Regret) 各評価指標がbestだとして選んだモデルの真の性能候補1 候補2 ・・・候補25 真の性能 0.01 0.1
・・・ 0.5 評価指標1の順位 2 1 ・・・ 23 評価指標2の順位 24 22 ・・・ 1

実験結果特に最悪時の性能で大きく既存手法を上回る -> 安定性の向上大きい方が良い小さい方が良い比較提案提案の評価指標を使うことで正確に精度が良いモデルを選択可能

本発表・研究のまとめ • その応用可能性の高さから、個別的因果効果を機械学習で予測する研究は、トップ国際会議で盛んに発表されている • 一方で、個別的因果予測モデルを観測データから評価する研究は多くない • 本研究では、モデル選択に特化した方針に基づき、新評価指標・モデル選択プロセスを提案 •
ベンチマークデータを使った実験で既存のベースライン評価指標を複数の観点で上回る性能を確認

ありがとうございました

References U. Shalit, F. D. Johansson, and D. Sontag. Estimating
individual treatment effect: generalization bounds and algorithms. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pages 3076–3085, 2017. A. M. Alaa and M. van der Schaar. Bayesian inference of individualized treatment effects using multi-task gaussian processes. In Advances in Neural Information Processing Systems, pages 3424–3432, 2017. A. M. Alaa, M. Weisz, and M. Van Der Schaar. Deep counterfactual networks with propensity-dropout. arXiv preprint arXiv:1706.05966, 2017. J. Yoon, J. Jordon, and M. van der Schaar. GANITE: estimation of individualized treatment effects using generative adversarial nets. In 6th International Conference on Learning Representations, 2018. C. Louizos, U. Shalit, J. M. Mooij, D. Sontag, R. Zemel, and M. Welling. Causal effect inference with deep latent-variable models. In Advances in Neural Information Processing Systems, pages 6446–6456, 2017. L. Yao, S. Li, Y. Li, M. Huai, J. Gao, and A. Zhang. Representation learning for treatment effect estimation from observational data. In Advances in Neural Information Processing Systems, pages 2633–2643, 2018.

References Schuler, A., Baiocchi, M., Tibshirani, R., and Shah, N.
A comparison of methods for model selection when estimating individual treatment effects. arXiv preprint arXiv:1804.05146, 2018. Imbens, G. W. and Rubin, D. B. Causal inference in statistics, social, and biomedical sciences. Cambridge University Press, 2015. Holland, P. W. Statistics and causal inference. Journal of the American statistical Association, 81(396):945–960, 1986. Johansson, F. D., Shalit, U., Kallus, N., and Sontag, D. Generalization bounds and representation learning for estimation of potential outcomes and causal effects. arXiv preprint arXiv:2001.07426, 2020. Du, X., Sun, L., Duivesteijn, W., Nikolaev, A., and Pechenizkiy, M. Adversarial balancing-based representation learning for causal effect inference with observational data. arXiv preprint arXiv:1904.13335, 2019. Shi, C., Blei, D., and Veitch, V. Adapting neural networks for the estimation of treatment effects. In Advances in Neural Information Processing Systems, pp. 2503–2513, 2019.

Counterfactual Cross-Validation: Stable Model S...

Counterfactual Cross-Validation: Stable Model Selection Procedure for Causal Inference Models（公開用）

More Decks by usaito

Other Decks in Research

Featured

Transcript