Counterfactual Cross-Validation: Stable Model Selection Procedure for Causal Inference Models(公開用)

6e166ed0b8cf24a9d5aef105dacf5db7?s=47 usaito
July 22, 2020

Counterfactual Cross-Validation: Stable Model Selection Procedure for Causal Inference Models(公開用)

勉強会リンク:https://cfml.connpass.com/event/179600/

論文リンク:https://arxiv.org/abs/1909.05299

論文概要: 機械学習的な汎化誤差最小化の定式化に基づく因果効果予測手法が乱立傾向にあります。またそれらの手法は、多くのハイパーパラメータを有しています。そうした背景から、各環境について最適な予測手法とハイパーパラメータを選択するという手順の重要性が増している一方で、その手順に関する研究はあまり進んでいません。本研究では、観測可能なデータのみを用いてデータドリブンに、因果効果予測手法のモデル選択やハイパーパラメータチューニングを行うための方法を提案します。また、ベンチマークデータセットを用いて、既存のヒューリスティックな評価指標よりも提案手法がより良い性能を持つモデルを候補集合の中から探し当てられることを実証します。

6e166ed0b8cf24a9d5aef105dacf5db7?s=128

usaito

July 22, 2020
Tweet

Transcript

  1. Counterfactual Cross-Validation 個別的因果効果予測における新モデル選択手法の開発 ICML2020 因果推論系論文 著者発表会 (オンライン) 東京工業大学 学士課程4年 齋藤優太

    (Yuta Saito)
  2. 自己紹介 名前:齋藤 優太 (Yuta Saito) 研究領域:反実仮想機械学習, 因果推論, 推薦/情報検索 研究実績:ICML, SIGIR,

    WSDM, RecSys,AdKDDなど 私のブックマーク:反実仮想機械学習 (Counterfactual Machine Learning; CFML). という記事を人工知能学会誌に書きました usaito
  3. 本日紹介する論文 • 題名:“Countefactual Cross-Validation: Stable Model Selection Procedure for Causal

    Inference Models” • 著者:Yuta Saito (Tokyo Tech), Shota Yasui (CyberAgent, Inc.) • 学会:ICML2020 (プレスリリース) • 概要: 個別的因果効果予測手法の開発研究が盛り上がりを見せる一方で、その評 価を観測可能なデータのみで行う手法はヒューリスティックなものしか存在 しなかった。そこで、新たな因果予測モデル選択方法を提案した。
  4. 個別的因果効果に基づいた介入最適化の例 個別的因果効果予測の必要性とイメージを掴むため以下の簡単な例を考える • ある商品の広告をA・Bさんに配ることで、利益を最大化したい • 商品の定価は1,000円、広告配信にかかるコストは100円相当とする • 広告を配信することで、商品の購入確率が変化することがある 介入変数(操作可能)

  5. 個別的因果効果に基づいた介入最適化の例 個別的因果効果予測の必要性とイメージを掴むため以下の簡単な例を考える • ある商品の広告をA・Bさんに配ることで、利益を最大化したい • 商品の定価は1,000円、広告配信にかかるコストは100円相当とする • 広告を配信することで、商品の購入確率が変化することがある 期待利益 =

    定価 x 商品の購入確率 - 広告配信コスト 介入変数(操作可能)
  6. 個別的因果効果に基づいた介入最適化の例 Aさんのタイプ:広告の有無に関わらず購入確率が高い • 購入確率がクーポン有無に関わらず90%の場合を考える 商品の定価 (円) 購入確率 広告コスト (円) 期待利益

    (円) 広告有 1,000 0.9 100 800 広告無 1,000 0.9 0 900
  7. 個別的因果効果に基づいた介入最適化の例 Aさんのタイプ:広告の有無に関わらず購入確率が高い • 広告を打つことにより、利益が減少し、損をしてしまう 商品の定価 (円) 購入確率 広告コスト (円) 期待利益

    (円) 広告有 1,000 0.9 100 800 広告無 1,000 0.9 0 900
  8. 個別的因果効果に基づいた介入最適化の例 Bさんのタイプ:広告を打つと購入確率が大きく上昇する • 購入確率が広告配信により20%上昇する場合を考える 商品の定価 (円) 購入確率 広告コスト (円) 期待利益

    (円) 広告有 1,000 0.4 100 300 広告無 1,000 0.2 0 200
  9. 個別的因果効果に基づいた介入最適化の例 Bさんのタイプ:広告を打つと購入確率が大きく上昇する • 広告を打つことにより、利益を増やすことが可能 商品の定価 (円) 購入確率 広告コスト (円) 期待利益

    (円) 広告有 1,000 0.4 100 300 広告無 1,000 0.2 0 200
  10. いつクーポンを配るべきなのか? • 2つの例で見てきたように、広告を打つことによって、 得をすることもあれば、損をすることもある • 商品の販売元は、どのような場合に広告を打つべきなのか、に ついて(ユーザーごとに)正確に意思決定を下す必要がある

  11. いつ広告を打つべきなのか? 先ほどの例に従い、広告を打つべきタイミングを決める条件を導く • 広告を打つか否かを、T = {0,1}とする • 広告を打った時/打たなかった時の購入確率を、Y(1)/Y(0)とする 期待利益(T) =

    1000 • { T• Y(1) + (1-T)• Y(0) } - 100 • T 売上 広告コスト
  12. いつ広告を打つべきなのか? 先ほどの例に従い、広告を打つべきタイミングを決める条件を導く 広告を打つべきなのは、 「T=1の時の期待利益がT=0の時のそれよりも大きい場合」 期待利益(T=1) - 期待利益(T=0) > 0

  13. いつ広告を打つべきなのか? 先ほどの例に従い、広告を打つべきタイミングを決める条件を導く 広告を打つべきなのは、 「T=1の時の期待利益がT=0の時のそれよりも大きい場合」 期待利益(T=1) - 期待利益(T=0) > 0 ⇆

    1000 • { Y(1) - Y(0) } > 100 広告配信による売上の上昇幅 広告配信コスト
  14. 個別的因果効果がわかれば、確実に利益を得ることが可能 すなわち、 購入確率の変化量(個別的因果効果)を予測できると 確実に利益を増やすような広告配信が可能に 期待利益(T=1) - 期待利益(T=0) > 0 ⇆

    1000 • { Y(1) - Y(0) } > 100 購入確率に対する広告配信の個別的因果効果
  15. 個別的因果効果予測が重要な問題の例 個別的因果効果予測が重要な実問題は、多くの分野に存在する • クーポンを配ることで、利益が増加するか否か? • 子供を塾に通わせることで、テストの点数が上がるか否か? • ある薬を投与することで、患者の生存率が上がるか否か? • 職業訓練プログラムを実施することで、失業率が下がるか否か?

    など、個別的因果効果予測の応用範囲は広く、とても重要なタスク
  16. 企業での応用例が多数存在 tech企業での応用も多く存在 • Uberによる離反率減少のためのクーポン配布最適化 [対応論文] ◦ 長いことサービスを使っていないユーザー刺激のためのクーポン ◦ アルゴリズムはすでにサービスに実装されている ◦

    所属研究室OGの谷川さんによるuber論文の紹介資料 • Spotifyによるplaylist生成アルゴリズムの個別化 [対応論文] ◦ ユーザーごとに複数の推薦アルゴリズムを使い分けるメタ的個別化 ◦ spotifyで集められた大規模実験データを用いて個別化によるuser engagement の向上を確認
  17. ここまでのまとめ • 個別的因果効果を正確に予測できると、介入(e.g., 広告配信)を 最適化することで、望ましい結果(e.g., 利益最大化)を導く事が可能 • 個別的因果効果予測の応用範囲は非常に広範であり、特に利益に 直結することから、tech企業が力を入れて研究開発に取り組んでいる 以降、個別的因果効果予測問題のきっちりした定式化を導入する

  18. 用いる記号 適宜補足を加えるが、主に次のnotationを用いる • X: 特徴量・共変量ベクトル • T: 介入有無を表すindicator (T=1なら介入有、T=0なら介入無) •

    Y(1): 介入を受けた際の目的変数 • Y(0): 介入を受けなかった際の目的変数 Y(1)やY(0)のような潜在目的変数により因果効果を定式化する方法を Potential Outcome Frameworkと呼ぶ
  19. 用いる記号 適宜補足を加えるが、主に次のnotationを用いる • e(X): Xという特徴量を持つデータが介入を受ける確率(傾向スコア) • τ(X): Xという特徴量を持つデータの個別的因果効果(予測対象)

  20. 因果推論における根本問題 仮に、因果効果が直接観測されるならば、教師あり機械学習を適用可能 理想的な学習データ データ 特徴量 因果効果 Aさん XA τA Bさん

    XB τB Cさん XC τC この場合は、単に特徴量(X)を入力 として、目的変数(τ)を予測する 教師あり機械学習問題を解けば良い
  21. 因果推論における根本問題 実際は、因果効果が直接観測されることはないため、 教師あり機械学習をそのまま適用することはできず、特別な工夫が必要 現実の学習データ データ 特徴量 介入有無 目的変数 反実仮想 (観測不能)

    因果効果 Aさん XA TA =1 YA (1) YA (0) ? Bさん XB TB =0 YB (0) YB (1) ? Cさん XC TC =1 YC (1) YC (0) ?
  22. 近年、個別的因果効果予測手法の研究はかなり盛ん 応用可能性の広さと、技術的な面白さが背景となり、 観測可能なデータのみから個別的因果効果を予測する研究は多数存在 • Counterfactual Regression [Shalit et al. 2017]

    • Propensity Dropout [Alaa et al. 2017] • CEVAE [Louizos et al. 2017] • CMGPs [Alaa&Van der Shaar. 2017] • GAN-ITE [Yoon et al. 2018] • SITE [Yao et al. 2018] • ABCEI [Du et al. 2019] • DragonNet [Shi et al. 2019] 予測側だけ研究していれば、 実用化できるのか?
  23. 近年、個別的因果効果予測手法の研究はかなり盛ん 応用可能性の広さと、技術的な面白さが背景となり、 観測可能なデータのみから個別的因果効果を予測する研究は多数存在 • Counterfactual Regression [Shalit et al. 2017]

    • Propensity Dropout [Alaa et al. 2017] • CEVAE [Louizos et al. 2017] • CMGPs [Alaa&Van der Shaar. 2017] • GAN-ITE [Yoon et al. 2018] • SITE [Yao et al. 2018] • ABCEI [Du et al. 2019] • DragonNet [Shi et al. 2019] 予測側だけ研究していれば、 実用化できるのか? モデル選択やハイパラチュー ニングを行う必要がある
  24. 近年、個別的因果効果予測手法の研究はかなり盛ん 個別的因果効果予測モデルを観測データのみから選択する設定は 実務において必ず発生するステップにも関わらず、研究が少ない • ヒューリスティックスの羅列 [Schuer et al. 2018] •

    メタ的な評価指標 [Alaa & van der Schaar. 2019] 個別的因果効果予測モデルの評価や選択という テーマであれば、学部生でも何かできるかもしれない...
  25. 評価指標構築における困難 個別的因果効果予測モデルの真の性能 個別的因果効果予測モデルの候補 真の因果効果 (観測されない) 予測側と同じで検証用データにおいても個別的因果効果が 観測されないためMSEなどの評価指標を計算することができない

  26. ここまでのまとめ • しかし、因果効果は直接観測されないため、単純な教師あり機械学 習を直接適用することは不可能 • 観測可能なデータから個別的因果効果を予測する手法は乱立傾向 • 一方で、予測モデルの候補のうちどれを使えば良いのかを決めるため モデル評価・選択するための指標を作る研究はあまり存在しない

  27. やりたいこと 検証用データセット と個別的因果効果予測モデルの候補集合 が与えられた時に、以下に定義される最良のモデルを導く なお、

  28. 新たな評価指標を構築する上での方針 数少ない既存研究[Schuler et al. 2018][Alaa et al. 2019]は、 「検証用データセットを使ってモデルの性能を正確に推定」 することを目指している

    すなわち、 を のみを使って統計的に近似 真の性能 検証用データ
  29. 新たな評価指標を構築する上での方針 数少ない既存研究[Schuler et al. 2018][Alaa et al. 2019]は、 「検証用データセットを使ってモデルの性能を正確に推定」 することを目指している

    候補モデル 真の性能 性能の順位 評価指標 モデル1 0.01 1 0.01 モデル2 0.05 2 0.05 モデル3 0.1 3 0.1 真の性能を直接推定
  30. 新たな評価指標を構築する上での方針 数少ない既存研究[Schuler et al. 2018][Alaa et al. 2019]は、 「検証用データセットを使ってモデルの性能を正確に推定」 することを目指している

    • この方針は、うまくいけば、最終目的である 最良モデル選択を完璧に遂行できる • しかし、因果効果が観測されない以上、非常に困難な問題
  31. 新たな評価指標を構築する上での方針 よって、本研究[Saito&Yasui. 2020]では、「検証用データセットを使 ってモデルの性能を正確に並べ替える」ことを目指す すなわち 真の性能の順序 評価指標による順序

  32. 新たな評価指標を構築する上での方針 よって、本研究[Saito&Yasui. 2020]では、「検証用データセットを使 ってモデルの性能を正確に並べ替える」ことを目指す 候補モデル 真の性能 性能の順位 評価指標 モデル1 0.01

    1 1 モデル2 0.05 2 10 モデル3 0.1 3 40 最良モデルを 特定できている
  33. 新たな評価指標を構築する上での方針 よって、本研究[Saito&Yasui. 2020]では、「検証用データセットを使 ってモデルの性能を正確に並べ替える」ことを目指す • この方針でも、最終目的である最良モデル選択を完璧に遂行可能 • この方針を満足する解は既存研究よりも多く存在する → より簡単にモデル選択を達成できる可能性がある

  34. Performance estimatorの定義 以降、評価指標として次の汎用的なクラスを前提とする* 結果的に出来上がる 評価指標 観測データから 計算するplug-in tau 評価したい 個別的因果効果予測モデル

    評価指標の使い方.
  35. Performance estimatorの定義 以降、評価指標として次の汎用的なクラスを前提とする* 性能の順位を保存するという意味で良い評価指標を導くplug-in tauは どのようなものであり、それはどのようにして得ることができるか? Research Question. 結果的に出来上がる 評価指標

    観測データから 計算するplug-in tau 評価したい 個別的因果効果予測モデル
  36. 論文のTechnicalな貢献 Research Questionに関連して、本論文の貢献は以下の大きく2点 • 真のモデルの性能の順位を保存する評価指標を構築する上で、 望ましいplug-in tauが満たすべき条件(設計指針)を調べた • その条件を満たすようなplug-in tauの具体的な構築方法を提案した

  37. Plug-in tauが満たすべき条件1 条件1: plug-in tauは真の因果効果に対する不偏推定量であるべきである 理由(cf. Proposition 1) ならば、 評価指標の期待値は、因果効果予測モデルの性能の順位を正確に保存する

  38. Plug-in tauが満たすべき条件1 条件1: plug-in tauは真の因果効果に対する不偏推定量であるべきである 理由(cf. Proposition 1) 無限の検証用データがあれば(評価指標の期待値が取れるならば)、 因果効果予測モデルの性能の真の順位がわかる(識別可能性)

    ならば、
  39. 有限サンプルによる推定における不確実性の特定 実際のところ、使える検証用データセットは有限なので、 有限サンプルで評価指標を近似した際の順位変動を調べる必要がある の有限サンプル近似を使用せざるを得ない↓ 結果的に出来上がる 評価指標 観測データから 計算するplug-in tau 評価したい

    個別的因果効果予測モデル
  40. 有限サンプルによる推定における不確実性の特定 実際のところ、使える検証用データセットは有限なので、 有限サンプルで評価指標を近似した際の不確実性(順位変動)を調べる 真の性能に確率収束する項 予測モデルに非依存で、 どんな値を取ろうが 無視して良い項 有限サンプルで順位 を乱し得る厄介な項

  41. Plug-in tauが満たすべき条件2 条件2: 条件付き分散の期待値ができるだけ小さいplug-in tauを使用すべき 理由(cf. Theorem 2) plug-in tauの条件付き分散

    の期待値(操作可能) 評価指標の有限サンプル近似において、 順位変動を引き起こす厄介な項の分散
  42. ここまでの分析でわかったこと 候補因果効果予測モデルの性能の順位を正確に推定するためには、 1. 真の因果効果に対して不偏性を持つplug-in tauを使う (命題1: 性能の順位の識別性の担保) 2. 条件付き分散の期待値が小さいplug-in tauを使う

    (定理2: 有限サンプルにおける順位変動の最小化)
  43. ここまでの分析でわかったこと 候補因果効果予測モデルの性能の順位を正確に推定するためには、 条件1 条件2 注意. これらの条件は結果的に導かれる評価指標が望しい性質を持つためのもので あり、plug-in tauそのものの個別的因果効果に対する近似性能には興味なし

  44. ここからのお話 では、実際に以下のような性質を持つplug-in tauをどう構築すべき? 1. 真の因果効果に対して不偏性を持つplug-in tauを使う (命題1: 性能の順位の識別性の担保) 2. 条件付き分散の期待値が小さいplug-in

    tauを使う (定理2: 有限サンプルにおける順位変動の最小化)
  45. Doubly Robust class for plug-in tau plug-in tauとして、doubly robust estimatorと同様の形を考える

    e(X): 傾向スコア, T: 介入有無, Y: 観測目的変数, f: 何かしらの回帰関数
  46. Doubly robust plug-in tauは因果効果に対し不偏 望ましい性質1 (cf. Proposition 3): 使用する関数fに関わらず不偏性を満たす 回帰関数fに関わらず、1つめの条件を満たすので、

    どのfを使うかを決める際には、2つめの条件のみを考えれば良い
  47. plug-in tauが満たしたていて欲しい条件のおさらい DR plug-in tauについて、満たしたい性質を書き換えると 条件1 条件2 plug-in tauの条件付き分散の期待値の最小化問題(条件2) =

    条件付き期待値の分散を損失関数とした回帰関数fの学習問題
  48. 関数fを条件付き分散期待値最小化の基準で学習 望ましい性質2 (cf. Proposition 4&Theorem5): plug-in tauの条件付き分散の期待値の上界であれば、観測可能なデータのみか ら推定可能, すなわち関数fを得る際の損失関数として利用可能 傾向スコアに依存する

    重み付き予測誤差 介入群・非介入群の 特徴量分布間の距離
  49. plug-in tauの具体的な構築方法のまとめ plug-in tauの具体的な構築方法として、次の方法を提案 1. doubly robustなクラスをplug-in tauとすることで不偏性を満たす 2. 回帰関数fをplug-in

    tauの条件付き分散の期待値(の上界)を 観測可能な情報のみを用いて最小化するような基準で得る 期待値が取れると性能の順位が保存されることが保証された上で、 有限サンプル近似における順位変動誤差をなるだけ小さくすることが可能
  50. 提案評価指標を用いた因果予測モデル評価の流れ 以上の議論をもとに、次のような手順をとるのが提案手法 (cf. Algorithm 1) 1. (必要ならば)傾向スコアe(x)をデータから推定 2. plug-in tauの条件付き分散の期待値(の上界)を損失関数として関数fを学習

    3. 1,2で得られた要素をもとにdoubly robustなplug-in tauを計算 4. 3で得られたplug-in tauをもとに、評価対象の個別的因果効果予測モデル群の 評価指標のサンプル近似値(¥hat{R})を計算 5. 最も評価指標の値が小さい因果予測モデルを特定
  51. 論文の貢献のまとめ • 真の性能の正確な推定を目指す既存研究とは異なり、性能の順位を 正確に保存するというモデル選択に特化した方針を採用 • 順位の保存を目指すにあたって、望ましいplug-in tauが満たすべき 条件を導出(不偏性・条件付き分散の期待値) • さらに、上記の2つの条件を良く達成するための、具体的なplug-in

    tau の構築方法を提案(doubly robust・特別な関数fの学習方法)
  52. 実験に使用したデータ IHDPという、ベンチマークsemi-synthetic dataを使う • 実データをもとに、後から人手で作られた真の因果効果が収録 (特徴量と介入割り当ては実データ、因果効果は人工データ=semi-synthetic) • データ数747・特徴量の次元25・介入割り当てはbinary • 介入:幼児教育プログラム、目的変数:認知テストスコア

    • 多くの個別的因果効果予測の論文の実験で使用される
  53. 評価指標を評価するための実験手順 1. 適当に因果効果予測モデルの候補集合(|M|=25)を作っておく* 2. IHDPデータをtrain-val-testの3つの集合に分割 3. trainデータを使って25個の予測モデルを学習 4. valデータで予測モデルを評価/選択(提案+baseline指標で) 5.

    testデータを使って予測モデルの真の性能を計算 6. 4での評価指標の値と5での真の性能を比較
  54. 評価指標の評価指標1 (Rank correlation) 真のモデルの性能と評価指標の値の順位相関 候補1 候補2 ・・・ 候補25 真の性能の順位 1

    2 ・・・ 25 評価指標1の順位 2 1 ・・・ 23 評価指標2の順位 24 22 ・・・ 1
  55. 評価指標の評価指標2 (Regret) 各評価指標がbestだとして選んだモデルの真の性能 候補1 候補2 ・・・ 候補25 真の性能 0.01 0.1

    ・・・ 0.5 評価指標1の順位 2 1 ・・・ 23 評価指標2の順位 24 22 ・・・ 1
  56. 実験結果 特に最悪時の性能で大きく既存手法を上回る -> 安定性の向上 大きい方が良い 小さい方が良い 比較 提案 提案の評価指標を使うことで正確に精度が良いモデルを選択可能

  57. 本発表・研究のまとめ • その応用可能性の高さから、個別的因果効果を機械学習で予測する 研究は、トップ国際会議で盛んに発表されている • 一方で、個別的因果予測モデルを観測データから評価する研究は多くない • 本研究では、モデル選択に特化した方針に基づき、 新評価指標・モデル選択プロセスを提案 •

    ベンチマークデータを使った実験で既存のベースライン評価指標を 複数の観点で上回る性能を確認
  58. ありがとうございました

  59. References U. Shalit, F. D. Johansson, and D. Sontag. Estimating

    individual treatment effect: generalization bounds and algorithms. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pages 3076–3085, 2017. A. M. Alaa and M. van der Schaar. Bayesian inference of individualized treatment effects using multi-task gaussian processes. In Advances in Neural Information Processing Systems, pages 3424–3432, 2017. A. M. Alaa, M. Weisz, and M. Van Der Schaar. Deep counterfactual networks with propensity-dropout. arXiv preprint arXiv:1706.05966, 2017. J. Yoon, J. Jordon, and M. van der Schaar. GANITE: estimation of individualized treatment effects using generative adversarial nets. In 6th International Conference on Learning Representations, 2018. C. Louizos, U. Shalit, J. M. Mooij, D. Sontag, R. Zemel, and M. Welling. Causal effect inference with deep latent-variable models. In Advances in Neural Information Processing Systems, pages 6446–6456, 2017. L. Yao, S. Li, Y. Li, M. Huai, J. Gao, and A. Zhang. Representation learning for treatment effect estimation from observational data. In Advances in Neural Information Processing Systems, pages 2633–2643, 2018.
  60. References Schuler, A., Baiocchi, M., Tibshirani, R., and Shah, N.

    A comparison of methods for model selection when estimating individual treatment effects. arXiv preprint arXiv:1804.05146, 2018. Imbens, G. W. and Rubin, D. B. Causal inference in statistics, social, and biomedical sciences. Cambridge University Press, 2015. Holland, P. W. Statistics and causal inference. Journal of the American statistical Association, 81(396):945–960, 1986. Johansson, F. D., Shalit, U., Kallus, N., and Sontag, D. Generalization bounds and representation learning for estimation of potential outcomes and causal effects. arXiv preprint arXiv:2001.07426, 2020. Du, X., Sun, L., Duivesteijn, W., Nikolaev, A., and Pechenizkiy, M. Adversarial balancing-based representation learning for causal effect inference with observational data. arXiv preprint arXiv:1904.13335, 2019. Shi, C., Blei, D., and Veitch, V. Adapting neural networks for the estimation of treatment effects. In Advances in Neural Information Processing Systems, pp. 2503–2513, 2019.