Upgrade to Pro — share decks privately, control downloads, hide ads and more …

異質性の検証 〜MTE / Causal Tree/Forest

異質性の検証 〜MTE / Causal Tree/Forest

Nakashima Takaya

April 10, 2021
Tweet

More Decks by Nakashima Takaya

Other Decks in Science

Transcript

  1. 1. 因果推論とは? 1.1 因果推論 1.2 因果効果の推定 1.3 異質性とは? 2. MTEとは?

    2.1 MTEの定義 2.2 MTEの導出 2.3 MTEの実例 3. Causal tree/forestとは? 3.1 決定木,ランダムフォレストとは? 3.2 Causal tree /forestの理論 3.3 Causal tree /forestの実例 4. Take home message Contents
  2. 1.1 因果推論(Causal Inference) 原因 (A) 結果 (Y) • 研究のデータから原因と結果の因果効果を推定することを 因果推論(causal

    inference)という. • 因果推論の目的は,ある要因 A がアウトカム Y に与える効果の大きさを定量化することにある.
  3. 個体 i のアウトカムを𝒀𝒊とする. 曝露を受けた場合を, 𝑾𝒊 = 𝟏 受けなかった場合を, 𝑾𝒊 =

    𝟎 とする時, 𝑾𝒊=𝟏のときの𝒀𝒊を𝒀𝟏 𝒊 と書く. 𝑾𝒊=𝟎のときの𝒀𝒊を𝒀𝟎 𝒊 と書く. 𝒀𝟏 𝒊 と𝒀𝟎 𝒊 は同時には存在し得ない. 個体 i のOutcomeが𝒀𝟏 𝒊 の時, 𝒀𝟎 𝒊 をPotential Outcomeという. 反実仮想(Counterfactual)
  4. 個人レベルの因果効果(ITE) 𝒀𝟏 𝒊 ー𝒀𝟎 𝒊 集団レベルの因果効果(ATE) 𝑬 𝒀𝟏 − 𝒀𝟎

    = 𝑬(𝒀𝟏)ー𝑬(𝒀𝟎) 介入群における平均処置効果(ATT) 𝑬(𝒀𝟏 − 𝒀𝟎 |𝒁 = 𝟏) 統制群における平均処置効果(ATU) 𝑬(𝒀𝟏 − 𝒀𝟎|𝒁 = 𝟎) 条件付き処置効果(CATE) 𝑬(𝒀𝟏 − 𝒀𝟎 |𝒙) 1.2 因果効果の推定 潜在アウトカム は観測不可能
  5. 1. ある一つの研究で期待通りの介入効果が観察された場合に, その介入を他の集団に適用しても,同様の効果が得られるとは限らない. → 介入効果の異質性が, どのような要因に依存し,どのような規則性を持って生じるかを 明らかにすることが重要!! 2. すべての個人において同じ介入をおこなっても,同じ因果効果は観察されるか?? →

    個人ごとの介入効果がどのように分布しているかに依存する. 個別介入効果に大きなばらつきがあった場合,平均介入効果が正しく推定されていない可能性大. 1.3 異質性(Heterogeneity)とは? 介入の効果が, 介入を受ける個人の属性や介入を受ける環境によって異なる. ( = 効果が個人あるいは集団ごとに異なること.)
  6. Marginal Treatment Effects(MTE): 限界介入効果 • 介入を受けることと受けないことが無差別な集団における介入効果である. • 介入効果の異質性は観察できる属性のみから説明されるとは限らない. • 関心のあるアウトカムによる影響を識別できる.→

    効果の異質性の検証が可能. • 観察不可能な要因による介入効果の異質性が検証可能になる. 2.1 MTEの定義 これが強い!! ??? MTEは「観察可能・観察不可能な要因で条件付けた介入効果」
  7. 限界効果(marginal effect)とは? • 経済学における「限界」は「微分」と同義. • Xが1単位増加したときに得られる効果(U)の増加分. • Y = β0

    + β1Xという回帰式があった時に,XがΔx増加する時 Yは平均的にβ1Δx増加する. この時,β1を限界効果という. 〜前知識その1〜
  8. • ある共変量 X = xの組み合わせの人が介入を受ける(𝑾𝒊 =1)確率. • 𝑷𝐒=𝐏𝐫[𝑾𝒊 =1 |X

    = x] と表される. • 傾向スコアが同じ集団では共変量の分布が等しいとみなせるため, 妥当な因果効果を推定できるようになる. • 傾向スコアを用いる→介入が行われた仕組みに着目し,介入群と非介入群の データの性質を近くする操作を行うことである. 傾向スコア(Propensity Score) 〜前知識その3〜
  9. MTE曲線 大学へのリターンに大きな異質性があることを示す. 大学への「抵抗が低い」(UDが非常に低い)個人 → 大学から40%のリターン 大学への「抵抗が高い」(UDが非常に高い)個人 → 大学から20%の損失を被っている. MTE曲線の下降した形状は, •

    大学に入学する可能性の高い個人(UDが低い)では高い利益 • 大学に入学する可能性の低い個人(UDが高い)では低い利益 個人は利益に基づいて積極的に大学を選択し, 特質的なリターンに関する情報を持っており,大学への入学について 情報に基づいた選択を行うことができる. MTE曲線:x(β1-β0)+E(U1i-U0i|UDi=uD) (xは平均値として仮定)
  10. • 近年,機械学習の手法を使って,複数の属性情報で条件づけた介入効果を予測し,その 予測された介入効果を用いた分析が行われている. • この属性情報で条件づけた介入効果のことを 条件付平均介入効果(Conditional Average Treatment Effect; CATE)

    や 異質介入効果(Heterogeneous Treatment Effect; HTE)と呼ぶ. • MTE では 観察不可能な変数を含めて介入効果の異質性を推定する. • Causal tree/forestでは多数の観察可能な属性変数を使ってその異質性を推定する. Introduction
  11. 〜前知識その1〜 決定木(Decision tree; DT) • 目的変数を質的データとする分類問題 • ロジスティック回帰モデルと異なり, 「単純な規則」に基づく方法であるため, 結果の直感的な理解や解釈が容易

    • 目的変数の予測よりも,リスクの層別化に焦点を当てる. • リスクの異なる部分集団を発見することができる . • 分類木,回帰木とも呼ばれる 『林賢一,下平英寿(2020),Rで学ぶ統計的データ解析,講談社.』
  12. ① 回帰木を作成する場合 • 木構造の推定と各葉における統計量(期待値)の推定に同じデータを 用いる. • この時の最適化基準→”Adaptive” 型の基準 • 学習データ数は確保できるが過学習に陥る可能性あり.

    ② Causal Treeを作成する場合 • 木構造の推定と各葉における効果の推定で異なるデータを用いる. • この時の最適化基準→”Honest” 型の基準 • 過学習は防げるが学習データのサンプル数が少なくなる.
  13. • 因果木を複数作成し,その結果の統合を行ったもの. • 傾向スコアを予測し,介入効果を推定することも可能である(propensity tree) • 一般化ランダム フォレスト(generalized random forest)として,一般化モーメント

    法を使う形でランダムフォレストの一般化を行っている. • 同手法についての推定パッケージは R の grf パッケージとして 公開されている (Tibshirani et al. 2020) 3.2.2 Causal forestの理論
  14. • 90万件以上の世帯を対象に,節電行動にホームエナジーレポート(HER)が与える 効果の検証を行った. HER とは? ①需要家の電力消費量 ②近隣世帯の消費量を比較した情報 ③エネルギーの節約方法に関する情報 をまとめたもの. •

    1ヶ月当たりの電力消費量に対する HER のATEを求めている. • HER によるATEは - 0.085 kWhであった. 介入効果の異質性を, 過去の電力消費量や家の資産価値, 敷地面積,所得など 13 個の特徴量を用いて Causal Forest により,HTEの推定を行った. Knittel & Stolper (2019)の研究