Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
異質性の検証 〜MTE / Causal Tree/Forest
Search
Nakashima Takaya
April 10, 2021
Science
3
2.2k
異質性の検証 〜MTE / Causal Tree/Forest
Nakashima Takaya
April 10, 2021
Tweet
Share
More Decks by Nakashima Takaya
See All by Nakashima Takaya
P値のトリセツ
taka88
18
12k
機械学習における評価指標~AUC&C-index~
taka88
0
1.8k
What is LiNGAM?
taka88
3
1.2k
眼瞼下垂について
taka88
0
300
RNNを用いた心音分類
taka88
0
660
人工知能と心房細動
taka88
0
130
人工知能を用いた心血管疾患の臨床研究のための実践的入門書
taka88
0
530
Other Decks in Science
See All in Science
多次元展開法を用いた 多値バイクラスタリング モデルの提案
kosugitti
0
200
Coqで選択公理を形式化してみた
soukouki
0
230
Visual Analytics for R&D Intelligence @Funding the Commons & DeSci Tokyo 2024
hayataka88
0
110
Cross-Media Information Spaces and Architectures (CISA)
signer
PRO
3
30k
The Incredible Machine: Developer Productivity and the Impact of AI
tomzimmermann
0
420
WeMeet Group - 採用資料
wemeet
0
3.7k
Improving Search @scale with efficient query experimentation @BerlinBuzzwords 2024
searchhub
0
250
小杉考司(専修大学)
kosugitti
2
570
All-in-One Bioinformatics Platform Realized with Snowflake ~ From In Silico Drug Discovery, Disease Variant Analysis, to Single-Cell RNA-seq
ktatsuya
PRO
0
260
ほたるのひかり/RayTracingCamp10
kugimasa
0
410
Pericarditis Comic
camkdraws
0
1.5k
Science of Scienceおよび科学計量学に関する研究論文の俯瞰可視化_LT版
hayataka88
0
990
Featured
See All Featured
Statistics for Hackers
jakevdp
796
220k
How GitHub (no longer) Works
holman
311
140k
Testing 201, or: Great Expectations
jmmastey
40
7.1k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
32
2.7k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
Optimising Largest Contentful Paint
csswizardry
33
3k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
VelocityConf: Rendering Performance Case Studies
addyosmani
326
24k
A designer walks into a library…
pauljervisheath
204
24k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Transcript
MTE Causal Tree/Forest Nakashima Takaya
到達⽬標 因果推論における様々な異質性の検証⼿段を理解できる
1. 因果推論とは? 1.1 因果推論 1.2 因果効果の推定 1.3 異質性とは? 2. MTEとは?
2.1 MTEの定義 2.2 MTEの導出 2.3 MTEの実例 3. Causal tree/forestとは? 3.1 決定木,ランダムフォレストとは? 3.2 Causal tree /forestの理論 3.3 Causal tree /forestの実例 4. Take home message Contents
1. 因果推論とは? 1.1 因果推論 1.2 因果効果の推定 1.3 異質性とは? Contents
より詳しい因果推論の話は以下のサイトを参照. • Satoの統計・疫学チャンネル • KRSK先⽣のサイト
1.1 因果推論(Causal Inference) 原因 (A) 結果 (Y) • 研究のデータから原因と結果の因果効果を推定することを 因果推論(causal
inference)という. • 因果推論の目的は,ある要因 A がアウトカム Y に与える効果の大きさを定量化することにある.
相関関係と因果関係
個体 i のアウトカムを𝒀𝒊とする. 曝露を受けた場合を, 𝑾𝒊 = 𝟏 受けなかった場合を, 𝑾𝒊 =
𝟎 とする時, 𝑾𝒊=𝟏のときの𝒀𝒊を𝒀𝟏 𝒊 と書く. 𝑾𝒊=𝟎のときの𝒀𝒊を𝒀𝟎 𝒊 と書く. 𝒀𝟏 𝒊 と𝒀𝟎 𝒊 は同時には存在し得ない. 個体 i のOutcomeが𝒀𝟏 𝒊 の時, 𝒀𝟎 𝒊 をPotential Outcomeという. 反実仮想(Counterfactual)
個人レベルの因果効果(ITE) 𝒀𝟏 𝒊 ー𝒀𝟎 𝒊 集団レベルの因果効果(ATE) 𝑬 𝒀𝟏 − 𝒀𝟎
= 𝑬(𝒀𝟏)ー𝑬(𝒀𝟎) 介入群における平均処置効果(ATT) 𝑬(𝒀𝟏 − 𝒀𝟎 |𝒁 = 𝟏) 統制群における平均処置効果(ATU) 𝑬(𝒀𝟏 − 𝒀𝟎|𝒁 = 𝟎) 条件付き処置効果(CATE) 𝑬(𝒀𝟏 − 𝒀𝟎 |𝒙) 1.2 因果効果の推定 潜在アウトカム は観測不可能
• ある介入に対してThe causal effectというものは存在せず, causal effectは研究の対象となるその集団の特性に依存する. • どれが良くてどれが悪いなどはない!! ⼤前提
1. ある一つの研究で期待通りの介入効果が観察された場合に, その介入を他の集団に適用しても,同様の効果が得られるとは限らない. → 介入効果の異質性が, どのような要因に依存し,どのような規則性を持って生じるかを 明らかにすることが重要!! 2. すべての個人において同じ介入をおこなっても,同じ因果効果は観察されるか?? →
個人ごとの介入効果がどのように分布しているかに依存する. 個別介入効果に大きなばらつきがあった場合,平均介入効果が正しく推定されていない可能性大. 1.3 異質性(Heterogeneity)とは? 介入の効果が, 介入を受ける個人の属性や介入を受ける環境によって異なる. ( = 効果が個人あるいは集団ごとに異なること.)
例) コロナワクチンを誰に打つべきか?? コロナワクチンは現状,個数が限られており, 誰に打つのが正解かを知りたい. 放っておいても80%は治るコロナ患者全員に接種するよりも, そのうちの誰に投与すると効果があるのかに興味がある. (この場合,Y:コロナウイルスへの感染,A:ワクチンの接種,年齢が効果修飾因子と考えられる.) 効果修飾因子とは? • V(ある因子)の状態によって,Y(アウトカム)に対するA(介入)の平均因果効果が異なるとき,
VはYに対するAの効果に対する効果修飾因子(effect modifier)であるという. • 異質性とほぼ同義. • 効果修飾がなければ,いずれの方法で求めた因果効果も等しくなる. (後述)
機械学習の手法(causal tree/forest)を用いることで 個人の属性変数を用いて 個別に因果効果の予測値を求めることができる!!
2. MTEとは? 2.1 MTEの定義 2.2 MTEの導出 2.3 MTEの実例 Contents
Marginal Treatment Effects(MTE): 限界介入効果 • 介入を受けることと受けないことが無差別な集団における介入効果である. • 介入効果の異質性は観察できる属性のみから説明されるとは限らない. • 関心のあるアウトカムによる影響を識別できる.→
効果の異質性の検証が可能. • 観察不可能な要因による介入効果の異質性が検証可能になる. 2.1 MTEの定義 これが強い!! ??? MTEは「観察可能・観察不可能な要因で条件付けた介入効果」
2.2 MTEの導出
限界効果(marginal effect)とは? • 経済学における「限界」は「微分」と同義. • Xが1単位増加したときに得られる効果(U)の増加分. • Y = β0
+ β1Xという回帰式があった時に,XがΔx増加する時 Yは平均的にβ1Δx増加する. この時,β1を限界効果という. 〜前知識その1〜
• 交絡やselection biasをもたらす共変量を観測して調整する必要がない手法. • 操作変数法は,以下の仮定を満たす変数Zを用いることで平均因果効果を求める. 操作変数法(Instrumental Variables method) 〜前知識その2〜
操作変数法 例) 操作変数Z Z:自宅から大学までの距離(20KM以内かどうか) A:大学への進学 Y:就職後の年収 介入(曝露)A 結果Y
操作変数法(Instrumental Variables method) 平均因果効果の点推定を可能にするには 1. Homogeneity(均質性)の仮定 OR 2. Monotonicity(単調性)の仮定 が必須︕︕︕
多くの場合,均質性の仮定は 正しくないため,単調性の仮定を 使うことが多い
Monotonicity(単調性)の仮定とは︖︖ • Defiersが存在しないと仮定して,𝑨𝒁%𝟏 ≧ 𝑨𝒁%𝟎が成り⽴つと仮定すること. • LATE(局所平均因果効果)はCompliersのみを対象とした平均因果効果. 1
• ある共変量 X = xの組み合わせの人が介入を受ける(𝑾𝒊 =1)確率. • 𝑷𝐒=𝐏𝐫[𝑾𝒊 =1 |X
= x] と表される. • 傾向スコアが同じ集団では共変量の分布が等しいとみなせるため, 妥当な因果効果を推定できるようになる. • 傾向スコアを用いる→介入が行われた仕組みに着目し,介入群と非介入群の データの性質を近くする操作を行うことである. 傾向スコア(Propensity Score) 〜前知識その3〜
数式を⽤いた因果効果の導出
None
None
None
None
None
None
None
2.3 MTEの実例 1991年に28-34歳の白人男性を対象に,米国の大学進学に対する限界収益を分析した. Di:1991年までに大学に入学したことがあるか. Yi:1991年の対数賃金 Xi:個人の社会経済的背景と地域の労働市場の特徴 Zi:4年制大学の存在,思春期に居住していた県の公立4年制大学の平均授業料, 地元の平均収入,地元の失業率 MTEを大学教育へのリターンに適用した例
MTE曲線 大学へのリターンに大きな異質性があることを示す. 大学への「抵抗が低い」(UDが非常に低い)個人 → 大学から40%のリターン 大学への「抵抗が高い」(UDが非常に高い)個人 → 大学から20%の損失を被っている. MTE曲線の下降した形状は, •
大学に入学する可能性の高い個人(UDが低い)では高い利益 • 大学に入学する可能性の低い個人(UDが高い)では低い利益 個人は利益に基づいて積極的に大学を選択し, 特質的なリターンに関する情報を持っており,大学への入学について 情報に基づいた選択を行うことができる. MTE曲線:x(β1-β0)+E(U1i-U0i|UDi=uD) (xは平均値として仮定)
1 3. Causal tree/forestとは? 3.1 決定木,ランダムフォレストとは? 3.2 Causal tree /forestの理論
3.3 Causal tree /forestの実例 Contents
• 近年,機械学習の手法を使って,複数の属性情報で条件づけた介入効果を予測し,その 予測された介入効果を用いた分析が行われている. • この属性情報で条件づけた介入効果のことを 条件付平均介入効果(Conditional Average Treatment Effect; CATE)
や 異質介入効果(Heterogeneous Treatment Effect; HTE)と呼ぶ. • MTE では 観察不可能な変数を含めて介入効果の異質性を推定する. • Causal tree/forestでは多数の観察可能な属性変数を使ってその異質性を推定する. Introduction
CATEを予測することで, • その分布の特徴やどのような属性がその異質性を示すかどうか?? • 誰に介入すべきか?? が分かる. なにが凄いの??
〜前知識その1〜 決定木(Decision tree; DT) • 目的変数を質的データとする分類問題 • ロジスティック回帰モデルと異なり, 「単純な規則」に基づく方法であるため, 結果の直感的な理解や解釈が容易
• 目的変数の予測よりも,リスクの層別化に焦点を当てる. • リスクの異なる部分集団を発見することができる . • 分類木,回帰木とも呼ばれる 『林賢一,下平英寿(2020),Rで学ぶ統計的データ解析,講談社.』
決定木の例 木構造の推定を行うための最適化基準 → MSE
決定木による回帰や分類の予測結果は分散が大きくなることが知られている. 複数の決定木の平均を取ることで,この分散を低下させたい!! ランダムフォレスト(Random forest)
• 被説明変数を予測するのに,ランダムにデータを分割し,ランダムに選ばれた説明変数 を用いて,根から葉へ分岐する決定木を複数本作って最後に平均化するアルゴリズム. 〜前知識その2〜 Random Forest(RF)
None
観察データを⽤いて因果推論を⾏う場合, ポテンシャルアウトカムの条件付独⽴の仮定が必要である. 〜前知識その3〜 特徴量𝑋𝑖の任意の実現値𝑥について,介⼊群𝑊𝑖 = 1に割り当てられる⼈と 統制群𝑊𝑖 = 0に割り当てられる⼈のどちらも含まれている必要がある. この時,条件付平均介⼊効果(conditional
average treatment effect; CATE)は,
3.2.1 Causal treeの理論 Causal Treeは通常の回帰木と二つの点で異なる. 1.目的は,何かしらの教師データがある結果を予測することではなくCATEを推定すること. 2.推定に用いるデータの使い方が異なる.(次ページで解説) 通常の回帰木で用いた最適化基準(MSE)は使えない... 拡張した最適化基準が必要!!(←今回の主題)
① 回帰木を作成する場合 • 木構造の推定と各葉における統計量(期待値)の推定に同じデータを 用いる. • この時の最適化基準→”Adaptive” 型の基準 • 学習データ数は確保できるが過学習に陥る可能性あり.
② Causal Treeを作成する場合 • 木構造の推定と各葉における効果の推定で異なるデータを用いる. • この時の最適化基準→”Honest” 型の基準 • 過学習は防げるが学習データのサンプル数が少なくなる.
計量経済学と 機械学習の交差点⼊り⼝ (公開⽤
計量経済学と 機械学習の交差点⼊り⼝ (公開⽤
①CATEを推定し,介入効果の分布の特徴や異質性について検証する 目的で使用する形の研究. ②CATEを推定し,「誰に介入すべきか」という観点でターゲティングを 行うために使用するタイプの研究. どんな使用法がある??
• 因果木を複数作成し,その結果の統合を行ったもの. • 傾向スコアを予測し,介入効果を推定することも可能である(propensity tree) • 一般化ランダム フォレスト(generalized random forest)として,一般化モーメント
法を使う形でランダムフォレストの一般化を行っている. • 同手法についての推定パッケージは R の grf パッケージとして 公開されている (Tibshirani et al. 2020) 3.2.2 Causal forestの理論
None
None
︖︖︖
None
MSEの推定量は↓↓
None
3.3 Causal tree /forestの実例
• 90万件以上の世帯を対象に,節電行動にホームエナジーレポート(HER)が与える 効果の検証を行った. HER とは? ①需要家の電力消費量 ②近隣世帯の消費量を比較した情報 ③エネルギーの節約方法に関する情報 をまとめたもの. •
1ヶ月当たりの電力消費量に対する HER のATEを求めている. • HER によるATEは - 0.085 kWhであった. 介入効果の異質性を, 過去の電力消費量や家の資産価値, 敷地面積,所得など 13 個の特徴量を用いて Causal Forest により,HTEの推定を行った. Knittel & Stolper (2019)の研究
1 年目~3 年目のHTEの分布 ①同一年度内でも介入効果の異質性あり ②その異質性は 2 年目以降も観察され, 効果の散らばりの程度が拡大している
節電効果がみられたグループ(reducers)と節電効果がみられず, 逆に電力消費量を増加させたグループ(increasers)の属性の違い
4. Take home message Contents
1. Causal effectは研究の対象となるその集団の特性に 依存する.(どれが良くてどれが悪いなどはない) 2. MTEは観察不可能な要因による介入効果の 異質性が検証可能にする. 3. Causal tree/forestでは多数の観察可能な属性変数
を使ってその異質性を推定する. 4. Causal tree/forestにおける目的は,CATEの推定. 分割点の評価指標は修正されたMSEを用いる. 4. Take home message
参考⽂献 1,MTEとは︖についてまとめられた資料 http://www.econ.kyoto-u.ac.jp/dp/papers/j-20-002.pdf 2,causal tree/forestとは?についてまとめられた資料 http://www.econ.kyoto-u.ac.jp/dp/papers/j-20-004.pdf 3,MTEについて(数式的理解の補助) https://www.sciencedirect.com/science/article/pii/S0927537116300562