Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
Causal Inference: What If, Chapter3(前半)
鈴木徳太
November 02, 2022
Science
0
160
Causal Inference: What If, Chapter3(前半)
鈴木徳太
November 02, 2022
Tweet
Share
More Decks by 鈴木徳太
See All by 鈴木徳太
Causal Inference: What If, Chapter2
norihirosuzuki
0
360
SASユーザー総会2022:Time-varying treatmentsに対するIPTW法による因果効果の推定
norihirosuzuki
0
2.3k
Causal Inference: What If, Chapter9
norihirosuzuki
0
35
Causal Inference: What If, Chapter1
norihirosuzuki
0
2.6k
Causal Inference: What If, Chapter11
norihirosuzuki
0
39
Other Decks in Science
See All in Science
ミケル点とべズーの定理
unaoya
0
310
調整変数の選び方
koro485
2
3.4k
OSSAN - Universal Open Access
dasaptaerwin
0
110
Successful social norms with ternary reputation for indirect reciprocity
yohm
0
130
MENELUSURI JEJAK KEHIDUPAN FOSIL MIKRO, NANNOPLANKTON
dasaptaerwin
0
240
Search at Bloomberg: Challenges, Opportunities, and Lessons Learned
emeij
0
320
Extracting datasets from Indonesia’s Scientific Data Repository (RIN)
dasaptaerwin
0
140
Pearl「入門統計的因果推論」の概要と活用イメージ
s1ok69oo
2
500
統計的因果探索: 領域知識とデータによる因果構造グラフの推測
sshimizu2006
4
1.9k
OCaml 5.0
kayceesrk
2
590
A brief history of Plankton in Roscoff
vaulot
0
130
SHINOMIYA Nariyoshi
genomethica
0
300
Featured
See All Featured
Designing with Data
zakiwarfel
91
4.2k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
270
12k
Infographics Made Easy
chrislema
235
17k
YesSQL, Process and Tooling at Scale
rocio
159
12k
The Power of CSS Pseudo Elements
geoffreycrofte
52
4.3k
Debugging Ruby Performance
tmm1
67
11k
It's Worth the Effort
3n
177
26k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
15
1.2k
From Idea to $5000 a Month in 5 Months
shpigford
374
44k
10 Git Anti Patterns You Should be Aware of
lemiorhan
643
54k
Embracing the Ebb and Flow
colly
75
3.6k
Visualization
eitanlees
128
12k
Transcript
Chapter3, Observational studies(前半) Causal Inference: What If 横浜市立大学データサイエンス学部 鈴木 徳太
Miguel A. Hernan and James M. Robins
目次 1 • Identifiability conditions • Exchangeability • Positivity
2 はじめに • 「あなたが空を見上げることは他者が空を見上げることを引き起こすか」 – この因果的な問い (causal question) に答えるためにchapter2ではランダム化実験を考案 •
時間的、健康的な問題から以下の研究デザインを新たに考案 1. 空を見上げておらず立ち止まっている近くにいる歩行者を探す 2. 1の歩行者に向かって歩いており、同様に空を見上げていない歩行者を探す 3. 1, 2の歩行者の10秒間の行動を記録する 4. 1〜3を数千回繰り返す 5. 1の歩行者が空を見上げた後に2の歩行者が空を見上げた割合と、1の歩行者が空を見上げる前に2の歩 行者が空を見上げた割合を比較する • 観察研究 (observational study) :研究者が観察しその関連するデータを記録する研究
3 はじめに • 前述の研究デザインで、1, 2の歩行者がともに空を見上げたとき – 1の歩行者の空を見上げたことが2の歩行者の空を見上げたことを引き起こしたのではなく、 他の要因(雷鳴、雨粒)によるものであると批判される可能性 – 因果関係(
1の歩行者の行動が2の歩行者の行動を変容させた)とは断言できない • 本章では観察研究で妥当な因果推論を行うための条件を説明する 1の歩行者の 空を見上げる行動 他の要因 2の歩行者の 空を見上げる行動 ?
Identifiability conditions 4
5 識別可能条件 • ランダム化実験 – 治療割り当てのランダム化により、治療群と対照群の 交換可能性が期待される – Association is
causation • 観察研究 – 治療群と対照群は交換可能とは限らない – 予後が悪い人ほど治療を受けるとすると、 治療群の方が死亡リスクは高い(交換可能ではない) – Association is not causation 対照群 治療群 イメージ(杖をついた人は予後が悪い)
6 識別可能条件 • 観察研究における因果推論:観察研究を条件付きランダム化実験とみなす – 観測される共変量L の条件下でランダム割り当てが行われたものと考える – 識別可能条件と総称される以下の3条件がすべて成立する必要 •
識別可能条件 (identifiability conditions, assumptions) 1. 一致性 (consistency) ➢ 比較の対象となる治療の値は十分に定義された介入に一致し、その介入はデータ中の治療の バージョンに順に対応する 2. 交換可能性 (exchangeability) ➢ 治療の各値を受ける条件付き確率は、研究者によって決定されないが、測定された共変量L のみに 依存する 3. 正値性 (positivity) ➢ L の条件付きで治療の各値を受ける確率は0よりも大きい(正の値をとる)
7 識別可能条件 • 識別可能条件 – 理想的なランダム化実験 • 実験デザインにより保持される(Chapter2参照) – 観察研究
• 保持されることを仮定する必要 • いずれかが成り立たない場合には、異なる仮定を必要とする方法を用いる必要(e.g., 操作変数法) • (Rubin, 1974), (Rubin, 1978) における議論 – Neymannによるランダム化実験に関する理論の観察研究に対する拡張 • (Rosenbaum and Rubin, 1983) では条件の組み合わせを以下のように呼称 – 交換可能性&正値性 → weak ignorability(弱い無視可能性) – 完全交換可能性&正値性 → strong ignorability(強い無視可能性)
8 Fine Point 3.1 Identifiability of causal effects(因果効果の識別可能性) • ある一連の仮定が観測されたデータの分布が効果指標の1つの値に対応することを意味する場合
– 平均因果効果は特定の仮定の下で(ノンパラメトリックに)識別可能である • ある一連の仮定が観測されたデータの分布が効果指標の複数の値に対応することを意味する場合 – 平均因果効果は特定の仮定の下で(ノンパラメトリックに)識別不可能である • 次のスライド中の表にあるデータが条件付きランダム化実験から得られたものであるとき – 条件付き交換可能性 (𝑌𝑎 ⊥ 𝐴|𝐿 for all 𝑎) が成立するため平均因果効果は識別可能 – 因果リスク比は1と計算(∵ association is causation) – 追加の仮定は必要ない
9 Fine Point 3.1 • 右表のデータが観察研究によって得られたとき – 条件付き交換可能性を仮定してデータを補完した場合のみ、 因果リスク比の値が1であると計算がされる –
観察されたデータの外部に対する条件の仮定が必要 • 識別可能条件を用いてデータを補完しないとき – L 以外の危険因子の分布の状況によって以下のような因果リスク比の値に一致 • 治療群にL を除く危険因子が多い場合 – 1よりも小さい値に一致 • 対照群にL を除く危険因子が多い場合 – 1よりも大きい値に一致 • 群間でL を除く危険因子が均等に分布する場合(同等に𝑌𝑎 ⊥ 𝐴|𝐿 ) – 1に一致
Exchangeability 10
11 交換可能性 • ランダム化実験 – ランダム化により(完全)交換可能性の成立が保証される – 周辺ランダム化実験 (Marginally randomized
experiments) • 交換可能性 𝑌𝑎 ⊥ 𝐴 for all 𝑎 – 条件付きランダム化実験 (Conditionally randomized experiments) • 条件付き交換可能性 𝑌𝑎 ⊥ 𝐴 | 𝐿 for all 𝑎 • 観察研究 – 条件付き交換可能性 𝑌𝑎 ⊥ 𝐴 | 𝐿 が成立することを仮定する必要があり、検証不可能 – 測定された共変量𝐿以外にも、未測定の共変量𝑈が存在する可能性 – 現実的には先行研究や専門家の知見等から、成立に必要となる変数を検討し十分なデータを集める必要
12 Fine Point 3.2 Crossover randomized experiments(クロスオーバーランダム化実験) • クロスオーバー実験で個別因果効果を識別するためには以下の条件が必要(Fine Point
2.1) 1. 治療の持ち越し効果がない • 𝑌 𝑖𝑡=1 𝑎0, 𝑎1 = 𝑌 𝑖𝑡=1 𝑎1 2. 個人の因果効果は時間に依存しない • 𝑌 𝑖𝑡 𝑎𝑡=1− 𝑌 𝑖𝑡 𝑎𝑡=0= 𝛼𝑖 , 𝑓𝑜𝑟 𝑡 = 0, 1 3. 未治療の場合の潜在アウトカムは時間に依存しない • 𝑌 𝑖𝑡 𝑎𝑡=0= 𝛽𝑖 , 𝑓𝑜𝑟 𝑡 = 0, 1 • ここで個人が受ける治療の値の順序がランダム化されているとする – 議論の単純化のために、(𝐴𝑖1 = 1, 𝐴𝑖0 = 0), (𝐴𝑖1 = 0, 𝐴𝑖0 = 1) への割り当て確率は0.5とする – ランダム化が重要になるのは3つ目の条件が成立しないとき(時間的な効果が存在するとき)
13 Fine Point 3.2 • ある個人𝑖の𝑡 = 0, 1で未治療である場合の潜在アウトカムの差分𝑟𝑖 –
𝑟𝑖 = 𝑌 𝑖𝑡 𝑎1=0 − 𝑌 𝑖𝑡 𝑎0=0 • 条件1, 2および一致性を仮定したとき – (𝐴𝑖1 = 1, 𝐴𝑖0 = 0)であるとき、𝑌𝑖1 − 𝑌𝑖0 = 𝛼𝑖 + 𝑟𝑖 – (𝐴𝑖1 = 0, 𝐴𝑖0 = 1)であるとき、𝑌𝑖0 − 𝑌𝑖1 = 𝛼𝑖 − 𝑟𝑖 – 𝑟𝑖 は未知であるため個別因果効果は識別不可能であるが、ランダム化により (𝑌𝑖1 −𝐴𝑖0 )𝐴𝑖1 + (𝑌𝑖0 −𝐴𝑖1 )𝐴𝑖0 の平均は平均因果効果𝐸[𝛼𝑖 ]の推定量となる • 条件1, および一致性を仮定したとき – (𝑌𝑖1 −𝐴𝑖0 )𝐴𝑖1 + (𝑌𝑖0 −𝐴𝑖1 )𝐴𝑖0 の平均は𝑡 = 0, 1での治療の平均因果効果の平均 𝐸[𝛼𝑖1 + 𝐸[𝛼𝑖0 ])/2の ここに数式を入力します。推定量となる – 𝐸[𝛼𝑖𝑡 ] = 𝑌 𝑖𝑡 𝑎𝑡=1 − 𝑌 𝑖𝑡 𝑎𝑡=0
Positivity 14
15 正値性 正値性 (positivity) 𝑃𝑟 𝐴 = 𝑎 𝐿 =
𝑙 > 0 𝑓𝑜𝑟 𝑎𝑙𝑙 𝑣𝑎𝑙𝑢𝑒𝑠 𝑙 𝑤𝑖𝑡ℎ 𝑃𝑟 𝐿 = 𝑙 ≠ 0 𝑖𝑛 𝑡ℎ𝑒 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜 𝑜𝑓 𝑖𝑛𝑡𝑒𝑟𝑒𝑠𝑡 • 興味のある集団において治療の各層に割り当てられる確率が0より大きい(正の値をとる) – ランダム化実験の場合 • 研究デザインにより成立が保証される – 観察研究の場合 • 成立は保証されない • ランダム化と異なりデータから検証できる場合も(chapter12参照) • 正値性の成立は、交換可能性の成立必要となる共変量𝐿及び興味のある母集団において存在する 共変量𝐿の値𝑙に対して要求される – アウトカムの独立した予測因子ではない変数に対しては成立は必要なく、解析上も考慮しなくてよい
16 正値性 • 重症患者 (𝐿 = 1) には医師が常に心臓移植を行う観察研究(右図) – Pr
𝐴 = 0 𝐿 = 1 = 0 – 正値性が成立していない • 標準化リスクやIP weightingリスクを考える際に正値性は が重要となる – e.g.) 右図のケース • 𝐿 = 1の層では、治療を受けなかった個人が存在しないため、 その層全体が治療を受けていなかった場合の結果を考えることが出来ない – 特定の治療をうける場合の潜在アウトカム(及びその期待値)を定義不可 • 因果効果も算出できない • Technical Point 3.1参照