アジェンダ 2 • 13.1 Standardization as an alternative to IP weighting • 13.2 Estimating the mean outcome via modeling • 13.3 Standardizing the mean outcome to the confounder distribution • 13.4 IP weighting or standardization? • 13.5 How seriously do we take our estimates? • Fine Point 13.1 • Technical Point 13.1 • Fine Point 13.2 • Technical Point 13.2
アジェンダ • 13.1 Standardization as an alternative to IP weighting • 13.2 Estimating the mean outcome via modeling • 13.3 Standardizing the mean outcome to the confounder distribution • 13.4 IP weighting or standardization? • 13.5 How seriously do we take our estimates? • Fine Point 13.1 • Technical Point 13.1 • Fine Point 13.2 • Technical Point 13.2 4
13.1 Standardization as an alternative to IP weighting Chapter 12にてIP weightingを⽤いて、禁煙が体重増加におよぼすaverage causal effectを推定した。 ※以下の変数Lで調整し、conditional exchangeabilityを仮定した。 >?@,A?B − [>?B,A?B] ※a: treatment c: cencering Average causal effectの定義: Sex Age Race Education intensity and duration of smoking physical activity in daily life recreational exercise weight 6
13.1 Standardization as an alternative to IP weighting Chapter 13ではStandardizationを⽤いて、禁煙が体重増加におよぼすaverage causal effectを推定する。 データ仕様書(n=1566)※打ち切りがなかった例数 項⽬ 型 詳細 Weight gain Number Smoking cessation Category 0: untreated、1: treated Age Integer Sex Category 0: male、1: female Race Category 0: white、1: other Education Category 5 categories Weight Number kg Intensity of smoking Number number of cigarettes per day duration of smoking Number years of smoking Physical activity in daily life Category 3 categories Recreational exercise Category 3 categories Baseline Characteristic 7
アジェンダ 12 • 13.1 Standardization as an alternative to IP weighting • 13.2 Estimating the mean outcome via modeling • 13.3 Standardizing the mean outcome to the confounder distribution • 13.4 IP weighting or standardization? • 13.5 How seriously do we take our estimates? • Fine Point 13.1 • Technical Point 13.1 • Fine Point 13.2 • Technical Point 13.2
アジェンダ 17 • 13.1 Standardization as an alternative to IP weighting • 13.2 Estimating the mean outcome via modeling • 13.3 Standardizing the mean outcome to the confounder distribution • 13.4 IP weighting or standardization? • 13.5 How seriously do we take our estimates? • Fine Point 13.1 • Technical Point 13.1 • Fine Point 13.2 • Technical Point 13.2
13.3 Standardizing the mean outcome to the confounder distribution ①データセットの拡張 22 A=0、YをNullにする A=1、YをNullにする Copy ※Second blockはA=0の時の、Third blockはA=1の時のStandardized meanを推定するために⽤いる
13.3 Standardizing the mean outcome to the confounder distribution ②モデリング AとLを与えた時のmean outcomeの値を予測するための回帰モデルを先の3つのデータセットに当てはめる モデル: 24 Y = + @ ∗ ∗ 積項を⼊れて飽和させる ※3つのデータセットに当てはめても実際のパラメータ推定に使えるのはオリジナルのデータセットのみ (Second, Third blockはYが⽋損しているため) ※αと各βの値を推定することでYを予測するモデル式が得られる 今回はRを⽤いて右のようにパラメータを推定した
13.3 Standardizing the mean outcome to the confounder distribution 26 ④平均によるStandardization ③で得たSecond, Third blockのYを予測値の平均値を計算し、Standardized meanを得る ※今回、L=1が60%、L=0が40%であるため、L=1の⾏に多くの重みが与えられる 今回計算した結果、いずれも0.5となり、Chapter 2.3の結果と⼀致している!
13.3 Standardizing the mean outcome to the confounder distribution 31 ④平均によるStandardization ③で得たSecond, Third blockのYを予測値の平均値を計算し、Standardized meanを得る 今回の平均因果効果は5.18-1.66=3.52kg(95%CI: 2.6 - 4.5)となった ※平均因果効果の95%信頼区間はbootstrappingを⾏い、算出した(詳しくはTechnical point 13.1を参照) 素朴な疑問。。。(どなたか詳しい⽅にご教⽰いただきたいです・・・) 過学習している場合(または学習⾜りていないときも) = , = 0,b ]の予測値の信頼性が低い気がす るが対策って必要無い?
アジェンダ 32 • 13.1 Standardization as an alternative to IP weighting • 13.2 Estimating the mean outcome via modeling • 13.3 Standardizing the mean outcome to the confounder distribution • 13.4 IP weighting or standardization? • 13.5 How seriously do we take our estimates? • Fine Point 13.1 • Technical Point 13.1 • Fine Point 13.2 • Technical Point 13.2
13.4 IP weighting or standardization? 34 Chapter2でやったようにStandardized meanとIP weightingは等しい! ※ただし、このように等しくなるのはそれらを推定する際にモデルが⽤いられていない時だけ! モデルで推定する場合、以下のように利⽤するモデルが異なるため、最終アウトプットは⼀般的に異なる! ■IP weightingの場合: Pr[A = a, C = 0 | L]をPr[A = a | L]およびPr[C = 0 | A = a, L]から推定 ※Pr[A = a | L]およびPr[C = 0 | A = a, L]はlogistic regression modelを当てはめて推定(Chapter 12) ■Standardizationの場合: E[Y | A = a, C = 0, L = l]をparemetric linear regression modelを当てはめて推定(Chapter 13)
13.4 IP weighting or standardization? 結論: IP weightingとStandardizationはどちらかではなく、可能であればどちらもやったほうがいい! ※また、さらに可能であればDouble robust methodも使⽤する(Fine point 13.2 or Technical point 13.2) 最後に・・・ 今回は全体のaverage causal effectを推定したけど、特定のサブセットに限定したaverage causal effectも 計算可能である。 その際は計算対象のサブセットを限定するだけで、その他は全て同じやり⽅で実施可能である!
アジェンダ 38 • 13.1 Standardization as an alternative to IP weighting • 13.2 Estimating the mean outcome via modeling • 13.3 Standardizing the mean outcome to the confounder distribution • 13.4 IP weighting or standardization? • 13.5 How seriously do we take our estimates? • Fine Point 13.1 • Technical Point 13.1 • Fine Point 13.2 • Technical Point 13.2
13.5 How seriously do we take our estimates? 13.5で理解すべきポイント ・モデルを⽤いて推定した場合、その結果の妥当性を⽰すことは難しい。 ・少なくとも以下の3点が成⽴することを⽰すことが重要。 ①exchangeability, positivity, and consistency ②変数が正しく測定されていること ③モデルが正しいこと
13.5 How seriously do we take our estimates? 40 推定値の妥当性を⽰すのはとても⼤変!! 以下の3つの条件が少なくとも近似的に成⽴することを⽰すことが⼤切! ①exchangeability, positivity, and consistency ②変数が正しく測定されていること ③モデルが正しいこと
13.5 How seriously do we take our estimates? 42 測定されていない交絡 ①exchangeability, positivity, and consistency Exchangeabilityを妨げる要因 Selection bias これらがあると、E[Ya | A = 1] = E[Ya | A = 0]が成⽴しない!
13.5 How seriously do we take our estimates? 43 ①exchangeability, positivity, and consistency ■positivityについて A = 1とA = 0の時で共変量Lの分布が完全にオーバーラップしていないといけない! オーバーラップしていない区間 オーバーラップしていない区間 ※Positivityが成⽴していない例のイメージ
13.5 How seriously do we take our estimates? 46 これらの条件が成⽴していることを⽰すことができればデータ分析は簡単!!!! →簡単に⽰すことができないから難しい・・・。批判されても反論が難しい・・・ ※たとえば、モデルの仕様については感度解析などで妥当性を⽰すことはできるけど、測定されていない 交絡を⾔い出すとキリがない・・・ 因果推論のタスクは先述の条件がほぼ満たされているという仮定に基づき counterfactual outcomeの⽋如を補っている =これらの条件から逸脱すればするほど推定される効果はbiasを含む!! =これらの条件が成⽴しているか懐疑的になって議論する必要がある!!
アジェンダ 47 • 13.1 Standardization as an alternative to IP weighting • 13.2 Estimating the mean outcome via modeling • 13.3 Standardizing the mean outcome to the confounder distribution • 13.4 IP weighting or standardization? • 13.5 How seriously do we take our estimates? • Fine Point 13.1 • Technical Point 13.1 • Fine Point 13.2 • Technical Point 13.2
Fine Point 13.1 48 PositivityはIP weightingと同様にStandardizationでも必要である。 ※Pr[A = a | L = l] = 0 and Pr[L = l] = 0の場合E[Y | A = a, L = l]がundefinedとなるため ただし、StandardizationとIP weightingではPositivity違反の影響が異なる 理由:parametric modelで外挿すればpositivityの違反を無視できるため ※ただし、推定にbiasを持ち込むので95%信頼区間で真の効果を推定することを⾏う age E[Y |A = 1, C = 0, L = l] conditional relation between age and the mean outcome ^ 48 外挿 注意点: ①外装はあくまでデータが無限にあっても推定できない 区間の推定を⽬的に⾏う ※データ量不⾜を補うものではない =「外挿できるからデータ量は少なくても良い」は成⽴しない ②このことがIP weightingよりStandardizationを推奨 することにならない =標準誤差が⼩さくなるがbiasを含む。Biasが標準誤差 よりも多くの推定の誤りを⽣むことも・・・
アジェンダ 49 • 13.1 Standardization as an alternative to IP weighting • 13.2 Estimating the mean outcome via modeling • 13.3 Standardizing the mean outcome to the confounder distribution • 13.4 IP weighting or standardization? • 13.5 How seriously do we take our estimates? • Fine Point 13.1 • Technical Point 13.1 • Fine Point 13.2 • Technical Point 13.2
アジェンダ 54 • 13.1 Standardization as an alternative to IP weighting • 13.2 Estimating the mean outcome via modeling • 13.3 Standardizing the mean outcome to the confounder distribution • 13.4 IP weighting or standardization? • 13.5 How seriously do we take our estimates? • Fine Point 13.1 • Technical Point 13.1 • Fine Point 13.2 • Technical Point 13.2
Fine Point 13.2 56 56 Doubly robust estimator 共変量L 介⼊A 効果Y Model②:E[Y | A = a, L]をモデル化 Model①:Pr[A = a | L = l]をモデル化 Model①、Model②のいずれかが正しい場合、正しい因果効果を得ることが可能
アジェンダ 59 • 13.1 Standardization as an alternative to IP weighting • 13.2 Estimating the mean outcome via modeling • 13.3 Standardizing the mean outcome to the confounder distribution • 13.4 IP weighting or standardization? • 13.5 How seriously do we take our estimates? • Fine Point 13.1 • Technical Point 13.1 • Fine Point 13.2 • Technical Point 13.2
Technical Point 13.2 60 60 前提:positivityとexchangeabilityを満たすA、Y、Lがあるとする。 その時のE[Ya = 1]におけるcounterfactual mean outcomeを推定する E[Ya = 1]はE[b(L)]と書くことができる。この時b(L)は以下のいずれかで表現される b(L) = E[Y | A=1 , L] or E pP v = ※ここで = Pr A = 1 L] 本Chapterではplug-in g-formula estimatorである@ m ∑ | b m b?@ について の推定値を研究対象者の数nで 平均を取った値で置き換えられることを説明した ※ は linear regression modelによって推定する ※IP weightingの場合は@ m ∑ p•P• v ‚ =• について、 m b?@ ( で推定)の推定値を 研究対象者の数nで平均を取った値で置き換えられることを説明した