Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Causal Inference: What If, Chapter11

Causal Inference: What If, Chapter11

Dbc92a65229202d2bf585d008cc2afc4?s=128

鈴木徳太

January 13, 2022
Tweet

Transcript

  1. Chapter11, Why model? Causal Inference: What If 横浜市立大学データサイエンス学部3年 鈴木 徳太

    Miguel A. Hernan and James M. Robins
  2. 目次 1 • Data cannot speak for themselves • Parametric

    estimators of the conditional mean • Nonparametric estimators of the conditional mean • Smoothing • The bias-variance trade-off
  3. 2 はじめに • PartⅡでは例として実データに線形回帰やロジスティック回帰モデルを適合させ るため、R, SAS, Stata, and Pythonなどを使用 –

    データセット、コードはWhat Ifが提供されているWebサイトからダウンロード可能 • 本章はPartⅠで使用したノンパラメトリック推定量と、PartⅡで用いられるパラ メトリック推定量について論じる • 平滑化(Smoothing)とbias-variance trade-off についても簡潔に記載 • 目的が予測か因果推論のどちらであっても、分析におけるモデルの必要性を 説明する
  4. Data cannot speak for themselves 3

  5. 4 16人のHIV患者の例 • 仮想的な大規模な集団から無作為抽出されたと考えられる16人のHIV患者 • 各個人は研究開始時点で特定の治療Aを受け、期間中は継続して治療を受ける • 研究終了時に連続値であるY(1立方メートルあたりのCD4細胞数)を測定 Hypothetical super

    population sample target population
  6. 5 EstimandとEstimator Estimand:E[Y|A=a] • 想定される母集団においてA=aである場合のY の期待値 • 推定したい母集団における未知のパラメータ Estimator:෡ E

    Y|A = a • Estimandを推定するために用いられる 実データの関数 • サンプルサイズが大きくなるほど、推定量は Estimand(E[Y|A=a])に近づく →これは一致性を暗に仮定している? →次ページへ Hypothetical super population target population sample
  7. 6 Estimatorの例 • Estimand(E[Y|A=a])に対して次のような二つの推定量を考える 1. A=aである標本集団の標本平均 2. データセットにおいて、初めてA=aとなる個人のYの値 • ここで問題なのはどちらが推定量として適切であるか

    – 一つの考え方として“一致性(Consistency)”を持つ推定量のクラスを考える – 1は一致性を持つが、2は一致性を持たない – 実用上は全ての推定量に対して一致性を要求する ෪ θ𝑛 = θ, (n → ∞) ෪ θ𝑛 は推定量、θは真値 一致性の定義
  8. 7 Aが2値の時 • A=0(治療なし)、A=1(治療あり)にそれぞれ8例ずつ割り当てた場合 • Exchageabilityの仮定が成り立っているとすれば、2群の差(146.25-67.5)は 治療による平均因果効果の推定値、すなわちtarget populationでの効果と解釈 できる

  9. 8 Aが多値の時 • A=1(治療なし)、A=2(低用量)、A=3(中容量)、A=4(高容量)にそれ ぞれ4例ずつ • 各治療レベルにおける標本平均は依然として対応する母集団の不偏推定量 • カテゴリーが増えるとともに各層におけるサンプルサイズは減少するため、 95%信頼区間の幅は広がる(分散は大きくなる)

  10. 9 Aが連続値である時 • Aは0〜100(mg)の連続値であるとした場合 • 多くのAの層(Ex, A=90)でYは観測 されず、標本平均を算出できない – 連続値も層の数が無限である時とみなせる

    • こういった場合に“モデル”を用いて補 完をする必要がある
  11. 10 Data cannot speak for themselves • Sample(データ)は必ずしもtarget populationに関する情報を全て持っている わけではない(今回だと全てのAに関して)

    • だからこそ手元にあるデータにさまざまな仮定を置いて、target populationに おけるEstimandを推定しに行こうという流れ • その推定を行う際に関わってくるのが“モデル” • わからない部分をどう考えるか→モデルを使う
  12. Parametric estimators of the conditional mean 11

  13. 12 前節からのMotivation • Aが連続値である場合のE[Y|A=90]を推定したい(データにはない) – じゃあどうやって推定する?? – A=80, 100の時のYの値の平均として考える? •

    ここでA(0~100)とYの間には以下の一次関数の関係式があると仮定する E[Y|A] = θ0 + θ1 A →”liner mean model”という制約 • 有限個のパラメータ(今回だとθ0 , θ1 )で記述させるモデル → parametric conditional mean models • 一般的にはYとAの間の関係式は、何らかの関数が想定される
  14. 13 モデルの推定 • モデル( E[Y|A]=θ0 +θ1 A )を考えると次に問題なのはθ0 , θ1

    をどう推定するか – 最小二乗法 – A=90のような実際のデータがない部分は、それ以外のデータがある部分から推定を行うこと になる • 今回のHIV患者のデータでは残差の等分散性を仮定するとθ0 , θ1 に対する推定量 θ0 ^, θ1 ^の点推定値、およびWald法による95%信頼区間は以下のようになる θ0 …点推定値:24.55、95%信頼区間:(−21.2~70.3 ) θ1 …点推定値:2.14、95%信頼区間:(1.28~2.99) E[Y|A=90] …点推定値:216.9、95%信頼区間:(172.1~261.6)
  15. 14 Why model? • モデルとは変数間の関係を制約するものである – 今回の例であれば、parametric conditional mean modelsと仮定する(制約)ことによっ

    てデータの欠如を補完している ここで注意点!! • パラメトリックモデルを用いる場合、モデルが正確に特定されている必要がある – 今回だとθ0 +θ1 Aという1次関数 • モデルが誤特定されている場合にはバイアスが含まれる – ノンパラメトリック推定量を用いることで多少は軽減可能 • 以降の章の大部分はモデルの誤特定がない前提での議論
  16. Nonparametric estimators of the conditional mean 15

  17. 16 二値の治療に対する線形モデルの当てはめ • 引き続き16人のHIV患者のデータを使用 • Aは治療を示す二値変数であり、 E[Y|A=0], E[Y|A=1]を推定対象とする – A=0:治療なし

    – A=1:治療あり • 推定を行うにあたり以下の線形モデルを考える E[Y|A]=θ0 + θ1 A • すなわち、E[Y|A=0]=θ0 , E[Y|A=1] = θ0 + θ1 – 最小二乗法による推定結果は෢ θ0 =67.5,෢ θ1 =78.75 – 従って෡ E[Y|A=0]= 67.5, ෡ E[Y|A=0]=146.25 – 1節で計算した標本平均に一致(偶然ではない)
  18. 17 Saturated Model • 全スライドの線形モデルは以下のように書き直す E[Y|A=1] = E[Y|A=0] + θ1

    • 治療群での期待値は、未治療群での期待値にθ1 という治療による効果量を加えた ものと見ることが出来る • この二値治療に対する線形モデルでは、未知パラメータは推定対象を観測した データのみから推定可能であるため、正確に述べると”モデル”ではない • このようにデータの分布に対して制約を課さないモデルをSaturated models (飽和モデル)という – ただ記載が酷似するのでモデルとして通常はみなす
  19. 18 飽和モデルに対する補足 • Aが二値であるデータに対して、E[Y|A]=θ0 + θ1 Aというモデルを置くことはデー タに対して何も数学的な制約を課していない – 対象を推定するのに、他の層のデータから情報を借用していない

    • 一般的にはConditional mean modelにおける未知パラメータの個数が、母集団 における想定される条件付き期待値の個数と一致する場合に飽和モデルとなる – 未知パラメータ: θ0 , θ1 – 想定される条件付き期待値: E[Y|A=0], E[Y|A=1] • Aが101の治療レベル( 0~100の離散値)だと飽和モデルではない – 実際にデータとして得られた層以外(Ex, E[Y|A=90])における推定は他の層の情報を用いて 行われる – 推定するパラメータ数<推定対象(Estimand)となる場合には、モデルはparsimoniousと いう
  20. 19 Conditional mean modelにおけるノンパラメトリック推定量 • 条件付き期待値E[Y|A]に対して、数学的な制約なしに推定を行うものとする – 各層における標本平均や、飽和モデルがその例 – より厳密にはFine

    Point 11.1を参照 • 標本に推定対象に関するデータがない場合にはノンパラメトリック推定量は存在 しない – 治療を101レベルだとすると、例えばA=90のデータは存在しないためデータから全ての層 の推定量を構築することが不可能であるため • PartⅠで紹介があった方法は飽和モデルのもとでのノンパラメトリック推定量 に基づいているが、PartⅡでは対照的に、データの一部をパラメトリックに推 定する手法に基づいている
  21. 20 Fine Point 11.1 Fisher consistency • 本書中で述べたノンパラメトリック推定量の定義は、Fisher consistent estimator

    (Fisher 1922) として知られるもの – 母集団全てのデータを用いたとした場合、母集団でのパラメーターが求められる – 今回の例であれば全てのA=aにおけるE[Y|A] • ただ今回のHIV患者の例のように、母集団の多くの層において推定量が存在しな いことも – 技術的にはFisher consistent estimatorは飽和モデルのもとでのノンパラメトリック最尤推 定量 – 統計学では、ノンパラメトリック推定量は別の制約を指す場合も →Technical Point 11.1へ
  22. Smoothing 21

  23. 22 線形モデルの仮定 • 前節までは、E[Y|A]=θ0 + θ1 Aという線形モデルを考えた – 一次関数の形 –

    定義域全てにおいてAの1単位あたりの増加量は一定であることを意味 • しかしAが低容量では効果が大きく、高容量では1単位量あたりでは効果が小さ くなるという状況においてはこのモデルは正しくない – E[Y|A]とAの間に直線関係があると考えるのは不合理
  24. 23 別なモデルの想定 • 別な線形モデルを考えてみる E[Y|A] = θ0 + θ1 A

    + θ2 A2 • 推定値は෠ θ0 =−7.41、෠ θ1 = 4.11、෠ θ2 =−0.02 – サンプルサイズは16なので、パラメータ数も16個 までは推定可能 – モデルに含まれる共変量の次数が高くなるほど 変曲点の個数は増加
  25. 24 最も複雑なモデルのイメージ • 最も情報を少なくした場合のモデルは以下のイメージ – ある点A=aを推定するのにその前後のじつデータしか使わないとした場合 – 過適合(オーバーフィッティング)の状態

  26. 25 モデルの滑らかさ • パラメータの数を増やすほど滑らかではなくなる – 今回だとパラメータ数が2のモデルが最も滑らか – 反対にパラメータ数が16のモデルは最も滑らかではない • モデリングはデータを曲線へ変換する作業(平滑化)と考えることができる

    – 観測されたデータから想定されるモデルを推定する – データから情報を借用しているとみることができる – 推定したいaにおけるE[Y|A=a] は、aに等しくないデータから情報を借りて推定(補完)し ている – 全てのパラメトリック推定量において平滑化が行われている
  27. 26 Liner(線形)という用語について • Liner(線形)という用語はモデルにおいて次の二つの意味で用いられる – パラメータに対して線形結合(1次結合)である時 – モデルが直線(1次関数)である時 • 線形モデルという場合には前者を指す

    • モデルに共変量として、二乗以上の項や対数の項(Ex, 𝑋2)が含まれていても、 パラメータ同士が線型結合で表されている場合には線形モデルである Ex)Y = β0 + β1 X1 + β1 X2 2 + logX3
  28. 27 Fine Point 11.2 Model dimensionality and the relation between

    frequentist and Bayesian intervals • 確率論における頻度論とベイズ論ごとのIntervalに関して – 確率論:信頼区間 – 頻度論:信用区間 • 標本サイズが大きい単純な低次元パラメトリックモデル – 信頼区間は信頼区間とほぼ一致し、 • 高次元もしくはノンパラメトリックモデル – 信頼区間と信頼区間が一致しない場合も
  29. The bias-variance trade-off 28

  30. 29 どのモデルを選択すべきか • E[Y|A=90] を推定するために以下の2つの線形モデルを考えた – E[Y|A] = θ0 +

    θ1 A (2-parameter) – E[Y|A] = θ0 + θ1 A + θ2 A2 (3-parameter) – なおどちらもパラメトリックモデル
  31. 30 どのモデルを選択すべきか • ここで問題となるのはどちらのモデルが適切か – 真の関係が曲線である時 →2-parameterのモデルでは推定値にバイアス – 真の関係が直線である時 →どちらのモデルも妥当。3-parameterには2次の項が含まれるため曲線では?となるかも

    しれないがθ2 =0とした場合には直線になる(よりバイアスに対して保守的) • 真の関係がどちらであっても3-parameterの線形モデルは対応している – バイアスが生じにくい • モデルのパラメータ数が多い(滑らかでない)ほど制約は少なくなる – よりバイアスに対して保守的になる
  32. 31 バイアスと分散 • E[Y|A=90] に対する2つの線形モデルでの点推定値と95%信頼区間 • 3-parameterのモデルの方が分散が大きくなっている • バイアスの観点では、2-parameter <

    3-parameter • 分散の観点では、2-parameter > 3-parameter – ただし推定値にバイアスが含まれる場合には、真値を含む信頼区間である確率は95%よりも 小さくなる model 点推定値 95%信頼区間 2-parameter 216.9 172.1 ~ 261.6 3-parameter 197.1 142.8 ~ 251.5
  33. 32 バイアスと分散 • どの程度モデルにパラメータを追加するか(バイアス↓分散↑)の判断は研究者 の判断に委ねられている – 伝統、パラメータの解釈可能性、使用するソフトウェアでの制限などから総合的に判断 • 本書ではパラメトリックモデルの特定は正しく行われているとする •

    現実的な仮定ではないが因果推論に関して注視するため – モデルの誤特定は因果推論だけでの話題ではなく、データ分析全体での話題
  34. 33 Technical Point 11.1 A taxonomy of commonly used models

    • ここまで考えてきた条件付き期待値は全ての個人に対し次のように記載ができる E[Y|X] = σ 𝑖=0 𝑝 θ 𝑖 X 𝑖 , X 1 = 1 • X 𝑖 は共変量(今回の3-parameterの例だとX 1 = A, X 2 = A2としている) • 線型結合を示す総和記号Σとリンク関数g{・}を用いることにより、conditional mean modelは以下のように拡張することができる g{E[Y|X] } = σ 𝑖=0 𝑝 θ 𝑖 X 𝑖 ※Ch11ではidentityリンク関数を使用
  35. 34 Technical Point 11.1 • アウトカムYが正の値をとる場合 – リンク関数:対数関数 – log{E[Y|X]

    } = σ 𝑖=0 𝑝 θ 𝑖 X 𝑖 → E[Y|X] = exp(σ 𝑖=0 𝑝 θ 𝑖 X 𝑖 ) (常に>0) – ポアソン回帰モデル • アウトカムYが二値(0, 1)をとる場合 – リンク関数:ロジット関数 – log{ E[Y|X] 1−E[Y|X] } = σ 𝑖=0 𝑝 θ 𝑖 X 𝑖 → E[Y|X] = expit(σ 𝑖=0 𝑝 θ 𝑖 X 𝑖 ) (常に0~1) – ロジスティック回帰モデル • 最尤法によりθを推定 – Nomal modelでは最小二乗法と最尤法は一致
  36. 35 Technical Point 11.1 • Conditional mean modelはE[Y|X]に制約を与えるだけであって、Y|Xの分布や Xの周辺分布に対しては制約を与えていない –

    あくまで期待値(になんらかの関数を組ませたもの)が制約を受けている – この意味でSemiparametricなモデルである • Conditional mean modelはE[Y|X]がパラメトリックであるという仮定を緩める ことで一般化できる – Ex)カーネル回帰モデル、GAMs – カーネル回帰モデルは“ノンパラメトリック”なモデルであるがCh11でのノンパラメトリック の意味は異なる
  37. 36 Technical Point 11.1 • カーネル回帰モデルではE[Y|X]に特定の制約を置かず、以下のように推定する E[Y|X=x] = σ𝑖=1 𝑛

    𝑤ℎ(𝑥−𝑋𝑖)𝑌𝑖 σ 𝑖=1 𝑛 𝑤ℎ(𝑥−𝑋𝑖) , ∀𝑥 ∈ ℝ 𝑤ℎ (𝑧):z=0で最大値をとり、0から離れるほど0に近づく正値関数(カーネル関数) • Generalized additive models(GAMs;一般化加法モデル) – パラメータと共変量の積を滑らかな関数f(x)で置き換え – σ 𝑖=0 𝑝 θ 𝑖 X 𝑖 → σ 𝑖=0 𝑝 f𝑖 (X 𝑖 ) • カーネル回帰モデルは特定の関数形を指定せず、 E[Y|X=x]を推定するのにxの 周辺のデータのみを借用して推定を行う – どの程度の範囲から情報を借用するかはhで調整 – “ノンパラメトリック”な推定量だが本書中の意味とは異なる – 本書中でのノンパラメトリック: E[Y|X=x]を推定するのにX=x のデータだけを用いる