Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Causal Survival Analysis(Causal inference: What if, Chapter 17)

Shuntaro Sato
November 25, 2020

Causal Survival Analysis(Causal inference: What if, Chapter 17)

Keywords: 因果推論, Survival Analysis(生存時間分析),Hazard(ハザード),Kaplan-Meier estimation,Logistic model,Censoring(打ち切り )

Shuntaro Sato

November 25, 2020
Tweet

More Decks by Shuntaro Sato

Other Decks in Science

Transcript

  1. Cat, and human attached glasses @sankyoh Causal Survival Analysis 120

    PAGES 猫と人間が付属している眼鏡 @sankyoh 17 Causal Inference; what if
  2. 今日のセクション 17.1 Hazard and risks 17.2 From hazards to risks

    17.3 Why censoring matters 17.4 IP weighting of marginal structural models 17.5 The parametric g-formula 17.6 G-estimation of structural nested models 2 11章の復習 12章の復習 13章の復習 14章の復習
  3. 3

  4. 4

  5. 今日のセクション 17.1 Hazard and risks 17.2 From hazards to risks

    17.3 Why censoring matters 17.4 IP weighting of marginal structural models 17.5 The parametric g-formula 17.6 G-estimation of structural nested models 8
  6. Section 17.1 Hazard and Risk Pick up point – 管理的打切り

    administrative censoring – Survival, Risk, Hazardの違い 9
  7. 17.1 Hazard and Risk 禁煙の有無が死亡時点Tに与える影響について考える。 死亡イベントは一部の対象者でのみ観察されません。 Administrative end of follow-up;研究終了時点があり、そ

    の後の情報は入手出来ない。 10 超訳ですが、administrative end of follow-upを研究終了時点と訳します。脳内変換して下さい。
  8. その他の問題 管理的打切り以外の打切りももちろんあるが、この章で は割愛し、管理的打切りに注目する。 – loss to follow-up – competing events

    (Fine Point 17.1) これまでの章で説明した選択バイアスと同様に考えたり、 (時間依存プロセスも考えるので)Part Ⅲで見ていく。 12
  9. Section 17.1 Hazard and Risk Pick up point – 管理的打切り

    administrative censoring – Survival, Risk, Hazardの違い 14
  10. Risk, survival, hazard 死亡までの時間Tは1~120の値をとる。 – T=1 • 1ヶ月目に死亡 • 死亡は

    (0,1] の時間間隔で発生 TはA=1の102人、A=0の216人でわかる。 – 要は10年の観察期間内に死亡した。 15
  11. Figure 17.1 生存曲線の比較 0.00 0.25 0.50 0.75 1.00 0 12

    24 36 48 60 72 84 96 108 120 analysis time qsmk = 0 qsmk = 1 Kaplan-Meier survival estimates 20 全ての時点kで > | = 1 と > | = 0 を比較 76.2% vs 82.0%
  12. RiskとHazardの違い RiskとHazardは異なる指標 = (0, ] = ( − 1, ]

    ( − 1) 22 変動しない 単調減少 単調増加 変動
  13. 参考)Hazard curve 23 NHEFSデータでは、 ハザードはM型になる。 .001 .0015 .002 .0025 .003

    Smoothed hazard function 0 12 24 36 48 60 72 84 96 108 120 analysis time qsmk=0 qsmk=1 Cox proportional hazards regression
  14. 今日のセクション 17.1 Hazard and risks 17.2 From hazards to risks

    17.3 Why censoring matters 17.4 IP weighting of marginal structural models 17.5 The parametric g-formula 17.6 G-estimation of structural nested models 25
  15. Section 17.2 From hazard to risks Pick up point –

    2つのデータ形式 – failure eventのDkの導入 – HazardからRiskを計算 • ノンパラメトリック • パラメトリック(ロジスティックモデル) 26 11章の復習
  16. Section 17.2 From hazard to risks Pick up point –

    2つのデータ形式 – failure eventのDkの導入 – HazardからRiskを計算 • ノンパラメトリック • パラメトリック(ロジスティックモデル) 29 11章の復習
  17. Dkを用いたRisk, Survival, Hazardの書き換え = = 0 = = 1 =

    = 1| = 0 34 この定義だとsurvival, riskはk=0,1,2,…,120ですが、hazardはk=1,2,…,120です。
  18. Section 17.2 From hazard to risks Pick up point –

    2つのデータ形式 – failure eventのDkの導入 – HazardからRiskを計算 • ノンパラメトリック • パラメトリック(ロジスティックモデル) 35 11章の復習
  19. Section 17.2 From hazard to risks Pick up point –

    2つのデータ形式 – failure eventのDkの導入 – HazardからRiskを計算 • ノンパラメトリック • パラメトリック(ロジスティックモデル) 39 11章の復習
  20. パラメトリックにHazardを算出(式2) ロジスティックモデルを用いて、ハザードを算出する。 40 = 1| = 0, = , +

    + × + × , = + + 時間依存切片としているので、 時間依存ハザードになる。 Aとkの交互作用項があるので、 時間依存ハザード比になる。 ロジスティックモデルがハザードモデルに近似できているかは、Technical Point 17.1
  21. HazardからSurvivalを算出する(式1改変) 時点k+1の治療aのSurvivalは、 時点k+1以前の治療aの(1-Hazard)の積と等しい。 41 = 0| = = = 0|

    = 0, = パラメトリックに算出する p.212の式1ではDkだったが、本文p.213ではDk+1に変わっている。ここではk+1に合わせた。
  22. Figure 17.4 パラメトリックに導出した生存曲線 42 Figure 17.1と異なり スムーズになっている。 .5 .6 .7

    .8 .9 1 Survival probability 0 12 24 36 48 60 72 84 96 108 120 Months of follow-up A=0 A=1
  23. その他:パラメトリックに導出した生存曲線 この方法が正しい条件: – No misspecification of the hazard model –

    今回の例では、17.1と17.4でだいたい同じになったので、良 かったのでは無いか。 95%信頼区間を出す時には、個人をリサンプリング (ブートストラップ)してで出すことができる。 43
  24. 今日のセクション 17.1 Hazard and risks 17.2 From hazards to risks

    17.3 Why censoring matters 17.4 IP weighting of marginal structural models 17.5 The parametric g-formula 17.6 G-estimation of structural nested models 44
  25. Section 17.3 Why censoring matters Pick up point – censoringのCkの導入

    – 打ち切りの問題 – どのように対処するか 45 17.2の復習
  26. Ck の導入 いろいろ考えやすくするために、C kを導入する。 = 1 ≥ 0 < 47

    k endは”administrative end of follow-up”を示すとする。
  27. Section 17.3 Why censoring matters Pick up point – censoringのCkの導入

    – 打ち切りの問題 – どのように対処するか 50 17.2の復習
  28. 割合を計算するだけでは目的を達成できない 普通の計算だけでは = | = が算出出来ない。 算出できるのは = , =

    | = である。 – これはゴールではない。 54 kがk+1になっていますが、本文準拠です。なぜ、k+1に書き換えられたんだろう…
  29. どういう事かk=2で確認する 1. = 0 = 1 – k=1では誰も脱落しない 2. =

    0| = 0 = 0.9 – k=1で90%が生存 3. = 0| = 0, = 0 = 0.5 – k=2で生存者の50%がランダムに脱落 4. = 0| = 0, = 0, = 0 = 0.9 – k=2で残りの90%が生存 55 Pr[C 0 =0]=1は自明とする。
  30. この状況下では = , = = × . × . ×

    . = . しかし、 = 0| = 0, = 0 =1になったとする。 – = , = = × . × × . = . – 脱落によって容易に値が変化する。 ではどうするか…? 56
  31. Section 17.3 Why censoring matters Pick up point – censoringのCkの導入

    – 打ち切りの問題 – どのように対処するか 57 17.2の復習
  32. そこでこの式を使う(式1改変2) (1-Hazard)の条件部分に「Cm=0」を加えた点が異なる。 打切りがランダム(DやAと独立)ならばこの式で算出可能 58 = | = = = 0|

    = 0, = , = 本文中では、for k<k endとなっていますが、k end =120とするなら、for k≦k endが良いように思います。
  33. 今日のセクション 17.1 Hazard and risks 17.2 From hazards to risks

    17.3 Why censoring matters 17.4 IP weighting of marginal structural models 17.5 The parametric g-formula 17.6 G-estimation of structural nested models 60
  34. 17.4 IP weighting of marginal structural models Pick up point

    – 交換可能性がなさそう – 重みの計算 SWA – 時間依存ハザードの計算 – 結果と妥当性 61 12章の復習
  35. 17.4 IP weighting of marginal structural models Pick up point

    – 交換可能性がなさそう – 重みの計算 SWA – 時間依存ハザードの計算 – 結果と妥当性 65 12章の復習
  36. 17.4 IP weighting of marginal structural models Pick up point

    – 交換可能性がなさそう – 重みの計算 SWA – 時間依存ハザードの計算 – 結果と妥当性 69 12章の復習
  37. Time varying hazardの計算 この式を、SWAで重み付けて計算する。 人時フォーマットで計算するが、個人の複数回測定なので、 クラスタになっている事に注意。 70 = | =

    = , + + × + × logit event qsmk qsmk#c.time qsmk#c.time#c.time c.time c.time#c.time [pweight=sw] , cluster(seqn) Stataだとこのオプションが必要 , = + + 時間依存切片としているので、 時間依存ハザードになる。 Aとkの交互作用項があるので、 時間依存ハザード比になる。
  38. 17.4 IP weighting of marginal structural models Pick up point

    – 交換可能性がなさそう – 重みの計算 SWA – 時間依存ハザードの計算 – 結果と妥当性 72 12章の復習
  39. Figure 17.6 IPWを使った生存曲線 73 ほとんどのkで A=1が負けているが、 最後で微妙に逆転 80.7% vs 80.5%

    +0.2% (95%CI: -4.1%, 3.7%) .5 .6 .7 .8 .9 1 Survival probability 0 12 24 36 48 60 72 84 96 108 120 Months of follow-up A=0 A=1 bootstrapで信頼区間を作っているので、乱数によって異なる。ここでは本文の数字を提示。
  40. この方法が妥当である条件 いつもの – exchangeability, consistency, positivity Treatment modelがno misspecification –

    重みの計算 marginal hazard modelがno misspecification – logitを使ったハザードの計算 74
  41. 今日のセクション 17.1 Hazard and risks 17.2 From hazards to risks

    17.3 Why censoring matters 17.4 IP weighting of marginal structural models 17.5 The parametric g-formula 17.6 G-estimation of structural nested models 75
  42. 17.5 The parametric g-formula Pick up point – parametric g-formulaの式

    – conditional hazardの計算 – 4つの手順をとる – 結果と解釈 76 13章の復習
  43. 17.5 The parametric g-formula Pick up point – parametric g-formulaの式

    – conditional hazardの計算 – 4つの手順をとる – 結果と解釈 79 13章の復習
  44. conditional hazardの計算(Sec17.2改変) ロジスティックモデルを用いて、治療レベルと交絡で条 件付けたhazardを算出する。 80 = | = , =

    , = = , + + × + × + × Lは1つの変数ではないので、ベクトルということで。 これを追加 これを追加
  45. 17.5 The parametric g-formula Pick up point – parametric g-formulaの式

    – conditional hazardの計算 – 4つの手順をとる – 結果と解釈 83 13章の復習
  46. 17.5 The parametric g-formula Pick up point – parametric g-formulaの式

    – conditional hazardの計算 – 4つの手順をとる – 結果と解釈 86 13章の復習
  47. Figure 17.7 g-formulaを使った生存曲線 87 ほとんどのkで A=1が負けている。 最後も僅差で負け 80.4% vs 80.6%

    +0.2% (95%CI: -4.6%, 4.1%) bootstrapで信頼区間を作っているので、乱数によって異なる。ここでは本文の数字を提示。 .5 .6 .7 .8 .9 1 Survival probability 0 12 24 36 48 60 72 84 96 108 120 Months of follow-up A=0 A=1
  48. 今日のセクション 17.1 Hazard and risks 17.2 From hazards to risks

    17.3 Why censoring matters 17.4 IP weighting of marginal structural models 17.5 The parametric g-formula 17.6 G-estimation of structural nested models 89
  49. 17.6 G-estimation of structural nested models Pick up point –

    G-estimationの生存分析への応用 – AFTモデルでG-estimation – うまく行かない理由 – 対処、結果とまとめ 90 14章の復習
  50. G-estimation of structural nested modelの復習 Effect modificationなし – − |

    = Effect modificationあり – − | = + の部分のモデル化をしない。 – パラメータが少ない=誤リスク小。 91 14章資料:11枚目も参照ください。
  51. Survival analysisでの応用 Structural nested cumulative failure time models – failureがレアだとよい。

    Structural nested cumulative survival time models – survivalがレアだとよい。 Structural nested acerated failure time (AFT) model – より一般的な選択肢として 93
  52. 17.6 G-estimation of structural nested models Pick up point –

    G-estimationの生存分析への応用 – AFTモデルでG-estimation – うまく行かない理由 – 対処、結果とまとめ 94 14章の復習
  53. 17.6 G-estimation of structural nested models Pick up point –

    G-estimationの生存分析への応用 – AFTモデルでG-estimation – うまく行かない理由 – 対処、結果とまとめ 104 14章の復習
  54. 選択バイアスの例 Type 1 Type 2 Type 3 Ta=0 36 72

    108 Ta=1 24 48 72 107 無作為割付けしたとする。 Typeは治療群間で交換可能性あり。
  55. 選択バイアスの例 Type 1 Type 2 Type 3 Ta=0 36 72

    108 Ta=1 24 48 72 108 K=60として、T≦Kだけを選択する。 赤字のみになり、交換可能性がない。
  56. 選択バイアスの例の回避1 Type 1 Type 2 Type 3 Ta=0 24 48

    72 Ta=1 24 48 72 109 K=60として、T≦Kだけを選択する。 治療効果がnullだったら大丈夫
  57. 選択バイアスの例の回避2 Type 1 Type 2 Type 3 Ta=0 36 72

    108 Ta=1 24 48 72 110 K=60として、T≦Kだけを選択するのではない。 Ta=0≦KかつTa=1≦Kの個人だけを選択する。 Type2は打ち切られる(Artificial censoring)
  58. 17.6 G-estimation of structural nested models Pick up point –

    G-estimationの生存分析への応用 – AFTモデルでG-estimation – うまく行かない理由 – 対処、結果とまとめ 111 14章の復習
  59. 管理的打切りに対応した手順 g-estimation手順で、 ( )を ( )に置き換える。 = exp ( )

    – は、-0.047(95%CI: -0.223, 0.333)と推定出来る。 exp − = 1.05 – 禁煙の生存時間中央値/非喫煙の生存時間中央値=1.05 – 禁煙は小さい効果と言えそう。 113 Technical Point 17.3やHernan(2005)に説明があります。
  60. Fine Point 17.1 Competing events 競合イベントが起ると主イベントが起りようがなくなる。 – Strokeが調査したいのに、他の原因で死亡してしまう等 – 非管理打切り

    打切りと考える場合 – 推定値は意味のあるestmandと対応しないかもしれない。解釈が難しい。 打切りと感がない場合 – 死亡者は、Stroke確率=0として残る… Compositeイベントとする場合 – もはや研究目的が違ってきている。 非死亡者に限定する場合 – 16章でもあるように、local average effectが目的になる。 115
  61. Fine Point 17.2 The hazards of hazard ratios HazardやHazard Ratioの問題点

    – Time-varyingな指標なのに、多くの報告では1つのHRしか報告 されない事が多い。 – 生存曲線が異なるのにHR=1にということすらあり得る。 – Time-specificに考えても、おかしな事が起りうる。 – この原因の1つにBuild-in Bias(第8章、Fig 17.3)の影響がある。 116
  62. Fine Point 17.3 Models for survival analysis Kaplan-Meierはノンパラメトリックなので、管理打切りによ るunobserved failure

    timeの分布には仮定がない。 パラメトリックモデルにはその分布に仮定がある (exponentialやWeible) CoxやAFTモデルでは、Failure timeやHazard(特にベースラ イン)には仮定がない。 比にパラメータによる分布の仮定がある。(セミパラメト リックの名の所以) 117
  63. Technical Point 17.1 Approximating the hazard ratio via a logistic

    model どのようにlogistic modelでhazard modelに近似するか? Discrete time hazard ratioを変形すると、hazardがlogistic modelで表現することが出来る。 – 変形は時点k+1におけるhazardが十分小さい(<0.1)ことが条件 – この条件はいつだって成り立たせることが出来る。 – 時間間隔を狭くすればよい。 118
  64. Technical Point 17.2 CFT and CST model 本文中では使わなかったモデル | ,

    | , = , ; | , | , = , ; Rare eventではAFTよりもアドバンテージがある。 詳細は、他の文献で。 119
  65. Technical Point 17.3 Artificial censoring = = ≥ 0 <

    0 T>Kの個人はΔ﴾ψ﴿=0になる、すなわちH(ψ﴿≧K(ψ﴿である。 T≦Kの個人もΔ﴾ψ﴿=0になるかもしれない。 Δ﴾Ψ﴿は、H﴾Ψ﴿とKの関数で、共変量Lで条件付けた時に治療Aとは条件付き で独立しています。 ∆﴾ψ﴿はH﴾ψ﴿ を置き換えて考えられる。 詳細は、Hernan(2005)にて。 120 赤字の所も一応説明出来そうな感じまで考えましたが、かなり時間を要するので割愛しています。Slack?