$30 off During Our Annual Pro Sale. View Details »

Causal Survival Analysis(Causal inference: What if, Chapter 17)

Shuntaro Sato
November 25, 2020

Causal Survival Analysis(Causal inference: What if, Chapter 17)

Keywords: 因果推論, Survival Analysis(生存時間分析),Hazard(ハザード),Kaplan-Meier estimation,Logistic model,Censoring(打ち切り )

Shuntaro Sato

November 25, 2020
Tweet

More Decks by Shuntaro Sato

Other Decks in Science

Transcript

  1. Cat, and human attached glasses @sankyoh
    Causal Survival Analysis
    120 PAGES
    猫と人間が付属している眼鏡 @sankyoh
    17
    Causal Inference; what if

    View Slide

  2. 今日のセクション
    17.1 Hazard and risks
    17.2 From hazards to risks
    17.3 Why censoring matters
    17.4 IP weighting of marginal structural models
    17.5 The parametric g-formula
    17.6 G-estimation of structural nested models
    2
    11章の復習
    12章の復習
    13章の復習
    14章の復習

    View Slide

  3. 3

    View Slide

  4. 4

    View Slide

  5. イントロダクション
    関心のあるイベントが発生するまでの時間に対する治療
    効果(因果)を推定したい。
    この章では、Time-fixed treatmentをシンプルにした設
    定での生存分析の基本的なテクニックを概説する。
    Time-varyingについては、PartⅢにて。
    5
    シンプルとは…

    View Slide

  6. Note:
    本文では書いていませんが、(主に私の)混乱を避ける
    ために、資料では時間を(極力)使い分けます。
    時点
    – ある1つの時間の時点
    時間間隔
    – ある時点から別のある時点までの半閉区間
    6

    View Slide

  7. Note: 7
    time
    時点k 時点k+1 時点k+2 時点k+3
    時間間隔
    (k,k+1]
    時間間隔を半開区間(左開右閉)にしているのは、DkやCkの扱いを考えてのことです(後述)。

    View Slide

  8. 今日のセクション
    17.1 Hazard and risks
    17.2 From hazards to risks
    17.3 Why censoring matters
    17.4 IP weighting of marginal structural models
    17.5 The parametric g-formula
    17.6 G-estimation of structural nested models
    8

    View Slide

  9. Section 17.1 Hazard and Risk
    Pick up point
    – 管理的打切り administrative censoring
    – Survival, Risk, Hazardの違い
    9

    View Slide

  10. 17.1 Hazard and Risk
    禁煙の有無が死亡時点Tに与える影響について考える。
    死亡イベントは一部の対象者でのみ観察されません。
    Administrative end of follow-up;研究終了時点があり、そ
    の後の情報は入手出来ない。
    10
    超訳ですが、administrative end of follow-upを研究終了時点と訳します。脳内変換して下さい。

    View Slide

  11. 管理的な打切り
    研究終了時点以前にイベント発生していない対象者は、
    administrative censoring;管理的打切りになる。
    研究終了時点までは生きていたことはわかるけれど、ど
    のくらい長生きしたのか不明。
    管理的打切りが生存分析の本質的問題です。
    11

    View Slide

  12. その他の問題
    管理的打切り以外の打切りももちろんあるが、この章で
    は割愛し、管理的打切りに注目する。
    – loss to follow-up
    – competing events (Fine Point 17.1)
    これまでの章で説明した選択バイアスと同様に考えたり、
    (時間依存プロセスも考えるので)Part Ⅲで見ていく。
    12

    View Slide

  13. NHEFSデータ
    P:1982年に生きていた1629人の喫煙者(25歳~74歳)
    E:禁煙ありA=1
    C:禁煙なしA=0
    O:死亡までの時間T
    フォローアップ
    – 1983年1月1日~1992年12月31日
    管理的打切りまでの時間間隔
    – 観察開始時点~終了時点
    – 今回は、全員一緒に開始・終了するので、120ヶ月に固定
    13

    View Slide

  14. Section 17.1 Hazard and Risk
    Pick up point
    – 管理的打切り administrative censoring
    – Survival, Risk, Hazardの違い
    14

    View Slide

  15. Risk, survival, hazard
    死亡までの時間Tは1~120の値をとる。
    – T=1
    • 1ヶ月目に死亡
    • 死亡は (0,1] の時間間隔で発生
    TはA=1の102人、A=0の216人でわかる。
    – 要は10年の観察期間内に死亡した。
    15

    View Slide

  16. Risk, survival, hazard
    残りの1311人は、T>120だが値は不明。
    – 管理的打切りとなった。
    平均値 [ ] は計算不能
    代わりに、Risk, Survival, Hazardを計算する。
    16

    View Slide

  17. Survival
    時点kまで生きている人の割合
    プロットすると生存曲線を書く事ができます。
    – > 0 = 1
    – 単調減少する。
    17
    = >

    View Slide

  18. Risk
    時点k以前までに死んでいる人の割合
    プロットすると累積罹患曲線を書く事ができます。
    – ≤ 0 = 0
    – 単調増加する。
    18
    = ≤ = 1 − >

    View Slide

  19. Survival, Riskの治療レベル毎の比較
    生存分析では、いくつか or すべての時点kで治療レベル
    毎にSurvivalやRiskを比較するのが自然なアプローチです。
    NHEFSデータでは交換可能性が保持されていませんが、
    Section 17.4までは目をつぶります。
    19

    View Slide

  20. Figure 17.1 生存曲線の比較
    0.00 0.25 0.50 0.75 1.00
    0 12 24 36 48 60 72 84 96 108 120
    analysis time
    qsmk = 0 qsmk = 1
    Kaplan-Meier survival estimates
    20
    全ての時点kで
    > | = 1

    > | = 0
    を比較
    76.2% vs 82.0%

    View Slide

  21. Hazard; discrete time hazard
    時点k-1まで生きている人のうち、時点kで死んだ人の割合。
    単調増加や単調減少ではなく、増えたり減ったりする。
    離散的な時間の式
    – リアルな研究でも離散的にしか取得していない(年、月、日など)。
    21
    = = | > − 1
    連続的なhazardは本章では登場しません。なお、物理学によると時間は離散量らしいです。

    View Slide

  22. RiskとHazardの違い
    RiskとHazardは異なる指標
    =
    (0, ]
    =
    ( − 1, ]
    ( − 1)
    22
    変動しない
    単調減少
    単調増加
    変動

    View Slide

  23. 参考)Hazard curve 23
    NHEFSデータでは、
    ハザードはM型になる。
    .001 .0015 .002 .0025 .003
    Smoothed hazard function
    0 12 24 36 48 60 72 84 96 108 120
    analysis time
    qsmk=0 qsmk=1
    Cox proportional hazards regression

    View Slide

  24. RiskとHazardの違い
    Hazardを治療レベルで比べたものはHazard ratio。
    いろいろと問題があるので、RiskとSurvivalを使います。
    – ただ、Hazardは計算途中に使います。
    24
    Hazardの問題はFine Point 17.2にて。

    View Slide

  25. 今日のセクション
    17.1 Hazard and risks
    17.2 From hazards to risks
    17.3 Why censoring matters
    17.4 IP weighting of marginal structural models
    17.5 The parametric g-formula
    17.6 G-estimation of structural nested models
    25

    View Slide

  26. Section 17.2 From hazard to risks
    Pick up point
    – 2つのデータ形式
    – failure eventのDkの導入
    – HazardからRiskを計算
    • ノンパラメトリック
    • パラメトリック(ロジスティックモデル)
    26
    11章の復習

    View Slide

  27. データ配列
    Wide-type(1行-1人)
    NHEFSデータでは、1,629行
    27
    個人id 禁煙の有無 死亡した月
    1 0 15
    2 0 43
    3 1 45
    4 1 90

    View Slide

  28. データ配列
    Long-type(1行-1人時)
    NHEFSデータでは、176,764行
    この章の生存分析の多くはこの配列を使う。
    28
    個人id 時点k Dk+1
    Ck+1
    禁煙の有無
    1 0 0 0 0
    1 1 0 0 0
    … … … … …
    1 119 0 1 0
    2 0 0 0 1
    2 1 1 0 1
    3 0 0 0 1

    View Slide

  29. Section 17.2 From hazard to risks
    Pick up point
    – 2つのデータ形式
    – failure eventのDkの導入
    – HazardからRiskを計算
    • ノンパラメトリック
    • パラメトリック(ロジスティックモデル)
    29
    11章の復習

    View Slide

  30. Dk
    の導入
    いろいろ考えやすくするために、D
    kを導入する。
    =
    1 ≤
    0 >
    30

    View Slide

  31. Dkを用いたDAG
    D1がD2に与える影響のような
    DAGを作成することが出来る。
    なお、Part Ⅲでは、UもUkに
    なる。
    31

    View Slide

  32. データセット上のDk
    Long typeフォーマットでは、時点kの行にDk+1を含む。
    個人の最終行はk=119か、 Dk+1
    =1になっている。
    32
    個人id 時点k Dk+1
    Ck+1
    禁煙の有無
    1 0 0 0 0
    1 1 0 0 0
    … … … … …
    1 119 0 1 0
    2 0 0 0 1
    2 1 1 0 1
    3 0 0 0 1

    View Slide

  33. データセット上のDk
    id=1の人は、D120=0なので最後まで生存した。
    id=2の人は、D2=1なので、時間間隔(1,2]で死亡した。
    33
    個人id 時点k Dk+1
    Ck+1
    禁煙の有無
    1 0 0 0 0
    1 1 0 0 0
    … … … … …
    1 119 0 1 0
    2 0 0 0 1
    2 1 1 0 1
    3 0 0 0 1

    View Slide

  34. Dkを用いたRisk, Survival, Hazardの書き換え
    = = 0
    = = 1
    = = 1| = 0
    34
    この定義だとsurvival, riskはk=0,1,2,…,120ですが、hazardはk=1,2,…,120です。

    View Slide

  35. Section 17.2 From hazard to risks
    Pick up point
    – 2つのデータ形式
    – failure eventのDkの導入
    – HazardからRiskを計算
    • ノンパラメトリック
    • パラメトリック(ロジスティックモデル)
    35
    11章の復習

    View Slide

  36. HazardからSurvivalを算出する(式1)
    時点kのSurvivalは、時点k以前の(1-Hazard)の積と等しい。
    36
    = 0 = = 0| = 0
    (1-hazard)

    View Slide

  37. Hazardを用いたSurvivalの計算手順
    ノンパラメトリックにHazardを計算する。
    式1に代入する。
    ノンパラメトリックなSurvivalが算出される。
    これをKaplan-Meier estimatorと呼ぶ(Fig17.1)。
    37

    View Slide

  38. 推定が安定するための条件 38
    ある時間間隔でイベント数が十分に多ければ良いが、そ
    うでないととても不安定になる。
    – NHEFSデータでは、ある時間間隔(k,k+1]の死亡者数は2.65人
    – 死亡者ゼロの時間間隔もある。
    – とても不安定になっていそう。
    パラメトリックな手法によりスムージングが必要

    View Slide

  39. Section 17.2 From hazard to risks
    Pick up point
    – 2つのデータ形式
    – failure eventのDkの導入
    – HazardからRiskを計算
    • ノンパラメトリック
    • パラメトリック(ロジスティックモデル)
    39
    11章の復習

    View Slide

  40. パラメトリックにHazardを算出(式2)
    ロジスティックモデルを用いて、ハザードを算出する。
    40
    = 1| = 0, = ,
    + + × + ×
    ,
    = + +
    時間依存切片としているので、
    時間依存ハザードになる。
    Aとkの交互作用項があるので、
    時間依存ハザード比になる。
    ロジスティックモデルがハザードモデルに近似できているかは、Technical Point 17.1

    View Slide

  41. HazardからSurvivalを算出する(式1改変)
    時点k+1の治療aのSurvivalは、
    時点k+1以前の治療aの(1-Hazard)の積と等しい。
    41
    = 0| = = = 0| = 0, =
    パラメトリックに算出する
    p.212の式1ではDkだったが、本文p.213ではDk+1に変わっている。ここではk+1に合わせた。

    View Slide

  42. Figure 17.4 パラメトリックに導出した生存曲線 42
    Figure 17.1と異なり
    スムーズになっている。
    .5 .6 .7 .8 .9 1
    Survival probability
    0 12 24 36 48 60 72 84 96 108 120
    Months of follow-up
    A=0 A=1

    View Slide

  43. その他:パラメトリックに導出した生存曲線
    この方法が正しい条件:
    – No misspecification of the hazard model
    – 今回の例では、17.1と17.4でだいたい同じになったので、良
    かったのでは無いか。
    95%信頼区間を出す時には、個人をリサンプリング
    (ブートストラップ)してで出すことができる。
    43

    View Slide

  44. 今日のセクション
    17.1 Hazard and risks
    17.2 From hazards to risks
    17.3 Why censoring matters
    17.4 IP weighting of marginal structural models
    17.5 The parametric g-formula
    17.6 G-estimation of structural nested models
    44

    View Slide

  45. Section 17.3 Why censoring matters
    Pick up point
    – censoringのCkの導入
    – 打ち切りの問題
    – どのように対処するか
    45
    17.2の復習

    View Slide

  46. フォローアップ期間
    対象者が異なる日にフォローアップ開始するという状況
    を考える(観察終了日は同じ)。
    個人によって管理打切りまでの時間区間が異なる。
    46

    View Slide

  47. Ck
    の導入
    いろいろ考えやすくするために、C
    kを導入する。
    =
    1 ≥
    0 <
    47
    k
    endは”administrative end of follow-up”を示すとする。

    View Slide

  48. データセット上のCk
    人時フォーマットでは、個人iの時点kの行にCk+1を含める。
    NHEFSデータでは、C120
    =1になるのみ。
    他ではCk
    =0であるので、NHEFSデータでは使わない。
    48
    個人id 時点k Dk+1
    Ck+1
    禁煙の有無
    1 0 0 0 0
    1 1 0 0 0
    … … … … …
    1 119 0 1 0
    2 0 0 0 1
    … 1 1 0 1
    3 0 0 0 1

    View Slide

  49. 一般的なCk
    一般的には対象者の個々人で異なるタイミングで
    Ck
    =0からCk+1
    =1に変化する。
    49

    View Slide

  50. Section 17.3 Why censoring matters
    Pick up point
    – censoringのCkの導入
    – 打ち切りの問題
    – どのように対処するか
    50
    17.2の復習

    View Slide

  51. 目的としていること
    もし誰もkendよりも前に打切りがなかったとしたら、
    観察されるであろう生存曲線を推定する。
    51
    k
    endは、研究における管理打切り時点の最大値。NHEFSでは120。

    View Slide

  52. 目的としていること
    打ち切りが無かった時の = | = の推定
    – 打切り後のDkも分かれば、計算出来る。
    これは反事実アウトカム = | = で表現可能
    – なお、 ̅ = , , … ,
    52
    混乱が生じない場合、C=0は省略します。

    View Slide

  53. 目的としていること
    簡潔にするために、フォローアップ開始時点は、ランダ
    ムのようになっていて、変数とのトレンドを持たないよ
    うな場合を考えます。
    つまり、管理的打切り(つまり、C)は A や T と独立。
    53

    View Slide

  54. 割合を計算するだけでは目的を達成できない
    普通の計算だけでは = | = が算出出来ない。
    算出できるのは = , = | = である。
    – これはゴールではない。
    54
    kがk+1になっていますが、本文準拠です。なぜ、k+1に書き換えられたんだろう…

    View Slide

  55. どういう事かk=2で確認する
    1. = 0 = 1
    – k=1では誰も脱落しない
    2. = 0| = 0 = 0.9
    – k=1で90%が生存
    3. = 0| = 0, = 0 = 0.5
    – k=2で生存者の50%がランダムに脱落
    4. = 0| = 0, = 0, = 0 = 0.9
    – k=2で残りの90%が生存
    55
    Pr[C
    0
    =0]=1は自明とする。

    View Slide

  56. この状況下では
    = , = = × . × . × . = .
    しかし、 = 0| = 0, = 0 =1になったとする。
    – = , = = × . × × . = .
    – 脱落によって容易に値が変化する。
    ではどうするか…?
    56

    View Slide

  57. Section 17.3 Why censoring matters
    Pick up point
    – censoringのCkの導入
    – 打ち切りの問題
    – どのように対処するか
    57
    17.2の復習

    View Slide

  58. そこでこの式を使う(式1改変2)
    (1-Hazard)の条件部分に「Cm=0」を加えた点が異なる。
    打切りがランダム(DやAと独立)ならばこの式で算出可能
    58
    = | = = = 0| = 0, = , =
    本文中では、for kendとなっていますが、k
    end
    =120とするなら、for k≦k
    endが良いように思います。

    View Slide

  59. ランダム打切りでは無い場合
    個人の管理打切りがカレンダータイムに依存する場合
    – カレンダータイムはアウトカムと関連するかもしれない。
    – ベースラインのカレンダータイムを調整する必要がある。
    交換可能性がない場合
    – 次のセクションで説明する
    – Part Ⅲでは、time-varyingに拡張する。
    59

    View Slide

  60. 今日のセクション
    17.1 Hazard and risks
    17.2 From hazards to risks
    17.3 Why censoring matters
    17.4 IP weighting of marginal structural models
    17.5 The parametric g-formula
    17.6 G-estimation of structural nested models
    60

    View Slide

  61. 17.4 IP weighting of marginal structural models
    Pick up point
    – 交換可能性がなさそう
    – 重みの計算 SWA
    – 時間依存ハザードの計算
    – 結果と妥当性
    61
    12章の復習

    View Slide

  62. 交換可能性が保持されていない
    年齢などが交絡となっているので、対応する。
    打切りなしの反事実の時間依存指標を導入する。
    , ̅ =
    – ̅ = 0で考えるのは(この章では)自明なので省略
    62

    View Slide

  63. 交換可能性が保持されていない
    交絡により赤と青が等しくない。
    交絡の調整により、赤を推定する必要がある。
    63
    = =
    本文中では、for k=0,2,…k
    end
    -1なっていますが、k=1が抜けているようです。
    = | = = | =

    View Slide

  64. 想定するDAG
    このDAGであると仮定する。
    Lで条件付けると交換可能。
    64
    64

    View Slide

  65. 17.4 IP weighting of marginal structural models
    Pick up point
    – 交換可能性がなさそう
    – 重みの計算 SWA
    – 時間依存ハザードの計算
    – 結果と妥当性
    65
    12章の復習

    View Slide

  66. 重みの計算
    ここではStabilized weightを使う(12章資料:19枚目)
    Treated
    =
    = 1
    = 1|
    Untreated
    =
    1 − = 1
    1 − = 1|
    66

    View Slide

  67. 重みの計算:復習
    なぜ通常の重みではなく、Stabilized weightを使うのか?
    – 12章資料:23枚目参照
    – Unsaturatedの場合、Confidence IntervalがNarrowになる。
    – Time-varying treatmentやContinuous treatmentなどでは、全て
    のバリエーションをモデルに加えることは現実的ではない
    67

    View Slide

  68. 重みの計算
    Time-fixed confounderを考えている。
    – Long-typeのデータでは、重み計算はk=1の行だけを使う。
    – Time-varying confounderについては、Part Ⅲで。
    68

    View Slide

  69. 17.4 IP weighting of marginal structural models
    Pick up point
    – 交換可能性がなさそう
    – 重みの計算 SWA
    – 時間依存ハザードの計算
    – 結果と妥当性
    69
    12章の復習

    View Slide

  70. Time varying hazardの計算
    この式を、SWAで重み付けて計算する。
    人時フォーマットで計算するが、個人の複数回測定なので、
    クラスタになっている事に注意。
    70
    = | = = ,
    + + × + ×
    logit event qsmk qsmk#c.time qsmk#c.time#c.time c.time c.time#c.time [pweight=sw] , cluster(seqn)
    Stataだとこのオプションが必要
    ,
    = + +
    時間依存切片としているので、
    時間依存ハザードになる。
    Aとkの交互作用項があるので、
    時間依存ハザード比になる。

    View Slide

  71. 最後にこの式を使う(式1改変3)
    Dを潜在アウトカムにした点がオリジナルの式1と異なる。
    この結果を用いて、生存曲線を描ける。
    71
    = = = | =

    View Slide

  72. 17.4 IP weighting of marginal structural models
    Pick up point
    – 交換可能性がなさそう
    – 重みの計算 SWA
    – 時間依存ハザードの計算
    – 結果と妥当性
    72
    12章の復習

    View Slide

  73. Figure 17.6 IPWを使った生存曲線 73
    ほとんどのkで
    A=1が負けているが、
    最後で微妙に逆転
    80.7% vs 80.5%
    +0.2% (95%CI: -4.1%, 3.7%)
    .5 .6 .7 .8 .9 1
    Survival probability
    0 12 24 36 48 60 72 84 96 108 120
    Months of follow-up
    A=0 A=1
    bootstrapで信頼区間を作っているので、乱数によって異なる。ここでは本文の数字を提示。

    View Slide

  74. この方法が妥当である条件
    いつもの
    – exchangeability, consistency, positivity
    Treatment modelがno misspecification
    – 重みの計算
    marginal hazard modelがno misspecification
    – logitを使ったハザードの計算
    74

    View Slide

  75. 今日のセクション
    17.1 Hazard and risks
    17.2 From hazards to risks
    17.3 Why censoring matters
    17.4 IP weighting of marginal structural models
    17.5 The parametric g-formula
    17.6 G-estimation of structural nested models
    75

    View Slide

  76. 17.5 The parametric g-formula
    Pick up point
    – parametric g-formulaの式
    – conditional hazardの計算
    – 4つの手順をとる
    – 結果と解釈
    76
    13章の復習

    View Slide

  77. parametric g-formula
    次は、parametric g-formulaでもやってみる。
    See also section 13.3 (13章資料:18~31枚目)
    77

    View Slide

  78. この式を使う(Sec2.3やSec13.3の改変)
    共変量と治療レベルのレベル内での条件付きSurvivalの加重
    平均であり、Lの各レベルlの個体の割合を重みとする。
    この結果が、Survivalになるので、生存曲線を描ける。
    78
    = = = | = , = =
    13章資料:19枚目と同様

    View Slide

  79. 17.5 The parametric g-formula
    Pick up point
    – parametric g-formulaの式
    – conditional hazardの計算
    – 4つの手順をとる
    – 結果と解釈
    79
    13章の復習

    View Slide

  80. conditional hazardの計算(Sec17.2改変)
    ロジスティックモデルを用いて、治療レベルと交絡で条
    件付けたhazardを算出する。
    80
    = | = , = , = = ,
    + + × + × + ×
    Lは1つの変数ではないので、ベクトルということで。
    これを追加
    これを追加

    View Slide

  81. conditional survivalの計算
    conditional hazardを使って、共変量と治療レベルのレ
    ベル内の条件付きSurvivalを算出する。
    81
    = | = , = = = | = , = , =

    View Slide

  82. conditional survivalの計算
    Lで条件付けると交換可能性が成立しているので成り立つ。
    しかし、conditional survivalは分かったが、ゴールではない。
    82
    = | = , = = = 0| =

    View Slide

  83. 17.5 The parametric g-formula
    Pick up point
    – parametric g-formulaの式
    – conditional hazardの計算
    – 4つの手順をとる
    – 結果と解釈
    83
    13章の復習

    View Slide

  84. この式を使う(Sec2.3やSec13.3の改変)
    共変量と治療レベルのレベル内での条件付きSurvivalの加重
    平均であり、Lの各レベルlの個体の割合を重みとする。
    この結果が、Survivalになるので、生存曲線を描ける。
    84
    = = = | = , = =
    13章資料:19枚目と同様

    View Slide

  85. 4つの手順をとって、standardize mean算出
    より詳細な手順(13章資料:17~31枚目)
    1. データセットの拡張
    2. モデリング
    3. 予想
    4. 平均によるStandardization
    85

    View Slide

  86. 17.5 The parametric g-formula
    Pick up point
    – parametric g-formulaの式
    – conditional hazardの計算
    – 4つの手順をとる
    – 結果と解釈
    86
    13章の復習

    View Slide

  87. Figure 17.7 g-formulaを使った生存曲線 87
    ほとんどのkで
    A=1が負けている。
    最後も僅差で負け
    80.4% vs 80.6%
    +0.2% (95%CI: -4.6%, 4.1%)
    bootstrapで信頼区間を作っているので、乱数によって異なる。ここでは本文の数字を提示。
    .5 .6 .7 .8 .9 1
    Survival probability
    0 12 24 36 48 60 72 84 96 108 120
    Months of follow-up
    A=0 A=1

    View Slide

  88. IPWとg-formulaどちらが良いか?
    IPWもg-formulaも似た結果にはなるが、前提が違うので、
    同じ結果にはならない。
    IPW
    – Treatment modelとunconditional hazardがno misspecification
    g-formula
    – Conditional hazardがno misspecification
    88
    13章資料:34~37枚目も参照ください。

    View Slide

  89. 今日のセクション
    17.1 Hazard and risks
    17.2 From hazards to risks
    17.3 Why censoring matters
    17.4 IP weighting of marginal structural models
    17.5 The parametric g-formula
    17.6 G-estimation of structural nested models
    89

    View Slide

  90. 17.6 G-estimation of structural nested models
    Pick up point
    – G-estimationの生存分析への応用
    – AFTモデルでG-estimation
    – うまく行かない理由
    – 対処、結果とまとめ
    90
    14章の復習

    View Slide

  91. G-estimation of structural nested modelの復習
    Effect modificationなし
    – − | =
    Effect modificationあり
    – − | = +
    の部分のモデル化をしない。
    – パラメータが少ない=誤リスク小。
    91
    14章資料:11枚目も参照ください。

    View Slide

  92. Survival analysisでの応用
    = 0 のようなコンポーネントのモデル化をしない。
    G-estimationを用いて生存率やハザードを推定すること
    はできない。
    92

    View Slide

  93. Survival analysisでの応用
    Structural nested cumulative failure time models
    – failureがレアだとよい。
    Structural nested cumulative survival time models
    – survivalがレアだとよい。
    Structural nested acerated failure time (AFT) model
    – より一般的な選択肢として
    93

    View Slide

  94. 17.6 G-estimation of structural nested models
    Pick up point
    – G-estimationの生存分析への応用
    – AFTモデルでG-estimation
    – うまく行かない理由
    – 対処、結果とまとめ
    94
    14章の復習

    View Slide

  95. Taや生存時間比を導入
    – 個人 i が治療aを受けた反事実の生存時間
    /
    – 個人 i の生存時間比。1より大きいと治療が生存時間を延ばす。
    95

    View Slide

  96. AFTモデル
    ψ1<0なら治療は生存時間を延ばす。
    ψ1>0なら治療は生存時間を縮める。
    右側は、effect modificationがある時に一般化したもの。
    治療の効果が母集団のすべての個体で同じであると仮定する。
    96
    = exp (− ) = exp (− − )

    View Slide

  97. AFTモデル
    さっきのAFTモデルを変形した。
    Consistencyを仮定して、2番目の式に変形した。
    – 反事実アウトカム を実際の生存時間 = で置き換えた。
    ψ1とψ2を管理的打切りを考慮してg-estimationで推定する。
    97
    = exp ( + )
    14章資料:13枚目に類似
    = exp ( + )

    View Slide

  98. 非現実的な点
    structural AFTモデルは下記の2点で非現実的
    – 決定論的である
    – rank-preserving modelである。
    98

    View Slide

  99. 決定論的とは
    Ta=0が、測定されたT、A、Lの関数としてエラーなく計算
    できることを仮定している。
    99
    = exp ( + )
    このunrealisticとは、どう折り合いを付ければ良いのか…

    View Slide

  100. Rank preserving modelとは
    ランクが保持されているという仮定
    非現実的だが、考えやすい。
    G-estimationで求める時はnon-rank preservationと同じな
    ので、考えやすいこちらを使った方が得。
    100
    Section14.4(つまり、14章資料:12枚目)も参照ください。

    View Slide

  101. よりシンプルにAFTモデルを考える
    rank-preservingでLiはない事にした。
    管理的打切りが無ければ、理解しやすい。
    Section14.5の方法と同じ方法でよい。
    101
    = exp ( )
    Section14.5(つまり、14章資料:13~16枚目)も参照ください。

    View Slide

  102. よりシンプルにAFTモデルを考える
    Step1:因果パラメータψのとりうる値ψ†から候補となる
    H(ψ†)を計算する。
    102
    = exp ( )
    Section14.5(つまり、14章資料:13~16枚目)も参照ください。
    Ta=0の候補 = exp ( )

    View Slide

  103. よりシンプルにAFTモデルを考える
    Step2:共変量としてHi﴾ψ†﴿と交絡因子Lを持つA = 1の確率
    のロジスティックモデルにおいて、治療Aに依存しないHi﴾ψ†﴿
    をもたらす値ψ†を見つける(つまり、α1=0)。
    このようなψ†はψのg推定値になります。
    そのために、全検索する(machine powerで殴る)。
    103
    Section14.5(つまり、14章資料:13枚目)も参照ください。
    Ta=0の候補 = exp ( )
    = 1| , = + +

    View Slide

  104. 17.6 G-estimation of structural nested models
    Pick up point
    – G-estimationの生存分析への応用
    – AFTモデルでG-estimation
    – うまく行かない理由
    – 対処、結果とまとめ
    104
    14章の復習

    View Slide

  105. machine powerで殴れない
    管理的打切りのため上手くいかない。
    105

    View Slide

  106. 管理的打ち切りによる問題
    管理的打切り時点Kを越えていると、Tiは不明である。
    そのため、上の式は計算できない。
    Ti≦Kで計算したくなるが、選択バイアスを生じる。
    106
    = exp ( )
    = exp ( )

    View Slide

  107. 選択バイアスの例
    Type 1 Type 2 Type 3
    Ta=0 36 72 108
    Ta=1 24 48 72
    107
    無作為割付けしたとする。
    Typeは治療群間で交換可能性あり。

    View Slide

  108. 選択バイアスの例
    Type 1 Type 2 Type 3
    Ta=0 36 72 108
    Ta=1 24 48 72
    108
    K=60として、T≦Kだけを選択する。
    赤字のみになり、交換可能性がない。

    View Slide

  109. 選択バイアスの例の回避1
    Type 1 Type 2 Type 3
    Ta=0 24 48 72
    Ta=1 24 48 72
    109
    K=60として、T≦Kだけを選択する。
    治療効果がnullだったら大丈夫

    View Slide

  110. 選択バイアスの例の回避2
    Type 1 Type 2 Type 3
    Ta=0 36 72 108
    Ta=1 24 48 72
    110
    K=60として、T≦Kだけを選択するのではない。
    Ta=0≦KかつTa=1≦Kの個人だけを選択する。
    Type2は打ち切られる(Artificial censoring)

    View Slide

  111. 17.6 G-estimation of structural nested models
    Pick up point
    – G-estimationの生存分析への応用
    – AFTモデルでG-estimation
    – うまく行かない理由
    – 対処、結果とまとめ
    111
    14章の復習

    View Slide

  112. 対応方法としてΔ(ψ)を導入
    Δ﴾ψ﴿を次のように定義する。
    Δ =
    0
    1
    112
    Technical Point 17.3やHernan(2005)に説明があります。

    View Slide

  113. 管理的打切りに対応した手順
    g-estimation手順で、 ( )を ( )に置き換える。
    = exp ( )
    – は、-0.047(95%CI: -0.223, 0.333)と推定出来る。
    exp − = 1.05
    – 禁煙の生存時間中央値/非喫煙の生存時間中央値=1.05
    – 禁煙は小さい効果と言えそう。
    113
    Technical Point 17.3やHernan(2005)に説明があります。

    View Slide

  114. まとめ
    AFTを含むstructural nested modelは使われていません。
    – 親切なソフトがない。
    – ψをサーチしても唯一解が見つかる保証が無い。
    – ψが増えるとますます見つかる保証が無い。
    • ψが増えないように、Lを右辺に含まないようなモデルになりがち。
    114

    View Slide

  115. Fine Point 17.1 Competing events
    競合イベントが起ると主イベントが起りようがなくなる。
    – Strokeが調査したいのに、他の原因で死亡してしまう等
    – 非管理打切り
    打切りと考える場合
    – 推定値は意味のあるestmandと対応しないかもしれない。解釈が難しい。
    打切りと感がない場合
    – 死亡者は、Stroke確率=0として残る…
    Compositeイベントとする場合
    – もはや研究目的が違ってきている。
    非死亡者に限定する場合
    – 16章でもあるように、local average effectが目的になる。
    115

    View Slide

  116. Fine Point 17.2 The hazards of hazard ratios
    HazardやHazard Ratioの問題点
    – Time-varyingな指標なのに、多くの報告では1つのHRしか報告
    されない事が多い。
    – 生存曲線が異なるのにHR=1にということすらあり得る。
    – Time-specificに考えても、おかしな事が起りうる。
    – この原因の1つにBuild-in Bias(第8章、Fig 17.3)の影響がある。
    116

    View Slide

  117. Fine Point 17.3 Models for survival analysis
    Kaplan-Meierはノンパラメトリックなので、管理打切りによ
    るunobserved failure timeの分布には仮定がない。
    パラメトリックモデルにはその分布に仮定がある
    (exponentialやWeible)
    CoxやAFTモデルでは、Failure timeやHazard(特にベースラ
    イン)には仮定がない。
    比にパラメータによる分布の仮定がある。(セミパラメト
    リックの名の所以)
    117

    View Slide

  118. Technical Point 17.1 Approximating the hazard ratio via a logistic model
    どのようにlogistic modelでhazard modelに近似するか?
    Discrete time hazard ratioを変形すると、hazardがlogistic
    modelで表現することが出来る。
    – 変形は時点k+1におけるhazardが十分小さい(<0.1)ことが条件
    – この条件はいつだって成り立たせることが出来る。
    – 時間間隔を狭くすればよい。
    118

    View Slide

  119. Technical Point 17.2 CFT and CST model
    本文中では使わなかったモデル
    | ,
    | ,
    = , ;
    | ,
    | ,
    = , ;
    Rare eventではAFTよりもアドバンテージがある。
    詳細は、他の文献で。
    119

    View Slide

  120. Technical Point 17.3 Artificial censoring
    = =
    ≥ 0
    < 0
    T>Kの個人はΔ﴾ψ﴿=0になる、すなわちH(ψ﴿≧K(ψ﴿である。
    T≦Kの個人もΔ﴾ψ﴿=0になるかもしれない。
    Δ﴾Ψ﴿は、H﴾Ψ﴿とKの関数で、共変量Lで条件付けた時に治療Aとは条件付き
    で独立しています。
    ∆﴾ψ﴿はH﴾ψ﴿ を置き換えて考えられる。
    詳細は、Hernan(2005)にて。
    120
    赤字の所も一応説明出来そうな感じまで考えましたが、かなり時間を要するので割愛しています。Slack?

    View Slide