生存分析速览
生存分析(survivalanalysis)是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法。不仅考虑事件是否出现,而且也考虑事件出现的时间长短,因此该类方法也被称之为事件时间分析(time-lo-event analysis)。生存分析起源于医学与生物科学。
为什么不用直接比较样本生存时间,如中值或中位数?
数据会缺失,可操作性比较差。
三种分析:
(1)描述分析:根据样本生存资料估计总体生存率或者是其他有关指标常用的就是K-M生存曲线
K-M生成分析
(2)比较分析
对不同组生存率进行比较分析常采用log-rank检验和Breslow检验。
(3)影响因素分析
通过生存分析模型来探讨影响生存时间的因素,常见的COX比例风险模型就是这种影响因素分析。
(一些)重要概念
生存函数(survivor function):
定义为$S_Y(y)=P(Y>y)=1-F_Y(y)$,即表示某样本的生存时间大于时刻 y 的概率。
风险函数(hazard function):
定义为$h_Y(y)=\frac{f_Y(y)}{S_Y(y)}$,可理解为到时刻y 时存活下来的个体在此后一个无限小的时间区间$[y+\Delta y]$ 内结局事件(失效、死亡)发生的概率。
$$
h_{Y}\left(y\right)=\frac{f_{Y}(y)}{S_{Y}(y)}=\frac{f_{Y}(y)}{1-F_{Y}(y)}
\ =-\frac{\partial}{\partial y}log\left[1-F_{Y}\left(y\right)\right]
\ =-\frac{\partial}{\partial y}log\left[S_{Y}\left(y\right)\right].
$$
故$S_Y(y)=exp[-\int_0^y h_Y(t)dt]$,其中令$H_Y(t)=\int_0^y h_Y(t)dt$,称为累计风险函数,也算是一种度量指标。
KM曲线
Cox模型
$$h(t)=h_0(t)\times exp(b_1x_1+b_2x_2+\ldots+b_px_p)$$
x为具有预测效应的多个变量(协变量),h0(t) 是基准风险函数
Cox需满足的前提:
1 |
|
我们也可以通过KM曲线来判断。若两条生存曲线最后交叉,这说明PH条件不成立。
Nelson-Aalen 累计风险函数图
其与与以KM估计式为基础的估计式相比,具有更好的小样本性质,由Nelson提出然后Aalen加以改进。
使用以下估计:
$\tilde{H}(t)=\sum_{t_i\leq t}\frac{d_i}{n_i}$
$\tilde{S}(t)=exp[-\tilde{H}(t)]$
WeibullAFTFitter模型
有$\lambda(x)=\exp\left(\beta_{0}+\beta_{1}x_{1}+\ldots+\beta_{n}x_{n}\right)$和$\rho(y)=\exp{(\alpha_{0}+\alpha_{1}y_{1}+\ldots+\alpha_{m}y_{m})}$
则
$S(t;x,y)=\exp\left(-\left(\frac{t}{\lambda(x)}\right)^{\rho(y)}\right)$
$H(t;x,y)=\left(\frac t{\lambda(x)}\right)^{\rho(y)}$