随访资料生存分析的统计学基础
随访资料生存分析的统计学基础
丁香园循证版周支瑞整理
传统的生存率计算方法
表1 某地1974—1981年胃癌根治术后随访记录
年份 1974 1975 1976 1977 1978 1979 1980 1981 合计 例数 29 26 24 32 25 36 25 46 243 生存年数
1
28 24 21 27 23 31 23 36 213
2
25 19 19 23 20 29 19 154
3
23 18 16 21 16 26
4
19 18 14 18 16
5
18 18 14 16
6
17 16 13
7
17 16
8
17
120
85
66
46
33
17
1974年~1981年共手术243例,1974年手术29例,术后1年内死亡1例,活满 1年的28例,到1982年末,活满8年的17例。以次类推。
观察满1年的243例,活满1年的213例:
213 100% 87.65% 1年生存率= 243
观察满2年的病例243 - 46 = 197例, 活满2年的共154例:
154 100% 78.17% 2年生存率= 197
6年生存率=58.23% 7年生存率=60.00%
8年生存率=58.62%
存在的问题
• 1.n年生存率有时出现后一年大于前一年的 现象。 • 2.某时点生存率不能反映整个生存过程,比 较时可能出现不正确的结论。
生存分析的概念:
分析生存资料的统计方法称为生存分析,
(survival analysis),它是将事件的结局和发
生这种结局所经历的时间两个因素综合起 来分析的一种统计方法。它能够处理截尾 数据,并对整个生存过程进行分析或比较
生存分析的应用:
1.临床治疗方案或处理措施的效果评价。如恶 性肿瘤手术或化疗后(转移或死亡前)生存时间、 肾移植术后生存时间、心脏起搏器的保留时间、 种植牙的保留时间等。
2.疾病危险因素分析和疾病预后的影响因素分析。
如肺癌发病危险因素分析、肾移植手术效果的影 响因素分析等。
3.特殊人群卫生保健措施的效果评价。如中老 年糖尿病预防效果评价、青少年控制吸烟的健康 教育干预试验效果评价、食管癌高发区干预措施 的效果评价、不同种类宫内节育器的节育效果评 价(宫内保留时间或有效避孕时间)、某疫苗接种 效果评价(观察抗体滴度了解免疫力持续时间或 某病发病率)等。
生存分析的几个概念:
一、终点事件
终点事件 (terminal event)又称失效事件(failure event) 或“死亡”事件(death event) ,泛指标志某种措施
失败或失效的事件,反映治疗效果特征的事件,是
根据研究目的确定的。如乳腺癌术后死亡、白血病 化疗后复发、肾移植术后的肾衰等,均可作为“死 亡”事件。
二、生存时间
生存时间(survival time)也是一个广义概念,泛 指所关心的某现象的持续时间,即随访观察持 续的时间,常用符号t表示。
表2. 6例乳腺癌患者术后随访记录
观察记录 患者 编号 1 2 3 4 5 6 开始日期 02-09-03 02-09-10 02-09-14 02-08-25 02-10-01 02-10-04 终止日期 02-12-29 02-12-08 02-12-31 02-11-29 02-11-28 02-12-28 结局 (死=1,生=0) 0 1 0 0 0 1 原因 死于
肺癌 转移死亡 研究终止 失 访 生存天数 t 118+ 90 108+ 96+ 59+ 86
死于车祸 复发死亡
生存时间分为两种类型:
1.完全数据(complete data):指从观察起点到
发生“死亡”事件所经历的时间。提供了观察
对象确切的生存时间。 2.截尾数据(censored data):亦称截尾值 (censored value)或终检值。指从观察起点到发 生非“死亡”事件所经历的时间。
截尾原因大致有三种情况:
1. 失访:未继续就诊、拒绝访问或搬迁而失去联系。 2. 死于与研究疾病无关的原因:由于其他原因死亡。 3. 研究终止:研究结束时终点事件尚未发生。
截尾数据不能提供完全的信息,真实的生存时间未知,只知道比观察
到的截尾时间长,常用符号“+”表示。
生存资料的特点:
1. 有生存结局、生存时间
2. 有不确定数据(截尾数据) 3. 分布呈指数分布、Weibull分布、对数正
态分布、对数logistic分布等
三、死亡概率
死亡概率(probability of death)表示单位时间段 开始存活的个体,在该段时间内死亡的可能性。 符号q表示。
某年内死亡人数 q 某年年初人口数
四、生存概率
生存概率(probability of survival)表示单位时间 段开始存活的个体,到该段时间结束时仍存活 的可能性。符号p表示。
某年活满一年人数 p 某年年初人口数
p 1 q
五、生存率
生存率(survival rate, survival function)表示观察 对象经历tk个单位时间段后仍存活的可能性。
0 S (t ) 1 。若无截尾数据,则
tk时刻仍存活的例数 S (tk ) P(T tk ) 观察总例数
若有截尾数据,须分时段计算生存概率。假 定观察对象在各个时段的生存事件独立,应用概 率乘法定理:
S (tk ) P(T tk ) p1. p2 ... pk
pi某时段的生存概率,故生存率又称累积生存概率 (cumulative probabilityof survival)。
第1年生存概率
0 1
第2年生存概率
2
第3年生存概率
3
1年生存率 2年生存率
3年生存率
图1 生存概率与生存率示意图
六、生存曲线
生存曲线(survival curve):生存时间为横轴, 将各时点所对应的生存率连接在一起的曲线图。
图2 生存曲线
生存分析主要内容:
统计描述:计算生存率、绘制生存率曲线、 计算中位生存时间等。 统计推断:估计总体生存率的可信区间、 生存率曲线的比较。
影响因素、预测
生存分析基本方法:
1. 非参数法: 特点是不论资料是什么样的分布类型,只根据样本提
供的顺序统计量对生存率进行估计,常用乘积极限法和寿命表法。
2. 参数法: 特点是假定生存时间服从于特定的参数分布,根据已知 分布的特点对影响生存的时间进行分析,常用指数分布法、 Weibull分布法、对数正态回归分析法和对数logistic回
归分析法。
3. 半参数法:介于参数法和非参数法之间,一般属多因素分析方法,
用于探讨生存过程的主要影响因素,其经典方法是Cox比例风险回 归模型。
随访研究的几个问题:
一、随访内容
1.开始随访的时间:入(出)院时间、确诊时间、 开始治疗时间等可作为随访开始的时间。如乳腺 癌的乳腺切除术后第一天或出院日、白血病化疗 后缓解出院日等,也可规定开始治疗日为随访开 始时间。
2.随访的结局和终止随访的时间
随访的结局可能有以下几种:
(1) “死亡”:泛指处理措施失败的事件。如肿瘤化 疗后的复发、肾移植因肾衰或与之有关的原因而 死亡等。终止随访时间为“死亡”时间。 (2) 失访:拒绝随访、失去联系或中途退出等。终 止随访时间为最后一次访问时间。
(3) 死于与研究疾病无关的原因:终止随访时 间为死亡时间。 (4) 研究终止。研究终止时观察对象仍然存活。 终止随访时间为研究终止时间。
3.影响生存的有关因素:如患者年龄、病情、 病程、术前健康等情况,以便分析这些因素对 生存率的影响。
二、随访方式
1.全部观察对象同时接受处理措施,观察到最后 一例出现结果或事先规定的随访截止时间。
7.0 6.0 5.0 4.0 3.0 2.0 1.0 0.0
+ + 36 99 160
0
30
60
90
120
150
180
图3 随访资料常见形式示意图
2.观察对象在不同时间接受处理措施,完成 一定数量随访病例或按事先规定的时间停止随访。
图4 随访资料常见形式示意图
生存率的估计与生存曲线:
一、乘积极限法
乘积极限法(product-limit estimate)又称KaplanMeier法,适用于未分组生存资料的分析。
例16-1 14例膀胱肿瘤
患者的生存时间(月)如下,试估计两组各时点生存率 及其标准误、各时点总体生存率的95%可信区间、中位生 存时间,并绘制生存曲线。
肿瘤
14 19 6 7
26 9
28 10
29 11
32 12
36 13
40 20
42 23
44+ 25
45 27
53 + 54 30 34
59 + 37 43 50
表3 肿瘤
生存时间 t
14 19 26 28 29 32 36 40 42 44 45 53 54 59
死亡数 dt
1 1 1 1 1 1 1 1 1 0 1 0 1 0
期初病例数 nt
14 13 12 11 10 9 8 7 6 5 4 3 2 1
截尾数 ct
0 0 0 0 0 0 0 0 0 1 0 1 0 1
死亡概率 qt
1/14=0.0714 1/13=0.0769 1/12=0.0833 1/11=0.0909 1/10=0.1000 1/9=0.1111 1/8=0.1250 1/7=0.1429 1/6=0.1667 0/5=0.0000 1/4=0.2500 0/3=0.0000 1/2=0.5000 0/1=0.0000
生存概率 pt
0.9286 0.9231 0.9167 0.9091 0.9000 0.8889 0.8750 0.8571 0.8333 1.0000 0.7500 1.0000 0.5000 1.0000
生存率 S ( t)
0.9268 0.8572 0.7858 0.7144 0.6429 0.5715 0.5001 0.4286 0.3571 0.3571 0.2678 0.2678 0.1339 0.1339
生存率标准误 SE[S(t)]
0.0688 0.0935 0.1097 0.1207 0.1281 0.1323 0.1336 0.1323 0.1281 0.1281 0.1233 0.1233 0.1130 0.113
0
生存率的计算
1.生存时间t:由小到大排列,遇非截尾和截尾值相 同,截尾值排后。 2.死亡数dt:与生存时间t对应。注意:截尾值对应的 个体未发生“死亡”事件,故死亡数为0。 3.期初病例数nt,表示恰好在该时刻以前的病例数。如
n29为10,表示恰好在29月时点前有10人存活。
4.死亡概率qt,表示t月前的观察对象恰好在t月时点 死亡的概率。
5.生存概率pt,表示t月前的观察对象恰好在t月时 点存活的概率。 6.生存率S(t)。表示该人群恰好活过t 时刻的概率。 它为小于和等于 t 时刻的各时点生存概率的乘积。 7.生存率的标准误SES(t) 。
1 S (t ) SE[ S (t )] S (t ) nt dt
总体生存率的可信区间
假定生存率近似服从正态分布,某时点总体生存率的(1-a)%可 信区间,公式为:
S (t ) u / 2 SE[S (t )]
本例28月总体生存率的95%可信区间:
0.7144 1.96 0.1207
即膀胱肿瘤
中位生存时间
由表3可见,中位生存时间估计在36月。 采用内插法计算:找到与生存率50%相邻的上下两个生存率及 其生 存时间利用线性比例关系求解中位生存时间。
若生存率0.5处所对应的曲线与X轴平行,则中位生存 一个。
时间不止
若各时间点生存率均大于50%,则无法估计中位生存时间。
死亡时点生存率, Kaplan-Meier法 生存曲线为阶梯形 曲线。 曲线 高度 &下 降坡 度
拐点的纵坐标值 在下一个台阶
图5 肿瘤
图6 肿瘤
二、寿命表法
适用于分组的生存资料。
① 实际工作中,随访结果常常没有每个观
察对象确切的生存时间,只能获得按随访 时间分组的资料。 ② 当样本较大(如n ≥ 50)时,采用乘积极 限法估计生存率及其标准误较为繁琐。
例16-2
收集374名某恶性肿瘤患者随访资料,取时间区
间均为1年,结果间下表,试估计生存率及其标准误,中 位生存时间,并绘制生存曲线。
表4 某恶性肿瘤患者随访资料
序号 确诊后年数 期内死亡数 期内截尾数 期初病例数
1 2 3 4 5 0~ 1~ 2~ 3~ 4~ 90 76 51 25 20 0 0 0 12 5 374 284 208 157 120
大样本、分 组(生存时 间粗略)、 截尾
6
7 8 9 10
5~
6~ 7~ 8~ 9~10
7
4 1 3 2
9
9 3 5 5
95
79 66 62 54
生存率的计算
1. 确诊后年数t~:“0~”表示从确诊日起不满一年, “1~”表示确诊后1年至不满2年,依次类推。 2.期内死亡数dt :指期内死于某恶性肿瘤的人数。 3.期内截尾数ct:泛指具有截尾数据的人,表示随 访已满t年,但在未满t+1月期间失访的人。 4.期
初观察例数n’t :指时刻t以前的人数。 5.期初有效例数nt :相当于实际观察人时数。在各 年年初观察人数中减去同年截尾数的一半。
6.死亡概率qt,指活满t年的病人在t+1年内 死亡的的概率。 7.生存概率pt,指活满t年的病人在t+1年 内存活的概率。 8.生存率S(t),表示活过t年的概率。它为小 于和等于 t 时刻的各时点生存概率的乘积。
9.生存率的标准误SES(t) 。
表5 寿命表法估计生存率计算表
确诊后年数 期内死亡数 t dt 0~ 1~ 2~ 3~ 4~ 5~ 6~ 7~ 8~ 9~10 90 76 51 25 20 7 4 1 3 2 期内截尾数 ct 0 0 0 12 5 9 9 3 5 5 期初病例数 期初有效例数 n’t nt 374 284 208 157 120 95 79 66 62 54 374.0 284.0 208.0 151.0 117.5 90.5 74.5 64.5 59.5 51.5 死亡概率 qt 90/374.0=0.2406 76/284.0=0.2676 51/208.0=0.452 25/151.0=0.1656 20/117.5=0.1702 7/90.5=0.0773 4/74.5=0.0537 1/64.5=0.0155 3/59.5=0.0504 2/51.5=0.0388 生存概率 pt 0.7594 0.7324 0.7548 0.8344 0.8298 0.9227 0.9463 0.9845 0.9496 0.9612 生存率 S(t) 0.7594 0.5562 0.4198 0.3503 0.2907 0.2682 0.2538 0.2499 0.2373 0.2281 生存率标准误 SE[S(t)] 0.0221 0.0257 0.0255 0.0248 0.0239 0.0235 0.0233 0.0233 0.0232 0.0232
折线形曲线,各 组段对应的生存 率在上限处
图解法
中位生存时间
每组内两个时点 生存率不相同, 不祥其变化规律。
图7
某恶性肿瘤生存曲线(寿命表法)
线性内插法
(2 3) : (2 t ) (0.5562 0.4198) : (0.5562 0.5)
(2 3)(0.5562 0.5) t 2 2.41 0.5562 0.4198
生存资料的基本要求:
(1) 样本由随机抽样方法获得,并应有足够的数量; (2) 死亡例数不能太少(≥30); (3) 截尾值比例不能太大; (4) 生存时间尽可能精确到天数,因为多数生存分析 方法都在生存时间排序的基础上作统计处理的,即 使是小小的舍入误差,也可能改变生存时间顺序而 影响结果。
生存曲线的比较:
例16-3 比较膀胱肿瘤
秩和检验?
log-rank检验
对数秩检验,非参数检验法,其零假设为两总体 生存曲线相同,但检验过程一般不估计生存率, 而利用死亡数和死亡率函数作统计推断。
基本思想:当H0成立时,根据t时点的死亡率, 计算出各组的理论死亡数,则检验统计量:
2
( Ag Tg ) Vg
2
Vg
2
ngi
ngi ni di (1 )( ) di ni ni ni 1
2
检验统计量 近似服从 (组数-1) 的 分布。
亦可用公式
(A T) T
2
2
2 2 检验统计量 近似服从 的 分布。 (组数-1)
例16-3 两条生存曲线比较步骤:
H0:两总体的生存曲线位置相同 H1:两总体的生存曲线位置不同 a =0.05 (1)将两组资料混合后统一按生存时间(t)排序: n1i、n2
i分别表示两组观察病例数,ni= n1i+n2i。
(2)分别列出各组在时间t的期初例数ngi 和dgi,两组
合计的期初例数ni和死亡例数 di。
(3)计算各组在时间t上的理论死亡Tgi:
Tgi
ngi di ni
各时间t上都对应一个四格表,以第一个6(月)为例:
表6 理论死亡数计算表(以第一个6月为例)
组别
肿瘤
死亡数 0
1 1
未死亡数 14
15 29
合计 14
16 30
(4)计算各组合计的实际死亡数和理论死亡
表7 肿瘤
序号 时间 肿瘤
( 1) 1 2 3 … 合计
n1i d1i (2) (3) (4) 6 7 9 14 14 14 0 0 0
—
—
11
17.5416
5.8064
—
16
9.4584
5.8064
—
27
(5)计算 统计量
2
肿瘤
2 (11 17.5416) 2 7.37 5.8064
肿瘤≥3.0cm:
(16 9.4584) 2 7.37 5.8064
2
1
查界值表,0.005
应用及注意事项
1. 相对死亡比(relative death ratio):实际死亡数A与理论死亡数T 之比,则相对危险度( relative risk , RR)估计值为两组相对死亡比 率之比。肿瘤
R1 A1 / T1 11/17.5416 RR 0.37 R2 A2 / T2 16 / 9.4584
即肿瘤
2. log-rank检验:用于整条生存曲线的比较,若比较两条生存曲 线某时点的生存率,如2年生存率,按下式
u
S1 (t ) S2 (t ) SE 2 [ S1 (t )] + SE 2 [ S 2 (t )]
例16-1数据,肿瘤
u
0.8572 0.4375 0.0935 + 0.1240
2 2
2.70
P
若比较多个时点生存率,检验水准应取Bonferroni校正,即 其中k为比较次数,以保证总的Ⅰ型错误概率不超过
。
/k
'
3. log-rank检验:单因素分析,应用条件是除比较因素外,影响生存率
的各混杂因素组间均衡可比,否则采用Cox比例风险回归模型。
由对数秩检验过程可知,若每一时点A组死亡率都高 一点(生存率低一点),则检验结果必然为A不同于B。 因此,在比较的两条生存率曲线无交叉时,直接用对 数秩检验是合适的。反之,就需进一步分析原因,了 解
是否存在混杂因素的影响。 对数秩检验也可用于三组生存曲线的比较。
COX比例风险模型
恶性肿瘤患者生存时间的长短,不仅与治 疗有关,还受病人的年龄、性别、病情、 心理、环境、社会等因素的影响,如果要 确切地显示治疗措施的效果,所有的病人 除了治疗措施不同以外,其他影响因素必
须相同(或相近), 但这在实际上是不可
能做到的。
因此,我们最好能采用多因素分析方法, 即分析包括治疗措施在内的可能因素对生存时 间长短的影响(大小和方向)。 但生存时间的分布往往不服从正态分布 (大多为正偏态分布),有时不知道它的分布 类型,又存在截尾数据(Censored data )这 样,就不能用多元线性回归方法来分析。而传 统的方法只能进行单因素分析,又不能利用截 尾数据(Censored data )。
1972年,英国统计学家 D. R. COX提出了 一种比例风险模型( Cox proportional
hazard model),简称COX模型。它可以分析多
种因素对生存时间的影响,而且允许有“截尾” 存在。是生存分析中最重要的模型之一。 COX模型主要用于肿瘤和其它慢性病的预后 因素分析,也可以用于一般的临床疗效评价和 队列的病因探索。
1. COX模型的基本结构 COX模型不直接考察生存时间与各自变量的 关系,而是用风险率作为因变量。COX模型的 基本结构为:
h(t , X ) h0 (t ) exp(1 X 1 + 2 X 2 + ... + m X m )
h(t,X):t时点上m个危险因素起作用时的风险 率,即在时间t上的死亡率; h0(t):某时间t上当m个危险因素为0时的基 准风险率; X=(X1, X2,…, Xm):与生存时间可能有关的自 变量; β=(β1, β2,…, βm):COX模型的回归系数。
βj与h(t,X)之间有如下关系: (1)βj>0,则Xj取值越大,h(t,X)的值越大,
表示病人死亡的风险率越大;
(2)βj=0,则Xj取值对h(t,X)无影响; (3)βj
h(t , X ) h0 (t ) exp(1 X 1 + 2 X 2 + ... + m X m )
h(t)和h0(t)成比例,比例系数是:
h(t , X ) / h0 (t ) exp(1 X 1 + 2 X 2 + ... + m X m )
故COX模型又称比例风险模型 将上式两边取自然对数,得:
ln[ h(t , X ) / h0 (t )] 1 X 1 + 2 X 2 + ... + m X m
此式与多元线性回归模型非常类似,故有人称COX模 型为COX 回归。 由此式可见βj的含义是: 在其他自变量不变前提下,自变量Xj改变一个单位, 引起的死亡风险改变的自然对数值。
h(t , X ) h0 (t ) exp(1 X 1 + 2 X 2 + ... + m X m )
上式可改写为
h(t , X ) h0 (t ) exp(1 X 1 ) exp( 2 X 2 )...exp( m X m )
相对危险度(RR)=expj(Xj2-Xj1) 如Xj为0-1数据,则: RR=expj RR含义:在其他自变量
保持不变前提下,自变量Xj 改变一个单位,死亡风险比原水平改变exp(j)倍。 RR是一个与时间无关的变量 。
h0(t)分布类型未作任何限定;但h(t)随变量 X的变化假定为指数函数exp(bX)。故COX模型 为半参数模型。而且h0(t)分布类型未作任何限 定,因而应用COX模型不必考虑资料的属于那 一种具体的分布。 故适用范围广泛,类似于非参数方法,但其
检验效率高于非参数模型,接近于参数模型。
h(t , X ) h0 (t ) exp(1 X 1 + 2 X 2 + ... + m X m )
2. Cox 回归模型的主要用途 (1)建立以多个危险因素估计生存或死亡的 风险模型,并由模型估计对多个危险因素导致 死亡的相对危险度(RR) (2)用已建立的模型,估计患病后随时间变 化的生存率 (3)用已建立的模型,估计患病后的危险指 数(或预后指数PI)。
3. Cox 回归模型的应用条件
(1)已知观察对象的生存时间; (2)已知观察对象在事先确定的观察时间内,其是 否发生某事件的结果;
(3)自变量可以是计量资料、计数资料或等级资料。 (4)等比例风险(PH)。指在协变量的不同状态, 病人的风险在不同的时间保持不变。如在研究的10 年中,糖尿病人心脏病发作的可能性是非糖尿病人 的3倍,无论在第1年,第2年…….等都如此。
等比例风险的验证: (1)按协变量分组的Kaplan-Meier生存曲线, 如生存曲线明显交叉,则不满足PH假定。
(2)将协变量与时间作为交互项引入模型,如 果交互项没有统计学意义,则等比例风险成立, 若有统计学意义,则不成立。
与时间有关的风险称为非比例风险,采用非
比例风险模型分析。
4. COX回归模型的构建方法
h(t , X ) / h0 (t ) exp(1 X 1 + 2 X 2 + ... + m X m )
构造偏似然函数,然后用最大似然法求出各 参数的估计值bj。须借助计算机完成。
5. COX回归分析的假设检验 (1) COX回归方程的检验
H0:β 1=β 2=…..=β p=0 H1: 各β j(j=1,2,…,p)不全为0
检验方法:
最大似然比检验(maximumLike-lihood Ratio)-常用
Wald检验 得分检验(Score)
(2) COX回归系数的检验
H0:β j=0 H1: β j(j=1,2,…,p) 0
检验方法:Wald检验 检验统计量为:X2=
bj s bj
j
2
bj为β j的估计值,Sbj为bj的标准误。 X2服从自由度=1的X2分布
6. COX回归分析的一般步骤 例:研究影响膀胱肿瘤患者生存的因素。
(1)收集资料
首先确定观察指标并将其数量化,表1(数量 化表),然后收集资料,表2(随访表)。 收集到资料后,建立数据文件。(用 SPSS或 Excel)
(2)因子初步筛选
A. 剔除缺失数据较多的因子。 B. 剔除变异几乎为零的因子。
C. 对所有的因子逐个作单因
素COX模型分
析,选择有统计意义的变量作多因素 COX模 型分析。此时的α 值可以取 稍 大些,如α =0.1 。
(3)拟合多因素模型
A. 规定检验水准α, 初步的探索性研究,
可取α=0.10 或α=0.15;严谨的、证实性研 究,取α=0.05 或α=0.01 。 B. 筛选因子方法: 前进法、 后退法、逐步法。
7. 结果解析与评价 ⑴ 模型在一定的检验水准α下,入选哪些因素?
⑵入选因素哪些是保护因素,哪些是危险因素?
⑶入选因素哪个对因变量影响(贡献)最大?
30例膀胱癌患者Cox回归分析结果
方程中的变量 B 1.680 1.078 .979 SE .382 .460 .460 Wald 19.385 5.493 4.525 df 1 1 1 Sig. .000 .019 .033 Exp(B) 5.367 2.939 2.662 95.0% CI 用于 Exp(B) 下限 上限 2.540 11.341 1.193 7.242 1.080 6.560
步骤 3
grade size relapse
采用前进逐步法,在α =0.05水准上,在所分析的4个因素 中,入选模型有3个因素:肿瘤分级、肿瘤大小和是否复 发为膀胱肿瘤患者独立的影响因素。三者回归系数均为正, 为膀胱肿瘤患者死亡的危险因素。
30例膀胱癌患者Cox回归分析结果
方程中的变量 B 1.680 1.078 .979 SE .382 .460 .460 Wald 19.385 5.493 4.525 df 1 1 1 Sig. .000 .019 .033 Exp(B) 5.367 2.939 2.662 95.0% CI 用于 Exp(B) 下限 上限 2.540 11.341 1.193 7.242 1.080 6.560
步骤 3
grade size relapse
grade 的RR=5.367,即肿瘤分级每增加一个 肿瘤大于等于3.0cm者,死亡风险是小于3者的 2.939倍;Relapse 的RR=2.662,即复发者死亡 风险是不复发者的2.662倍。
等级,死亡风险增加4.367倍;Size的RR=2.393,
30例膀胱癌患者Cox回归分析结果
方程中的变量 B 1.680 1.078 .979 SE .382 .460 .460 Wald 19.385 5.493 4.525 df 1 1 1 Sig. .000 .019 .033 Exp(B) 5.367 2.939 2.662 95.0% CI 用于 Exp(B) 下限 上限 2.540 11.341 1.193 7.242 1.080 6.560
步骤 3
grade size relapse
grade 、size、 relapse的标准差分别为:0.845、0.507、 0.509,其标准回归系数分别是:1.42、0.55、0.50。 从标准回归系数来看, grade对生存(或死亡)的影 响最大,其次是size,最后是replapse 。
标准回归系数的计算方法
A. 对原始变量的观察值作标准正态化变换后,
在拟合回归方程得到的回归系数,即为标准化回 归系数。 B. 直接用以下公式计算:
b' S b SE (b ' ) S SE (b)
式中,S为X的标准差, SE(b)为b的标准误。
COX回归分析结果评价小结 1、采用前进逐步法,在α=0.05水准上,从所分析
的4个因素中,筛选出3个与膀胱肿瘤患者生存有
关的因素:grade 、size、 relapse。 2、 grade 、size、 relapse都是危险因素。 3、 grade对膀胱肿瘤患者生存的影响最大,
relapse的影响最小。
例 原发性肝癌(PLC)危险因素分析。 拟研究乙型肝炎病毒与肝癌的关系,进行了前瞻 性队列研究。 3007名HBsA
g阳性者作为暴露组,另外 3007名 HBsAg阴性者作为非暴露组,随访4年,观察PLC发 生的情况。两个队列人群的性别构成和年龄一致。 结果暴露组有74人发生PLC,非暴露组有5人。
Va ria ble s i n t he Equ ati on B -.005 1.427 1.053 .086 .222 .901 .506 -.524 1.426 1.036 .903 .510 -.704 SE .358 .228 .241 .272 .282 .272 .081 .330 .227 .240 .272 .080 .256 Wald .000 39.167 19.052 .100 .623 10.951 39.367 2.517 39.383 18.654 10.994 40.286 7.548 df 1 1 1 1 1 1 1 1 1 1 1 1 1 Sig. .990 .000 .000 .751 .430 .001 .000 .113 .000 .000 .001 .000 .006 Exp(B) .995 4.165 2.867 1.090 1.249 2.462 1.658 .592 4.163 2.817 2.467 1.665 .495 95.0% CI for Exp(B) Lower Upper .494 2.007 2.664 6.510 1.787 4.602 .640 1.858 .719 2.170 1.444 4.198 1.416 1.942 .310 1.131 2.667 6.500 1.760 4.506 1.447 4.207 1.423 1.949 .299 .817
Step 1
Step 4
x4 x5 x6 x7 x8 DNA x2_1 sex x5 x6 DNA x2_1 sex
结果显示,肝癌的发生与:肝癌家族史(X5: 1有,0无)、主食(X6:1- 大米,2-玉米)、 HBV-DNA(1-阳性,0-阴性)、年龄、性别(1男, 2-女)有关。 有肝癌家族史、以玉米主食、HBV-DNA阳性、
年龄越大、男性,能增加肝癌的风险性。