临床试验样本含量的计算
・’*/・中国中西医结合杂志,,年月第卷第期,・临床试验方法学・
临床试验样本含量的计算
刘建平
&样本量估计的重要性
临床试验报告中有无预先的样本量估计是评价试验质量的重要依据之一。在试验设计阶段需要确定研究所需的病例数(通常称为样本含量)。理论上,验证某一干预措施与对照之间的差异,样本量越大,试验结@样本量估计的方法
试验设计时怎样知道合适的样本大小呢?一般可以通过统计学方法估计样本量。根据试验的目的和测量结局指标的不同,计算方法也不同。对于优劣性临床试验(),其目的是A6"83983?83-#或3CD"83983?83-#5B?B?
果越接近于真值,即结果越可靠。但由于资源的限制和伦理的原因,临床试验的对象数量不可能做到无限大,而需要确定统计学显著性检验要求的最适样本大小。试验需要从研究对象(如患病人群)中选择具有代表性的合适样本,将符合纳入标准的病例在经过其本人的知情同意后进行分组。临床试验的样本量过小,无论试验结果是否存在差异,均不能排除因机遇(随机误差)因素造成的假阳性或假阴性错误;因而,小样本临床试验不能下肯定或否定的结论。目前国内发表的临床试验大多为小样本的试验。我们对中医药随机临床试验的评价中也发现大多数试验样本量都不大,且
极少有报道计算样本量的试验〔&〕。近&)多年来,
开始强调大样本临床试验的重要性,通常认为上千例的试验为大样本试验,国际上已出现了所谓的“兆级试验”=">
-1?83-#),即病例数超过万例的临床试验。如阿司匹林治疗心脏病的临床试验,样本量超过&)万例。大样本试验的优越性除了可靠地验证总疗效外,还有助于探讨亚组疗效,如药物在男性与女性、老年与青年、
轻型与重型等亚组病例中作用的差异〔@〕。有的药物综
合疗效虽不明显,但亚组分析可能发现其对某一特定患病人群有效。另外,大样本也有助于发现那些罕见的重要结局,如某药罕见的副作用。当然,并非所有的临床试验都需要大样本,尤其对于医疗资源十分有限的发展中国家。样本量过大,由于费用增加会造成资源浪费,有时会因患者持续接受较差的治疗如安慰剂对照而涉及伦理问题;此外,一些临床意义不大的微弱疗效最终也可能会出现统计学上的显著性差异,而这种差异是没有实际应用价值的。只有那些疗效差异既具有临床意义又有统计学显著性差异的结果才有应用价值。
英国利物浦大学热带医学院国际健康研究组,挪威国家另证医学研究中心
!"#:$%%&’&()’*&+’;,-.:$%%&’&()’**/%;012-3#:45#36!#37"8199#:-;:6
要验证试验干预与对照干预效果之间是否存在差异,通常是验证试验干预效果优于对照,如验证某一新药的疗效优于老药或安慰剂。对于等效性临床试验("1637-#"C;"?83-#),其目的是验证试验干预与对照之间效果相当,即差异不显著。通常见于不同的有效治疗如抗生素之间的比较,也用于比较同一种药物的不同剂型、不同给药途径的疗效。上述两种试验评价疗效的指标通常可分为两类:一类为计数(定性)指标,如死亡与存活,阳性与阴性,正常与异常;另一类为计量(定量)指标,如血压、血糖值、血清酶水平等实验室检测指标。有时临床试验评价的结局指标有多个,估计样本含量时需要选择其中最重要的结局指标。下面分别介绍两种试验的样本量计算方法。
@F&优劣性临床试验的样本量计算
例如,一临床试验拟验证某中药治疗慢性乙型肝炎的疗效优于安慰剂对照,属于优劣性试验,结局测量为计数指标如抗病毒作用和肝功能恢复正常。估计样本量之前研究者需要考虑*个要素:试验干预与对照干预效应差异的大小、对试验精确度的要求和试验对象的依从性。效应差异的大小需要研究者根据该药物前期的临床研究和临床的实际意义决定,如试验组生存率比对照组提高&)G就可认为有临床意义。临床试验的精确度也称为试验的把握度(59H"8)。在此需要掌握两个基本概念,即统计学上的"型错误和#型错误,前者又称为假阳性($)错误,后者又称为假阴性%)错误,把握度I&J%。对于计数指标的结局通常用四格表的形式来表示(见表&),即试验结果可能出现的%种情况。那么,
就此例来说计算样本量之前需要明确所用的疗效评价指标。如果想验证该中药的抗病毒作用,则可选择乙型肝炎病毒复制的指标,如
表!临床试验计数资料结局根据假设检验可能出现的结果
组间出现统计学组间存在的真实差异
上显著性差异
有无有
正确(&J%)"型错误($
)无
#型错误()正确(&J$
)E
((5
中国中西医结合杂志,,年月第卷第期,・’)5・
如果是了解中药的保肝作用,可选!"#$%的阴转率;择肝功能指标,如血清转氨酶或胆红素的复常。以抗病毒作用为例,通过查阅文献,我们知道慢性乙型肝炎在不治疗的情况下,每年血清!"#$%的自然阴转率为可作为安慰剂对照组的本底资料(有些情况下没&’(,
有安慰剂对照的资料时,可参照非特异性治疗,如维生素、肌苷、葡萄糖等作为对照的资料,即对照组的阴转率)。通过以往的文献报道或经过小样本的预试验,假设我们要验证的中药具有抗病毒作用,以!"#$%阴转率为指标,在原有基础上可提高&即使阴转率达’(,样本量的计算方法有所不同。例如,某试验用中药治疗糖尿病,观察对血糖水平的影响。同样我们需要知道几个本底资料,包括试验前患者的基础血糖水平(包括均值和标准差),假设根据以往资料或预试验,测得空腹血糖水平为+/(标准差为,),现采用-566789-&中药治疗,期望能将血糖水平降至2/-)66789。假设
〔〕4
,。计量指标的样本量公式如下:!.*-*’.*-&"
,(,),($)!.,#3:!"/&0,$
为基础空腹血糖值(本例$),为拟降+-5&&.,$$
),(本例#低的血糖水平(本例2-)#为标准差..到)*(。此外,我们还需要确定两个参数,一个是!值,它的含义是当试验结果呈阳性时,我们下结论犯错误(假阳性错误)的可能性。通常将!值控制在’(以内,使试验有+’(的可信性对一个阳性结果下肯定的结论;另一个参数是"值,它的意义为当试验结果呈阴性时,我们下结论犯错误(假阴性错误)的可能性,通常控制在&*(以内。研究人员也可以根据对试验结果的精确性要求不同来确定!值和"值,如要求精确度极高,则可能设定!值为&(,"值为’(;反之,如果要求的精度不高,则可设定!值为&*(,"值为,*(。本文选择中间值,即!值为’((*-*’),"值为&*(*-&
)。第三个要素是需估计试验中病人退出的比例。如试验治疗的时间(或治疗结束后随访的时间)较长,则病人退出或失访的可能性较大。但是按照国际惯例,当试验病例退出或失访超过病例总数的,*(时,试验结果将不可靠。假设本试验预计的病例退出率为*(。考虑了以上)个因素后,
可按以下公式计算样本含量〔)
〕。
!.("!/""),,
#(&0#)/(#&0#*),!为每一治疗组所需的样本量,
一般各组样本数应均等;"!、""为!、"
所对应的"值,当!为*-*’,"为*-&时,查正态分布分位数表得到:"!(*-*’).&-1’,"
(*-&).&-,2;#*和#&分别代表原有的疗效和预计可达到的疗效,本例为自然阴转率和预计中药可达到的阴转率,分别为&’$和)*$,#.(#&/#*)/,3**$。将上述参数和数值代入公式:
#.(#&/#*)/,3&**$.()*/&’)/,3**$.,,-’$
!.(&-1’/&-,2),3,3*-,,’(&0*-,,’)
/*-)0*-&’),.&))
即每组需&))例,两组共计,11例,加上&*(的
退出病例(约,1例),最后估计的试验样本量为,+,例,即每组约各需&41例。
对于试验评价的结局为计量资料的临床试验,万方数据其
$,,-&);:(!,"
)为一常数,根据不同的!和"值,可查表获得(见表,),当!.*-*’,".*-&为&*-’。代入公式得:
!.,(,-&),3&*-’/(+-502-)),.45
即每组需45例,两组共计+4例,
如考虑退出与失访&*((约&*例),则该试验所需样本总例数应为&*4例(每组各需’,例)
。有时很难得到基础均数和标准差,也可将计量资料转换为计数指标进行样本量计算。如假设安慰剂组血糖水平可平均降低’(,而中药组可降低,*(,!.*-*’,".*-&,则可用以上计数资料公式计算样本量。,-,等效性临床试验的样本量计算
如前所述,有的临床试验试图验证两种治疗方法之间差异无显著性。也就是说,即使存在差异,该差异也是在可接受的范围之内,且不具有统计学上的显著性意义。以下介绍等效性试验计数资料结局的样本量计算方法。例如,欲验证某中药治疗慢性乙型肝炎的抗病毒作用与西药干扰素的效应相当,试验以血清!"#$%阴转率作为评价指标。已知干扰素治疗慢性乙型肝炎!"#$%阴转率可达’*(,预计该中药的阴转效果不低于干扰素的’((+’(的可信性),要验证两者的!"#$%阴转效果相当,
可按以下公式计算试验所需样本量〔4〕:
!.,;3(&**0;)3:(!,"
)/
(本例为’*(),
)为5-+。代入公式,!.,3’*3(&**0’*)35-+/’,.&’2
表!用于样本量计算公式中的%(!,"
)值(%型错误)*-*’
*-&*-,*-’!(&型错误)*-&
&*-22-11-,,-5*-*’&)-*&*-’5-+)-2*-*,&’-2&)-*&*-*’-4*-*&
&5-2
&4-+
&&-5
1-1
(&"&&(
・"$#・中国中西医结合杂志,,年月第卷第期,即每组需要!两组共计$疗效差异"#例,!%例。可见,越接近,所需样本量将会越大。小样本的等效性试验如果没有样本量的预先估算,往往不能轻易下两者疗
〔〕"效无差异(即等效)的结论。等效性临床试验也可根
算得:
(((/〔〕!,(6+’!"!1*%.!1(#,!+*1$#!"’
即该试验每组所需样本量为!"’例哮喘患者。
样本量估计是任何一个前瞻性临床试验所必须的步骤,尤其是随机对照临床试验。没有样本量估计和报告试验把握度,临床试验结果很难让读者判断其真实性和可靠性。尤其是在小样本的临床试验,不能排除假阳性和假阴性错误,轻率地下肯定或否定的结论,推荐给临床医生或患者使用,或以此作为制定决策的依据,是不科学和不道德的。任何科学研究都是在前人研究基础上的延续。因此,如果没有广泛地查阅文献,了解试验领域国内外研究的现状,是不可能提出一个好的研究问题、作出一个严格的设计、形成一篇规范的试验报告,这样的研究缺乏创新性,属于低质量的重复,结果将不为人们所用或使用后造成误导,最终损害患者的利益,同时也造成有限医疗资源的浪费。
参
考
文
献
据预计治疗的成功率和临床等效性差异的可接受范
〔〕%
围,通过查表获得每组所需的样本量(见表$)。
表!等效性临床试验各组样本含量
期望的成功率
"’&%’&)’&#’&*’&#’&时的样本量
可接受的临床差异
"&
!()!")’(!’(
()(’!#!"’)()!)%%!$(’()!$+%!’’%())")"%%
!’&
()"(%$*$()"’"$))()++($$!()$$)("(()!*’!+(
!"&
()($+!)"()(("!%#()!*)!+#()!"’!!$()#"%+)内数据为把握度
!可信性水平为*注:把握度为*("&,’&;
等效性试验以定量指标为测量结局的样本量计算,通常采用可信区间的途径来评估等效性,即在多大的差异范围内可认为是“等效”的。从统计学意义上作结论可能发生两类错误:一类是两种治疗实际有明显差异,而我们得出等效的结论,即发生!型(假阳性)错误;另一类是当两种治疗实际为等效的,而我们却得出有差异的结论〔"型(假阴性)错误〕。因此,研究者需要从专业角度和临床意义上确定一个界值范围,超出这个范围则认为是不等效的。等效性试验计量资料结
〔〕)
局样本量计算(双侧检验)的计算公式如下:
林辉,刘理礼,等7病毒性肝炎治疗随机对照试验!刘建平,
华西医学!;()—文献方法学评价7***!+(8!(%!(#7(9:;?7@AB:5CDA4EEFDE45GHDADE45:5AC=5AFCG=J;:5KI:,?NA=34LDAC
,:$?:;
;—U:DA4:G;?H4
:,—?H4CHDEGD;P=H594
"O4DD5E:3
;—=J?
:GD;4:4EP@,DG:
(收稿:)(’’$-’$-(’
(((/〔((/)〕!,("!#!-").#!-(#
!代表每个治疗组的样本量;"表示均值的标准
差;($与试验组均值(#的差!表示对照组均值/)0)(),也就是研究人员认为可接受的差值$,"/-#0"#范围;常数#(!-")(!-’,常数#,#1’("),!1*%(/)(/)()。!-(,#!-’1((,#’1*,!1(##
例如:试验两种气雾吸入剂缓解哮喘发作的疗效是否相等。采用*(双侧检验)作为判断"&可信区间等效的允许变异范围。结局测量指标为晨间呼出气流峰值(2/)。根据以往的试验估计,/345!"2345为允许的差异范围(即正负值均不超过!,晨间呼"为等效)出气流峰值的标准差(为+/。该试验的把握")’2345度()为#则每组的样本量根据上述公式计!-%’&,・消
息・
一市(北京市)二省(福建省、广东省)中西医结合学会男科专业委员会成立
福建省、广东省中西医结合学会男科专业委员会成立,并举办了第一次学会会议,贾金铭、崔学教、张敏建(’’(年!(月北京市、教授分别当选为主任委员。
(郭
万方数据
军)