临床研究证据分级及评价
・247・
・继续教育园地・
临床研究证据分级及评价
杨兴华 詹思延
[中图分类号]R4 [文献标识码]C [文章编号]167424055(2009) 0420247204
循证医学强调证据, 要求研究者尽可能提供高质量的临床研究证据, 而临床医生则应当充分应用当前最可靠的临床研究证据, 结合临床经验和患者的选择进行诊疗决策。心血管病内科领域是循证医学研究和实践的典范, 一系列大规模随机对照临床试验为循证医学提供了证据, 大大提高了心血管病
[1]
临床治疗水平。上一讲我们介绍了最佳证据, 尤
[2]
其心血管领域最佳证据的网上资源, 本讲旨在介绍临床研究证据分级及其质量评价的原则。
一、研究证据是如何分类的?
要, 方法分类, 据; 按照研究问题又可分为病因、诊断、预防、治疗和预后的临床研究证据; 按证据用户归类, 则有系统评价、临床实践指南、临床决策分析、临床证据手册、卫
[3]
生技术评估和健康教育资料等。
1. 原始研究证据:是直接在患者中进行的有关病因、诊断、预防、治疗和预后等研究所获得的第一手研究结果, 主要包括临床试验、队列研究、病例对照研究、横断面研究、病例系列研究及病例报告等。
随机对照试验采用随机分配方法, 将符合要求的患者随机分配到试验组和对照组, 实施干预后, 通过随访观察两组的结局, 对疗效和安全性进行评价。由于随机可以最大程度地平衡各种已知和未知的混杂因素在两组中的分布, 使得这种方法具有良好的真实性, 因此被视为高质量的研究证据, 主要用于临床治疗性或预防性研究。
心血管疾病研究中, 随机对照临床试验研究证据比比皆是。例如, 在抗心律失常药研究中, 最有代表意义的是心律失常抑制试验(cardiac arrhyth m ia sup 2p ressi on trial, C AST ) 。该试验把1489例急性心肌梗死(A M I ) 后伴有无症状性心律失常患者, 随机分为治疗组即氟卡尼(flecainide ) /英卡尼(encainide ) 组和安
作者单位:100191北京, 北京大学循证医学中心 通信作者:詹思延, Email:siyan 2zhan@bj m u . edu . cn doi:10. 3785/j . issn . 167424055. 2009. 04. 019慰剂组, 平均随访9. 7个月。试验结束时总死亡率:
治疗组7. 7%, 安慰组3. 0%。结果表明, 对AM I 后伴有无症状性室性心律失常患者, 虽然氟卡尼/英卡尼能使室性早搏减少70%以上, 使室性心动过速减少90%以上, 但患者死亡率却明显升高。2年后进行的CAST 2Ⅱ, 设计方法同CAST, 仅治疗组药物改用莫雷西嗪(moracizine ) , 14d 莫雷西2Ⅱ被提前终止。, 是循证
[4]
。
机对照试验(random ized contr olled trial, RCT ) 是评价干预效果的最佳设计, 但不是所有的临床问题都需要开展试验研究, 不同的临床问题采用不同的研究设计, 同样可以提供高质量的研究证据。例如, 临床检查、诊断的高质量证据来自于前瞻性、盲法、与金标准比较的研究; 预后、病因学证据可来自于队列研究、病例对照研究, 而成本研究主要来自于经济学分析。
2. 二次研究证据:二次研究证据是尽可能全面地收集某一问题的全部原始研究, 进行严格评价, 整合处理、分析总结后得出综合结论, 主要包括系统评价(syste matic revie ws, SR ) /meta分析、临床实践指南、临床决策分析、临床证据手册、卫生技术评估和卫生经济学研究等。
系统评价/meta分析是按照严格的纳入标准广泛收集关于某一医疗卫生问题的研究, 对纳入研究进行全面的质量评价, 并进行定量合并分析或定性分析, 以对该问题进行严谨、系统的评价和全面客观真实展示的研究方法。系统评价被认为是最佳证据的来源。
临床实践指南(clinical p ractice guidelines, CPG ) , 是针对特定的临床情况, 收集、综合和概括各级临床研究证据, 系统制定出帮助医师做出恰当处理的指导意见。一般由卫生行政主管部门组织制定。
临床决策分析是针对患者, 遵循国内外最先进的证据, 结合卫生经济学观点和患者意愿决定患者治疗和处理的过程, 通过权衡各种备选方案的利弊,
・248・选择最佳方案和措施。临床证据手册(handbook of
clinical evidence ) , 由专家对各种原始研究和二次研究进行严格评价后汇总撰写, 针对临床常见病、多发病有无证据及证据强度评价, 是目前全球最权威的循证医学临床证据。4S 系统中, 《临床证据》相当于循证医学杂志摘要。
卫生技术评估(health technol ogy assess ment, HT A ) , 是对卫生技术的技术特性、安全性、有效性(效能、效果和生存质量) 、经济学特性(成本2效果、成本2效益、成本2效用) 和社会适应性(社会、法律、伦理等) 进行系统、全面评价, 为各层次决策者提供合理选择卫生技术的证据。
卫生经济学(health econom ics ) 研究, 是应用经济学原理和分析方法来解决卫生事业中的问题, 希望用最小投入得到最大产出的一门学科。
二、研究证据是如何分级的?
证据分级是指应用临床流行病学原则和方法以及有关质量评价的标准, [5]
临床应用价值。(1) , 基于研究设5级, 推荐建议则根据证据质量、一致性、临床意义、普遍性、适用性等将推荐意见分为A (优秀) 、B (良好) 、C (满意) 、D (差) 4级。其中A 级推荐意见应来自于Ⅰ级水平的证据, 所有研究结论一致, 临床意义大, 证据研究的样本人群与目标人群吻合, 因此该推荐意见可直接应用于各医疗行为中; 而B 、C 级推荐意见则在上述各方面存在一定问题, 其适用性受到
[6]
不同限制; D 级推荐意见无法应用于医疗行为(表1仅列出治疗部分) 。
推荐级别
A
值得关注的是, 一个由指南制定者、系统评价作者和临床流行病学家共同参与成立的推荐、评估、发展和评价分级工作组(the grading of recommenda 2ti ons assess ment 、devel opment and evaluati on working gr oup, GRADE ) 从2000年始就在致力于制定和传播一套证据质量和推荐意见评级系统。GRADE 工作组于2004年推出的评级系统突破了单从研究设计角度考虑证据质量的局限性, 它依据未来的研究是否改变我们对目前疗效评价的信心和改变可能性的
[7]
大小将证据质量分为高、中、低、极低4个等级。随机对照试验虽然仍被视为高质量的证据, 但研究如果有局限、研究结果不一致、提供的不是直接证据、结果不精确和存在报告偏倚都会降低证据的级别。而观察性研究如果设计严谨、实施良好, 发现的, 将提升证据的
[8]
。强, ) (或不推荐) ; 而当时, 推荐的力度就很弱。此外, 患者的选择、资源的可利用性也会影响推荐建议的力度。该系统简明易用、适用范围广, 可用于各医学专业和临床护理的临床推荐意见的制定, Cochrane 协作网、世界卫生组织(WHO ) 等多个国际组织已经对其提供支持并广泛使用该评级系统。英国医学杂志(BMJ ) 2008年发表了5篇系列文章对GRADE 进行了深入的分析和解读, 对我们今后制定指南时进行证据质量和推荐
[8212]
建议的分级将有十分重要的指导意义。
三、防治性研究证据的评价
评价证据至关重要, 因为它可以让临床医生决定这篇文献可否为临床提供可信的指导。
表1 牛津循证医学中心临床证据水平分级和推荐级别
证据水平
1a 1b 1c
治疗(有效/有用/有害) 同质性3RCT 的系统综述单一的RCT (可信区间较窄)
全或无(未治疗前所有患者均死亡或部分死亡, 治疗后仅部分死亡或全部存活)
同质性队列研究的系统综述
单一的队列研究(包括低质量的RCT, 例:随访率
“结局”研究:生态学研究同质性病例对照研究的系统综述
单独的病例对照研究
病例系列(和低质量的队列和病例对照研究) 没有严格评价的专家意见, 或完全基于生理学和基础研究
B 2a 2b 2c 3a 3b
C D
45
注:3同质性:指包括在一个系统综述中的各项研究, 其结果的方向和程度一致
・249・
在对治疗性文献进行评价时, 对于RCT 研究应
[13]
注意:(1) 研究设计:患者的分组随机吗? 随机化过程是隐匿的吗? 试验开始时各组情况相似吗? 随访完整吗? 时间足够吗? 患者是按照初始分组进入分析过程的吗? 对患者, 医生和研究者均实施盲法了吗? 各组除了试验的治疗措施不同外, 其它医疗措施都相同吗? (2) 结果:统计学方法是否正确应用? 受试者的脱落数(一般要求患者不依从性小于20%, 失访率小于10%) 。临床终点事件比替代的检测指标更可靠。注意统计结果要与临床知识相结合。治疗效果有多显著? 治疗效果的准确度怎样? (3) 结果利用:结果是否对我的患者有利, 所有重要的临床结局是否均被考虑到。
对于RCT 系统评价/meta分析证据应关注:(1) 结果是否真实可靠, 即是否为随机对照试验的系统评价? 是否收集和纳入了所有相关研究? 是否对单个试验质量进行了评价? 各试验之间的同质性是否好? (2) 结果是否有意义, 何? 。
对于专家经验。判断专家意见是否可靠, 主要根据其观点是否有充分的证据基础, 如果没有证据, 则可质疑。在缺乏研究证据时, 多个专家达成的共识比个人的观点相对更可靠。对于没有研究证据的少见或复杂病情, 专家意见有较重要的参考价值。
对于临床指南的评价, 应着重于真实性和可靠性方面。主要的评价要点如下:(1) 指南制定者是否在过去12个月内对文献进行了全面的复习? (2) 对作为每一条推荐意见的支持证据是否标记了级别和注明了出处? 根据推荐意见级别确定临床应用时, 如果一种疗法为A 级推荐, 则基本上没有禁忌证就可以使用; 为B 级推荐, 可以使用但应注意其证据并不充分, 在理由充分时可用或不用, 应随时注意新证据的发表; 如为C 或D 级推荐, 则提示证据更加缺乏, 具有更大的不确定性, 临床可以使用, 但医生应更加灵活, 只要理由充分则可选择用或不用。总的原则是如果没有充分理由, 就应该参考指南的意见,
[14]
因为比较个人经验, 指南的参考价值更大。
四、其他研究证据的评价
1. 评价诊断研究证据时, 应注意:(1) 要考察待评价的试验与金标准试验是否进行了“盲法”比较? 是否每个被测者都做参照试验进行评价? 患者样本是否包括临床试验中将使用该诊断试验的各种患者? 所评价的试验结果有没有影响参照标准检查的
实施? 诊断试验的方法描述是否详细, 能否重复? (2) 研究结果是什么? 主要的结果指标如灵敏度、特异度、验前概率、验后概率、似然比是多少? 研究结果能否改变我对患者的治疗, 最后给患者获益如[13]何?
2. 预后研究证据评价时, 应注意:(1) 限定的患者样本是否处于病程共同阶段? 理想的预后研究包括所有患者群, 从最初发病就开始研究; 对研究患者的随访时间是否足够长? 随访是否充分完整? 结局确定是否应用了盲法? 确定不同预后亚组时, 对重要预后因素是否做出调整? 是否在另一独立测试患者中校验? 不同亚组的预后是否不同? (2) 结局如何随时间变化, 是否计算了特殊时间点生存者的百分比(1年或5年生存率) 、中位生存期(50%患者死亡时的随访时间) 、(Kap lan 曲线) , ? 是否计算了? [13]
?
3. 病因学和不良反应证据评价, 应关注:(1) 各组患者是否有清晰定义? 各组患者除所研究的治疗措施或其他病因之外, 在所有重要的方面是否相似? 治疗、暴露和临床结局在两组中的测量方式一样吗? 对结局测量客观吗? 是在不知暴露情况下测量的吗? 对研究对象的随访是否完整? 时间够长吗? 研究结果满足病因推断标准吗? (2) 暴露与结局的联系强度如何? 对暴露与结局的关联强度估计的精确度如何? (3) 我们的患者与研究中的患者是否差异很大? 我们的患者因该因素而得到益处或受到危害的危险性在多大? 我们的患者对治疗有无偏好? 他们关心的是什么? 期望达到什么效果? 有可选择的
[13]
替代治疗方法吗?
总之, 临床中应用研究证据时, 需针对临床不同问题, 寻找相应的证据并对不同证据类型的真实性、重要性、临床意义、适用性几方面做出评价后才应用在自己的患者中。对于繁忙的临床医生来讲, 如果有可以利用的经过评价的循证医学资源, 如指南、证据概要等, 就不需要对每个研究结果的真实性进行评价, 而应把重点应放在考察证据是否适合自己的患者方面。
参 考 文 献
[1]王文, 刘力生. 心血管病领域循证医学的发展. 中国循证医学,
2002, 2:2052208.
[2]李晓婷, 詹思延. 最佳证据网上资源介绍. 中国循证心血管医学
杂志, 2009, 1:1232126.
・250・998.
[10]Guyatt GH, Ox man AD, Kunz R, et al . Going fr om evidence t o rec 2
ommendati ons . BMJ, 2008, 336:104921051.
[11]Sch üne mann HJ, Ox man AD, B r ozek J, et al . Grading quality of ev 2
idence and strength of recommendati ons for diagnostic tests and strategies . BMJ, 2008, 336:110621110.
[12]Guyatt GH, Ox man AD , Kunz R, et al . I ncor porating considerati ons
of res ources use int o grading recommendati ons . BMJ, 2008, 336:117021173.
[13]詹思延主译. 循证医学实践与教学. 北京:北京大学医学出版
[3]李幼平. 循证医学. 北京:高等教育出版社, 2003. 17219. [4]吴印生, 吴慧. 循证医学又一次在心血管领域中发挥重要作用.
中国循证心血管医学杂志, 2008, 1:9212.
[5]陈耀龙, 李幼平, 杜亮等. 医学研究中证据分级和推荐强度的演
进. 中国循证医学杂志, 2008, 8:1272133.
[6]Philli p s B, Ball C, Sackett D, et al . Levels of evidence and Grades
of recommendati ons . Available at htt p://www. cebm. net/levels_of_evidence. as p (accessed June 2006) .
[7]A tkins D, Best D, B riss P A, et al . Grading quality of evidence and
strength of recommendati ons . BMJ, 2004, 328:149021494.
[8]Guyatt GH, Ox man AD , V ist GE, et al . GRADE:an emerging con 2
sensus on rating quality of evidence and strength of recommenda 2ti ons . BMJ, 2008, 336:9242926.
[9]Guyatt GH, Ox man AD , Kunz R, et al . W hat is " quality of evi 2
dence" and why is it i m portant t o clinicians? BMJ, 2008, 336:9952
社, 2006. 1572164.
[14]王家良主编. 循证医学. 第2版. 北京:人民卫生出版社, 2006.
1612162.
(收稿日期:2009207211 修回日期:2009207225)
循证视窗・
BAR I 2D 研究—一项治疗合并2徐少鹏摘译 万征校
2。
———到底合并糖尿病的且经冠脉造影证实的缺血性心脏病患者的最佳治疗方案是什么? 2型糖尿病中旁路血管成形术再血管化调查———一项治疗合并2型糖尿病的冠心病的随机研究(A Random 2ized Trial of Therap ies for Type 2D iabetes and Cor onary A rtery D isease, The BAR I 2D Study Gr oup, BAR I 2D ) 的目的就是为了评价这类患者的治疗效果。比较不同治疗方案对心肌缺血的发生率以及胰岛素抵抗的效果, 后两者分别是糖尿病患者死亡的主要原因和糖尿病发生心血管并发症的潜在机制。
BAR I 2D 研究随机入选了2368例合并2型糖尿病的冠心病患者比较积极的再血管化治疗联合强化药物治疗与单纯强化药物治疗, 以及胰岛素增敏治疗与胰岛素补充治疗的效果。合格的入选标准是诊断了2型糖尿病的冠心病患者, 所有的患者都适用于PC I 或C ABG 。排除标准包括需要行即刻再血管化治疗或存在左主干病变的患者, 肌酐水平大于
μmol/L) , 糖化血红蛋白水平大于13. 0%, Ⅲ2. 0mg/dl(177
级或Ⅳ级心衰, 肝功能不全, 或患者在入选前12个月曾行PC I 或CABG 术。
研究设计了一个试验评价两种心脏治疗方案和两种血糖控制方案在已经接受了标准强化治疗的糖尿病患者中的作用。研究中的第一个假设是与单纯药物治疗相比积极的再血管化治疗(或者外科或者导管术) 可以降低远期死亡率和心血管事件; 第二个假设是与胰岛素补充治疗相比胰岛素增敏治疗(目标糖化血红蛋白小于7. 0) 可以降低远期死亡率和心血管事件。一级终点是全因死亡, 二级终点是死亡, 心肌梗死, 或卒中(主要心血管事件) 组成的复合终点。非致
命性心肌梗死的定义包括:自发的、无症状的、和手术相关的事件。根据研究的方案, 在入选时、3个月时、1年时、以后的每年、每次再血管化手术前后和怀疑缺血事件发生时都要做12导联心电图。自发心肌梗死的诊断要根据心肌酶(肌酸激酶MB, 或肌钙蛋白) 检查两次、以及有缺血症状、心电图或影像学检查。和PC I 与CABG 相关的主要心血管事件的诊断分别需要肌酸激酶MB 水平超过正常上线3倍和10倍。无症状的心肌梗死定义为依据M innes ota 法则在常规心电图上出现2级的Q 波改变。心肌梗死由心电图中心实验室分类; 卒中和死因由一个独立的临床事件委员会评判。
5年时, 再血管化组与药物治疗组的存活率无统计学差别(88. 3%和87. 8%, P =0. 97) , 胰岛素增敏组与胰岛素补充组的存活率间也无统计学差异(88. 2%和87. 9%, P =0. 89) 。无主要心血管事件的机率在各组中的差异也无统计学显著性意义:再血管化组77. 2%, 药物治疗组75. 9%, P =0. 70; 胰岛素增敏组77. 7%, 胰岛素补充组75. 4%, P =0. 13。在PC I 治疗组中, 再血管化治疗与单纯药物治疗间, 一级终点无统计学差异。在C ABG 治疗组中, 主要心血管事件发生率在再血管化组中降低(22. 4%) , 而药物治疗组是30. 5%, P =0. 01。不良事件和严重不良事件在各组中发生的机率相似, 但严重低血糖发生率在胰岛素补充组中更常见(9. 2%) , 胰岛素增敏组相对少见(5. 9%, P =0. 003) 。
BAR I 2D 研究结果表明:不管是应用再血管化治疗还是药物强化治疗, 也不管是应用胰岛素补充治疗还是胰岛素增敏治疗, 死亡率和主要心血管事件的发生率在各组间的差异均无统计学显著性意义。
(Fr om N Engl J Med, 2009, 360:250322515)