肺癌的下一代测序技术
中国肺癌杂志20 4年 月第 7卷第 期Chin J Lung Cancer, January 20 4, Vol. 7, No.
T r a n s l a t e d w i t h p e r m i s s i o n f r o m t h e c o p y r i g h t h o l d e r 2013 F u t u r e M e d i c i n e L t d . 译作已获得版权所有者 2013 F u t u r e M e d i c i n e L t d 许可
·C ·
DOI: 0.3779/j.issn. 009-34 9.20 4.0 . 0
·期 刊 博 览·
Next-generation Sequencing for Lung Cancer
Kehua Wu , R Stephanie Huang , Larry House & William Chi Cho2
1
Department of Medicine, University of Chicago, Chicago, IL, USA; 2Department of Clinical Oncology, Queen Elizabeth Hospital,
Hong Kong
肺癌的下一代测序技术
南娟1 翻译 曹志成2 校对
天津医科大学总医院,天津市肺癌研究所,天津市肺癌转移与肿瘤微环境重点实验室;
2
香港特别行政区 伊利沙伯医院 临床肿瘤科
【摘要】 肺癌在生物学上具有侵袭性,并且是癌症相关死亡的主要原因。根据临床特征、预后、对治疗的反应和耐受性,每一例肺癌患者的进展均是独特的。传统上基于毛细管的单基因测序的第一代技术(如Sanger 测序法)已被允许大量平行测序且成本更低、通量更高的下一代测序技术(next-generation sequencing, NGS)所替代。与传统方法相比,NGS 技术取得显著进步。我们希望这些方法可全面地解释癌症全球图谱,并提供更多信息以满足个体化用药的需求。本综述包括对不同NGS 技术的简要说明,NGS 在肺癌研究进展中的应用和重要发现的总结,包括对已知靶基因(EGFR 、ALK 和KRAS )的进一步探索、其它肺癌突变的鉴定和癌症基因组研究的全局协调。
【关键词】 肺癌;下一代测序;全外显子组测序;全基因组测序;全转录组测序
肺癌在生物学上具有侵袭性,并且是癌症相关死亡的主要原因。全球每年有 60万人诊断为肺癌,并有 30万人死亡[ ]。肺癌主要分为两种类型:非小细胞肺癌(non-small-cell lung cancer, NSCLC)
5年生存率可达53%。然而,仅 5%的肺癌患者在局限期被诊断出来[ 0 ]。
鉴于肺癌的严重后果及众多治疗失效的经验,研究者将更多的精力投入到认识该病病因学的潜在机制,以期鉴定新型药物靶标。人们很早就认识到,肺癌是一种异质性疾病,而且基因组改变在该病的发生中起至关重要的作用。在过去的几年中,基因组测序技术取得飞速进展。传统上基于毛细管的单基因测序的第一代技术(如Sanger 测序法)已被新一代测序技术(next-generation sequencing, NGS)所替代,因为NGS 允许大量平行测序,而且具有成本更低和通量更高的特点。与传统方法相比,NGS 技术取得显著进步,包括对完整基因组、外显子组和转录组的全面测序。较传统方法,其还具有发现新型染色体重排和拷贝数目改变的优势[3]。这些技术进展可革新我们对癌症(如肺癌)的认识。
在本综述中,我们对各种NGS 技术做了简要的说明和总结。我们探讨了至今为止NGS 在肺癌中的应用及重要发现。但是,NGS 在肺癌诊断中的应用不在本综述范
(占85%)和小细胞肺癌(约占 5%)[2]。NSCLC 可进一步分为鳞状细胞癌(squamous cell carcinoma, SCC)、腺癌(adenocarcinoma, ADC )和大细胞肺癌。小细胞肺癌的5年生存率仅为6%,远低于NSCLC 的生存率( 7%)。伴随手术方法的完善和化放疗的联合应用,肺癌的 年相对生存率从35%( 975年- 979年)升至43%(2003年-2006年)。但是,综合所有分期,生存期超过5年的患者仅有 6%。如果肺癌在局限期时即被发现,则
Correspondence to: William CS Cho, PhD, FIBMS, Chartered Scientist.. Depart-ment of Clinical Oncology, Queen Elizabeth Hospital, 30 Gascoigne Road, Kow-loon, Hong Kong
Tel: +852 2958 544 ; Fax: +852 2958 5455;E-mail: [email protected] Oncol, 20 3, 9(9): 323- 336.
·C2·
中国肺癌杂志20 4年 月第 7卷第 期Chin J Lung Cancer, January 20 4, Vol. 7, No.
围内。
下一代测序技术
NGS 通常是指第二代和第三代测序技术。这两者的平台比第一代Sanger 测序技术均具有更好的能效比和更高的通量。根据目标样本资源和覆盖范围,NGS 包括,但不局限于,全基因组测序(whole-genome sequencing, WGS )(针对DNA )、全外显子组测序(whole-exome sequencing, WES)(针对DNA )、全转录组测序(针对RNA 的RNA-seq )和靶向靶标测序(DNA 和RNA ),详细内容如下所述。所有测序的材料预备起始于已剪切的DNA 或RNA 样本,随后为资料构建。
全基因组测序
WGS 可以对整个基因组进行测序,提供最全面的基因组特征和最高水平的基因组测序。许多长度为5个-200个核苷酸的随机短DNA 片段可以采用此方法同时进行测序[3]。人类基因组计划的完成会产生人类基因组序列的总参照,在人类基因组计划完成之前很难解释这些短序列。在所有NGS 方法中,WGS 花费最高。但是,随着技术的完善,WGS 日渐便宜[3]。WGS 成为一种既可获取全面基因编码序列又有助于明确影响疾病发生和进展因素的有效工具[4]。WGS 可以检测所有基因组变异,产生了庞大的数据集。数据挖掘仍然是面临的主要挑战之一,必须加以解决,以实现个体化医疗的需求[4]。WGS 虽费钱费时,但与传统测序方法(Sanger 测序)相比,WGS 可以识别平衡染色体易位和倒位的断点,从而有了独特的应用[5]。此外,WGS 可检测基因编码区外发生的基因组变异。这些区域包括非编码的体细胞突变,如启动子、增强子、内含子、非编码RNAs (例如,miRNAs )和未注释的区域[6,7]。激活的遗传变异也可以通过WGS 进行鉴定,有助于我们理解遗传性疾病和遗传危险因素引发癌症的本质。WGS 可进一步促进疾病的筛查和诊断及个体化治疗的制定[5]。
WGS 是用于癌症基因组深度测序的主要技术,因为它提供了点突变、融合基因、插入缺失和拷贝数目变异的广泛信息。它还提供了染色体的复杂重排、核苷酸置换突变和重复序列,以及肿瘤的整个基因组的结构重排,包括倒位、易位和复杂重排的信息[5]。目前,WGS 在癌症基因组研究中最显著的贡献是发现了点突变。在一项WGS 研究中,一组配对的正常和肿瘤样本对于区分
真正的体细胞突变和遗传性改变的结构重排是必不可少的[5]。研究证实全基因组扩增的DNA 配对测序对数量有限的细胞是有效的[8]。通过这种新颖方法预测的基因组的覆盖范围和深度的测序数据与从未扩增的基因组DNA 的预测结果类似。
全外显子组测序
WES 可用于基因组编码外显子的测序,为发现活化的体细胞突变提供了一种有效方法。传统的基于毛细管的外显子组测序已导致许多疾病中靶向体细胞突变的重要发现。就肺癌而言,部分突变发生于EGFR 和ALK 受体酪氨酸激酶[3]。尽管WES 局限于有注释基因的变异的编码和拼接位点,但是它还可以检测整个基因组中已知编码基因的突变,具有较高的覆盖性。WES 不能检测启动子或调节区的改变[9]。起初,WES 只用于外显子组。目前它已扩展至基因组的多个区段,包括外显子侧翼区、启动子、非翻译区和miRNA 基因的非编码DNA 。单个样本的WES 检测发现了多达25,000个变异,导致鉴定活化突变的挑战。WES 和WGS 的最大区别是产生数据的数量和内容的不同。一般而言,如果旨在发现目标突变,WES 更合适。WES 用户可受益于每个样本的花费和分析时间的减少,感兴趣区域的覆盖范围的增加以及突变信息的准确性的提高[ 0]。事实上,干扰蛋白功能的基因编码区域的突变或变异可被WES 识别,而结构和非编码变异仅能被WGS 检测。请注意,许多用于WGS 的平台还适用于WES 。一项重要挑战是从伴随变异中识别致病突变,而伴随变体与疾病病因无关[ ]。WGS 和WES 在检测插入缺失、三核苷酸重复和拷贝数目的变异中均有困难[9]。
WES 为罕见的孟德尔遗传疾病的致病基因组变异的发现提供了难得机会[ 2- 5]。WES 主要应用于表征单基因疾病(孟德尔遗传疾病)的缺陷,这些缺陷可引起罕见的家族性疾病。从小型家族收集的个别罕见基因变体突变可被WES 识别。这种方法亦可用于发现活化的突变。外显子突变或拼接位点突变是多数孟德尔遗传疾病的主要原因[ 2]。此外,外显子组测序可能在非遗传性或新生突变相关疾病中也具有较大潜能[ 5]。比如,它可能促进肿瘤样本中已知突变的诊断和新型突变的鉴定。
RNA 测序
对从细胞中提取的RNA 的测序(sequencing of RNA extracted from cells, RNA-seq)通过读取短cDNA 序列片段
中国肺癌杂志20 4年 月第 7卷第 期Chin J Lung Cancer, January 20 4, Vol. 7, No.
·C3·
和基于参照基因组进行绘制,产生了完整的转录组的全部序列。RNA-seq 使得绘制外显子和内含子的边界、以及基因的5´和3´末端成为可能,并导致人们对转录组的复杂性有了更全面的了解[ 6]。传统意义上,RNA-seq 要求在资料构建前通过杂交对poly(A)进行选择,以便富集RNA 聚合酶II 转录物和/或减少核糖体RNA 的含量,该领域的进展使得我们直接可以在总RNA 量为皮克时进行工作,无需分馏步骤,分馏步骤会限制转录组的完整测序。RNA-seq 在检测框内融合[3]、体细胞突变[3]和基因表达序列分析[5]时具有敏感性和有效性。在量化丰富的转录物,尤其是当这些转录物表达较低时,RNA-seq 较微阵技术具有更高的敏感性[ 7]。RNA-seq 技术不仅可用于分析既往已知基因,而且可检测当前未知转录物、选择性剪接物和非人类转录物[5]。RNA-seq 面临三大挑战:资料构建、数据挖掘和覆盖范围与花费的比较[ 8]。
靶向测序
靶向测序通过只对靶区域测序而仅用于感兴趣的基因组区域,以期达到节约时间和成本效益的分析。靶基因通常限定于既往已知癌症相关的变异。与WGS 相比,靶向测序产生了更小的数据库,因此需要更简便的数据分析。该方法可能漏掉既往未知的突变。
NGS 在肺癌中的应用
自2008年NGS 在肺癌中首次应用发表后,多项研究采用不同的NGS 方法研究除肺癌外的不同疾病。表 总结了这些研究的疾病类型、临床样本、所采用的NGS 方法、范围、所用平台和主要发现。其它细节如下所述。
NGS 对既往已知靶基因的其它发现EGFR
在癌症,尤其是NSCLC 中,EGFR 通过对可调节增殖和凋亡的信号转导通路进行调控,在肿瘤发生中起关键作用。EGFR 的突变频率见表2[20-26]。EGFR 为NSCLC 的重要基因变异,靶向EGFR 的酪氨酸激酶抑制剂(tyrosine kinase inhibitors,TKIs ;如吉非替尼和厄洛替尼)的出现为改善NSCLC 的治疗点燃希望。但是,由于其在一般NSCLC 患者群中缺乏疗效,最初的热情受到挫伤。随后,研究显示EGFR 突变对EGFR TKIs的疗效至关重要[20]。20 年,美国临床肿瘤学会发布了一项初步临床意见指出,采用EGFR 抑制剂进行一线治疗需基于阳
性突变[27]。在过去的十年中,对可预测肺癌患者对EGFR TKIs 的疗效的生物标记物的进一步研究是一个活跃的研究领域。NGS 技术在与EGFR TKI敏感性相关的其它基因标记物的发现中起重要作用。
主要的EGFR 突变为外显子 9的框内缺失,这是采用EGFR 抑制剂进行个体化治疗的有效标记物。Marchetti 等对 6个NSCLC 的DNA 样本通过传统Sanger 和NGS 的测序结果进行了比较[28]。其中,有 06个样本采用Sanger 测序显示外显子 9缺失,采用NGS 分析也可见此突变。但是,仅88%(93个)的样本通过NGS 方法验证与Sanger 测序具有相同的缺失。有 3个( 2%)病例的缺失通过两种方法测序的特征不同。在这些缺失中,有6个样本的缺失起点/终点未被Sanger 测序检测出且无法合理解读。其它7个病例的缺失起点/终点明确,虽然缺失基质的恰当序列未被Sanger 测序定义(如c.2240_2254del和c.2239_2262del),但可被NGS 定义。通过NGS 测序,在2 个样本(20%)中发现双倍或多倍框移缺失相关的框内改变。通过Sanger 测序, 6个病例的缺失为长的和短的非框内缺失( 7 bp_del和 bp_del),被认定为缺失和插入。其它5个样本被发现携带复杂缺失,这些缺失有可能是新的突变。这些突变包括:c.2239_2248del c.2253_2260del、c.2230_2237del c.2245_225 del、c.2239_ 2262del c.2263_2274dup(插入)、c.2236_ 2252del c.2258del和c.2234_ 2236del c.224 _2252del。除了主要缺失,还有携带不同缺失的DNA 分子亚群,它们在结构上与主要缺失有关。NGS 检测46个(43%)样本发现,每一亚群占有肿瘤基因组的0. %- 7%。外显子 9的复杂突变和缺失亚群的发现有可能解释携带外显子 9突变的NSCLC 患者的不同反应[例如,反应率:53.3%-75%;无进展生存期(progression-free survival, PFS):7. 个月-398天][20]。这项研究还说明,外显子 9的某一区域也是高度变化的,这可能影响EGFR TKIs的个体化治疗和肺癌的发病机理[28]。NGS 有可能更全面地绘制EGFR 外显子 9的缺失序列,由于该缺失的不同形式可能导致不同EGFR TKI反应、疾病进展,并可影响携带外显子 9缺失蛋白的抗原性[28]。
除了外显子 9的缺失,外显子20的T790M 也显著影响着患者对EGFR TKI治疗的反应。该点突变主要与EGFR TKI治疗的获得性耐药相关。比如,在肺ADC 中,T790M 突变导致50%以上的获得性耐药[25]。研究显示,在TKI 治疗后可获得EGFR T790M突变[29]。此外,EGFR T790M 突变预处理在预测EGFR TKIs疗效中的作用被研究。Su 等采用直接测序、基质辅助激光解吸电离飞行时
·C4·
中国肺癌杂志20 4年 月第 7卷第 期
Chin J Lung Cancer, January 20 4, Vol. 7, No.
表 1 续
中国肺癌杂志20 4年 月第 7卷第 期
Chin J Lung Cancer, January 20 4, Vol. 7, No. 表 1 下一代测序在肺癌中的应用总结(续表)·C5·
†
454 GS Junior system为一种基于焦磷酸测序的方法。
ADC :腺癌;BAC :细支气管肺泡癌;DMR :不同的甲基化区域;ES :外显子组测序;MALDI-TOF :基质辅助激光解吸电离飞行时间;MS :质谱;NGS :下一代测序;NSCLC :非小细胞肺癌;PFS :无进展生存期;RNA-seq :全转录组测序;SCC :鳞状细胞癌;SCLC :小细胞肺癌;SNV :单核苷酸变异;SOLiD :基于寡核苷酸连接和检测进行测序;TKI :酪氨酸激酶抑制剂;WES :全外显子组测序;WGS :全基因组测序。注:本表得到版权所有者 2013 Future Medicine Ltd复制许可。
间(Matrix-assisted laser desorption/ionization-time of flight, MALDI-TOF )质谱分析和NGS 方法分析了EGFR TKIs治疗前后的NSCLC 患者的DNA 样本[30]。这些患者混杂着吸烟者(23.4%)和非吸烟者(76.6%),ADC (94.3%)或SCC (5.7%)。研究发现预处理和未处理T790M 的患者的PFS 间有统计学差异(P =0.0298),而不同基因型的组别间对EGFR TKIs的反应率和总生存期无明显差异。仍有
57%的携带T790M 突变的患者对治疗是有反应的,该现象尚不能解释。EGFR TKIs治疗使T790M 突变从治疗前的3 .5%升至治疗后的83.3%。
ALK
最近,作为新兴生物标记物和治疗靶标的ALK 酪氨酸激酶受体受到了广泛关注。EML4-ALK 易位是最常见
·C6·
中国肺癌杂志20 4年 月第 7卷第 期Chin J Lung Cancer, January 20 4, Vol. 7, No.
†
注:本表得到版权所有者 2013 Future Medicine Ltd复制许可。
的ALK 基因重排。大约2%- %的肺癌患者的EML4-ALK 为阳性[20]。采用基因组DNA 测序发现 例43岁非吸烟男性NSCLC 患者含有复杂的ALK 重排,但根据Vysis ALK Break Apart FISH分析(Abbott Molecular Inc., IL, USA)其未携带突变的EGFR 和EML4-ALK 重排。连同其它的cDNA 测序,研究显示复杂重排包括至少5个不同的基因座内有断点。其中之一为ALK 内含子 9和典型的EML4-ALK 融合(EML4外显子 - 3,ALK 外显子20-29)。与外显子 - 9相比,外显子20-29的表达高至39倍。此类患者在服用克唑替尼后疾病有改善。由于NGS 可以检测复杂的ML4-ALK 重排,而传统的FISH 分析不能检测这些重排,所以可以考虑采用NGS 来为NSCLC 患者制定治疗方案。
Jung 和同事们对NSCLC 组成的cDNA 样本进行转录组测序。通过NGS 发现了228个融合转录物候选因子[3 ]。排除可能的假阳性后降至 6个。大多数融合基因里均有一个单序列。通过逆转录-PCR 进一步证实了候选融合基因,而且仅从H2228细胞中产生了一个成功扩增的融合基因(PTPN3-ALK )。5’-RACE产物分析显示,ALK 5’的第 个内含子至第8个内含子片段转位至PTPN3 5’端的第2个外显子和第 个外显子。此融合基因导致PTPN3一个等位基因的失活,PTPN3具有肿瘤抑制活性,并且是非受体型蛋白酪氨酸磷酸酶的成员。这些发现有助于肺癌的诊断和治疗。
KRAS
众所周知,携带KRAS 突变的NSCLC 具有侵袭性,并且对EGFR TKIs耐药。研发靶向突变KRAS 的治疗方法较为困难。通过Agilent Bioanalyzer(Agilent Technologies Inc., CA, USA)对 5个原发肺癌肿瘤样本进行双端RNA 测序来识别携带KRAS 突变的患者中明确改变的通路。人类基因组和基因组图谱被描述。网络分析显示在KRAS 突变的肿瘤中存在差异表达(374个基因)、选择性剪接(259个基因)和单核苷酸变异(single-nucleotide variant,
SNV )相关的改变(65个基因)。在该项研究中,NF-kB 、ERK /2和AKT 通路被证实可以激活,还发现了突变KRAS 、TNFR 和PPARγ信号通路的关系。这些发现对相应的靶向治疗更为敏感,这将为EGFR TKI-耐药的NSCLC 患者提供替代的治疗选择[32]。
探索性研究中其它肺癌突变的鉴定KIF5B 和RET 融合基因
最近有3项研究报道了肺ADC 患者中存在KIF5B 和RET 基因融合的新转化[33-35]。在日本和美国的肺ADC 患者中,该新型融合的发生率为 %-2%[34]。KIF5B 和RET 融合基因仅见于肺ADC 患者,而不是肺癌的其它类型(SCC 、大细胞或小细胞肺癌)或ADC 的其它类型(卵巢和结肠)[33-35]。在许多肿瘤中RET 是已知的致癌基因,如胰腺癌和前列腺癌。融合伙伴KIF5B 有一个可激活致癌基因的卷曲螺旋域。该融合基因可以引起RET 激酶的异常活化,并同时诱导细胞转化[33,34]。它是一个额外的新型驱动突变,因为它是在3项独立的研究中被发现的,且与既往已知的肺ADC 突变或融合基因(如EGFR 、KRAS 和EML4-ALK )互相排斥[33-35]。KIF5B -RET 融合基因是个体化靶向治疗的潜在靶标,而且可以通过多种靶向激酶抑制剂来成药,如舒尼替尼、索拉菲尼以及刚被批准的凡德他尼[34,35]。Ju 等通过抑制RET 的磷酸化,报道了对 例肺ADC 患者的癌组织和配对正常组织的大规模并行全基因组和转录组测序的整合分析[33]。此患者为33岁男性、非吸烟且无家族癌症史。他未携带突变的EGFR 、KRAS 或EML4-ALK 。血液DNA 的WGS 分析显示,他的癌症并非种系突变所驱动,因为他不含有任何SNPedia [单核苷酸多态性(single-nucleotide polymorphism, SNP)数据库]中已归档的明显与癌症相关的SNVs 。通过比较肝脏中的转移癌和正常组织,识别了 0个非同义体细胞突变(8个SNVs 和2个插入缺失)。这 0个突变并不位于已知的靶基因(EGFR 、KRAS 和BRAF
)上,其并非驱动突
中国肺癌杂志20 4年 月第 7卷第 期Chin J Lung Cancer, January 20 4, Vol. 7, No.
·C7·
变,甚至在原发肺转移癌中也不是。通过转录组测序对融合基因的进一步分析发现了52个融合基因。其中,49个(94.2%)为相邻基因的染色体内融合, 个由于触珠蛋白而产生。这503个基因在肿瘤发生中不起功能性作用。其它2个融合基因为KIF5B-RET 和KIAA1462-KIF5B 。它们为染色体内疏远基因(超过~2 Mb)的融合。鉴于KIAA1462-KIF5B 表达较低,且KIAA 462为分子功能未知的假定蛋白,故不对其进行进一步地分析。所有52个融合基因中,在肝转移性肺组织中通过WGS 仅在KIF5B-RET 中检测到染色体重排(如大的缺失、倒位或易位)。RNA-seq 发现此融合基因高表达34个不一致的双端序列和60个跨越融合交界的生长序列。分析还发现,KIF5B 的第 6个外显子末端与RET 原癌基因的第 2个外显子的起始端整合。 0p .22-q .2 的臂间倒位导致融合基因KIF5B-RET 。这些外显子的RNA 表达水平显示,大部分RET 表达来自融合基因,而不是野生型RET 基因。随后的重复研究在20个原发肺ADC 的2个病例中证实了KIF5B-RET 融合基因的出现。KIF5B 中DNA 双链断裂似乎是可变,3个患者中RET 的第 2个外显子与KIF5B 在不同位点结合(所检测的患者为外显子 6,2个验证的患者为外显子 5和23)。研究显示,KIF5B-RET 融合基因为NSCLCs 的一个子集,还指出嵌合癌基因是采用相应抑制剂进行未来个体化治疗的潜在分子靶标。
最近,有2项研究还发现肺癌中存在KIF5B-RET 融合[34,35]。Kohno 等采用逆转录PCR 和Sanger 测序分析了3 9个日本ADC 患者的样本[34]。其中,30个采用RNA-seq 进行分析。研究发现6个非吸烟患者携带KIF5B 和RET 融合基因。资料显示,染色体 0p .2上的KIF5B 内含子 5、 6、23或24与染色体 0q .2上的RET 内含子7或 融合。FISH 验证了染色体 0的着丝粒区域的长臂和断臂间存在重排。KIF5B-RET 融合阳性患者的RET 表达比其他人高30倍,与Ju 等的结论一致,其结论认为大部分RET 癌基因来自融合基因[33]。在另一项8 例美国患者和34例挪威患者的研究中, 例曾吸烟的美国患者存在KIF5B-RET 融合阳性。KIF5B-RET 融合和吸烟状态的关系未明。在融合阳性的患者中发现KIF5B-RET 蛋白Tyr905的磷酸化,提示RET 融合是既往未知的突变。在另一项Lipson 及其同事的研究中,研究者分析了24个福尔马林固定石蜡包埋的NSCLC 组织样本[35]。发现 例44岁男性非吸烟者存在KIF5B-RET 融合阳性。进一步的筛查发现, 例患者(56 例肺ADC 患者中)存在KIF5B-RET 融合。
其它新发现
“癌症标志”是指一组对肿瘤发生至关重要的细胞特性。Imielinski 等通过对 83例肺ADC 肿瘤和正常DNA 配对的全外显子组或全基因组进行大规模并行测序绘制了癌症标志[36]。这 83个病例的外显子区域存在77,736个体细胞变异,平均为 .9个突变/Mb。与非吸烟患者相比,吸烟患者的外显子突变率明显升高(P = .9× 0-9)。CpG 二核苷酸的C→T转换(CpG→T)和C→A颠换是最常见的突变特征。A→C最少见。5个突变谱聚类与患者的临床特征相关。聚类 (富集CpG→T突变,且总突变率较低)多见于非吸烟或轻度吸烟的患者(P =3.0× 0-9)。聚类4(除了CpG 结构和TpC 突变为T 或G 外,还有C→T )与晚期明显相关(IIIb 期或IV 期;P =0.006,3)。4个高突变率的分析发现了共计25个明显的突变基因,部分基因之前已知,为TP53(频率与既往报道一致,为50%)、KRAS (27%)、EGFR ( 7%)、STK11( 5%)、KEAP1( 2%)、ATM 、NF1( %)、BRAF (8%)和SMAD4(3%)。其余未见报道,为SMARCA4、ARID1A 、RBM10、SETD2、PICK3CA 、CBL 、FBXW7、PPP2R1A 、RB1、CTNNB1、U2AF1、KIAA0427、PTEN 、BRD3、FGFR3和GOPC 。对这25个基因的进一步相关分析显示,EGFR 突变与KRAS 突变明显相斥(P =3.3× 0-4);EGFR 突变与非/轻度吸烟(P =2.0× 0-6)及突变谱聚类 相关(P =0.00 ,5),KRAS 、STK11、SMARCA4和KEAP1与突变谱聚类 和非/轻度吸烟状态负相关(P T、p.S34F 突变。在这4个病例中, 例为KRAS 突变阳性,提示U2AF1具有独立地致癌作用。RBM10占突变的7%( 2/ 83)。RBM10高表达,为RNA 结合蛋白。RBM10与KRAS 、EGFR 或PIK3CA 可同时发生。ARID1A 在患者中的阳性率为8%,在SWI-SNF 染色质重塑复合物中编码重要的蛋白质。WGS 揭示了范围广泛的总重排、基因重排和基因组的复杂性。通过检测肺癌中新的激酶基因的潜在活化框内重排发现了EGFR 的两个外显子缺失。这一重排发生在EGFR 的C 末端(由外显子25和26编码),且可见另一变异(p.G7 9S突变)。在NIH 3T3细胞中进一步研究了该突变,发现EGFR 和AKT
·C8·
中国肺癌杂志20 4年 月第 7卷第 期Chin J Lung Cancer, January 20 4, Vol. 7, No.
磷酸化增多,EGF 磷酸化未见增加。在Ba/F3细胞中,致癌EGFR 缺失突变导致增殖,该增殖可被厄洛替尼(一种EGFR TKI)阻止。WGS 分析还发现SIK2和ROCK1的框内重排。该研究有助于肺ADC 基因组变异的完成和表征。
Ding 等报道了一项在 88例肺ADC 中进行的合作研究,发现了26个与癌变相关的高变频基因,包括EGFR 同类物ERBB4、ERBB3和ERBB2[37]。在这26个基因中,Greulich 等选择了6个受体酪氨酸激酶基因(EPHA3、ERBB4、FGFR4、NTRK3、NTRK2和ERBB2)来研究肺ADC 中基因突变的功能意义[38]。他们发现ERBB2的致癌胞外区突变,该突变可使NIH 3T3细胞具有锚着独立性。ERBB2的活化通过增加羧基端尾部的磷酸化或共价二聚化来启动。胞外区突变的ERBB2的抑制剂为治疗选择提供了希望,促使了一项临床试验来研究肺癌中ERBB2的抑制剂。他们的结果与癌症基因组图谱(The Cancer Genome Atlas, TCGA)的结论一致,TCGA 结论认为ERBBs 可能是以下讨论的一种分子靶标 [39]。
癌症基因组研究的全局协调
国际癌症基因组协会(International Cancer Genome Consortium, ICGC)举国际之力调查癌症的全球图谱并全面鉴定与肿瘤相关的基因组、转录组和表观基因改变,包括50种癌症类型的基因组缺失或扩增、体细胞突变、基因重排、表观遗传修饰和基因的异常表达[ 0, 02]。目前, 5个行政辖区的5 个组已加入ICGC ,包括亚洲、澳洲、欧洲和北美洲,共研究超过24,000个肿瘤基因组[ 02]。TCGA
计划于2005年由国家癌症研究院和国家人类基因组研究院启动,有助于ICGC 。TCGA 通过NGS 技术为癌症分子特征提供了更全面的认识。TCGA 纳入了超过20种癌症常见类型(包括肺癌),每种癌症类型有500个样本。致力于不同但相关项目的研究和技术团队的国家网络表现出了极大的进展,总结见表3[40, 03]。
作为TCGA 项目的一部分,一项旨在全面表征SCC 基因组和表观基因组图谱、发现SCC 潜在治疗方法的大型队列研究于近年公布[39]。在该研究纳入的 78例患者中,96%有吸烟史。研究发现了复杂的基因组变异,每一肿瘤平均含有360个外显子突变、 65个基因组重排和323个拷贝数目变异的片段。染色体3q 的选择性扩增是SCC 与肺ADC 的最大区别。研究发现有50个峰存在明显的扩增或缺失。在这些变异中,有一些体细胞拷贝数目变异曾被报道,包括SOX2、PDGFRA 和/或KIT 、EGFR 、FGFR1和/或WHSC1L1、CCND1和CDKN2A 。对SCC 患者而言,最常见的突变为CpG 的转换和颠换。该研究识别出 0个复发突变基因(TP53、CDKN2A 、PTEN 、PIK3CA 、KEAP1、MLL2、HLA-A 、NFE2L2、NOTCH1和RB1)。TP53突变最为频繁(8 %)。有研究识别出4条明显变异的通路,为NFE2L2和KEAP1和/或CUL3缺失或突变(34%),鳞状细胞分化(44%),磷脂酰肌醇-3-OH 激酶通路(47%)以及CDKN2A 和RB (72%)。KEAP1和CUL3突变与功能丧失相关。鳞状细胞分化基因包括SOX2和TP63的过表达和扩增,NOTCH1、NOTCH2、ASCL4的功能丧失突变和FOXP1的局部缺失。CDKN2A 是编码p 6INK4A和p 4ART
蛋白的肿瘤抑制基因。
中国肺癌杂志20 4年 月第 7卷第 期Chin J Lung Cancer, January 20 4, Vol. 7, No.
·C9·
伴随潜在靶标基因的筛查及药物研发的需要,研究者建议了3个分子靶向策略:ERBBs 、FGFRs 和JAKs ,这三者均被发现有突变和/或扩增。ERBB2的结果与Greulich 等的结论(ERBB2可能是靶向治疗的独特机会)[38]相符。此外,Govindan 等在20 2年的美国临床肿瘤学会会议上呈现了 78例SCC 患者的全部基因组特征[4 ]。他们发现了30个明显体细胞拷贝数目变异的位点和 3个明显突变的基因(包括TP53、CDKN2A 、PTEN 、KEAP1和NFE2L2),识别出4个不同的表达:NFE2L2和KEAP1突变、FGFR 激酶变异、总体甲基化增加和烟草使用率最高。72%的病例存在CDKN2A 缺失。对于现有可用药物,75%的患者含有潜在的分子靶标。
TCGA 整合了研究机构间大量系统网络的测序数据。事实上整个研究机构可以访问所有的数据资料,从而加速从研究发现到临床的转化工作。TCGA 组的进展显示许多基因组信息穿插在不同的肿瘤类型间[42-44],包括肺癌。此外,源自TCGA 的数据也可能用于验证原创研究的结果[45],或作为质量控制[46]。
未来前景
2003年人类基因组计划完成后,NGS 技术改进明显增加了基因组数据量,这些数据由检测罕见结构变异中基因组覆盖范围和细微差别增多的研究产生。随着技术改进,这些技术在研究中的实用性及其潜在临床应用也有所增加。NGS 方法允许我们深入挖掘遗传密码,以识别大量潜在的基因和基因组差异(如结构异常、拷贝数目增加和体细胞SNVs )。他们为我们提供了解密癌症基因组中复杂基因改变的工具。通过提供既往已知疾病/治疗相关基因靶标的全面基因组图谱,NGS 可能提高我们选择恰当的治疗药物的能力。而且,NGS 发现了许多其它的基因组标记物,它们对致病/治疗很重要。通过该方法产生的数据使研究者可以实施旨在提高我们对生物学和患者治疗的认识的系统生物学研究,最终实现真正地个体化用药。如本综述所总结,NGS 为探索更多的基因变异提供了机会,这些基因变异可能导致有前景的治疗
靶标。此外,国际间合作网络通过研究机构分享数据库和技术,如ICGC ,会加快每一个体患者突变图谱发现的步伐。NGS 相关的临床挑战是,所述病症并不总是与临床实践中所观察到的疾病相关[ 5]。通过使用有效的靶向治疗,大多数现已识别的突变并未转化至临床实践。点突变的有效使用仍为实现癌症个体化用药的一项挑战。
即使有了这些进展,挖掘NGS 分析产生的庞大数据集进行分析并将其转化为医疗保健仍具有挑战性。疾病的异质性以及患者伴有其它环境影响,增加了解释NGS 结果的难度。为了将NGS 结果真正地转化为临床癌症治疗,需要进一步采用先进的软件程序进行生物信息学分析、对NGS 结果进行功能验证和临床试验确认。
有证据表明,携带既往已知靶标如EGFR 和ALK 重排的患者可获益于相应的抑制剂治疗[20]。传统方法无法解释一些患者可获益于临床上地初始治疗,但会发展为耐药并对该治疗产生不同反应。NGS 可能通过采用更多的全面测序来明确病因。比如,Marchetti 等发现了外显子 9的复杂突变和缺失亚群[28]。NGS 有助于为患者寻找恰当的靶向治疗。而且,现有可用的分子靶向药物在肺ADC 中普遍使用。NGS 还有望发现其它肺癌类型的药物靶标。此外,NGS 无疑会改善癌症诊断,这些不在本综述范围之内。预计将有更有效的靶标和生物标记物被发现和验证,就像采用NGS 分析所产生的癌症领域的发现会有持续进展一样。NGS 技术还有助于提高我们对癌症致病基因突变/变异的认识,期待有更多生物标记物和潜在药物靶标通过NGS 被发现。
Financial & competing interests disclosure
The authors have no relevant affiliations or financial involvement with any organization or entity with a financial interest in or financial conflict with the subject matter or materials discussed in the manuscript. This includes employment, consultancies, honoraria, stock ownership or options, expert testimony, grants or patents received or pending, or royalties.
No writing assistance was utilized in the production of this manuscript.
·C 0·
中国肺癌杂志20 4年 月第 7卷第 期Chin J Lung Cancer, January 20 4, Vol. 7, No.
References
Papers of special note have been highlighted as:■ of interest
■■ of considerable interest . 2. 3.
Jemal A, Bray F, Center MM, Ferlay J, Ward E, Forman D. Global cancer statistics, 20 . CA Cancer J. Clin. 6 (2), 69–90 (20 ).
Sequist LV, Lynch TJ. EGFR tyrosine kinase inhibitors in lung cancer: an evolving story. Annu. Rev. Med. 59, 429–442 (2008).
Meyerson M, Gabriel S, Getz G. Advances in understanding cancer genomes through second-generation sequencing. Nat. Rev. Genet. ( 0), 685–696 (20 0).4.
Diamandis M, White NM, Yousef GM. Personalized medicine: marking a new epoch in cancer patient management. Mol. Cancer Res. 8(9), 75– 87 (20 0).5. 6.
Tuna M, Amos CI. Genomic sequencing in cancer. Cancer Lett. 2, S0304–S3835 (20 2).
Beck CR, Collier P, Macfarlane C et al. LINE- retrotransposition activity in human genomes. Cell 4 (7), 59– 70 (20 0).
7. 8.
Huang CR, Schneider AM, Lu Y et al. Mobile interspersed repeats are major structural variants in the human genome. Cell 4 (7), 7 – 82 (20 0).Murphy SJ, Cheville JC, Zarei S et al. Mate pair sequencing of whole-genome-amplified DNA following laser capture microdissection of prostate cancer. DNA Res. 9(5), 395–406 (20 2).
9. O’Daniel JM, Lee K. Whole-genome and whole-exome sequencing in hereditary cancer: impact on genetic testing and counseling. Cancer J. 8(4), 287–292 (20 2).
0. Tran B, Dancey JE, Kamel-Reid S et al. Cancer genomics: technology,
discovery, and translation. J. Clin. Oncol. 30(6), 647–660 (20 2).
. Erlich Y, Edvardson S, Hodges et al. Exome sequencing and disease-network
analysis of a single family implicate a mutation in KIF1A in hereditary spastic paraparesis. Genome Res. 2 (5), 658–664 (20 ).
2. Teer JK, Mullikin JC. Exome sequencing: the sweet spot before whole
genomes. Hum. Mol. Genet. 9(R2), R 45–R 5 (20 0).
3. Gilissen C, Hoischen A, Brunner HG, Veltman JA. Unlocking Mendelian
disease using exome sequencing. Genome Biol. 2(9), 228 (20 ).
4.
Sirmaci A, Edwards YJ, Akay H, Tekin M. Challenges in whole exome
中国肺癌杂志20 4年 月第 7卷第 期Chin J Lung Cancer, January 20 4, Vol. 7, No.
·C ·
sequencing: an example from hereditary deafness. PLoS One 7(2), e32000 (20 2).
5. Singleton AB. Exome sequencing: a transformative technology. Lancet Neurol.
0( 0), 942–946 (20 ).
6. Marioni JC, Mason CE, Mane SM, Stephens M, Gilad Y. RNA-seq: an
assessment of technical reproducibility and comparison with gene expression arrays. Genome Res. 8(9), 509– 5 7 (2008).
7. Morrissy AS, Morin RD, Delaney A et al. Next-generation tag sequencing for
cancer gene expression profiling. Genome Res. 9( 0), 825– 835 (2009). 8. Wang Z, Gerstein M, Snyder M. RNA-seq: a revolutionary tool for
transcriptomics. Nat. Rev. Genet. 0( ), 57–63 (2009).
9. Campbell PJ, Stephens PJ, Pleasance ED et al. Identification of somatically
acquired rearrangements in cancer using genome-wide massively parallel paired-end sequencing. Nat. Genet. 40(6), 722–729 (2008).
20. Wu K, House L, Liu W, Cho WC. Personalized targeted therapy for lung
cancer. Int. J. Mol. Sci. 3(9), 47 – 496 (20 2).■
Comprehensively summarizes the response to targeted treatments in clinical trials with biomarker-based selection of patients.
2 . Li H, Pan Y, Li Y et al. Frequency of well-identified oncogenic driver
mutations in lung adenocarcinoma of smokers varies with histological subtypes and graduated smoking dose. Lung Cancer 79( ), 8– 3 (20 3).22. Couraud S, Zalcman G, Milleron B et al. Lung cancer in never smokers – a
review . Eur. J. Cancer 48, 299– 3 (20 2).
23. Shigematsu H, Lin L, Takahashi T et al. Clinical and biological features
associated with epidermal growth factor receptor gene mutations in lung cancers. J. Natl Cancer Inst. 97(5), 339–346 (2005).
24. Ren S, Kuang P, Zheng L et al. Analysis of driver mutations in female non-smoker Asian patients with pulmonary adenocarcinoma. Cell Biochem. Biophys . 64(2), 55– 60 (20 2).
25. Cheng L, Alexander RE, Maclennan GT et al. Molecular pathology of lung
cancer: key to personalized medicine. Mod. Pathol. 25(3), 347–369 (20 2).26. Zhang Y, Sun Y, Pan Y et al. Frequency of driver mutations in lung
adenocarcinoma from female never-smokers varies with histologic subtypes and age at diagnosis. Clin. Cancer Res. 8(7), 947– 953 (20 2).
27. Keedy VL, Temin S, Somerfield MR et al. American Society of Clinical
Oncology provisional clinical opinion: epidermal growth factor receptor (EGFR) mutation testing for patients with advanced non-small-cell lung cancer considering first-line EGFR tyrosine kinase inhibitor therapy. J. Clin. Oncol . 29( 5), 2 2 –2 27 (20 ).
28. Marchetti A, Del Grammastro M, Filice G et al. Complex mutations and
subpopulations of deletions at exon 9 of EGFR in NSCLC revealed by next generation sequencing: potential clinical implications. PLoS One 7(7), e42 64 (20 2).
29. Pao W, Miller VA , Politi K A et al. Acquired resistance of lung
adenocarcinomas to gefitinib or erlotinib is associated with a second mutation in the EGFR kinase domain. PLoS Med. 2, e73 (2005).
30. Su KY, Chen HY, Li KC et al. Pretreatment epidermal growth factor receptor
(EGFR) T790M mutation predicts shorter EGFR tyrosine kinase inhibitor response duration in patients with non-small-cell lung cancer. J. Clin. Oncol.
30(4), 433–440 (20 2).
3 . Jung Y, Kim P, Jung Y et al. Discovery of ALK-PTPN3 gene fusion from
human non-small cell lung carcinoma cell line using next generation RNA sequencing. Genes Chromosomes Cancer 5 (6), 590–597 (20 2).
32. Kalari KR, Rossell D, Necela BM et al. Deep sequence analysis of non-small
cell lung cancer: integrated analysis of gene expression, alternative splicing, and single nucleotide variations in lung adenocarcinomas with and without oncogenic KR AS mutations. Front. Oncol. 2, 2 (20 2).
33. Ju YS, Lee WC, Shin JY et al. A transforming KIF5B and RET gene fusion
in lung adenocarcinoma revealed from whole- genome and transcriptome sequencing. Genome Res. 22(3), 436–445 (20 2).
■■ Revealed the novel transformation of KIF5B and RET gene fusion
in lung adenocarcinoma patients. This fusion might be a potential molecular target.
34. Kohno T, Ichikawa H, Totoki Y et al. KIF5B–RET fusions in lung
adenocarcinoma. Nat. Med. 8(3), 375–377 (20 2).
35. Lipson D, Capelletti M, Yelensky R et al. Identification of new ALK and RET
gene fusions from colorectal and lung cancer biopsies. Nat. Med. 8(3), 382–384 (20 2).
36. Imielinski M, Berger AH, Hammerman PS et al. Mapping the hallmarks of
lung adenocarcinoma with massively parallel sequencing. Cell 50(6), 07– 20 (20 2).
37. Ding L, Getz G, Wheeler DA et al. Somatic mutations affect key pathways in
lung adenocarcinoma. Nature 455(72 6), 069– 075 (2008).
38. Greulich H, Kaplan B, Mertins P et al. Functional analysis of receptor
tyrosine kinase mutations in lung cancer identifies oncogenic extracellular domain mutations of ERBB2. Proc. Natl Acad. Sci. USA 09(36), 4476– 448 (20 2).
■■ Identified a novel potently oncogenic extracellular domain in the
mutation of ERBB2 that could transform NIH 3T3 cells to anchorage independence in lung adenocarcinoma cases. The inhibitor of extracellular mutant ERBB2 might be a promising therapeutic opportunity.
39. Cancer Genome Atlas Research Network. Comprehensive genomic
characterization of squamous cell lung cancers. Nature 489(74 7), 5 9–525 (20 2).
40. Daniels M, Goh F, Wright CM et al. Whole genome sequencing for lung
cancer. J. Thorac. Dis. 4(2), 55– 63 (20 2).
4 . Govindan R, Hammerman SP, Hayes ND et al. Comprehensive genomic
characterization of squamous cell carcinoma of the lung. J. Clin. Oncol. 30, Abstract 7006 (20 2).
42. Li Y, Zhang L, Ball RL et al. Comparative analysis of somatic copy number
alterations across different human cancer types reveals two distinct classes of breakpoint hotspots. Hum. Mol. Genet. 2 (22), 4957–4965 (20 2).
43. Lin K, Taylor JR Jr, Wu TD et al. TMEFF2 is a PDGF-A A binding protein
with methylation-associated gene silencing in multiple cancer types including glioma. PLoS One 6(4), e 8608 (20 ).
44. Yao C, Li H, Shen X, He Z, He L, Guo Z. Reproducibility and concordance
of differential DNA methylation and gene expression in cancer. PLoS One
·C 2·
中国肺癌杂志20 4年 月第 7卷第 期Chin J Lung Cancer, January 20 4, Vol. 7, No.
7( ), e29686 (20 2).
45. Liu P, Morrison C, Wang L et al. Identification of somatic mutations in non-
small cell lung carcinomas using whole- exome sequencing. Carcinogenesis 33(7), 270– 276 (20 2).
46. Zhuang J, Jones A, Lee SH et al. The dynamics and prognostic potential of
DNA methylation changes at stem cell gene loci in women’s cancer. PLoS Genet. 8(2), e 0025 7 (20 2).
47. Pleasance ED, Stephens PJ, O’Meara S et al. A small-cell lung cancer genome
with complex signatures of tobacco exposure. Nature 463(7278), 84– 90 (20 0).
48. Keller A, Backes C, Leidinger P et al. Next-generation sequencing identifies
novel microRNAs in peripheral blood of lung cancer patients. Mol. Biosyst. 7( 2), 3 87–3 99 (20 ).
49. Lee W, Jiang Z, Liu J et al. The mutation spectrum revealed by paired genome
sequences from a lung cancer patient. Nature 465(7297), 473–477 (20 0).
50. Carvalho RH, Haberle V, Hou J et al. Genome-wide DNA methylation
profiling of non-small cell lung carcinomas. Epigenetics Chromatin. 5( ), 9 (20 2).
5 . Beane J, Vick J, Schembri F et al. Characterizing the impact of smoking and
lung cancer on the airway transcriptome using RNA-Seq. Cancer Prev. Res. 4(6), 803–8 7 (20 ).Websites
0 . American Cancer Society. Cancer facts and figures 20 . www.cancer.org/
acs/groups/content/@ epidemiologysurveilance/documents/ document/acspc-02977 .pdf (Accessed on 22 July 20 3)
02. International Cancer Genome Consortium. http://icgc.org/#about
(Accessed on 22 July 20 3)
03. The Cancer Genome Atlas. http://cancergenome.nih.gov/abouttcga/
overview (Accessed on 22 July 20 3)
Cite this article as: Wu K, Huang RS, House L, et al. Next-generation sequencing for lung cancer. Future
Oncol, 20 3, 9(9): 323- 336. doi: 0.22 7/fon. 3. 02.