下一代测序技术
下一代测序技术
摘要|从未有过的巨大革命技术需求交付快速、廉价、准确的基因组信息。这一挑战也促进了下一代测序技术的发展。传统方法主要的优势是生产大量廉价的序列数据。在这里,我进行一下技术回顾,模板制备、测序成像、基因定位和装配方法以及当前的最新进展和短期商用的下一代测序技术。除了为解决生物问题的兴趣提供平台选择指导,再略述下一代测序技术的广泛应用。
在过去的四年里,进行基因组分析的自动化桑格测序技术的应用发生了根本性的转变。在这之前,自动化桑格技术主导该产业几乎20年,并作出了巨大的成就,包括唯一完整的人类基因组序列。尽管在这个年代很多技术都在提高,然而自动化桑格测序技术的局限性,展现出对一种面向大量人类基因组测序的新的改良技术的需求。最近致力于研究新的方法,桑格测序可能提的会少一些。因此,本篇文章不包括桑格测序,有兴趣的读者可以读一下前面的文章。
自动化桑格方法被认为是“第一代”技术,新的方法被称为下一代基因测序。这些新技术组成不同的策略,依赖于模板准备,测序和成像,基因组比对和装配的方法结合。下一代测序技术的到来改变了我们在基础、应用和临床研究方面的思考方式。在某些方面,下一代测序技术类似于以前的聚合酶反应链,主要使用局限在成像方面。下一代测序技术的提高在于其能廉价地生产出一个巨大的数据量,在某些情况下仪器运行超过十亿短读。这个特性扩展了实验以外的领域,不仅仅是在确定的顺序集上。例如,基因表达研究基因芯片现在被基于序列的方法所代替,这种方法可以识别和量化罕见的转录体,没有先验知识的一个特定的基因,并且提供特定基因的可变剪接和序列变化方面的相关信息。测序许多相关生物的整个基因组的能力使得大规模的比对和进化研究被实施,这在几年前是不可想象的。下一代测序技术最广泛的应用可能是对人类基因的重新排序以增强人们对不同的基因如何影响健康和疾病的理解。下一代测序的各种特性使得它在市场上可能共存于多个平台,因为它在特定应用上有明显的优势。
本文专注于商用技术,来自罗氏/ 454,Illumina/ Solexa,LIFE/ APG和Polonator Helicos生物科学仪器和近期的太平洋生物科学,旨在2010年将他们的测序设备引进市场。纳米孔测序没有被覆盖,尽管有兴趣的读者通过布兰顿和他的同事们针对一篇文章,描述了进展并对这项技术保持挑战。在这里,我提出一个技术的回顾,模板准备,测序和成像,基因组比对和装配,当前下一代基因测序平台的性能,为这些技术如何工作和如何将这些技术应用于重要的生物问题上提供指导。我强调用目标和整个基因组方法进行人类基因组重组的应用,讨论这些方法的进展和局限性,和接下来几年即将看到的进展和预期的影响。
下一代测序技术
测序技术包括很多方法,宽泛的分为模板准备,测序和成像,数据分析。特定协议的独特结合使得一个技术区别于其他技术,决定着来自每个平台产生的数据类型。当基于数据的质量和成本比较时这些输出数据的不同面临挑战。尽管质量分数和精度估计是由每个制造商提供的,从一个平台到另一个平台“质量基础”是没有一致性的。下文将会讨论各种测序指标。
在下面几节中,讨论模板准备和测序成像,因为它们适用于现有和近期的商业平台。下面有两种方法用于为下一代测序反应准备模板:从单个DNA分子克隆扩增的模板,和单个DNA分子模板。合成测序,在文献中用于描述大量的脱氧核糖核苷酸的方法,在这篇文章中,因为它无法描述测序中的不同机制,所以
没有用到。相反,这些方法被列为循环可逆终止(CRT),单基因(SNA)和实时测序。还描述了结扎测序(SBL),一种由DNA连接酶替换DNA聚合酶的方法。成像方法再加上这些从测量生物发光信号到单核分子的四色成像事件测序策略。下一代测序平台产出大量数据代替了信息技术在数据存储,追踪和质量控制方面的大量需求。
模板准备
需要一个健壮的方法产出一个代表,基因组在调查过程中再怎么强调核酸物质的无偏来源都不为过。目前的方法通常致力于随机的将DNA基因组破坏为较小规格的DNA从中创建片段模板或是双端模板。在下一代测序技术中的一个普遍主题是模板固定或支撑在固体表面。空间的固定分离了模板珠允许数十亿的测序反应同时进行。
克隆扩增模板大多数成像系统没有被设计为检测单一的荧光事件,所以需要扩增模板。两种最普通的方法是感光乳剂聚合酶链反应和固相扩增。感光乳剂聚合酶链反应被用于在非细胞系统准备测序模板,有利于避免基因组序列的任意损失。在细菌克隆方法中存在一个固有的问题。一个片段或配对库被创建后,转接器包含通用的启动点,被绑定在目标末端。允许复杂的基因组用普通的聚合酶链反应引物进行扩增。绑定之后,DNA被分离成单股并捕获到每个支持一个DNA分子的点的情况。在成功扩增和改进感光乳剂聚合酶链反应后,数百万可以固定聚丙烯酰胺凝胶在一个标准的显微镜幻灯片上,化学的交联在一个氨基酸镀膜玻璃表面或者很好地沉积成单个下一代测序化学过程可以被执行的蛋白酪氨酸磷酸酯酶(PTP)。
固相扩增也可用于随机分布的生产,克隆扩增的集群来自一个载玻片的片段或配对模板。高密度的正向反向引物共价键覆在滑片上,支撑物上引物模板的比率界定了扩增集群的表面密度。固相扩增能产出1、2亿空间上分离的模板集群。为能被混合生成到启动下一代测序反应的一个普通的测序引物提供游离末端。
单一分子模板尽管克隆扩增方法在细菌克隆方面提供了一定的优势。有些协议实现繁琐,要求大量基因组DNA原料。单一的DNA分子模板准备起来更加直接,只需要少量的启动原料。更重要的是,这些方法不需要聚合酶链反应,在克隆扩增模板时突变,伪装为序列变体。 AT-rich and GC-rich目标测序可能也展现了生产领域的扩增偏见,导致在基因组比对和装配代表不足。定量应用,例如RNA测序,与未扩增的模板资源,更有效的执行,不改变表征丰富的信使RNA分子。
在下一代基因测序未实施之前,单核分子模板通常固定在固体支撑上至少使用三个不同的方法之一。在一个方法中,空间分布的单个引物分子共价附着在固体支撑上。模板准备通过随机分割启动原料至小规模,加上普通的转接器到片段末端,混合生成固定的引物。在第二种方法中,空间分布单个分子模板键和固定在固体支撑上,通过引发扩展单链,从固定化引物到单核分子模板。一个普通的引物就被混合生成模板。在这两种方法中,DNA聚合酶绑定固定的引物模板配置最初的下一代测序反应。以上两种方法都在螺旋生物科学中用过。在第三种方法中,空间分布单个聚合酶分子固定在一个引物模板分子被绑定固体支撑上。这种方法被太平洋生物科学用过,在Life/visiGen 16 and LI-COR生物科学专利中描述过。这种技术可用于大的DNA分子,不像前两种方法,第三种能用于实时方法,导致潜在的长读取长度。
测序和成像
测序克隆扩增和单核分子模板有着本质的区别。克隆扩增导致同一模板种群,每个都经历了测序反应。成像,所观察到的信号是在给定周期中附加到相同的模板的核苷酸或探针的共识。这代表在效率增加过程中一个更大的需求,模板总体效果的不完整扩充后随链移相。另外多个核苷酸或探针也发生在一个即定的周期,导致领头链移相。信号移相增加了荧光噪音,造成碱基判定错误和较短读取。因为移相不是一个用于单分子模板的事件,为了循环效率的要求放宽。然而,在任何既定的周期中单核分子易受多个核苷酸或探针增加的影响。这里,删除错误被在毗邻的染色分子或无信号被检测到因为黑核苷酸或探针的合并。在接下来的一部分,测序和成像策略将用克隆扩增和单核分子模板来讨论。
循环可逆终结顾名思义,循环可逆终结是在一个循环方法中用可逆终结来使核苷酸合并,荧光成像和分裂。在第一步中,一个DNA聚合酶,结合启动模板,添加或是合并仅仅一个荧光改变核苷酸,作为对基础模板的补充。在单核核苷酸增加之后DNA合成终结是CRT的一个重要特征。合并之后,剩余的未合并的核苷酸被冲洗。成像用来决定合并后的核苷酸的身份。通过一步分裂,消除了终止/抑制组和荧光染料。另外的冲洗是在下一个合并开始之前被执行。
CRT方法的核心是可逆结束符,分为两步:3’端封锁和3’端未封锁。双脱氧核苷酸在桑格测序中充当着一个链结束符的角色,链接在核苷酸3’末端,为初始的反转封锁组发展提供基础。封锁组,such as 3′-O-allyl2′-deoxyribonucleoside triphosphates (dNTPs) 21 and3′-O-azidomethyl-dNTPs ,已被成功用在了CRT中。3’封锁结束符要求两个化学键的分解来消除来自核苷酸的荧光和恢复3’-OH组。
目前,Illumina公司/ Solexa基因组分析仪(GA)23在门店市场上占据主导地位。它使用克隆增强模板方法,耦合四色CRT方法。这四个颜色通过全内反射荧光(TIRF)使用两个激光成像探测到,输出在图二中描述。玻片被划分为八个频道,它允许独立样本同时运行。表一展示了当前Illumina/Solexa GA II平台在贝勒大学医学院人类基因组测序中心上运行的测序数据。替换是最普遍的错误类型,大部分错误发生在最早合并核苷酸是’G’基。Illumina/Solexa数据的基因组分析揭示了AT-rich和GC-rich区域代表不足,很可能由于模板准备期间的扩增偏差。通过生物信息工具如 mAQ 或 eLAND ,比对读取参照基因组称为序列变异。宾利和他的同事们记录了单核核苷酸变体(SNV)很高的一致性(99.5%),用相同的比对工具进行标准基因型分析组,和异常的假阳性率为2.5%的单核核苷酸变体。其他的记录者描绘了用这些比对工具更高的异常单核核苷酸变体假阳性率。
困难包括识别一个有效合并3’封锁末端的修改了的酶--需要筛选大的突变DNA聚合酶库--促使了3’未封锁端可逆末端的发展。LaserGen,Inc. 是第一组展示一个小终止组相连的畅通无阻的核苷酸3′端可以作为一个有效的可逆的终结者,通过原生DNA聚合酶合并。这促使了快速终止剂的发展。Helicos是生物科学报道了虚拟终止剂的发展,3′畅通终端与第二个核苷类似物作为抑制剂。3′畅通终端面临的挑战是创建适当的修改终止(快速终止剂)或抑制组(虚拟终端)以使得DNA合成在单基添加后结束。一个未封锁的3’-OH组重要是因为它为下一个核苷酸的合并提供了天然基质。单键的分裂只需要消除终止或抑制组,来自核苷酸的萤光组比起3’-封锁结束符是一个更有效的策略来为下一个CRT周期恢复核苷酸。
Helicos生物科学是第一个商品化单分子测序仪的团队,HeliScope, 是基于Quake和他的同事们。HeliScope用单核分子模板方法,在图一c和图1d中可以看到,和一色CRT方法结合,在图2c中可以看到。一个核苷酸的合并形成一个
荧光信号。HeliScope,也用TIRF(全内反射荧光)去形成CY5的染料,他的成像可以在图2d看到。Harris和他的同事们用Cy5-12ss-dNTPs,这是早期版本的虚拟终端,缺乏抑制组,报道当使用引物固定方法时聚合物重复区域的删除错误是最常见的错误类型,图1 c。这很可能与在一个给定周期内两个或更多Cy5-12ss-dNTPs合并有关。这些错误可以通过两阶段测序极大减少,这提供了用模板更改策略基于~25的一致读取。图1d.在2009年的进步基因组生物学和技术(AGBT)会议上, Helicos团队报道他们近来在测序线虫基因组方面的进展。从单个HeliScope仪器的运行仅用50个工具中的7个,大约2.8 Gb的高质量的数据生成从> 25-base一致读取0,1或2 个错误8天。报道基因组大于99%的覆盖率,显示> 5倍覆盖的区域,共识的正确率是99.999%。
结扎测序SBL是另一个循环方法不同于用于DNA连接酶的CRT,是一基编码探针或双基编码探针.最简单的形式是,一种荧光标记的探针混合生成毗邻原始模板的补充序列。然后添加DNA连接酶加入有染料标记的原始探针上。没有绑定的探针被冲洗,通过荧光成像决定绑定探针的特性。周期重复通过用可分裂的探针去除荧光染料,再为随后结扎周期生成一个 5′-PO4组或通过删除和为模板再生新的引物。
Shendure and colleagues用的结扎测序方法测序Escherichia coli mG1655基因组。双端测序准备了四个引物(A1-A4),通过感光聚合酶链反应扩增。大量基于1的编码探针,1-探针到7-探针被使用。在第一个结扎测序周期之中,A1引物被锻炼在模板上,随后是1-探针的生成结扎,四色成像和整个引物-探针从固态阶段绑定模板上移除。然后结扎测序周期用2-探针重复A1引物,用3-探针重复A1引物等。其他三个音无,A2,A3,A4,然后在一个相似方式循环产出6(A2和A4)和7(A1和A3)基从每个基因组末端的读取,使得每个双端模板对所有26基的读取。来自两个机器的运行,作者报道产出大约4亿8千万高质量的基,覆盖了大约70%的 E. coli基因组。结扎测序方法被用于Polonator 设备上。
Life/APG商业化它们的结扎测序平台叫做支持寡核苷酸结扎检测(SOLiD)。这种方法用双基编码探针,主要优点是在颜色调用和单核核苷酸变体调用时提高精确度,后者要求一个有效的毗邻颜色变化。颜色空间对SOLiD来说是一个独特的特性。引物通过感光聚合酶链反应(emPCR)模板扩增生成。1,2-探针生成和结扎、成像、探针分解的SOLiD 周期重复10次生成10色叫做隔断在5基隔断中。然后扩增的引物从固态阶段模板上脱离。第二轮结扎用‘n-1’个引物完成,重置询问基,类似的十色调用一个位置到左边。十个结扎周期接踵而至,随后是三轮结扎周期。从5个结扎循环调用颜色然后排成一个线性序列(颜色空间),和一个参考基因组比对解码DNA序列。SOLiD 每次运行用两个玻片;每个玻片分为四个或8个区域。表1显示了当前Life/APG平台在
BCm-HGSC上操作的测序数据。替换是最常见的错误类型。和 Illumina/Solexa读取的基因组分析相似, SOLiD数据也暴露了AT-rich 和GC-rich区域代表不足。Shen和同事们最近展示了SOLiD的MAQ序列数据可能调用正确变体不足。
单核核苷酸添加:焦磷酸测序。焦磷酸测序是一种用无电泳,生物发光方法测量无生物焦磷酸释放,按比例通过一系列聚合酶反应将其转换成可见光。不像其他的测序方法,通过改变核苷酸来终止DNA合成,焦磷酸测序方法通过限制脱氧核苷三磷酸添加物数量操纵DNA聚合酶。在互补焦磷酸的合并下,DNA聚合酶扩增了引物和中止。在调剂周期,随着下一个互补焦磷酸的增加DNA合成增加。光的序列和峰值被记录为流图,显示潜在的DNA序列。
margulies和同事们描述了第一代NGS平台用它们的PTP设备整合焦磷酸。被
Roche/454商业化,设备用荧光聚合酶链反应准备的DNA模板,有1-2百万珠子存放在
PTP源。Roche/454最近发布了一个钛涂层聚对苯二甲酸酯设计,通过减少相邻源交联包含单一的克隆扩增珠子,大幅度增加了读取长度并且提高了数据质量。小点的珠子,有硫酸化酶和荧光素酶附着在上面促进光的生产,载入围绕在模板珠周围的源。个别的脱氧核糖核苷三磷酸然后在源中流动执行预定的排序。生物发光通过一个电荷耦合相机 成像,表1显示了 Roche/454平台在 BCm-HGSC上运转的当前排序数据。不像那些生产很短读取长度的平台,Roche/454平台要求双端测序模板两倍的运行时间。多达六个核苷酸的聚合物重复,三磷酸脱氧核糖核苷酸数量增加直接与光信号成比例。插入是最常见的错误类型,删除次之。
实时测序 下一个技术方法达到商业部门的可能是实时排序,太平洋生物科学当前正致力于此。不像可逆结束符,实时核苷酸不会停止DNA的合成。简单的说,实时测序方法牵涉到成像,在DNA合成期间不断合并有染色标签的核苷酸。太平洋生物科学平台,单个DNA聚合物分子附着在个别0-模式的波导探测器底面上,当无机磷核苷酸被并入增长的引物链时获得测序信息。
其他技术的提出用于在实时测序时用更传统的检测方案增强信噪比测量。比如,Life/visiGen设计DNA聚合酶时附带一个荧光染料,根据他们 γ-标签核苷酸的合并,通过荧光共振能量转移产生增强信号。太平洋生物科学获得LI-COR技术,开发冷却染料核苷酸,在他们的天然状态下生产低信号由于冷却剂组的出现附着在基上。发布和传播染色标记的焦磷酸盐相似物远离固定DNA聚合物生产一个荧光信号。
太平洋生物科技用高的进行性,串置换 φ29DNA聚合酶因为它能有效合并磷核苷酸并使得已经关闭的循环模板重新测序。为了评估这种方法的有效性,一个四色测序实验用一个已知的150个基点的线性模板分析。实时读取的基调用决定从类似的萤光脉冲。读取和一个已知的序列对比时,包括删除,插入,错误匹配共发现了27个错误,对应的读取精度为83%。导致测序错误的因素包括两个合并事件间极短的内部片段间隔和在合并到引物串之前在活跃点绑定和释放核苷酸。考虑到大多数错误的出现是随机事件,作者展示了相同模板分子15次或更多重复的测序从而提高一致的读取精度达到99%。在2009年的AGBT会议上,太平洋生物科学报道了他们平台的提高,当用于测序E. coli 基因组以8倍的基覆盖,获得了99.3%的基因组覆盖。对整个基因组的一致的精确度达到大于99.999%,平均读取长度为964基。
基因组比对和组装
在下一代基因测序读取产生之后,比对一个已知的参考序列或从头组装。用那种方法会考虑基于预期的生物应用的成本,努力和时间。例如,在高相关的基因组的多品系识别和编目基因组变异,比如发现于在特殊种群的细菌,秀丽隐杆线虫和在拟南芥,能通过比对NGS都去他们的参考序列完成。这种方法比起桑格测序更加廉价快速。单核苷酸变异很容易识别,尽管在很多情况下,校验发现的这些情况是被要求的。
比对方法的局限,例如在参考基因组重复区域或合并区域放置读取可能在参考基因组不存在;后者的情况可能起因于参考基因组的差异或被分析基因组的结构变异的出现。双端读取能为一些重复区域解决正确的基因组比对只要片段读取对基因组是唯一的。艾格霍姆,斯奈德和他的同事们研究展示Roche/454的读取数据,来源于3-kb的双端基因组库,能够捕获人类基因组的一大部分结构变体,尽管这种方法比起传统的福斯质粒末端测序方法仍只能识别较少的结构变体。
从头测序装配因细菌基因组和哺乳类细菌人工染色体被报道,但是他们应用于人类基因组存在很大的挑战。来提高比对质量或装配的一个合理的方法是增加读取覆盖。弗雷泽和他的同事们的一篇文章挑战这种方法,通过报道针对Roche/454, Illumina/Solexa and Life/APG平台不同的基因组区域在本地序列覆盖的系统变异。因为每个检查过的N
GS平台生产一个唯一的序列覆盖的可再生模式,比对或装配中不同NGS读取类型的混合可能会纠正这个缺陷。最近报道混合Roche/454和 Illumina/Solexa读取数据使得提高了从头开始的微生物基因组的程序集,在和来自任何一个单独的平台数据比较情况下。
基因组富集尽管大量成本的减少与NGS技术有关与自动桑格技术的比较之下,整个基因组测序仍很昂贵。这个问题的一个临时解决方案可能是用NGS平台去致力于感兴趣的特定区域。这种方法可以用于检测基因组中所有的外显子,组成已知药物目标的特定基因家族或医药基因特效通过对全基因组的有关研究。针对基因组特定区域的观念是成立的,这种方法聚合酶链反应中广为应用,尽管在小范围内。聚合酶链反应和桑格测序适当匹配用来分析少量的候选基因,但是聚合酶链反应和针对的高通量NGS平台匹配策略不实用,因为样本准备要求单独处理成千上万的引物或在大型多元组满足一个单个工具的运行需求。最近弗雷泽和他的同事们与雨舞技术合作的一篇文章报道了用微滴聚合酶链反应技术3976产品的同时增长。这里,一个微流体设备创造了水皮升量液滴,在一个油溶剂前进或反转目标引物。引物滴针对基因组的不同区域与分离的皮升滴合并,包括支离破碎的基因组DNA和关联的聚合酶链反应试剂,这些混合滴液在一个管里热循环。作者报道了一个捕获效率为84%用目标基90%展示同一覆盖用微滴PCR方法测序Roche/454 or Illumina/Solexa 平台。
专门订制的低核苷酸基因芯片和基于杂交策略的方案都被用于感兴趣的目标区域。例如,Roche/NimbleGen低核苷酸基因芯片设计为固定片段杂交丰富外显子提供候补序列或基因组区域的相连延长。序中心和冷泉港实验室团队报道捕获效率为65-77%(Roche/454platform) 和53% (Illumina/Solexa platform),分别地,有针对的外显子被覆盖通过至少一个NGS读取。最近,序中心团队报道>90%捕获效率用至少10×基覆盖(Roche/454 and Life/APG platforms) 通过芯片最优化来减少探针的数量在更大的覆盖区域当增加这些低覆盖区域。
其他团队捕获了特定的基因组区域通过溶液杂交方法,例如分子插入探针和生物素化RNA捕获序列。Shendure, Church和他的团队是第一次在外显子目标中中用分子插入探针通过设计特定的低核苷酸末端攻击侧面外显子的兴趣。然而,在重复试验下只有20%的目标被捕获甚至更少的外显子区域被发现在这两个数据集(Illumina/Solexa platform)。mindrinos, Davis 和他们的团队最近描述了一些技术提高,增加分子插入探针捕获的有效性>90%,大约70%的目标下降在485个外显子在10倍的范围内。Shendure团队也描述了能够在初始55,000目标中捕获91%的提高。 Nusbaum团队也报道了一个可供选择的方法,创造生物素化的RNA捕获序列被杂交成基因组目标随后富于着外面覆盖的抗生蛋白链菌素磁珠(Illumina/Solexa platform).团队估计了外显子的捕获效率为60%,基因组区域80%。1000基因组课题和外显子组课题采用基于基因芯片和基于溶剂的方法
用于Roche/454, Illumina/Solexa and Life/APG平台针对感兴趣的区域。
下一代基因测序应用生产大量的低成本的读取使得NGS平台描述上述这些包括变体的发现,通过重新测序感兴趣的目标区域或整个基因组,细菌和低等真核生物基因组的从头开始装配,编目细胞、组织和生物的血吸虫,全基因组表观标记的遗传和核染色结构用其他基于序列的方法 (ChIP–seq, methyl–seq and DNase–seq)和物种分类或通过宏基因组研究的基因组发现。有这么多的应用,那个平台才是最适合给定的生物实验呢?例如, Illumina/Solexa and Life/APG平台很适合通过重新测序变体发现,因为每一次运行产生大量高质量基。此外,螺旋生物科学平台很适合应用于RNA测序要求定量信息或直接RNA测序,因为它直接测序RNA模板不需要将他们转换为互补DNA。表1提供了NGS技术综述,工具性能和成本,有利有弊,生物应用的推荐;然而,领域技
术的快速提高在不久的将来能改变这些信息。读者针对RNA测序、芯片测序和宏基因测序给出一些优秀的评价。
下文中,我着重强调近来用NGS在测序个人基因组方面的提高,因为这个领域的要求驱动了技术的快速发展和竞价。
个体基因组人类基因组的研究目的在于目录单核核苷酸变体和有关的典型苯酚不同,最终目标是个性基因组医疗用途。2004年,国际人类基因组测序团队出版了有史以来第一个完结的阶段人类参考基因组。成本大约3亿美元。在2007年10月,Venter团队描述了j. Craig venter基因组序列用全基因组鸟枪方法和自动桑格测序技术。Venter基因组和参考基因组比较时,320万单核核苷酸变体被识别。另外,超过90万SVs,共导致更多的变体基超过SNVs.
第一个应用NGS到人类基因组的团队是Roche/454和Gibbs团队在序中心合作,报道詹姆斯·杜威·沃森 的双倍基因组。当沃森基因组和参考基因组比对时,大概330万单核核苷酸变体被识别,但是和Venter团队相比更少的SVs被发现。这点很重要,因为未发现的SVs会导致总数中的很大一部分变体,许多会诱发疾病。在过去的几年里,5个另外的人类基因组被描述,其中的一个被在两个不同平台上测序。正如沃森基因组,报道比Venter团队研究发现更少的SVs。
个人基因组用于疾病研究。比如, mardis团队报道了两个急性髓系白血病癌症基因组的序列,这两个研究发现体细胞突变可能与疾病有关。吉布斯团队最近阐述了一个用Life/APG平台 Charcot–marie–Tooth家庭中隐性疾病两个等位变体的说明。
很多课题针对测序更多的个体,包括癌症基因组图谱和1000基因组课题,都用Illumina/Solexa and Life/454平台测序整个基因组。完整的基因组最近最近描述来自白种男性的第一个基因组序列参加个人基因组项目。这些课题应该引起个体基因组邪恶许数量在不久的将来有显著的提升。
和自动化桑格测序比较,NGS平台极大地提高了通量并大大降低了开支,一些团队报道反应物的花费低于10万美元。然而,模板的大小和结构、读取长度、通量、基、基因组覆盖在NGS平台存在变异,这种变异使得很难评估基于成本考虑的基因组质量。在2009年7月, Illumina声明一个基因组测序服务提供了30倍的基覆盖,价格为4万8千美元。完整的基因组提供了一个相似服务用40倍的覆盖价格为5000美元。基于商业模板依赖庞大的客户数量。最近,Drmanac, Ballinger团队测序三个个体的整个基因组,包括PGP1,用改进的不可分裂的探针SBL方法被认为是组合探针固定结扎。对其他的基因组单核核苷酸变体识别的数量和表1报道的一致,团队报道了一个试剂摊销成本为4400美元。尽管骄人,还不清楚这个价格是否作为零售服务被接受或者是否Illumina公司或完整的基因组商业模板将会有长期盈利。实现这些成本优势可能也伴随着大量的取舍,也就是说低质量基因组的生产不足以达到捕获Svs 的程度。缩小1万美元和1千美元之间的差距对当前的技术发展者来说是极大的挑战,1千美元基因组可能由于为发展革新。1千美元的草案基因组时间表很难预测,甚至有更多的不确定是一个高质量、阶段完成个人基因组的交付。
总结
2004年以来,国家人类基因组研究协会对NGS的发展奖励1亿美元,这些奖励促进到目前为止更大的进步,还有一些商业的发展。许多公司,包括IBM,牛津纳米孔公司,智能生物系统,激光情报局,NABsys有NGS技术在各阶段发展和商业化。
数十亿的NGS读取产出也挑战存在的信息技术系统基础设备,在数据转移、存储、质量控制、比对计算分析或装配读取数据和简单的追踪和过程管理的实验室信息管理系
统。生物信息的提高还在继续,如果这些系统一直在NGS技术下继续发展。有关下流数据的处理分析成本会匹及或超过数据产出成本。
NGS技术应用范围骄人,正在发展更多。除了上面描述的应用,NGS技术被用于描述古基因组的进化关系,阐明未编码的RNA在健康和疾病中扮演的角色。在不久的将来,可以预见NGS技术会用于从单核细胞中分离出基因组获取高质量的序列数据,这是一个很大的突破,尤其在癌症基因组。会发生这样的情况,技术的提高要求有效分离完整的长DNA分子和在NGS方法来精确读取这些分子的内容序列。NGS的发展和应用是一个快速发展的研究领域,使得基因组研究是一个令人激动的时刻。