新一代测序技术总览
新一代DNA 测序技术总览
作者:尹银亮、陈会平、毛良伟 译来源:生物谷2011-12-7 11:54:24 原文刊登于《分析化学》综述 Analytical Chemistry
原文标题:Landscape of Next-Generation Sequencing Technologies 索引信息:dx.doi.org/10.1021/ac2010857 | Anal. Chem. 2011, 83, 4327–4341
原文作者:Thomas P. Niedringhaus, Denitsa Milanova, Matthew B. Kerby, Michael P. Snyder,and Annelise E. Barro
译者资料:
尹银亮,香港华大基因研发中心有限公司 email :[email protected] 陈会平,毛良伟,武汉华大基因科技有限公司
【内容】 第二代测序 第二代测序成本 第三代测序技术 单分子测序法 边连接边测序法 边合成边测序法
纳 米孔测序技术
蛋白质纳 米孔测序法
固态纳 米孔测序法
长距离阅读DNA 的扩展方法 总结性评论
DNA 测序正处在技术上天翻地覆剧变的阵痛之中,其突出特点是,测序通量(测序数据量)的大幅增长,原始数据中每个碱基的测序成本急剧下跌,并伴随着以巨资购买仪器以引进新技术的需求。以前看似高不可攀的奢侈性研究活动(如个人基因组测序,宏基因组学研究,以及对大量重要物种的测序),在短短几年之间,正以急速的步伐而变得越来越切实可行了。本篇综述将集中讨论在第三,第四代测序方法背后的故事:它们所面临的挑战;各种方法的局限性;以及它们带给我们的充满诱惑的前景。
第一代DNA 测序技术用的是1975年由桑格(Sanger )和考尔森(Coulson )开创的链终止法或者是1976-1977年由马克西姆(Maxam ) 和吉尔伯特(Gilbert )发明的化学法(链降解). 在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基。其测序方法和历史过程以前已做过详细回顾。后来的四色荧光桑格测序法(每一种荧光代表四种碱基中的一种)被用在自动毛细管电泳测序系统中,此系统由应用生物系统有限公司(Applied Biosystems Inc.)推上市场,后来该公司被整合入生命技术公司(Life Technologies)和贝克曼. 考尔特公司(Beckman Coulter inc.)(见表1)。 发表于2001年的第一个人类基因组复合序列就是大体上由细管电泳测序系统来测定完成的,不仅耗资庞大,花费人力无数,而且历时超过十年。尽管发表于2001年的基因组仍然处于有待完善的过程中,但其作为基因组的" 参照" 序列而被采用,已成为生命科学转化为实际应用的基础,并继续对研究基因型-表现型的关系发挥着重要作用。从迄今为止发表的(和未发表的)文献报道来看,要对人类复杂疾病进深入的有医疗意义的探讨,非常有必要去获得其他类型的" 个人" 基因组数据,如,特定组织mRNA 表达概况,mRNA 测序,基因调控区域的个性化分析,表观遗传调控的概况,以高质量和大范围的染色体图谱分析来归类重要的染色体删缺,插入和重排等等。为成百上千的单个个人,把他们各自的完整基因组学数据与他们完整复杂的病史对应起来,将带我们进入个体化医学的时代。大规模测序中心正完成新一代的测序仪器的转型,联合基因组研究所(the Joint Genome Institute, JGI)已经淘汰了所有的桑格测序仪。而另一方面,除非小型的第二代测序仪能在清楚读出每个碱基上的成本和测序读长 上胜过毛细管电泳测序系统,毛
细管测序系统仍将会大量应用于特定区域测序,如定量基因表达,生物标志物鉴定和生物学途径分析等专向性研究。
第二代测序
关于" 下一代" 是什么,或更确切的说,第二代测序技术是什么,已有几篇综述出现了。我们提议,将第二代技术定义为:是同步化三磷酸核苷酸的洗脱方法和同步化的光学检测方法的结合。但这种定义不是很严格。因为有几种算作是第三代测序的实时合成测序的方法,也依赖于光学检测。如太平洋生物科学公司(Pacific Biosciences')的单DNA 聚合酶测序法就是突出例子。第二代测序技术靠的是连接测序,或者合成测序,包括焦磷酸测序和可逆性的链终止法。由罗氏(Roche ),以鲁米那(Illumina ), 赫利克斯(Helicos )和生命技术公司(Life Technologies )以商业化提供的仪器,以短的连续性的片段序列和测序阅读长度的形式,每周输出数十亿碱基对(Gbp )的DNA 序列。 对这种基于合成测序,也就是由一种DNA 聚合酶或连接酶主导化学过程的第二代测序方法,关于它们所面临的挑战和它们这些酶学方法的优势,另有一篇综述已做了详细的介绍。
表1. 第一代和第二代测序技术
第二代测序成本
在过去的几年里,主导第二代测序仪市场的几家公司,纷纷依靠已知的参照基因组(通过第一代桑格测序方法完成的人类基因组),以更好更经济的第二代测序方法生产出了拼接好的人类全基因组序列。同当年以ABI 公司的桑格毛细管电泳测序仪产生出克莱格. 文特尔(J.Craig Venter)的基因组序列草图所花的成本相比, 由罗氏(Roche )的454基因组测序仪FLX ,以鲁米那(Illumina )的基因组分析仪,和赫利克斯(Helicos)的Heliscope 测序仪得到原始数据所花成本,大体上分别下降了1个, 2个和3个数量级。不过,在这些报道中,只是计入了耗材和试剂成本。这些新的" 大规模平行" 测序仪需要大量的在仪器设备上投资, 因为许多这样的高通量仪器价格都在每台50-100万美元之间。而操作这些仪器和进行信息学分析以拼接序列的人力花费也应计入总的测序成本。到本文发表之前,以鲁米那公司的仪器在第二代测序市场占据60%的份额,居于领先地位。而在剩余市场部分中,生命技术公司的Solid 系统和罗氏各自分得近19%。以鲁米那公司的全基因组测序服务,每测一个全基因组费用为19500美元,比起2008年要测定一个人的全基因组所花的试剂的成本250000美元(或者是每个测好的碱基0.02美分)已经少得多,而比1996年的成本更是少了几个数量级,因为当时的第一代测序成本为每个碱基一美元。为减少成本,采用可逆末端终止物的合成测序法的以鲁米那公司,最近新推出了较小的,较便宜的Miseq 测序平台,承诺可以在27个小时内以150的测序阅读长度来产出超过1GB(10亿个碱基) 的数据。这种更袖珍而多功能的测序仪是专门为应对毛细管电泳测序在普通实验中的应用而设计的,如克隆鉴定,扩增序列测序,小基因组测序等。另一款规模较大的是,生命技术公司的5500xl 系列仪器,以连接测序的方法,每七天能总共测出300亿碱基的序列。台式测序仪的市场里还有Ion Torrent,是生命技术公司的一个分部,正在开发第三代技术,最近刚上市了一款" 个人基因仪器" (Personal Gene Machine )和"Ion Express触摸式模板制备系统"(Ion Express One Touch template preparation system) 。 而罗氏的454是以焦磷酸测序法,以荧光酶标记的微粒来检测单个碱基的延伸, 像是对1996年同步地对DNA 四种碱基测序方法的优化。这种发出光线的焦磷酸测序法,不需
要用多个荧光团,也不需要激光或昂贵的光学滤片,大大降低了仪器的成本。罗氏的
454GLXFlex Titanium系列,一台价值50万美元的仪器,每天可以生产高质量的4-6亿个碱基校读数据。其新的目标是要达到超过800碱基校读的测序读长。价值10万美元的454 GS Junior小型测序仪,于2009年推出市场,也是以台式仪的小型研究项目为目标,能在10个小时内以400碱基的读长完成35Mb(35兆碱基) 的数据。" 台式" 新一代技术的发展,力求大大降低成本和仪器体积和简化测序过程,并持续提高测序能力,测序读长和精确度,从而在台式测序的市场上对第一代桑格毛细管测序构成直接挑战(毛细管测序的最后生存空间) 。
为了显示全基因组测序的真实成本,美国国立人类基因组学研究所(National Human Genome Institute, NIGRI)把从他们的测序中心得到的测序成本数据进行了编辑整理,以便准确地估计出测定一个人类全基因组序列的全部成本。他们的计算中计入了人力花费,测序仪的3年折旧费,数据处理花费和样品准备过程的花费。图1显示了自2001年人类基因组最初草图发表后,每测序一套相当于人类单倍体基因组所花费的相应成本。在2008年所见的测序成本急降正是由第一代桑格毛细管测序向安装于各个测序中心的第二代测序平台转变的结果(如454,Illumina ,SOLiD ). 第二代测序技术产生出彼此重叠不高的相邻测序阅读片段,需要进行较高深度测序后再做序列拼接。 不过,它们的高数据产出量降低了耗材成本和测序运行的次数。
技术研发的成本和数据分析的成本常常从测序总成本计算中本忽略了。通常,这些成本比建立起第二代,第三代测序技术高得多。例如,图1中的由第二代测序技术而来的数据(2008年之后)是重测序工作的结果, 其中,参照基因组被用于指导序列拼接过程。假如从头测序只以桑格毛细管电泳方法来进行,那么在此阶段,要评估只靠第二代或第三代测序技术来进行一个人类基因组的测序或从头拼接的操作可行性和相关成本,实际上是很困难的。显而易见的是,现在最大的成本障碍在于那些用于精确排列的光学检测系统和下游的数据分析所需的复杂硬件系统。
第三代测序技术
以将人类基因组测序的成本降到1000美元以下为终极目标,美国国立健康研究院/美国国立人类基因组学研究所(NIH/NIGRI)资助了几个小组以改进第二代测序技术或研发其他的测序方法,包括扫描隧道电子显微镜(Scanning Tunneling Electron Microscope, TEM ),荧光共振能量转换(FluorescenceResonanceEnergyTransfer ,FRET ),单分子检测
(Single-moleculeDetection )和 蛋白质纳米孔(Protein Nonopores)的应用。有两种处于领先地位的第三代测序技术(太平洋生物科学公司和全基因组学公司)仍然依赖于荧光活动的光学检测,但其目的在于提高测序速度和数据产出量(见表格2)。 在另一方面,Ion Torrent's 技术公司应用了电子敏感场效应晶体管(Ion-sensitive Field Effect Transitor, ISFETs),以摒弃测序过程中对光学检测的依赖。而牛津纳米孔公司(Oxford Nanopore)的纳米孔技术也是致力于取消光学设施和无需进行DNA 扩增,他们以检测跨越纳米孔的导电性变化来进行测序。由霍尔康分子和ZS 遗传学公司(Halcyon Molecular and ZS Genetics)所使用的纳米光学扫描隧道电子显微镜技术需要价值百万美元的设备,迄今为止,他们的数据产出量仍然有限,但很有可能阅读出长达数千碱基的相邻DNA 片段。还有,一些仍然基于光学检测的测序方法也还在研发之中,将可以做到前所未有的长距离基因定位,这对于将个人基因组和癌症基因组进行精确拼接是非常必要的。 现在,我们来详细审视第二代和第三代测序技术,介绍每一种技术的长处和缺点。
图1. 测定一个人的全基因组序列所需的成本---根据由美国国立基因组学研究所资助的大规模DNA 测序中心所提供的数据而做的估计
单分子测序
太平洋生物科学公司 太平洋生物科学公司(PacBio )率先研发出一种可靠的基于实时单分子测序技术的第三代测序平台。他们的过程是直接测由DNA 聚合酶将荧光标记的核苷酸 掺入互补测序模板。该技术的核心是一个零点启动模式的波导(Zero-mode Wavelength,ZMW )纳米结构的密集排列, 这一排列阵可以进行单个荧光分子的光学审视。在过去,零点启动模式波导结构被用于从大量高密度的分子中分辨出单一的荧光分子,还没有被用于大量平行分析的操作。为使之用于大量平行分析和数据输出通量(测序数据生成能力),太平洋生物科学公司开发出一种方法,能有效地将零点启动模式波导结构排到表面上,他们采用了电子束光刻技术(Electron beam Lithography)和紫外光电子束光刻技术(Ultraviolet Photo
lithography ) 以及高度平行的共焦成像系统, 这样可以对零点启动模式纳米结构中的荧光标记分子进行高灵敏度和高分辨率的探测,并采用了一个沉重的稳定平台来确保良好的光学聚焦效果。
零点启动模式排列共振和检测模式确立后,主要的技术难点就转移到如何将单个的有功能的DNA 聚合酶分子固定到每个零点启动模式阵列的底部,完成之后,才可以检测荧光标记的核苷酸底物。这一过程份是分两步来进行的:第一,一套荧光标记的脱氧核糖核苷5磷酸 (4种)底物被合成,每种碱基可以以波谱形式被彼此分辨出来,并且不会降低DNA 聚合酶的活性;第二,需要对零点启动模式阵列的表面进行处理,以对DNA 聚合酶进行选择性地定位。零点启动模式阵列是由一个熔铸的硅胶底层和一个铝质的表层构成,所有的零点启动模式纳米结构被固定于其中。由于铝质层是乙烯磷酸酯(Polyvinylphosphonic Acid, PVPA)的衍生物,蛋白质对铝质层的吸附性大大降低,而对阵列的玻璃底层的吸附则不受影响。将这种化学修饰和高度平行的零点启动模式阵列技术结合起来,太平洋生物科学公司推出了一套高读长(达到1000碱基) ,四色荧光示踪的实时单分子(Single-molecule Real-time, SMRT)测序技术。但由于将DNA 聚合酶固定到每个阵列的底部的随机性,造成了其测序通量的局限性。在一份发表的研究论文中报道,大约只有三分之一的零点启动模式阵列中含有一个单一的DNA 聚合酶分子,该聚合酶分子具有活性能产生一个完整长度的测序阅读。图2描绘了在这篇要文中所采用的四色实时单分子测序的策略。
继这项概念证明性的研究之后,太平洋生物科学公司又对测序模板进行了改进---他们创造了被称为实时单分子测序铃的模板(SMRTbell template)。这种实时单分子测序铃式模板,通过将一个通用的发夹环连到被测序双链片段的两端,可以对正链和反义链同时进行测序。 因为不需要进行模板扩增,所以样品制备的时间得以缩短, 而且很广泛长度范围的DNA 片段都可用来作为测序模板。还有,实时单分子测序铃式模板的应用还提高了测序和对单核苷酸多态性检测的准确性。
太平洋生物科学公司现在商业化提供PacBio RS测序仪系统。这种仪器的耗材包括一次性使
用的零点启动模式阵列(被称为实时单分子测序芯片,SMRT cells),一套含有150000个零点启动模式阵列和制备实时单分子测序铃式模板的试剂盒。 最近,这种PacBio RS测序仪用于在对海地爆发的霍乱研究的五种霍乱弧菌(Vibrio Cholerae)菌株的快速基因分型中。对5中菌株的平均测序读长为700-1000碱基, 平均测序覆盖深度为28到60倍,测序准确度一次性达标率平均为81-83%。 报道中还显示,对3种菌株的一小部分测序运行的测序读长接近到3000碱基。
图2. 太平洋生物科学公司(PacBio's )实时单分子测序方案示意图。A. 单个零点启动模式波导纳米结构的侧面图, 每个纳米结构含一个DNA 聚合酶分子,固定于底部的玻璃面上。波导纳米结构和共焦成像系统确保只对底部进行荧光检测。 B. 显示了荧光标记的核苷酸底物掺入测序模板的过程。相应的瞬时荧光探测分为5个步骤。
除测序外,实时单分子探测技术在其他方面的应用也在研发之中。太平洋生物科学公司以其单分子检测技术增进了遗传学研究数据的可靠性,他们将由DNA 聚合酶反应得来的数据和DNA 甲基化模式对应起来。他们已具备能够将mRNA 链测序到密码子水平的能力,简单而言,他们将每个零点启动模式阵列底部的DNA 聚合酶换成了在mRNA 链上进行翻译的核糖体,这样就能够监控每个荧光标记的tRNA 分子的掺入。
边连接边测序法
全基因组学公司(Complete Genomics) 全基因组学公司的测序平台是以杂交和连接反应为核心的。当通过杂交和连接进行测序的方法出现以后,全基因组学公司推出了新的样品处理方法和纳米阵列平台。基因组DNA 首先经过超声处理,再加上一些接头,然后模板环化,
酶切。最后产生大约400个碱基的环化的测序片段,每个片段内含有4个明确的接头位点。环化片段用Φ29聚合酶扩增2个数量级。一个环化片段所产生的扩增产物称为DNA 纳米球(DAN nanoball, DNB)。纳米球被选择性地连接到六甲基二硅氮烷处理的硅芯片上。图3A 描述了DNA 纳米球阵列的设计。
表2. 新一代的测序技术
DNA 纳米球的运用,加上形态各异的阵列, 使这种测序方法具有几个优势。DNA 纳米球通过增加杂交位点的数量而增强了信号强度。DNA 纳米球的大小与芯片上连接位点的大小相同,因而导致每个位点连接一个DNA 纳米球。由于芯片上的位点大致彼此相隔1微米,所以有多达30亿的DNA 纳米球可固定到宽1英寸长3英寸的硅芯片上。除了增加每张芯片上的测序片段的数量外,DNA 纳米球的大小和间隔使得检测器像素使用最大化。与另外的二代测序技术比较,这种杂交芯片降低试剂耗费但增加通量或数据产出。
一旦DNA 纳米球阵列芯片形成,可运用40个普通探针,联同标准锚定序列和延伸锚定序列进行杂交和连接检测。这40个普通探针分为两组,一组用于检测接头位点的5' 端,一组检测接头位点的3' 端。每组有5型,每型有4种普通探针。每一探针长9个碱基。探针特点见图3B 。标准锚定序列直接与接头的5' 或3' 端连接,随后普通探针进行杂交和连接。延伸的锚定序列由兼并和标准锚定序列连接而成。这种组合的探针锚定序列连接方法(combinatorial
probe-anchor ligation, cPAL)使序列读长由5个碱基增加到10个碱基,从而导致每个DNA 纳
米球有62到70个碱基被测序。图3B 显示了标准和延伸锚定序列的结构。
图3. 完整基因组学公司的DNB 阵列生产和cPAL 技术的方案示意图。A. 待测片段的设计,DNA 纳米球的合成,用来放置纳米球规则排列的纳米阵列---这些可以显示DNA 纳米球阵列的形成过程; B. 图示:用对应于一个独特接头位点的5个碱基的一组普通探针进行测序过程。图中也显示了标准锚定序列和延伸锚定序列。
每进行一个杂交和连接循环就要对带有DNA 纳米球的芯片进行荧光成像,然后用甲酰胺溶液对DNA 纳米球进行重建。这种循环被重复直到全部组合的探针和锚定序列被检测。这种方式减少了试剂消耗并去除了潜在的累积错误,而这样的错误可在别的测序技术中出现。 全基因组学公司通过对3个基因组重测序展示了他们的DNA 纳米球阵列和组合的探针锚定序列连接技术,且平均每个基因组花费试剂4400美元。这3个基因组结果随后与以前的测序结果进行了比较。测序深度是45X 到87X ,基因组覆盖度是86%到95%。显然这种技术与Sanger/CE和第二代测序技术比较可大大增加了通量,但它也有几个不足。首先,环化片段的产生会导致基因组某些区域没有被充分显现,这样会导致后续的基因组组装工作并不完整。再者,环化测序片段的大小(~400碱基)以及非常短的读长(~10碱基)妨碍了对基因
组完全的和精准的组装,因为这些环化片段常常可能要比一些长的重复区域短。
在全基因组学公司的概念证明性的研究发表5个月后,第一个在外部运用全基因组学公司测序技术的研究就出现了。美国华盛顿州西雅图的一个小组研究了一家四口的遗传差异。在这一研究中,基因组测序被用于确定导致两种罕见孟德尔遗传病, Miller综合征和原发性纤毛运动障碍(primary ciliary dyskinesia)的四种候选基因。研究对象是一对父母和同时患有这两种病的两个孩子。这项研究突出地显示了家庭中全基因组测序在确定孟德尔性状时的优势。能确定传代模式大大地缩小了遗传搜索范围和提高了测序精度。对整个家庭测序,而不只是两个患病孩子的基因组,大大地减少了假阳性的候选基因数量,使之由34个缩小到仅仅4个。 仅仅一个月后,第二个在外部运用该测序技术的研究就由基因特克公司(Genetech )的一个小组发表了。此项研究对一名有15年吸烟史的51岁高加索男性肺癌患者进行了分析,主要是比较原发性肺癌细胞和癌旁正常组织的基因组差别。他们发现了50000个单碱基突变, 其中有530个是以前报道过的。通过全基因组分析对癌基因之外的大量单核苷酸突变和染色体结构变异的阐明,为充分理解原发性肺癌的发生机理和治疗带来了曙光。
第三个应用是来自达纳斯的德克萨斯大学西南医学中心一个研究小组,他们对一个患谷胆固醇症(高胆固醇血症)的11个月女孩进行了全基因组测序。该女孩经过系列的血液实验分析和选择性的基因测序,仍不能得到合理诊断。通过将其父母的基因组和一组对照基因组进行比较,发现了导致该谷胆固醇症的致病基因和相应突变。最后发现,是因为其大量的母乳喂养使该患儿血液中植物胆固醇水平低而导致标准血液检测失败。这一研究表明,复杂的环境因素会影响常规的标准检测,而全基因组测序对有效诊断具有重要意义。
边合成边测序法
边合成边测序思路的出现已经有些时日了,它是二代测序技术的基础,如454测序平台和Illumina 测序系统都是建立在它的基础之上。这些方法与第一代测序技术比较增加了通量,
然而光学成像系统需要检测每一个测序步骤。因为复杂的光学系统将增加测序系统的成本,所以下一步要做的是寻找一种弃用光学系统的相对便宜的检测方法。
当这种想法出现时,斯坦福大学Pease 和Davis 实验室的研究人员从早期的焦磷酸测序方法演变出一种检测微观结构中温度或pH 值变化的新方法。因为这两种变化都是DNA 合成过程中的副产品,这种方法摒弃了对发光进行检测。如同焦磷酸测序,这种热测序方法需要检测多个循环,在每个循环四种核苷酸中的一种掺入到系统中,然后通过检测温度变化来观察新掺入到DNA 链中的核苷酸。每进行完一个循环,要彻底冲洗反应孔以去除残余的核苷酸,从而减少错误累积。这种创新性的检测方式导致了Genapsys 公司从斯坦福基因组技术中心中建立出来。他们的热检测方法优于pH 检测方法的地方在于,温度能通过降温块很快被重新复原,而氢离子必须要洗除干净。不过,作为生命技术公司新创分公司的Ion Torrent,运用pH 变化来检测碱基掺入过程,在将新一代测序系统带入市场的道路上取得了重要进展。 Ion Torrent公司 根据Ion Torrent公司的专利申请,场效应晶体管(Field-effect Transitors,FETs )被用来检测微池结构的pH 变化(如图4)。为了增加通量,Ion Torrent测序芯片运用了高密度的微池阵列。每个微池就是一个单独的DNA 聚合反应的小室,其中包含有一个DNA 聚合酶分子和一个待测序片段。就在微池层的下面,是离子敏感层,紧接着是一个高密度的和微池一样排列的场效应晶体管阵列亚层。和焦磷酸测序类似,4种核苷酸的连续循环导入微池能保证原始序列分辨率,因为场效应晶体管能感受到核苷酸掺入时pH 值的变化,并把这种信号转变为可记录的电压变化。因为电压的变化与每一步掺入的核苷酸数目有关,所以Ion Torrent测序芯片可对重复序列进行分辨。
图4. IonTorrent公司半导体测序芯片技术图示。A. 该芯片结构设计的逐层显示图。上层为单个的DNA 聚合反应的微池,底部两层构成场效应晶体管离子传感器。每个微池有其相对应的场效应晶体管探头,以鉴别每一个pH 值的变化。B. 侧面图:微池中,DNA 聚合酶将两个重复的TTP 核苷酸掺入测序片段中。反应过程中释放出的氢离子被下方的场效应晶体管检测到。
目前,Ion Torrent公司提供一次性使用的Ion 314测序芯片。明年他们计划投放第二和第三代芯片:Ion 316和Ion 318。Ion 314测序芯片上的120万个微池可产生大约10Mb 的序列信息,且平均读长为100碱基。为
进一步增加通量,Ion 316和Ion 318芯片将分别设计620万和1110万个微池。Ion 318芯片将期望产出1Gb 的测序数据,且平均读长为200碱基或更高。最终,Ion Torrent公司将追求测序" 民主化" ,将推出第一台价格合理(约5万美元),台式的和高通量的测序仪。
这种离子检测基础上的测序技术大有潜力来降低测序成本,但要测通整个基因组还存在缺陷。现在,短的读长严重限制了重组装过程和从头测序的组装,因为它还没有能力读通基因组长的重复区域。另外,由于这种测序方法的要一步步连贯的特性,如果反应步骤之间反应孔没有清洗干净,错误累积就会发生。最后,和前一代焦磷酸测序方法一样,要测通长达5-10碱基的由同一种核苷酸形成的小重复序列(同聚体区域)仍将是一个挑战。Ion Torrent公司已报道关于测序准确性的数据,这些数据是关于大肠杆菌DH10B 样品的测序,其中对同聚体进行了分析。对5聚的同聚体进行测序的准确度为97.5%。然而,难以了解到得出这一准确度的样品总数,且他们对于超过5个碱基的同聚体测序的准确度的数据也没有进行报道。 纳米孔测序技术
一种基于纳米孔(纳米洞)结构的完全不同的测序技术,由Branton 和Bayley 在以前的综述中描述过。单个碱基的读取可以靠测定经由纳米级别的孔洞而跨越或透过薄膜的电导率来进行。纳米孔是比双链DNA 分子略宽的空洞,宽度为4nm , DNA 分子像一条线一样穿过
纳米孔。理论上来说,每种碱基的化学性质差异会导致流经该纳米孔的电流值发生变化。纳米孔也可以设计成检测跨越空洞的隧道电流,因为每种碱基的电势不一样,这样就可以分辨出各种碱基。还在发展中的纳米孔测序方法是很有潜力的第四代技术。因为这种方法不再需要光学检测和同步的试剂洗脱过程了,所以它得到了" 第四代" 的雅号。
纳米孔技术可以广泛地归纳为两类:生物类和固态类。α溶血素是一种能天然性地连接到细胞膜中继而导致细胞溶解的蛋白质,它第一个被用来做成生物纳米孔模型。模型中,一层生物膜将溶液分为两个区域,α溶血素蛋白嵌入生物膜中形成纳米孔。当DNA 分子穿过纳米孔时阻断电流会发生变化,这时灵敏电子元件就能检测电流的变化。但是,由于四种碱基的理化性质比较接近,所以读取序列实际上比想象的困难得多。此外,有效减少电子噪音仍旧是个挑战,通过降低DNA 的位移速率可以部分减少噪音。最近, 牛津纳米孔与许多团队在解决这些问题上取得了一些进步。
第二类纳米孔是以硅及其衍生物进行机械制造而成。 使用这些合成的纳米孔可以降低在膜稳定性和蛋白定位等方面的麻烦,而这些正是牛津纳米孔公司所创立的生物纳米孔系统一直遇到的问题。例如,Nabsys 就发明了一套系统,他们以汇聚的离子束将硅片薄膜打成纳米孔,用于检测与特异性引物进行了杂交的单链DNA 穿过纳米孔时的阻断电流变化。 IBM 创建了一个更为复杂的系统,能有效地使DNA 位移暂停,并在暂停的时候通过隧道电流检测识别每个碱基。这两种纳米孔技术将随后进行详细介绍。
图5. 纳米孔DNA 测序以电子测量和光学阅读为检测方式。A. 在电子纳米孔方案中,通过离子电流,隧道电流和测量电压差而获得信号。每一种方法都必须产生特征性的信号以鉴别四种DNA 碱基。B. 在光学阅读纳米孔的设计中,每个核苷酸被转换为一个预设的寡核苷酸序列和经标记了的标志物杂交,在DNA 片段进行位移穿过纳米孔时被检测到。
John Kasianowicz及其同事使用离子流阻断方法,第一次展示了多聚核苷酸(poly[U])穿过生物分子纳米孔而位移的过程。这种纳米孔是以悬浮在磷脂双分子层中的葡萄球菌α溶血素做成。作者推断,只要满足下面条件,单个核苷酸就能被区分:(1)每个核苷酸产生自己唯一的信号签名;(2)纳米孔的缝隙有合适的几何结构, 每次只容纳单个碱基;(3)电流检测有足够的分辨率去探测核苷酸位移速率;(4)当电势起作用时,核苷酸片段应该是单向运动的;(5)纳米孔和支撑膜之间的组装应该足够牢固。所有的生物和合成纳米孔都有厚度为5nm 的桶状结构通道(比碱基到碱基的距离3.4? 长得多),每次可以容纳10~15个核苷酸。这样,利用阻断电流检测就不可能获得单个碱基分辨。另外,聚合物通过纳米孔的平均速度约为1核苷酸/微秒,这样的速度快得无法处理。核苷酸链位移应该被控制成在120-150 mV电势下慢至1核苷酸/毫秒,这样就可得到微微安培(pA )级的电流信号。此外,任何两个聚合物单链的位移事件应该是均一的。两个位移过程(捕获、进入和位移)的时间分布不是泊松分布,并且常常可能存在着一个数量级的差别。这就意味着,如果两个分子以相差很大的速率穿过同一个纳米孔时,慢的那个可能会被漏掉或错误解读。Andre Marziali等以原子力显微技术通过单分子结合特性去研究这些事件。DNA 通过α溶血素蛋白纳米孔时所显现出的非均一动力学,归因于DNA 与纳米孔蛋白氨基酸残基间存在着弱相互作用。
由于离子电流检测的一些困难(离子流通过纳米孔产生的电流),研究者也关注一些其他的检测方案,如:隧道电流的检测和电容变化的检测。在横向面隧道电流方案中,电极被置放在纳米孔的开口上,信号由亚纳米探针检测。在电容检测方案中,则是探测跨越金属氧化物-硅的层状结构的电压。当带电核苷酸纵向通过电容器时,会由于诱导而产生电压信号。典型的对核苷酸的光学识别包括两个步骤。第一步,目标序列的每个碱基被转换为一段序列的
寡核苷酸,然后该寡核苷酸与两色的分子信标(附带着荧光基团)进行杂交。由于必须确定四种核苷酸,两个荧光探针要成对地耦合去确定每个核苷酸。例如,如果A 和B 两个探针,其四个独特的排列将是AA ,AB ,BA ,和BB 。当杂交了的DNA 链通过纳米孔时,荧光标签从其配对链(测序的目标序列)上被剥离下来,随即荧光信号就能被检测到。蛋白纳米孔和固态纳米孔都可以用于这种方法。电子检测方案和光学读出方法的细节在以前发表的论文都已有详尽的阐述。
Daniel Branton及其同事在2008年的一篇综述中讨论了纳米孔测序的发展和在高通量测序中低成本样品制备的前景。他们估计使用商业化试剂盒抽提和纯化来自血液的基因组的成本低至每个样品40美元,纯化后的基因组DNA 足够测序使用(108个拷贝或者700微克)。所有现存的测序技术都需要将DNA 打断成100左右碱基对长度的片段,然后进行多重测序以寻找重叠区域,从而可以组装在一起。纳米孔测序最吸引人的优势之一是能实现较长的读长,这样基因组组装过程将大大简化。在未来的实践中,其测序读长可能会只因为样品制备过程中DNA 被吹打剪断而受到限制。例如,Meller 和Branton 显示25 千碱基的单链DNA 可以线性通过生物纳米孔,而5.4 千碱基的 的单链DNA 可以通过固态纳米孔。另外有多个研究小组也证实,小寡核苷酸、原始的单链DNA 、双链DNA 都可以以很高通量位移通过纳米孔。
蛋白纳米孔测序法 牛津纳米孔技术公司(Oxford Nanopore technologies,以前的Oxford Nanolabs ),已经解决一部分上述的技术难题,并将纳米孔技术的引入了其商业化产品(GridION 系统)。由牛津大学教授Hagan Bayley创办的牛津纳米(Oxford Nanopore),旨在将他实验室的生物纳米孔研究成果进行商业化。该公司正与哈佛大学的Daniel Branton, George Church, Jene Golovchenko,加州大学圣克鲁兹分校的David Deamer、Mark Akeson,美国国家标准技术研究所的John Kasianowicz展开合作。
牛津纳米孔技术公司的首席执行官Gordon Sanghera最近宣布,该公司正准备推出可用于直接单分子分析的GridION 系统,该系统将采用外切酶测序。该系统基于" 芯片上的实验室"
技术,将多个电子元件整合进一个支架状的装置。一个蛋白纳米孔整合进磷脂双分子层,位于微池顶部,并配有电极。许多微池被整合入一个阵列芯片,每个模块控制一个芯片,整合包括用于样品制备、检测和分析的液体流动和电子系统。样品被引入模块,这个模块插入一个叫GridION 节点的装置。每个节点可以单独使用也可以成簇使用,所有节点间可以实时互相沟通、可以同用户的网络系统和存储系统进行沟通。虽然该平台的主要用于DNA 测序,但它也可以进行调整(对α溶血素蛋白纳米孔进行适当调整)而用于蛋白质和小分子的检测。 牛津纳米孔技术的第一代系统使用的是α溶血素蛋白七聚体。α溶血素蛋白提供了低成本、稳定的生物纳米孔。牛津纳米孔技术正在对两种类型的测序方法进行商业化:核酸外切酶测序和链测序。在核酸外切酶方法中,环糊精接头分子位于蛋白纳米孔的里部,作为DNA 结合位点。此外,纳米孔还偶联了一个核酸外切酶分子,该酶分子可以从DNA 链上逐个剪切单个碱基,这样,纳米孔就可以在DNA 碱基通过并与环糊精结合时精确地检测出每个碱基。外切酶位于纳米孔的顶部,控制DNA 链的位移速度,使其由固有的泳动速度(微秒级)降低下来(毫秒级)。最必要的是,每个核苷酸通过纳米孔大致时间是20 毫秒,这个速度足以用于精确检测。四种核苷酸产生不同程度的电流阻断,因此,DNA 序列的测定是可能的。假设以稳定的速度每毫秒测一个碱基,单独的一个纳米孔需要69天去处理60亿个碱基。从理论上而言,100000个孔以此速度测序,只需要30分钟就能得到30倍覆盖度的基因组数据。
图6. 牛津纳米公司所采用的生物纳米孔方案图。A. 溶血素蛋白突变体图略,图中描述了环糊精(在第135残基处)和谷氨酰胺(在第139残基处)的位置. B. 突变的纳米孔的桶状结构的详图。显示了精氨酸(在第113残基处)和半胱氨酸的位置. C. 外切酶测序法:外切酶分子附着到纳米孔的顶部,将目标DNA 链上的单个核苷酸逐一切下来,再使它们通过纳米孔。 D. 残基电流-vs-时间的信号轨迹,能将四种不同的碱基清楚的区分开来。 E. 链测序法: 单链DNA 线性通过一个蛋白纳米孔,单个碱基得以区分开, 而DNA 链保持完整。 牛津纳米孔技术也正致力于链测序技术,即当单链DNA 片段通过纳米孔时检测每个碱基。这个方法可能比核酸外切酶测序方法更快更准确。因为所有的核苷酸都是相互连接的,所以可以避免读错方向。不过,真正的挑战在于,当它们通过纳米孔时,如何精确地读取每个单个碱基。
固态纳米孔测序法 虽然α溶血素七聚体相当不错,但用于悬浮纳米孔的磷脂双分子层并不稳定且难以操控。固体或是人造纳米孔被认为是下一代纳米孔技术,一方面因为它们无需使用有机材料做支撑物,而主要是它们更加稳定。固态纳米孔还能在单个设备上平行地多重使用,这是生物纳米孔无法达到的。人造纳米孔组装在固态物质上,如氮化硅,硅或金属氧化物,及最近使用的石墨烯。石墨烯是一种新的单原子厚度的材料,是所知的最薄的膜。宾夕法尼亚大学的Marija Drndic小组发表了DNA 通过石墨烯膜纳米孔的检测实验,该膜的厚度为1 - 5纳米,纳米孔的直径为5 - 10纳米(图7A )。在其他出版物中,哈佛大学Golovchenko 实验室的研究人员发现,石墨烯薄片可以作为膜材料支持固态纳米孔和把离子溶液分隔为两部分(图7B )。
目前IBM 与454 生命科学(罗氏)联合开发一种新型固态材料的人造纳米孔(是金属介质的层状结构)DNA 测序新方法。这个想法来源于2006年得系统生物学家Gustavo Stolovitzky和IBM 电气工程师Stanislav Polonsky。由电子束在10nm 厚的氮化钛膜上钻得3纳米的人工纳米孔,然后用二氧化硅绝缘层将其分开。
图7. 几种合成的纳米孔测序装置的设计图。A. 此装置是后1-5纳米的石墨烯,它被悬置于一张硅片上,硅片则以5微米厚的二氧化硅层进行包被. 该装置被安装在一个PDMS 芯片中,芯片两侧有流体通道. B. 在石墨烯薄膜上钻的纳米孔。该纳米孔悬置于碳化硅片层上,并跨越由硅做成的支架。石墨烯薄膜将两种溶液分隔开,有银和氯化银电极连着两极。 C. IBM公司的DNA 半导体装置示意图. 以电子束钻得的 纳米大小的孔。在两侧的开口处加上电场,就可以进行电荷捕获。 D. 对通过的DNA 片段进行电子阅读的固态纳米孔。6聚合体的寡核苷酸探针和单链DNA 片段杂交后正通过纳米孔。 电流-vs-时间的信号轨迹线被记录下来。
当DNA 链被牵引通过纳米孔时,横跨金属层的电场翻转(也称为棘轮效应),产生固定作用,可控制DNA 链的运动。电场的交替可能有利于提高测序准确性。有两种检测信号的方法,测量电容或离子电流(类似于牛津纳米孔检测,但在这里,DNA 链将保持完整)。为了获得足够强的信号,DNA 链会被捕获住,以经受为时一毫秒的审问。尽管预计他们仍需要5至7年的发展才会推向市场,但其电子检测方式加上方便的样品制备,使其在廉价测序领域极具潜力。
尽管通过阻断电流测定穿过人工纳米孔获得单碱基分辨率是一种挑战,但是很多团队能够在
宽度足够容纳双链的纳米孔中轻易地区分单链DNA 和双链DNA 的位移。因为容易得到的粗分辨率,研究者通过将杂交探针附加到DNA 片段上,开始思索从头测序的新技术。最近,Balagurusamy 等实验展示了两个连续12聚体 的双链通过氮化硅膜上的纳米孔的位移过程,并对其成功进行了电子检测。另一项的固态纳米孔研究报道了与肽核苷酸探针(PNA )杂交的双链DNA 线性通过一个30nm 厚的膜上的纳米孔的过程(亚5纳米)。这些研究有望实现经纳米孔的杂交测序(Sequencing by Hybridization,SBH),也被称为杂交辅助纳米孔测序法(Hybridization -assisted Nanopore Sequencing, HANS)。NABsys 公司已为这项技术申请到许可,这是一家由布朗大学物理教授Sean Ling 2005年创办的DNA 测序新创公司。该公司旨在开发" 电子阅读"DNA 计算芯片并商业化。实际中观测到,6聚体的杂交探针可与长100千碱基的基因组片段结合,在电泳中驱动基因组片段通过固态纳米孔并产生电流信号(图7D )。基于电流追踪、探针定位,于是,小片段序列就可以被测定。如果以一个完整的探针文库来平行地进行这个测序过程,那么就能基本上做到对全基因组的阅读和组装。该公司承诺全基因组测序成本最终会降低4个数量级。但是,如何以杂交辅助纳米孔测序法(HANS )技术达到对电子信号阅读的足够的分辨率,仍是一个有待探讨的问题。
长距离阅读DNA 的扩展方法
目前大部分的DNA 测序技术都是依赖于对小于400个碱基的DNA 片段的短读取方法。目前有几种不同的新方法,它们着眼于对长达百万碱基的DNA 片段进行测序。最近一些报道都强调了在对原核生物的基因组拼接中短读取技术的局限性。对长DNA 区域进行绘图,可以提供重复、缺失、插入、转位的数据,但这些却是现有短读长测序方法不能做到的。
通过光学绘图来做最后组装 威斯康星大学麦迪逊分校David C. Schwartz教授及其同事开发了仅有的一套系统(光学绘图,Optical Mapping),可以用于数据策略指导、验证、完整复杂基因组的组装。光学绘图系统以大量的数据库材料,包括一些由5,000-2,000,000 个基因组DNA 分子(长约50千碱基)的数据组, 构建了覆盖全基因组范围的长距离的有序的限制性图谱,并以酶切点为" 条形码" ,直接用荧光显微镜成像。这种高度自动化系统是第一个具备
全基因组分析能力的单分子平台。光学绘图系统拥有善于做序列比对排列的计算工具,可以在全基因组范围内将新发现的序列整合到从头测序的图谱中。除了可以精确描述染色体数目和大小外,这种序列比对排列还能定位孤儿序列,为序列支架和重叠序列排出次序和方向,能确定出基因组中序列缺口大小,揭示出组装错误。 光学绘图系统早期应用都集中在细菌和低等真核生物基因组;而最近,光图谱分析已成功地指导复杂基因组的组装和验证,包括大米和玉米。因为很大基因组DNA (约500 KB)的得到了分析,那些近着丝粒的复杂基因组区域,或有很多重复片段就能够得到测定,这样就能揭示出新的结构变异(这是测序所不能企及的)。这一技术优势使得很多新的结构变异得以发现,例如人类基因组的插入或复杂重排。这些结构变异曾在人类基因组测序中令人困惑,并呼唤新方法的出现,以解决如癌症基因组的断裂点和重排等问题。
Schwartz 实验室则开发出更为先进的基因作图方法,通过增加测序读数到长的双链分子,并且开发了Nanocoding 系统。在一个独立的反应混合物中,他们将待测的基因组片段,用具有打口功能的限制性酶在同源识别位点处选择性地剪切双链DNA 中的一条链。新产生的缺口被贴上用荧光染料标记的核苷酸。这样就有了独特的单分子条码,因为最终产物是全长双链DNA ,它的每个酶识别位点以荧光修饰。修饰好的DNA 分子被放入微流体芯片,然后进入宽50 微米的通道。这些微流体通道以45的角度一分为二成为宽1微米 深100 纳米的纳米流体通道。微流体-纳米流体通道的角度,加上纳米流体通道的宽度,显着降低了使DNA 分子由盘绕形式充分伸展开来所需的熵值惩罚,而低离子强度缓冲也又大大促进了分子在纳米孔内的伸展。一旦DNA 分子链在通道充分伸展开来,荧光成像系统[FRET (荧光共振能量转移系统,Fluorescence Resonance Energy transfer, FRET) 和机器视觉就会识别以共价键形式掺入的荧光基团在DNA 分子链上位置,继而这些数据被组装到全基因组范围的物理图谱中。
第二个应用纳米流体学的公司是BioNanomatrix ,其技术已由普林斯顿大学获得许可证。他们也使用纳米流体通道将DNA 伸展开,靠的是一种经独特加工的通道入口设计。这个通道
的宽度和深度都是大约100nm 或稍小。为了是DNA 链克服熵障碍而进入通道,他们将通道深度由微米变成纳米,使DNA 逐渐解旋并进入纳米通道以进行拍照。这些芯片中可能设有狭窄部分,可以迫使DNA 链穿过紧窄空隙。BioNanomatrix 芯片中使用甲酰胺和受控的局部加热(在荧光基团供体YOYO-1存在时),使DNA 发生部分变性,然后从荧光信号的模式上来推断DNA 序列。 第二种技术被用于在λ-DNA 上识别地标。 研究者们用缺口酶去置换限制性酶识别位点核苷酸,然后,将被置换链与荧光标签探针进行杂交,再以一个摄像头和图像处理软件进行分析。他们在30秒内照了300 DNA分子,在2个目标位点上,85%的DNA 分析得到了正确标记。
非光学的DNA 分子伸展方法 这里讨论的方法仍然是在某种表面上将DNA 进行伸展,再去读取每一个碱基。但这种方法完全无需使用照相机,而是使用原子成像方法。Halcyon 分子(HalcyonMolecular )是依靠快速扫描隧道电子显微镜(Rapid-scan Tunneling Electron Microscope ,TEM )方法的第四代技术。单个DNA 碱基都被标以独特的重原子,使它们得以彼此区分开来。ZS 遗传公司(ZS Genetics,ZS 指的是零科学)使用TEM 方法,但还没有发表任何详细的方法和结果。据报道,使用扫描隧道显微镜能(STM )可将鸟嘌呤同非鸟嘌呤进行区别。STM 测量流经扫描头的电子密度。尽管能读取140bp 并且能够同参照基因组序列进行比对,但是一些局限性尤其是测序速度,阻碍了其商业应用的可行性。 结论
在新型DNA 测序技术领域里,各种技术和资助以从未有过的速度在增长。如本综述中所言,出现了很多不同的方法,横跨不同代的新技术。每种技术都有自身的优势和局限,因此,从根本上说,要做特定目的的基因分析应用,必须进行合理评估,以选择合适的测序平台。虽然第二代和第三代平台有很大的通量,但基于桑格原理的毛细管电泳测序仍是超高精度测序的黄金标准,是迄今为止唯一既能为人类基因组既提供从头测序和又有从头组装技术的技术。下一代测序技术为了获得广泛认同,无论是第二或第三代平台中的哪一种,都必须也同时具备一套第一代毛细管电泳测序平台,并同时将由着两套平台得到的从头测序样品的测序
结果和组装结果进行定量比较,方能使人放心而得到广泛的认同---换言之,无论第二,三代测序平台怎样发展,它们仍然依赖于第一代平台的协助作用。这将为从头测序的真实成本提供坚实的证据,并作为一个出发点,供现在和将来的研究人员去决定如何解决下一波的人类基因组测序计划,或对决定如何开展对一些相似的复杂基因组进行从头测序。目前,既然现有的测序技术局各有其局限性,为了达到对一种复杂的全基因组进行从头测序,可能需要随机采用几种技术,彼此协调配合,以达到测序的高通量,准确性、高读长的相邻重叠片段、和大范围的基因绘图。(生物谷Bioon.com)