基因表达差异分析方法进展
高等真核生物的基因组一般具有80 000~100 000个基因,而每一个细胞大约只表达其中的15%[1]。基因在不同细胞间及不同生长阶段的选择性表达决定了生命活动的多样性,如发育与分化、衰老与死亡、内环境稳定、细胞周期调控等。比较细胞间基因表达的差异为我们揭示生命活动的规律提供了依据。
由于真核细胞mRNA 3′端一般含有Poly(A)尾,因此现有的方法基本上都是利用共同引物将不同的mRNA反转录成cDNA,以cDNA为对象研究基因表达的差异。1992年 Liang等[2]建立了一种差异显示反转录PCR法(differential display reverse transcription PCR,DDRT-PCR),为检测成批基因表达的差异开辟了新天地。迄今为止已出现了大量应用该技术的研究报道[3,4]。然而,尽管应用DDRT-PCR方法已经取得了不少成果,而且该方法还在不断改进之中,但它仍然存在几个难以解决的问题:(1) 重复率低,至少有20%的差异条带不能被准确重复[5];(2) 假阳性率可以高达90%[6];(3) 获得的差异表达序列极少包含编码信息。近年来,针对DDRT-PCR方法的不足,又有几种新的检测差异表达基因的方法出现,现仅就这方面的进展做一简要介绍。
1.基因表达指纹(gene expression fingerprinting,GEF):GEF技术使用生物素标记的引物Bio-T13合成cDNA第一链,用dGTP对其进行末端加尾,再以富含C的引物引发合成cDNA第二链。用限制性内切酶消化双链cDNA,以交联有抗生物素蛋白的微球捕获cDNA3′端,以T4DNA连接酶连接同前述内切酶相对应的适配子,并以Bio-T13及适配子中的序列作为新的引物进行特异的PCR扩增,得到大量的特异cDNA片段。适配子末端被32P-dATP标记后,固定于微球上的cDNA片段经过一系列酶切,产生的酶切片段从微球表面释放出来,其中那些含有标记末端的片段经凝胶电泳后构成mRNA指纹图谱。通过分析不同细胞间的指纹图谱就能得到差异表达的序列[7]。GEF技术所需的工作量较DDRT-PCR明显减少,由于用酶切反应替代了条件不严格的PCR反应,其重复性也较好,假阳性率低,并且所获得的片段中包含有一定的编码信息。GEF技术最大的缺点在于电泳技术的局限。由于它的指纹图谱要显示在同一块电泳胶上,经过几轮酶切之后常会得到1 000~2 000条电泳带,而现有的PAGE电泳很少能分辨超过400条带,故只有15%~30%的mRNA能够被辨认出来,因此得
到的只能是高表达基因。如果希望寻找部分新基因,这是一种比较简单有效的方法;如果希望得到有关某种细胞的基因表达谱,可能比较困难;采用双向电泳技术可能会有所帮助[8]。
2.基因表达系统分析(serial analysis of gene expression,SAGE):SAGE法的建立基于两条理论。首先,一段来自某个转录子确定位置的核苷酸,其长度只要有9~10个bp,就能够特异地确认该转录子。第二,对短片段标签的链接有利于在同一克隆中对多个标签测序。SAGE也是用生物素标记的Bio-Oligo(dT)为引物合成双链cDNA,然后以限制酶(锚定酶)进行酶切,捕获cDNA3′端。在此处产物被分为两部分,分别与包含有IIS型内切酶(标签酶)位点的A、B连接子相接。IIS型内切酶的特点是作用位点处于识别位点之外。这样经过酶切,就有可能得到只有9~10bp的标签序列。每两个标签的钝端结合后成为PCR的模板,以基于A、B连接子的引物进行PCR反应的结果是得到了大量每条包含两个不同来源标签的序列,接下来再用锚定酶酶切、连接,就能将多个不同的标签链接在一起(大约为每条包含数十个不同来源的标签),克隆至质粒载体中后集中测序[9,10]。SAGE的最终结果是通过计算机统计得到的,根据某个标签出现频率的高低来判断并计算其所属基因表达的丰度。对于在数据库中找不到对应序列的标签,还可以利用13bp的寡核苷酸探针(9bp加上锚定酶识别位点的4bp)对cDNA文库进行筛选,以寻找新基因。SAGE可以检测不同细胞间已知基因表达的具体差异,精确到每个细胞中大约有多少拷贝,可以建立较全面的基因表达谱,系统地分析基因表达的差异。它的缺点在于工作量非常大,有大量的测序及计算机分析任务;而且,对于寻找新基因而言,仅用长度为13bp的寡核苷酸探针筛选cDNA文库是很不严格的,根据我们的经验,往往是假阳性结果居多。
3 . cDNA3′端限制酶切片段显示(display of 3′ end restriction fragments of cDNAs):cDNA3′端RFD利用带有“踵”结构的锚定Oligo(dT)引物合成cDNA第一链,以Okayama和Berg的置换法合成cDNA第二链,然后将双链cDNA以限制酶消化。本方法的适配子由A1和A2两条寡核苷酸构成,其序列与所用限制酶识别位点相符合,先将A2的5′端磷酸化,再加入A1退火,就会形成一个Y型结构;把Y型适配子与酶切后的cDNA片段相连接,以适配子及锚定引物中
所含序列为特异引物进行PCR反应,则只有cDNA3′末端的一段被扩增出来,这时的产物可用凝胶电泳表示出来构成差异表达图谱。对于每次切割6bp的限制酶来说,每种大概只能切割8%的cDNA,因此至少需要12种以上的限制酶才能使所有cDNA都显示出来[11]。cDNA3′端RFD与GEF的思路比较相似,由于它利用多种限制酶进行酶切,因此不会象GEF因凝胶电泳分辨率不够而漏掉信息。它的重复性较好,假阳性率低,尤其是对于已知基因,可以根据选择内切酶的作用位点确定该基因在凝胶电泳中的位置并判断其含量,从而避免了进一步的分析。对于精力有限的研究人员,这可能是个值得一试的方法。cDNA3′端RFD方法也存在一些和DDRT-PCR相类似的缺点,它得到的片段中包含的编码信息比较少,需要多花一些时间对所得到的差异条带进一步分析。
4.分子指数的RNA指纹(RNA fingerprinting by molecular indexing,MI):MI是一种能够较好地显示mRNA中编码序列的方法。它利用Ⅱs型内切酶的作用位点在识别位点之外可以形成一个4bp的突出端的特点,设计43共64种(最外侧一个核苷酸随机)适配子,使得获取编码序列片段成为可能。首先是以常规方法合成双链cDNA,用Ⅱ类限制酶进行酶切后连接5′端磷酸化的相应适配子,再以Ⅱs类内切酶酶切后形成一个随机的4 bp突出端,用连接有生物素的64种适配子予以结合,可将这些限制片段分为64类,用包被抗生物素蛋白的磁珠捕获连接产物,就可以利用前后两个适配子所携带的特异序列为引物进行PCR扩增反应,凝胶电泳显示表达差异[12]。 由于扩增的序列位于cDNA内部,因此最后得到编码序列的可能性很大,这是该方法最大的优点。鉴于并不是所有cDNA都含有某一识别位点,故采用不同的内切酶组合。理论上可以显示所有的差异表达基因,但这样一来工作量就变得十分巨大。因此,该方法只适合对样本的快速分析和部分差异表达基因的研究;如果要对某种细胞的基因表达进行全面的研究,可能还要采用其它的方法。
5.抑制性消减杂交(suppression subtractive hybridization,SSH): SSH方法源于代表性差异分析法(representational difference analysis' RDA)。它原是一种研究基因组之间差异的以杂交为基础的方法。Diatchenko等[13]将“抑制性PCR”理论[14]与RDA相结合,建立了一种分离差异表达基因的新方法。SSH将需要检测的细胞称为“检测子”,将对照细胞mRNA称为“驱赶子”,把mRNA合成
cDNA后,通过仅仅两轮杂交和PCR过程,就能有效地分离到在检测子中表达,而在驱赶子中不表达或表达丰度不同的mRNA(图5)。通过SSH有可能得到某种细胞中相对其他组织的差异表达基因的全面信息,它较好地克服了其它方法中低丰度基因难以得到的问题,据称对低拷贝基因的富集可以达到1 000~5 000倍,因此可能发现一些用原有方法没有检测到的新基因。这方面已经有人进行了尝试[15,16],获得了一些成果。SSH的不足之处在于它需要mRNA的量较大,检测子和驱赶子都要达到2微克以上,这在某些情况下是非常难以做到的,因此目前有关SSH的报道基本上都以肿瘤细胞为研究对象。
基因表达差异的研究方法在DDRT-PCR出现之后又有了很大的发展,每种方法都各有自己的优缺点,研究人员应该根据自己的侧重点选择适合于自己的方法。目前真正能够做到简单、准确、全面地揭示基因表达差异的方法仍在不断探索之中,因此许多研究机构仍采用DDRT-PCR来达到自己的目的,毕竟经过最近数年的完善,该技术在许多方面都有了一定的改进,完成一般的研究项目已是绰绰有余。SSH作为一种基因表达差异研究的新方法,假阳性率低,所得到的结果也更加全面,因此,希望以不太复杂的方法全面揭示差异表达基因的研究者,可以尝试一下这种方法。
如何进行基因表达差异分析?
答: 很多RNA-seq实验的目的是为了比较两种或多种样本中基因表达或整个转录组的差异,如比较癌症组织和正常组织的转录组差异等。这些差异既包括通常意义下的差异表达基因,也主要包括选择性剪接模式的差异、剪接异构体表达的差异、非编码转录本的差异等。这些差异一般可以用一些统计假设检验方法检测,但这种检验有时会受到测序深度、基因长度等因素的影响,需要对结果进行仔细分析,消除可能的混杂因素,必要时可以用reads的绝对表达值倍数变化(fold-change)来作为补充。
虽然新一代测序相对第一代测序的单位成本大大降低,但是,利用RNA测序进行基因表达研究的成本仍很高,因此,很多实验室没有条件进行样本重复. 如果两类样本均没有生物重复,例如只对两个细胞系各进行一次mRNA样本测序,则可以用随机采样模型通过假设检验来分析差异表达. 对于某个基因,如果一个read来自于这个基因,我们称事件A发生。对于一次RNA-seq实验,事件A发生的概率可以用这个基因上的read数n除以所有基因上的读段总数N来估计,即RPM. 事件A发生的概率反应了这个基因的表达水平。 如果要判断某个基因在两个样本中的表达水平是否一致,就可以通过检验事件A在两种条件下发生的概率是否一致来实现,采用似然比检验、Fisher精确检验以及基于MA图的统计检验方法等. 同样,也可用RPKM作为统计量来进行假设检验分析,由于是比较同一个基因在两个样本间的差异,基因长度的影响被抵消,用RPKM和用RPM得到的结果相似。对无生物重复的RNA-seq数据进行差异表达基因分析,已经有几个公开发表的软件,包括DEGseq、Useq、Cufflinks中的Cuffdiff模块等。