动物线粒体基因组的转录物作图与应用
· 434 ·
《生命的化学》2010年30卷3期CHEMISTRY OF LIFE 2010,30(3)
● Mini Review
文章编号: 1000-1336(2010)03-0434-04
动物线粒体基因组的转录物作图与应用
姚 杨 黄 原
陕西师范大学生命科学学院,西安 710062
摘要:线粒体转录物作图是研究线粒体基因组表达、调控和序列注释的基础。目前用于线粒体转录组分析的方法主要有表达序列标签(expressed sequence tag, EST)文库测序、5’和3’cDNA末端快速扩增(rapid amplification of cDNAends, RACE)技术和RT-PCR方法,采用这些方法已经对果蝇(Drosophila melanogaster)、按蚊(Anopheles funestus)、玻璃海鞘(Ciona intestinalis)、猪(Sus scrofa domestica)等线粒体转录组进行了分析。研究显示,脊椎动物和无脊椎动物的线粒体基因组分别产生3个和5个多顺反子的初级转录物,并通过tRNA间断模型(tRNA punctuation model)加工。线粒体转录物的分析结果为正确注释线粒体基因组序列提供了重要信息。关键词:后生动物;线粒体转录物;tRNA间断模型;基因组注释中图分类号:Q52
大多数后生动物的线粒体DNA都编码13个蛋白质基因,两个rRNA基因和22个tRNA基因。另外,还有一个较大的非编码区域,在脊椎动物称为D环区或者控制区,在节肢动物称为A+T富集区,它们在功能上同源。
自1981年人类线粒体基因组序列被第一个测出以来,至近期已经有1874种后生动物的线粒体基因组序列被测出(http://www.ncbi.nlm.nih.gov/genomes/ORGANELLES/)。目前几乎所有后生动物纲都至少有一个物种的线粒体基因组序列被测出。对这些新测出的线粒体基因组的注释大多采用以序列比对为基础的生物信息学方法。我们实验室在注释所测定的昆虫和鸟类线粒体基因组序列过程中,发现采用生物信息学方法的注释存在许多问题,包括:多顺反子转录单位的数目、起始与终止部位;重叠基因的转录与加工成熟机制;基因间隔序列的切除机制;转录和复制调控序列;部分蛋白质基因(主要是cox1)的起始密码子和终止密码子;lrRNA(large rRNA)和srRNA(small rRNA)的起始与终止位置;tRNA二级结
收稿日期:2010-01-25
国家自然科学基金项目(No. 30670279和30970346)资助作者简介:姚扬(1985-),女,硕士生,E-mail:yaoyang1220@sina.com;黄原(1962-),男,教授,通讯作者E-mail:yuanh@snnu.edu.cn
构上非配对碱基、编码非典型tRNA二级结构的基因、疑似/额外tRNA的是否存在等等。基因组注释中遇到的这些问题都必须通过实验的方法解决,其中最直接的方法就是线粒体转录组的分析(mitochond-rial transcript mapping),也称为线粒体转录物作图。
线粒体转录物作图就是将存在于线粒体内的RNA分子测序后定位到线粒体基因组序列上。转录物包括直接从DNA上转录得到的初级转录物、处于加工过程的中间产物和加工后的成熟转录物。在转录图上,初级转录物可以让我们了解线粒体基因组的所有转录单位的起始和终止位置,加工中间产物系列显示了线粒体转录物加工顺序和步骤,而成熟转录物可以显示出基因边界和RNA上发生的编辑等。此外,转录物作图还可以获得各转录产物的相对数量,对于了解转录起始位点和调控机制有重要价值。所以,转录物作图是研究线粒体基因组表达、调控和序列注释的基础。1. 线粒体转录物分析方法
自20世纪80年代以来,研究人员即开始采用放射性同位素标记技术进行线粒体基因组的体内或体外转录实验,这些早期的研究让人们了解了一些模式生物线粒体的转录。目前用于线粒体转录组分析的方法主要有表达序列标签(expressed sequence tag,
● 小综述
《生命的化学》2010年30卷3期CHEMISTRY OF LIFE 2010,30(3)
· 435 ·
EST)文库测序、5’和3’cDNA末端快速扩增(rapidamplification of cDNA end, RACE)技术和RT-PCR方法。此外,从原理上第二代高通量转录组测序技术是最适合于线粒体转录组分析的方法,但目前还没有报道。
线粒体EST(mitochondrial EST, mtEST)方法是普通EST测序的副产品,就是将EST文库测序结果中所有线粒体来源的片段汇集起来,拼接为重叠群单元(contig)作为线粒体转录产物进行分析。由于细胞中线粒体含量较多,所以EST文库中的mtEST数量所占的比例很大。此类研究有果蝇(Drosophilamelanogaster)[1]、按蚊(Anopheles funestus)[2]、尾索动物亚门玻璃海鞘(Ciona intestinalis)和真海鞘(Halocynthiaroretzi)[3]、2种蝾螈(Ambystoma mexicanum)和(A.tigrinum)[4]和猪(Sus scrofa domestica)[5]等。例如,中国-丹麦协作的猪基因组计划的EST文库获得685,000EST序列,其中的41,499 EST(总EST序列的6%)序列来自线粒体基因组,序列拼接后产生35个重叠群单元和23个单独EST,拼接结果覆盖了猪线粒体基因组全序列的94%[5]。
采用RACE和RT-PCR分析mtEST时,首先需要获得无DNA污染的线粒体RNA,然后根据每个基因或转录物的3’和5’端序列设计出PCR引物,分别进行5’和3’RACE和RT-PCR扩增,获得的产物克隆后测序。这种方法步骤比较繁复,需要的引物数量大,仅在黑腹果蝇中进行过研究[1]。2. 动物线粒体转录物分析
哺乳动物线粒体DNA的转录是研究得最深入的。位于控制区的重链启动子2(H-strand promoter 2,Hsp2)和轻链启动子(Lsp, L-strand promoter)各转录几乎与线粒体基因组一样大小的多顺反子,并通过tRNA间断模型(tRNA punctuated model)加工。从重链的另一个启动子Hsp1起始的转录终止于lrRNA基因下游的tRNA基因处,这样可以增加包含两个rRNA亚基的DNA片段的相对转录速率。
人类线粒体DNA有两个相互重叠的重链转录起始点(Hsp1和Hsp2)和一个轻链转录起始点(Lsp),它们都位于D-环区域,转录产生3条初级转录物H1、H2和L。H1链从tRNAphe上游19个核苷酸处开始,到16S rRNA的3’末端,主要转录12S rRNA、16S rRNA、tRNAphe和tRNAval基因。H2链从12S rRNA 5’端开始
几乎涵盖了整条的H链,转录14种tRNA和12种mRNA。L链转录起始点位于12S rRNA的5’末端,转录产物是8种tRNA和ND5基因(图1)[6]。H1链和L链在转录起始区都有一个大约15 bp的5’-CANACC(G)CC(A)AAAGAYA-3’和一个位于上游起始区−12 ̄−39bp可以结合转录因子的区域来加速转录。H2链仅有一个类似于H1链和L链的15 bp的启动子结合区域。H1链的转录效率要比H2链的转录效率高20倍,所以H链中rRNA的合成速率要比mRNA高。H1和H2的转录是独立的。
无脊椎动物中只有昆虫进行过线粒体转录物的分析。黑腹果蝇(Drosophila melanogaster)线粒体基因组有5个转录启始位点,2个位于J链(分别在tRNAIle和tRNAThr上游),3个位于N链(分别在srRNA上游,tRNAPro上游的ND6基因及位于tRNACys和tRNATyr上游的cox1基因)。转录启始于5个位点中的任意一个,一直持续至转录终止位点,此转录物通过tRNA间断模型被加工成11个mRNA,22个tRNA和2个rRNA。
尽管动物线粒体转录组的研究比较少,但从这些研究中得到了一些重要的结果,包括:(1)动物线粒体的转录物是多顺反子的。(2)昆虫线粒体有5个转录单位,而哺乳动物有3个。(3)动物线粒体成熟的mRNA通常是单顺反子形式,3’端具有50~60 bp长的多聚腺苷,但缺少细胞质成熟转录物的5’帽子特征。但2对重叠基因(atp8/atp6和nad4L/nad4基因)也存在着3’多聚腺苷化的二顺反子(bi-cistronic)。(4)可能不存在4个以上碱基的起始密码子。按蚊(Anophelesfunestus)线粒体EST分析证实cox1基因的起始密码子为TCG,nad1的起始密码子为TTG,nad5基因为GTG[2]。(5)动物线粒体中rRNA基因的转录效率高于其他基因。成熟12S和16S rRNA的3’具有长度可变的多聚腺苷尾,在16S rRNA中尤其普遍。(6)在线粒体基因组中,AGA和AGG密码子没有相应的tRNA,这样的密码子被称为饥饿密码子(starving or hungrycodons)。饥饿密码子是指缺少或没有氨基酰tRNA(aminoacyl-tRNA)供给的密码子。在饥饿密码子位置上蛋白质合成的正常步骤发生改变,导致几种不正常的途径,包括与非同族(noncognate aminoacyl-tRNAspecies)的氨基酰tRNA结合,向上游(−1位)或下游(+1位)的移码(frameshifting)翻译、向下游几个密码子的移码翻译和肽酰tRNA(peptidyl tRNA)释放等。已
· 436 ·
《生命的化学》2010年30卷3期CHEMISTRY OF LIFE 2010,30(3)
● Mini Review
图1 脊椎动物线粒体基因组的2个主要初级转录物及加工后的成熟转录物图谱[6]
来自H-链的转录物编码了大多数的基因,L-链只编码8种tRNA和ND5基因。成熟tRNA具体位置仅标记在L-链和H-链上[6]。
经证实人类线粒体基因组被注释为cox1和nad6基因终止密码子的AGA和AGG,其实就是一种饥饿密码子,在线粒体核糖体翻译过程中起饥饿密码子的作用,拖延核糖体的正常移动,而产生一个−1方向的移框(frameshift),从而使用正常的UAA和UAG作为终止密码子[7]。
3. 动物线粒体转录后加工模型
已经从人类细胞系线粒体中全面了解到动物线粒体转录产物的加工。在人类线粒体基因组中,几乎所有mRNA种类通过从大的转录物中准确切割tRNA产生。包含在初级转录物中的tRNA可位于mRNA的 3’或5’端,并且作为最重要的线粒体RNA加工信号,被类似于RNA酶P和RNA酶Z的tRNA加工酶识别,并分别从3’和5’端剪切,从多顺反子性的前体RNA释放侧翼的RNA分子。Ojala等[8]据此提出了tRNA间断模型来解释人类线粒体基因组多顺反子转录物的加工机制。大的转录物通过tRNA间
断模型加工,插入的tRNA分子成熟释放之后被加工成成熟的rRNA和mRNA分子。mRNA需要多聚腺苷酸化的来稳定mRNA和完善部分基因的终止密码子。
tRNA间断模型是目前被广泛认同的线粒体转录物加工模型,被广泛用于动物、真菌和红绿藻的线粒体转录后加工。该模型中,散布于线粒体基因组上的tRNA基因就如同文本的标点分隔开不同的基因。tRNA从初级转录物上被加工分离出来后,剩余的片段就是mRNA和rRNA基因。这就要求这些基测在3’端被加工的惟一的mRNA,它的加工位点发生在编码TAG终止密码子下游的果蝇线粒体转录物末端因子DmTTF区域,在此区域没有发现其他RNA,表明此因子也参与RNA的加工,或者转录终止事件产生正确的3’末端。对于所有的mRNA,包括5’末端有非编码碱基的基因,5’末端以此基因第一个被翻译的密码子的第一位开始。而cox1
基因的
● 小综述
《生命的化学》2010年30卷3期CHEMISTRY OF LIFE 2010,30(3)
· 437 ·
5’末端是第一个框内有义密码UCG,表明这些密码子被用做起始密码。框内的终止密码TAA在cox1和cox2基因之前,功能阻止框内这些基因在加工完全之前被翻译。
Stewart 等[1]对果蝇线粒体基因组所有大转录物的末端序列研究显示,即便出现非编码碱基,tRNA 标点模型通常也能精确预测大多数mRNA 和rRNA 分子3’末端,5’末端非编码碱基通常在RNA 加工过程中被去除。果蝇线粒体基因组两个rRNA 中各自有1个3’tRNA标点加工位点,mRNA 中有9个,并且包含两个蛋白质编码基因边界,atp6和cox3之间被注释的基因边界是这两个mRNA 基因的加工位点。
参 考 文 献
[1]Stewart JB. et al. Characterization of mature mitochondrial
transcripts in Drosophila and the implications for the tRNApunctuation model in arthropods. Gene, 2009, 445: 49-57
[2]Krzywinski J et al. Analysis of the complete mitochondrial
DNA from Anopheles funestus: an improved dipteranmitochondrial genome annotation and a temporal dimensionof mosquito evolution. Mol Phylogenetics Evol 2006, 39:417-423
[3]Gissi C et al. Transcript mapping and genome annotation of
ascidian mtDNA using EST data. Genome Res, 2003, 13:2203-2212
[4]Samuels AK et al. Transcription and phylogenetic analysis of
five complete Ambystomatid salamander mitochondrialgenomes. Gene, 2005, 349: 43-53
[5]Scheibye-Alsing K et al. EST analysis on pig mitochondria
reveals novel expression differences between developmentaland adult tissues. BMC Genomics, 2007, 8: 367
[6]Scheffler IE. Mitochondria 2nd ed. 2008, John Wiley & Sons,
Inc.
[7]Temperley R et al. Hungry codons promote frameshifting in
human mitochondrial ribosomes. Science, 2010, 327: 301[8]Ojala D et al. tRNA punctuation model of RNA processing in
human mitochondria. Nature, 1981, 290: 470-474
Transcript mapping of mitochondrial genome and its application
Yang Yao, Yuan Huang
College of Life Science, Shanxi Normal University, Xi’an 710062, China
Abstract Mitochondrial transcript mapping is a fundamental step to study gene expression, transcriptional regulation, andgenome sequence annotation of mitochondrial genome. Several approaches including EST library sequencing, 5’ and 3’ RACE,and RT-PCR have been used to study mitochondrial transcripts for Drosophila melanogaster , Anopheles funestus , Ciona intestinalis and pig (Sus scrofa domestica). Many studies show that the mitochondrial genomes from vertebrate and invertebrateproduce 3 and 5 primary transcripts, respectively, and these transcripts are processed by tRNA punctuation model. Analysis ofthe mitochondrial transcript will provide the essential information for mitochondrial genome annotation.Key words Metazoa; mitochondrial transcripts; tRNA punctuation model; genome annotation