非编码区和编码区.真核生物的启动子.终止子,真核生物RNA的修饰
基因是由成千上万个核苷酸对组成。组成基因的核苷酸序列可以分为不同区段。在基因表达的过程中,不同区段所起的作用不同。在遗传学上通常将能编码蛋白质的基因称为结构基因
。任何一个基因都包括非
编码区和编码区。能够转录为相应信使
RNA ,进而指导蛋白质合成(也就是能编码蛋白质)的区段叫做编码区。不能转录为信使RNA 、不能编码蛋白质的区段叫做非编码区。非编码区位于编码区前后,同属于一个基因,控制基因的表达和强弱。
原核生物的基因
非编码区虽然不能编码蛋白质,但对遗传信息的表达是不可缺少的,因为在它上面由调控遗传信息表达的核苷酸序列,该序列中最重要的是位于编码区上游的RNA 聚合酶结合位点。启动子、终止子属于非编码区。因为回文序列的特殊排列,大多都位于非编码区。
原核基因的编码区全部编码蛋白质,真核生物的结构基因是断裂的基因。一个断裂基因能够含有若干段编码序列,可以编码蛋白质的序列称为外显子。在两个外显子之间被一段不编码的间隔序列隔开,这些间隔序列称为内含子。非编码区在每个断裂基因的第一个和最后一个外显子的外侧,有人称其为侧翼序列。在侧翼序列上有一系列调控序列。
真核细胞的基因中编码区特点:间隔的、不连续的。包括:外显子和内含子(位于编码区中的非编码序列)。
通常把基因转录起点前面即5’端的序列称为上游(upstream),起点后面即3’端的序列称为下游(downstream)。并把起点的位置记为十1,下游的核苷酸依次记为+2,+3,……,上游方向依次记为-1,-2,-3,……。 非编码区的调控序列主要有以下几种结构:
①在5′端转录起始点上游约20~30个核苷酸的地方,有TATA 框(TATA box)。 TATA 框是一个短的核苷酸序列,其碱基顺序为TATAATAAT 。TATA 框是启动子(见下)中的一个顺序,它是RNA 聚合酶的重要的接触点,能够使酶准确地识别转录的起始点并开始转录。当TATA 框中的碱基顺序有所改变时,mRNA 的转录就会从不正常的位置开始。
②在5′端转录起始点上游约70~80个核苷酸的地方,有CAAT 框(CAAT box)。CAAT 框是启动子中另一个短的核苷酸序列,其碱基顺序为GGCTCAATCT 。CAAT 框是RNA 聚合酶的另一个结合点,它的作用还不很肯定,但一般认为它控制着转录的起始频率,而不影响转录的起始点。当这段顺序被改变后,mRNA 的形成量会明显减少。
③在5′端转录起始点上游约100个核苷酸以远的位置,有些顺序可以起到增强转录活性的作用,它能使转录活性增强上百倍,因此被称为增强子。当这些顺序不存在时,可大大降低转录水平。研究表明,增强子通常有组织特异性,这是因为不同细胞核有不同的特异因子与增强子结合,从而对不同组织、器官的基因表达有不同的调控作用。例如,人类胰岛素基因5′末端上游约250个核苷酸处有一组织特异性增强子,在胰岛素β细胞中有一种特异性蛋白因子,可以作用于这个区域以增强胰岛素基因的转录。在其他组织细胞中没有这种蛋白因子,所以也就没有此作用。这就是为什么胰岛素基因只有在胰岛素β细胞中才能很好表达的重要原因。
④在3′端终止密码的下游有一个核苷酸顺序为AATAAA ,这一顺序可能对mRNA 的加尾(mRNA尾部添加多聚A) 有重要作用。这个顺序的下游是一个反向重复顺序。这个顺序经转录后可形成一个发卡结构。发卡结构阻碍了RNA 聚合酶的移动。发卡结构末尾的一串U 与转录模板DNA 中的一串A 之间,因形成的氢键结合力较弱,使mRNA 与DNA 杂交部分的结合不稳定,mRNA 就会从模板上脱落下来,同时,RNA 聚合酶也从DNA 上解离下来,转录终止。AATAAA 顺序和它下游的反向重复顺序合称为终止子(见下),是转录终止的信号。
启动子和终止子:
启动子(promoter )位于编码区上游的非编码区中。真核生物启动子包括下列几种不同顺序,能促进转录过程:
(1)帽子位点:转录的起始位点。
(2)TATA 框(TATA box):又称Hogness 框,类似于原核生物的Pribnow 框,决定了转录起点的选择。
其一致顺序为TATAATAAT 。约在基因转录起始点上游约-30-50bp 处,基本上由A-T 碱基对组成,为RNA 聚合酶的结合处之一,RNA 聚合酶与TATA 框牢固结合之后才能开始转录。
(2)CAAT 框(CAAT box):其一致顺序为GGGTCAATCT ,是真核生物基因常有的调节区,位于转录起始点上游约-80-100bp 处,可能也是RNA 聚合酶的一个结合处,控制着转录起始的频率。
(3)GC 框(GC box):有两个拷贝,位于CAAT 框的两侧,由GGCGGG 组成,转录因子Sp1能识别GC 框并且与之结合,其N 端有激活转录的作用。所以,GC 框是一个转录调节区,有激活转录的功能。
(4)增强子(enhancer ):又称远上游序列(far upstream sequence)。一般都在-1OO 以上。增强子的作用主要是对依赖于TATA 框的转录和不依赖TATA 框的转录都有增强效应,但对前者增强效应高。增强子是通过启动子来增加转录的。有效的增强子可以位于基因的5’端,也可位于基因的3’端,有的还可位于基因的内含子中。增强子的效应很明显,一般能使基因转录频率增加10~200倍,有的甚至可以高达上千倍。
终止子:在一个基因的末端往往有一段特定顺序,它具有转录终止的功能,这段终止信号的顺序称为终止子(termianator )。终止子为反向重复序列,是RNA 聚合酶停止工作的信号,反向重复序列转录后,可以形成发夹式结构,并且形成一串U 。发夹式结构阻碍了RNA 聚合酶的移动,一串U 的U 与DNA 模板中的A 结合不稳定,从模板上脱落下来,转录终止。
RNA 转录后的加工与修饰
不论原核或真核生物的rRNAs 都是以更为复杂的初级转录本形式被合成的,然后再加工成为成熟的RNA 分子。然而绝大多数原核生物转录和翻译是同时进行的,随着mRNA 开始的DNA 上合成,核蛋白体即附着在mRNA 上并以其为模板进行蛋白质的合成,因此原核细胞的mRNA 并无特殊的转录后加工过程,相反,真核生物转录和翻译在时间和空间上是分天的,刚转录出来的mRNA 是分子很大的前体,即核内不均一RNA 。hnRNA 分子中大约只有10%的部分转变成成熟的mRNA ,其余部分将在转录后的加工过程中被降解掉。
1.在5’端加帽
成熟的真核生物mRNA ,其结构的5’端都有一个m7G-PPNmN 结构,该结构被称为甲基鸟苷的帽子。如图1所示。鸟苷通过5’-5’焦磷酸键与初级转录物的5’端相连。当鸟苷上第7位碳原子被甲基化形成
m7G-PPNmN 时,此时形成的帽子被称为“帽0”,如果附m7G-PPNmN 外,这个核糖的第“2”号碳上也甲基化,形成m7G-PPNm ,称为“帽1”,如果5’末端N1和N2中的两个核糖均甲基化,成为m7G-PPNmPNm2,称为“帽2”。从真核生物帽子结构形成的复杂可以看出,生物进化程度越高,其帽子结构越复杂。
2.在3’端加尾
大多数的真核mRNA 都有3’端的多聚尾巴(A) ,多聚(A) 尾巴大约为200bp 。
多聚(A) 屠巴不是由DNA 编码的,而是转录后在核内加上去的。受polyA 聚合酶催化,该酶能识别,mRNA 的游离3’-OH 端,并加上约200个A 残基。
近年来已知,在大多数真核基因的3’一端有一个AATAA 序列,这个序列是mRNA 3’-端加polyA 尾的信号。靠核酸酶在此信号下游10-15碱基外切断磷酸二酯键,在polyA 聚合酶催化下,在3’-OH 上逐一引入100-200个A 碱基。关于polyA 尾巴的功能问题尽管经过极其广泛的探索,但还不完全清楚。有人推测polyA 可能与mRNA 从细胞核转送到细胞质有关,但是相当数量,的没有polyA 屠巴的mRNA 如组蛋白mRNA ,也照样通过核膜进入细胞质。还有人认为这种结构对真核mRNA 的翻译效率具有某种作用,并能稳定mRNA 结构,保持一定的生物半衰期。
3.mRNA 前体(hnRNA )的拼接
原核生物的结构基因是连续编码序列,而真核生物基因往往是断裂基因,即编码一个蛋白质分子的核苷酸序列被多个插入片断所隔开,一个真核生物结构基因中内含子的数量,往往与这个基因的大小有关,例如胰岛素是一个很小的蛋白质,它结构基因只有两个内含子,而有些很大的蛋白质,它的结构基因中可以有几十个内含子。经过复杂的过程后,切去内元,将有编码意义的核苷酸片段(Extron 外元也叫外显子)连接起来(图2)。