9人类基因组研究
9.1 人类基因组计划简介
人类基因组计划(human genome project, HGP)是由美国科学家于1985年率先提出,于1990年正式启动的。美国、英国、法国、德国、日本和我国科学家共同参与了这一价值达30亿美元的人类基因组计划。这一计划旨在为30多亿个碱基对构成的人类基因组精确测序,发现所有人类基因并搞清其在染色体上的位置,破译人类全部遗传信息。与曼哈顿原子弹计划和阿波罗登月计划并称为三大科学计划。
1986年,诺贝尔奖获得者Renato Dulbecco发表短文《肿瘤研究的转折点:人类基因组测序》(Science, 231: 1055-1056)。文中指出:如果我们想更多地了解肿瘤,我们从现在起必须关注细胞的基因组。„„ 从哪个物种着手努力?如果我们想理解人类肿瘤,那就应从人类开始。„„人类肿瘤研究将因对 DNA 的详细知识而得到巨大推动。”
什么是基因组(Genome)?基因组就是一个物种中所有基因的整体组成。人类基因组有两层意义:遗传信息和遗传物质。要揭开生命的奥秘,就需要从整体水平研究基因的存在、基因的结构与功能、基因之间的相互关系。
为什么选择人类的基因组进行研究?因为人类是在“进化”历程上最高级的生物,对它的研究有助于认识自身、掌握生老病死规律、疾病的诊断和治疗、了解生命的起源。
在人类基因组计划中,还包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。
HGP的目的是解码生命、了解生命的起源、了解生命体生长发育的规律、认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。
HGP的诞生和启动:
对人类基因组的研究在70年代已具有一定的雏形,在80年代在许多国家已形成一定规模。
1984年在Utah州的Alta,White R and Mendelsonhn M受美国能源部(DOE)的委托主持召开了一个小型专业会议讨论测定人类整个基因组的DNA序列的意义和前景(Cook Deegan RM,1989)
1985年5月在加州Santa Cruz由美国DOE的Sinsheimer RL主持的会议上提出了测定人类基因组全序列的动议,形成了美国能源部的“人类基因组计划”草案。
1986年3月,在新墨西哥州的Santa Fe讨论了这一计划的可行性,随后DOE宣布实施这一计划。
1986年遗传学家McKusick V提出从整个基因组的层次研究遗传的科学称为“基因组学”
1987年初,美国能源部和国立卫生研究院为HGP下拨了启动经费约550万美元(全年1.66亿美元)
1988年,美国成立了“国家人类基因组研究中心”由Watson J出任第一任主任
1990年10月1日,经美国国会批准美国HGP正式启动,总体计划在15年内投入至少30亿美元进行人类全基因组的分析。
1987年,意大利国家研究委员会开始HGP研究,其特点是技术多样(YAC,杂种细胞,cDNA等)、区域集中(基本上限于Xq24-qter区域)
1989年2月英国开始HGP,特点是:帝国癌症研究基金会与国家医学研究委员会(ICRP-MRC)共同负责全国协调与资金调控,剑桥附近的Sanger中心注重首先在线虫基因组上积累经验,改进大规模DNA测序技术;同时建立了YAC库的筛选与克隆、特异细胞系、DNA探针、基因组DNA、cDNA文库、比较生物基因组DNA序列、信息分析等的“英国人类基因组资源中心”。可谓“资源集中、全国协调” 1990年6月法国的HGP启动。科学研究部委托国家医学科学院制定HGP,主要特点是注重整体基因组、cDNA和自动化。建立了人类多态性研究中心(CEPH),在全基因组YAC重叠群、微卫星标记(遗传图)的构建以及驰名世界的用作基因组研究的经典材料CEPH家系(80个3代多个体家系)方面产生了巨大影响。 1995年德国开始HGP,来势迅猛,先后成立了资源中心和基因扫描定位中心,并开始对21号染色体的大规模测序工作。
1990年6月欧共体通过了“欧洲人类基因组研究计划”,主要资助23个实验室重点用于“资源中心”的建立和运转。还有丹麦、俄罗斯、日本、韩国、澳大利亚等。
1994年,我国HGP在吴旻、强伯勤、陈竺、杨焕明的倡导下启动,最初由国家自然科学基金会和863高科技计划的支持下,先后启动了“中华民族基因组中若干位点基因结构的研究”和“重大疾病相关基因的定位、克隆、结构和功能研究”,1998年在国家科技部的领导和牵线下,1998年在上海成立了南方基因中心,1999年在北京成立了北方人类基因组中心,1998年,组建了中科院遗传所。1999年7月在国际人类基因组注册,得到完成人类3号染色体短臂上一个约30Mb区域的测序任务,该区域约占人类整个基因组的1%。
HGP的主要任务
HGP的主要任务是人类的DNA测序,包括下图所示的四张谱图,此外还有测序技术、人类基因组序列变异、功能基因组技术、比较基因组学、社会、法律、伦理研究、生物信息学和计算生物学、教育培训等目的。
1、遗传图谱(genetic map)
又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路
标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。意义:6000多个遗传标记已经能够把人的基因组分成6000多个区域,使得连锁分析法可以找到某一致病的或表现型的基因与某一标记邻近(紧密连锁)的证据,这样可把这一基因定位于这一已知区域,再对基因进行分离和研究。对于疾病而言,找基因和分析基因是个关键。
第1代标记:经典的遗传标记,例如ABO血型位点标记,HLA位点标记。70年中后期,限制性片段长度多态性(RFLP),位点数目大与105,用限制性内切酶特异性切割DNA链,由于DNA的一个“点”上的变异所造成的能切与不能切两种状况,可产生不同长度的片段(等位片段),可用凝胶电泳显示多态性,从片段多态性的信息与疾病表型间的关系进行连锁分析,找到致病基因。如Huntington症。但每次酶切2-3个片段,信息量有限。
第2代标记:1985年,小卫星中心(minisatellite core)、可变串联重复VNTR(variable number of tandem repeats)可提供不同长度的片段,其重复单位长度为6~12个核苷酸 ,1989年微卫星标记(microsatellite marker)系统被发现和建立,重复单位长度为2~6个核苷酸,又称简短串联重复(STR)。 第3代标记:1996年MIT的Lander ES又提出了SNP(single nucleotide polymorphysm)的遗传标记系统。对每一核苷酸突变率为10-9,双等位型标记,在人类基因组中可达到300万个,平均约每1250个碱基对就会有一个。3~4个相邻的标记构成的单倍型(haplotype)就可有8~16种。
2、物理图谱(physical map)
物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。
DNA物理图谱是指DNA链的限制性酶切片段的排列顺序,即酶切片段在DNA链上的定位。因限制性内切酶在DNA链上的切口是以特异序列为基础的,核苷酸序列不同的DNA,经酶切后就会产生不同长度的DNA片段,由此而构成独特的酶切图谱。因此,DNA物理图谱是DNA分子结构的特征之一。DNA是很大的分子,由限制酶产生的用于测序反应的DNA片段只是其中的极小部分,这些片段在DNA链中所处的位置关系是应该首先解决的问题,故DNA物理图谱是顺序测定的基础,也可理解为指导DNA测序的蓝图。广义地说,DNA测序从物理图谱制作开始,它是测序工作的第一步。制作DNA物理图谱的方法有多种,这里选择一种常用的简便方法──标记片段的部分酶解法,来说明图谱制作原理。
用部分酶解法测定DNA物理图谱包括二个基本步骤:
(1)完全降解:选择合适的限制性内切酶将待测DNA链(已经标记放射性同位素)完全降解,降解产物经凝胶电泳分离后进行自显影,获得的图谱即为组成该DNA链的酶切片段的数目和大小。
(2)部分降解:以末端标记使待测DNA的一条链带上示踪同位素,然后用上述相同酶部分降解该DNA链,即通过控制反应条件使DNA链上该酶的切口随机断裂,而避免所有切口断裂的完全降解发生。部分酶解产物同样进行电泳分离及自显影。比较上述二步的自显影图谱,根据片段大小及彼此间的差异即可排出酶切片段在DNA链上的位置。下面是测定某组蛋白基因DNA物理图谱的详细说明。
完整的物理图谱应包括人类基因组的不同载体DNA克隆片段重叠群图,大片段限制性内切酶切点图,DNA片段或一特异DNA序列(STS)的路标图,以及基因组中广泛存在的特征型序列(如CpG序列、Alu序列,isochore)等的标记图,人类基因组的细胞遗传学图(即染色体的区、带、亚带,或以染色体长度的百分率定标记),最终在分子水平上与序列图的统一。
基本原理是把庞大的无从下手的DNA先“敲碎”,再拼接。以Mb、kb、bp作为图距,以DNA探针的STS(sequence tags site)序列为路标。1998 年完成了具有52,000个序列标签位点(STS),并覆盖人类基因组大部分区域的连续克隆系的物理图谱。构建物理图的一个主要内容是把含有STS对应序列的DNA的克隆片段连接成相互重叠的“片段重叠群(contig)”。用“酵母人工染色体(YAC)作为载体的载有人DNA片段的文库已包含了构建总体覆盖率为100%、具有高度代表性的片段重叠群”,近几年来又发展了可靠性更高的BAC、PAC库或cosmid库等。
3、序列图谱
随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱。
大规模测序基本策略(下图):
逐个克隆法:对连续克隆系中排定的BAC克隆逐个进行亚克隆测序并进行组装(公共领域测序计划)。
全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国Celera公司)。
4、基因图谱
基因图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。在人类基因组中鉴别出占具2%~5%长度的全部基因的位置、结构与功能,最主要的方法是通过基因的表达产物mRNA反追到染色体的位置。
其原理是:所有生物性状和疾病都是由结构或功能蛋白质决定的,而已知的所有蛋白质都是由mRNA编码的,这样可以把mRNA通过反转录酶合成cDNA或称作EST的部分的cDNA片段,也可根据mRNA的信息人工合成cDNA或cDNA片段,然后,再用这种稳定的cDNA或EST作为“探针”进行分子杂交,鉴别出与转录有关的基因。用PolyA互补的寡聚T或克隆载体的相关序列作为引物对mRNA双端尾侧的几百个bp进行测序得到EST(表达序列标签)。2000年6月,EMBL中EST数量已有4,229,786。
基因图谱的意义:在于它能有效地反应在正常或受控条件中表达的全基因的时空图。通过这张图可以了解某一基因在不同时间不同组织、不同水平的表达;也可以了解一种组织中不同时间、不同基因中不同水平的表达,还可以了解某一特定时间、不同组织中的不同基因不同水平的表达。
人类基因组是一个国际合作项目:表征人类基因组,选择的模式生物的DNA测序和作图,发展基因组研究的新技术,完善人类基因组研究涉及的伦理、法律和社会问题,培训能利用HGP发展起来的这些技术和资源进行生物学研究的科学家,促进人类健康。
9.3 HGP对人类的重要意义
1、HGP对人类疾病基因研究的贡献
人类疾病相关的基因是人类基因组中结构和功能完整性至关重要的信息。对于单基因病,采用“定位克隆”和“定位候选克隆”的全新思路,导致了亨廷顿舞蹈病、遗传性结肠癌和乳腺癌等一大批单基因遗传病致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础。对于心血管疾病、肿瘤、糖尿病、神经精神类疾病(老年性痴呆、精神分裂症)、自身免疫性疾病等多基因疾病是目前疾病基因研究的重点。 健康相关研究是HGP的重要组成部分,1997年相继提出:“肿瘤基因组解剖计划”“环境基因组学计划”。
2、HGP对医学的贡献
基因诊断、基因治疗和基于基因组知识的治疗、基于基因组信息的疾病预防、疾病易感基因的识别、风险人群生活方式、环境因子的干预。
3、HGP对生物技术的贡献
(1)基因工程药物:分泌蛋白(多肽激素,生长因子,趋化因子,凝血和抗凝血因子等)及其受体
(2)诊断和研究试剂产业:基因和抗体试剂盒、诊断和研究用生物芯片、
疾病和筛药模型
(3)对细胞、胚胎、组织工程的推动:胚胎和成年期干细胞、克隆技术、器官再造
4、HGP对制药工业的贡献
筛选药物的靶点:与组合化学和天然化合物分离技术结合,建立高通量的受体、酶结合试验
以知识为基础的药物设计:基因蛋白产物的高级结构分析、预测、模拟—药物作用“口袋”
个体化的药物治疗:药物基因组学
5、HGP对社会经济的重要影响
生物产业与信息产业是一个国家的两大经济支柱;发现新功能基因的社会和经济效益;转基因食品;转基因药物(如减肥药,增高药)
6、HGP对生物进化研究的影响
生物的进化史,都刻写在各基因组的“天书”上;草履虫是人的亲戚——13亿年;人是由300~400万年前的一种猴子进化来的;人类第一次“走出非洲”——200万年的古猿;人类的“夏娃”来自于非洲,距今20万年——第二次“走出非洲”?
7、HGP带来的负面作用
侏罗纪公园不只是科幻故事;种族选择性灭绝性生物武器;基因专利战;基因资源的掠夺战;基因与个人隐私。
应用实例:
1、疾病基因
人类基因组研究的一个关键应用是通过位置克隆寻找未知生物化学功能的疾病基因。这个方法包括通过患病家族连锁分析来绘制包含这些基因的染色体区
域图,然后检查该区域来寻找基因。位置克隆是很有用的,但是也是非常乏味的。当在1980s早期该方法第一次提出时,希望实现位置克隆的研究者们不得不产生遗传标记来跟踪遗传,进行染色体行走得到覆盖该区域的基因组DNA,通过直接测序或间接基因识别方法分析大约1Mb大小的区域。最早的两个障碍在1990s中期在人类基因组项目的支持下随着人类染色体的遗传和物理图谱的发展而清除。然而,剩余的障碍仍然是艰难的。
所有这些将随着人类基因组序列草图的实用性而改变。在公共数据库中的人类基因组序列使得候选基因的计算机快速识别成为可能,随之进行相关候选基因的突变检测,需要在基因结构信息的帮助。现在,对于孟德尔遗传疾病,一个基因的搜索在一个适当大小的研究小组经常在几个月实现。至少30个疾病基因直接依赖公共提供的基因组序列已经定位克隆到。因为大多数人类序列只是在过去的12个月内得到,可能许多类似的发现还没有出版。另外,有许多案例中,基因组序列发挥着支持作用,例如提供候选微卫星标识用于很好的遗传连锁分析。(2001年我国上海和北京科学家发现遗传性乳光牙本质II型基因)
基因组序列对于揭示导致许多普通的染色体删除综合症的机制同样有帮助。在几个实例中,再发生的删除被发现,由同源体重组合在大的几乎同一的染色体内复制的不等交叉产生。例子包括在第22条染色体上的DiGeorge/
velocardiofacial综合症区和在第7条染色体上的Williams-Beuren综合症的重复删除。
基因组序列的可用性同样允许疾病基因的旁系同源性的快速识别,对于两个理由是有价值的。首先,旁系同源基因的突变可以引起相关遗传疾病。通过基因组序列使用发现的一个很好的例子是色盲(完全色盲)。CNGA3基因,编码视锥体光感受器环GMP门控通道的a亚单位,显示在一些色盲家系中存在突变体。基因组序列的计算机检索揭示了旁系同源基因编码相应的b亚单位,CNGB3(在EST数据库中没有出现)。CNGB3基因被快速认定为是其他家系的色盲的原因。另一个例子是由早衰1和早衰2基因提供的,它们的突变可能导致Alzheimer疾病的的早期发生。第二个理由是旁系同源体可以提供治疗敢于的机会,例子是在镰刀状细胞疾病或β地中海贫血的个体中试图再次激活胚胎表达的血红蛋白基因,
它是由于β-球蛋白基因突变引起的。
我们在在线人类孟德尔遗传数据库(OMIM)
(http://www.ncbi.nlm.nih.gov/Omim/)和SwissProt 或TrEMBL蛋白质数据库中进行了971个已知的人类疾病基因的旁系同源体的系统检索。我们识别了286个潜在的旁系同源体(要求是至少50个氨基酸的匹配,在相同的染色体上一致性大于70%但小于90%,在不同的染色体上小于95%)。尽管这种分析也许识别一些假基因,89%的匹配显示在新靶序列一个外显子以上的同源性,意味着许多是有功能的。这种分析显示了在计算机中快速识别疾病基因的潜能。
2、药物靶
在过去的世纪里,制药产业很大程度上依赖于有限的药物靶来开发新的治疗手段。最近的纲要列举了483个药物靶被看作是解决了市场上的所有药物。知道了人类的全部基因和蛋白质将极大的扩展合适药物靶的寻找。虽然,仅仅人类的小部分基因可以作为药物靶,可以预测这个数目将在几千之上,这个前景将导致基因组研究在药物研究和开发中的大规模开展。一些例子可以说明这一点:
(1)神经递质(5-HT)通过化学门控通道介导快速兴奋响应。以前识别的5-HT3A受体基因产生功能受体,但是比在活体内有小得多的电导。交叉杂交实验和EST分析在揭示已知受体的其他同源体上都失败了。然而,最近,通过对人类基因组序列草图的低要求检索,一个推定的同源体被识别,在一个PAC克隆中第11号染色体长臂上。同源体显示在纹状体、尾状核、海马中表达,全长cDNA随后得到。这个编码胺受体地基因,被命名为5-HT3B。当与5-HT3A组合成异二聚体中,它显示负责大电导神经胺通道。假定胺途径在精神疾病和精神分裂症的中心作用,一个主要的新的治疗靶的发现是相当有兴趣的。
(2)半胱氨酰基白三烯的收缩和炎症作用,先前认为是过敏反应的慢反映物质(SRS-A),通过特定的受体介导。第二个类似的受体,CysLT2,使用老鼠EST和人类基因组序列的重组得到识别。这导致了与先前识别的唯一的其它受体有38%氨基酸一致性的基因的克隆。这个新的受体,显示高的亲和力和几个白三烯的结合,映射在与过敏性哮喘有关的第13号染色体区域上。这个基因在气道平
滑肌和心脏中表达。作为白三烯途径中抗哮喘药物开发中一个重要的靶,新受体的发现有明显的重要的作用。
(3) Alzheimer疾病在老年斑中有丰富的β-淀粉样物沉积。β-淀粉样物由前体蛋白(APP)蛋白水解生成。有一个酶是β位 APP裂开酶,是跨膜天东氨酸蛋白酶。公共的人类基因组草图序列计算机搜索最近识别了BACE的一个新的同源序列,编码一个蛋白,命名为BACE2,它与BACE有52%的氨基酸序列一致性。包含两个激活蛋白酶位点和象APP一样,映射到第21条染色体的必须Down综合症区域。 它提出了问题,BACE2和APP过多的拷贝是否有功于加速Down综合症病人的脑部β-淀粉样物沉积。
给出了这些例子,我们在基因组序列中进行系统的识别传统药靶蛋白质的旁系同源体。使用的靶列表在SwissPrott数据库中识别了603个入口,有唯一的访问码。
3、基础生物学
一个例子是:解决了困扰研究者几十年的一个神秘课题:苦味的分子学基础。人类和其他动物对于某一种苦味有不同的响应(响应的多态性)。最近,研究者将这个特征映射到人类和老鼠中,然后检索了G蛋白偶合受体的人类基因组序列草图上的相关区域。这些研究很快导致了该类蛋白的新家族的发现,证明了它们几乎都在味蕾表达,实验证实了在培养细胞中的受体响应特定的苦基质。
人体基因组图谱是全人类的财产,这一研究成果理应为全人类所分享、造福全人类,这是参与人类基因组工程计划的各国科学家的共识。值得关注的是,目前在人类基因组研究领域,出现了一些私营公司争相为其成果申请专利的现象。美国塞莱拉基因公司曾表示,想把一部分研究成果申请专利,有偿提供给制药公司。
找到了一批主宰人体疾病的重要基因
如:肥胖基因、支气管哮喘基因。这类基因的新发现每年都有新报道。这些基因的发现,增进了人们对许多重要疾病机理的理解,并且推动整个医学思想
更快的从重治疗转向重预防。 例如:湖南医科大学夏家辉教授组于1998.5.28发表克隆了人类神经性高频性耳聋的致病基因(GJB3),这是第一次在中国克隆的基因。
在人类基因组计划的推动下,涌现了几门崭新的学科。如:基因组学(genomics)和生物信息学(bioinformatics)
生物技术的产业化。一批世界级的大公司纷纷把它们的重心转向生命科学研究和生物技术产品。这种趋势或潮流也不能不说和人类基因组计划密切相关。
9.4 HGP进展与未来
5.3%,选择性调节分子占3.2%,等。发现并了解这些功能基因的作用对于基因功能和新药的筛选都具有重要的意义。
3、基因数量少得惊人:一些研究人员曾经预测人类约有14万个基因,但Celera公司将人类基因总数定在2.6383万到3.9114万个之间,不超过40,000,只是线虫或果蝇基因数量的两倍,人有而鼠没有的基因只有300个。如此少的基因数目,而能产生如此复杂的功能,说明基因组的大小和基因的数量在生命进化上可能不具有特别重大的意义,也说明人类的基因较其他生物体更'有效',人类某些基因的功能和控制蛋白质产生的能力与其他生物的不同。这将对我们目前的许多观念产生重大的挑战,它为后基因组时代中生物医学的发展提供新的非凡的机遇。但由于基因剪切,EST数据库的重复以及一些技术和方法上的误差,将来亦可能人类的基因数会多于4万。
4、人类单核苷酸多态性的比例约为1/1250bp,不同人群仅有140万个核苷酸差异,人与人之间99.99%的基因密码是相同的。并且发现,来自不同人种的人比来自同一人种的人在基因上更为相似。在整个基因组序列中,人与人之间的变异仅为万分之一,从而说明人类不同“种属”之间并没有本质上的区别。
5、人类基因组中存在"热点"和大片"荒漠"。 在染色体上有基因成簇密集分布的区域,也有大片的区域只有“无用DNA” ——不包含或含有极少基因的成
分。基因组上大约有1/4的区域没有基因的片段。在所有的DNA中,只有
1%-1.5%DNA能编码蛋白,在人类基因组中98%以上序列都是所谓的“无用DNA”,分布着300多万个长片断重复序列。这些重复的“无用”序列,决不是无用的,它一定蕴含着人类基因的新功能和奥秘,包含着人类演化和差异的信息。经典分子生物学认为一个基因只能表达一种蛋白质,而人体中存在着非常复杂繁多的蛋白质,提示一个基因可以编码多种蛋白质,蛋白质比基因具有更为重要的意义
6、男性的基因突变率是女性的两倍,而且大部分人类遗传疾病是在Y染色体上进行的。所以,可能男性在人类的遗传中起着更重要的作用。
7、人类基因组中大约有200多个基因是来自于插入人类祖先基因组的细菌基因。这种插入基因在无脊椎动物是很罕见的,说明是在人类进化晚期才插入我们基因组的。可能是在我们人类的免疫防御系统建立起来前,寄生于机体中的细菌在共生过程中发生了与人类基因组的基因交换。
8、发现了大约一百四十万个单核苷酸多态性,并进行了精确的定位,初步确定了30多种致病基因。随着进一步分析,我们不仅可以确定遗传病、肿瘤、心血管病、糖尿病等危害人类生命健康最严重疾病的致病基因,寻找出个体化的防治药物和方法,同时对进一步了解人类的进化产生重大的作用。
9、人类基因组编码的全套蛋白质(蛋白质组)比无脊椎动物编码的蛋白质组更复杂。人类和其他脊椎动物重排了已有蛋白质的结构域,形成了新的结构。也就是说人类的进化和特征不仅靠产生全新的蛋白质,更重要的是要靠重排和扩展已有的蛋白质,以实现蛋白质种类和功能的多样性。有人推测一个基因平均可以编码2-10种蛋白质,以适应人类复杂的功能。
模式生物:酵母(yeast)、大肠杆菌(Escherichia coli)、果蝇(Drosophila melanogaster)、线虫(Caenorhabditis elegans)、小鼠(Mus musculus)、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划也都相继完成或正在顺利进行。
目前基因组学的研究出现了几个重心的转移:一是将已知基因的序列与功能联系在一起的功能基因组学研究;二是从作图为基础的基因分离转向以序列为基础的基因分离;三是从研究疾病的起因转向探索发病机理;四是从疾病诊断转向疾病易感性研究。
在后基因组时代,如果在已完成基因组测序的物种之间进行整体的比较、分析,希望在整个基因组的规模上了解基因组和蛋白质组的功能意义,包括基因组的表达与调控、基因组的多样化和进化规律以及基因及其产物在生物体生长、发育、分化、行为、老化和治病过程中的作用机制都必须发展新的算法以充分利用超级计算机的超级计算能力。
9.5 我国对HGP的贡献
1994年,我国HGP在吴旻、强伯勤、陈竺、杨焕明的倡导下启动,最初由国家自然科学基金会和863高科技计划的支持下,先后启动了“中华民族基因组中若干位点基因结构的研究”和“重大疾病相关基因的定位、克隆、结构和功能研究”;
1998年在国家科技部的领导和牵线下,1998年在上海成立了南方基因中心;1999年在北京成立了北方人类基因组中心;1999年7月在国际人类基因组注册,得到完成人类3号染色体短臂上一个约30Mb区域的测序任务,该区域约占人类整个基因组的1%,称之为“1%计划”。
人类基因组中国“1%”测序计划
1999年9月1日:国际公共领域测序计划接纳中国,杨焕明教授领回任务; 1999年11月12日:科技部中国生物工程开发中心、中科院生命科学和生物技术局、“863”计划生物领域专家委员会召开“参加国际人类基因组计划并完成1%基因组测序工作”专家讨论会,决定“863”计划出资3000万元,中科院出资1000万元;
1999年11月29日:科技部下达对国家人类基因组北、南方研究中心和中国科
学院遗传所拨款通知,中科院同时下达专项经费。
2001年8月完成完全图,通过国家科技部和中科院的联合验收,并在8月27~8月30在杭州举行国际会议。
2002年4月完成水稻基因组测序,完成工作框架图。
除了参与人类基因组的1%测序外,我国还开展了“中国人群的遗传学关系”研究,证实中国人群可分为南、北两大组,两者之间有明显的基因融汇;提出了东亚人群可能起源于东南亚、而东亚现代智人与其他各大洲现代人群都起源于10-20万年前"走出非洲"的群体的观点。
通过参加1%计划,大大增加了我国的研究能力,目前我国已建立了大规模的测序中心,测序能力达到国际第四,增加了我国在国际上的影响力。同时,基因组研究受到了国家的高度重视,投入了大量基金,极大的促进了我国在这方面的研究,包括基因芯片、生物信息学等辅助技术的研究,这位我国参与国际竞争提供了条件保障。基因组计划在社会上的宣传,使更多的人了解和关心基因组研
究,这对于我国今后的发展是极为有利的。加上我国丰富的遗传资源,我国对国际的贡献将更大,但是压力也更大。
9.6 功能基因组学
基因组DNA测序是人类对自身基因组认识的第一步。随着测序的完成,功能基因组学研究成为研究的主流,它从基因组信息与外界环境相互作用的高度,阐明基因组的功能。功能基因组学的研究内容:人类基因组 DNA 序列变异性研究、基因组表达调控的研究、模式生物体的研究和生物信息学的研究等。
(1)基因组表达及调控的研究。在全细胞的水平,识别所有基因组表达产物mRNA和蛋白质,以及两者的相互作用,阐明基因组表达在发育过程和不同环境压力下的时、空的整体调控网络。
(2)人类基因信息的识别和鉴定。要提取基因组功能信息,识别和鉴定基因序列是必不可少的基础工作。基因识别需采用生物信息学、计算生物学技术和生物学实验手段,并将理论方法和实验结合起来。基于理论的方法主要从已经掌握的大量核酸序列数据入手,发展序列比较、基因组比较及基因预测理论方法。识别基因的生物学手段主要基于以下的原理和思路:根据可表达序列标签(STS);对染色体特异性cosmid进行直接的cDNA选择;根据CpG岛;差异显示及相关原理;外显子捕获及相关原理;基因芯片技术;基因组扫描;突变检测体系,等等。
(3)基因功能信息的提取和鉴定。包括:人类基因突变体的系统鉴定;基因表达谱的绘制;“基因改变-功能改变”的鉴定;蛋白质水平、修饰状态和相互作用的检测。
(4)在测序和基因多样性分析。人类基因组计划得到的基因组序列虽然具有代表性,但是每个人的基因组并非完全一样,基因组序列存在着差异。基因组的差异反映在表型上就形成个体的差异,如黑人与白人的差异,高个与矮个的差
异,健康人与遗传病人的差异,等等。出现最多基因多态性就是单核苷酸多态性(SNPs)。
(5)比较基因组学。将人类基因组与模式生物基因组进行比较,这一方面有助于根据同源性方法分析人类基因的功能,另一方面有助于发现人类和其他生物的本质差异,探索遗传语言的奥秘
9.7 HGP相关的伦理学问题
基因组相关的伦理学问题有关问题:
(1)“基因是人类的共同财产”VS “人类基因组实际上是个人的”
(2)基因有无好坏之分?“致病基因” VS “必备基因”
(3)致病基因携带者都是病人吗?
(4)能不能用于优生?
(5)是否必须进行基因检查? 隐私问题
HGP伦理、法律和社会影响研究
(1)利用和解释遗传信息时如何保护隐私和达到公正?
(2)如何处理“知情同意”等问题?
(3)如何保护隐私?
人类基因组图谱公布后将会带来一系列的政策问题。其中最重要的是如何平衡隐私和基因组公平使用之间的关系。尽管美国的法律规定在医疗保险中不得含有任何歧视,但以后如何更有效的实施仍需要进一步的调查与研究。另外,保护厂家和研究单位进行遗传实验的政策也需要尽快出台。每个国家都应该明确那些遗传信息应该被保护,那些可以使用以及如何使用。
原则:防止“遗传歧视”;保护个人和家庭基因隐私;基因专利问题。基因专利: 新发现的基因是否可以申请专利? 被发现的基因序列,一旦经过分离或者纯化后就成为一种新产品。
人类基因组DNA序列是全人类的共同遗产,应该由全人类所共享;对基因组基础数据的垄断,将给人类利益和科学发展带来不良后果;公共领域测序计划的贡献。(24小时内释放序列数据)
9.8 HGP对生物信息学提出挑战
HGP的提出和实施,实验的数据和信息急剧大量的增加,信息的管理和分析成为一项重要的研究内容,这是生物信息学最初的主要研究内容,收集、储存、分发基因组的数据和信息,管理和分析、处理基因组及相关的蛋白质、mRNA的信息,根据基因组数据和信息的比较分析,发现新的基因,并对基因结构和功能进行研究。其中生物信息学的研究作用侧重于将原始的信息库进行分析、分类,按照需要建立具有特殊功能的二级数据库。二级数据库是进一步研究开发基因组的重要手段,通常是封闭的,不对外开放,仅供内部使用。
随着基因组研究的完成,以及向功能基因组研究的转化,解读生物的遗传密码成为生物信息学的又一项重要的任务。将基因组、转录组、蛋白质组以及比较基因组学的数据综合集成,构建基因调控网络,从系统的角度来研究生物学,为
系统生物学的研究提供工具,成为生物信息学的研究重点。此外,基因芯片等高通量技术的应用,产生了海量的基因表达数据,这些数据中隐含了基因表达控制的信息,对这些的分析和挖掘,以及数据的标准化已成为生物信息学的研究热点。
人类基因组测序计划的完成将会改变科学家进行科学研究的方式。随着完整人类基因组的公布,对相应的基因组序列,基因结构,蛋白序列,蛋白结构等进行分析的工具也即将不断涌现,其中生物信息学和计算机科学将占有特别重要的地位。采集、整理、储存分析和应用基因和蛋白质组的庞大的信息和数据,将会成为未来医学生物学的一个不可缺少及替代的工具和方法。离开生物信息学,我们将寸步难行。有人说,在一定意义上,未来的生物医学将是硅胶上的生物学。约翰霍普金斯大学的癌基因专家Vogelsten评论说,"过去,即使研究者确定了某个癌基因在染色体上的位置,他们仍要花费数月甚至数年的时间搜索这个基因邻近的区域,以寻找其它可能的候选基因。现在,只要点击一下鼠标,结果就出来了。
类基因组是第一个进行测序的脊椎动物基因组。它比近来测过的线虫和苍蝇的基因组大30倍,比酵母大250倍。但是,它比线虫和苍蝇的基因数只多2-3倍,编码基因的区域只占总DNA数的3%。还有46%左右的重复序列及其他的启动子和调控序列等。利用基因组DNA序列可以为科研提供很多方面的方便。 第一,这些基因组序列可以用来帮助寻找新基因。人类基因大约有
25000-35000条,目前已发现10000多条基因与遗传疾病相关。通过计算机工具发现新基因是势在必行的。通过与基因组序列的对比,我们还能发现基因不同的剪切形式,为进一步实验验证提供信息。
第二,寻找同源体。通过与其他物种已知功能蛋白的同源对比,可以发现人类中的同源蛋白。这需要在检索基因组序列的同时,继续应用BLAST检索mRNA和蛋白产物数据库。比如,美国国家人类基因组研究所Wolfsberg等人采用小鼠编码LIM同源体的Lmx1b基因作为被检索内容,在BLAST检索中发现在人类中同源序列位于9q34,与之配对的区域被证明是人类LMX1B基因的外显子。英国
Leicester大学遗传系Clayton等人寻找与果蝇时钟蛋白同源的蛋白,发现三种已知的同源体和位于第七染色体上的可能的第四种同源蛋白。另外的同源性分析可用于寻找某一家族的成员。如Wolfsberg等人查询了位于2q33的人ADAM23基因,在BLAST查询中发现一系列的蛋白,最佳配对的是来自20号染色体的肽。而在这之前没有发现在这一染色体上存在ADAM家族成员。麻州大学医学院的Tupler查询了参与核基因表达的三个过程,转录、前mRNA剪切和多聚腺苷酸化的新蛋白的编码基因,在核基因表达中序列发现了一种可能的新因子,它在与果蝇和线虫的对比中表现出保守特性但复杂性增加。虽然这些结果具有一定的局限性,但仍为基因表达的研究提供了一种新的实验方法。
第三,通过基因定位查询。在某些情况下,通过基因的染色体定位进行查询比通过序列相似性查询更具有优势。比如,通过遗传或发育分析表明某一特定区域与一种疾病的发病相关,那么查看一下这一区域内存在的基因对寻找疾病相关基因是非常有意义的。
第四,寻找基因变异。基因变异的图谱对复杂性疾病的研究很有帮助。最常见的一类变异是单核苷酸多态性(SNP)。这些SNP与多种遗传性疾病相关,并决定了人类个体的独特性。通过对SNP的进一步研究,可以使我们对疾病的发生进行预测,并能够提供个体化的治疗方案。目前数据库中已有的SNP数量已超过250万,其中有150万个SNP位点。
目前应用基因组序列进行研究还存在许多不足之处,首先人类基因的预测是很困难的,建立在现有知识基础上的预测工具并不能保证预测的完全可靠,这可能为研究者提供误导。其次,目前得到的基因有的尚不完整。如果被查询蛋白的一端与另一预测的蛋白吻合,那么有可能这两段序列同属于一个基因的两部分。美国加州Salk生物研究所Pollard发现基因的片段化使得对肌球蛋白基因的研究更为复杂。另外,在某些未完成的人类基因组DNA中可能存在细菌或其他来源的污染。这可能使序列查询中出现错误的结果。在对基因组数据进行处理时,可能会为基因组增加人为的重复序列,使随后的分析中出现人为影响。
由于生物信息理论在DNA序列-氨基酸序列-蛋白研究中应用,著名分子生物学的历史学家Lily Kay预示:遗传编码并不是编码 ,DNA也不是一种语言,基因组更不是信息系统。这是一个跨时代的观念,对未来分子生物学的发展具有重大的启发意义。现在的世界是编码、语言和信息的世界,但是明天的世界就可能会打破我们现在所有的观念,而建立一个全新的系统。