功能基因组学的研究现状与前瞻
80湖南医科大学学报(社会科学版) 1999年第1期
功能基因组学的研究现状与前瞻
余 鹰 李桂源
目前, 人类基因组计划的实施在对结构基因组学进行冲刺的同时, 一个以功能基因
组学为标志的时代已经到来。生物学家们的研究重心已经从揭示生命的所有遗传信息转移到从整体水平对生物功能的探究, 方法是采用新技术结合生物信息学同时对成千上万个基因结构和功能进行分析和比较, 力图从整体水平对基因的活动规律进行全面分析。
作者余鹰, 湖南医科大学病生肿瘤专业98级博士生; 李桂源, 湖南医科大学肿瘤研
究所教授, 博士生导师。
人类基因组计划(Human Genome Project, HGP) 经过各国科学家的共同努力已取得了巨大的成绩。一些低等动物DNA 全序列已被阐明, 人类基因组序列已完成3%以上, 估计在2003年提前完成; 已测定的表达序列标志(EST) 已大体覆盖人类所有的基因, 而且, 基因的功能研究已全面铺开。本文将就功能基因组学的研究核心以及可能存在的问题作一简要描述。
生物体因地域、种族等不同, 其遗传信息也不尽相同, 所以人类基因组物理图谱的最终形式必然是DNA 的完整序列及其多态性的积累。基因的多态性或基因的差异主要两有方面:功能相关的多态性和功能性非相关的多态性。前者被 侯选基因 寻求者所钟爱, 而后者多被种群遗传学家所探索。
人类基因组的完整顺序估计将在21世纪初提前完成, 但仅仅是一个参考基因组完整顺序。人类是一个具有多态性的群体, 不同群体和个体在生物学性状以及在疾病易感性/抗性上的差别, 反映了进化过程中基因组与内、外环境相互作用的结果。可以想象, 人类第一个基因组测序完成之后必然会出现对各种人种、群体再测序和精细基因分型的热潮。这些资料与人类学、语言学资料相结合, 将有可能建立一个全人类的数据库资源, 从而更好地了解人类的历史和自身特征。
一、大规模基因表达调控研究
基因组全序列的测定仅仅是认识生命的万里长征的第一步, 科学家们必须全面研究基因的功能, 要尽快读懂读通人类10万个基因, 必定实现由单一分析到规律、批量分析的转变, 这有利于加快全面理解序列与基因、基因与蛋白质、蛋白质与疾病的关系。
通常, 在人的特定细胞内只有15%左右的基因表达, 而不同的细胞, 组织不同的发育阶段中哪些基因表达、哪些不表达决定着细胞分裂、生长、发育、分化、衰老和凋亡等一系列生物学现象。因此基因的表达是具有一定的时、空次序的。从实用角度看, 不管任何疾病的病理变化所涉及的单基因还是多基因的效应, 都可以从病、健细胞或组织中基因表达的差异方面找出致病原因的线索, 因此, 监测基因差异表达的图谱已成为利用基因组计划提供大量DNA 列序信息的热点。为了能够全面而不是孤立的评价基因的表达, 近年来出现了DNA 微阵列技术和基因表达的系列分析法(SAGE) 。
认识基因转录表达不仅是为了获得全基因组表达的数据, 以作为数学聚类分析, 其核心问题是要解析控制整个发育过程或反应通路的基因表达网络的机制。网络概念对于生理和病理条件下的基因表达调控都是十分重要的。一方面, 大多数细胞中基因的产物都要与别的基因产物相互作用; 另一方面, 在发育过程中大多数基因产物都在多个时间和空间表达并发挥其功能, 形成基因表达的多效性。在这个意义上, 每个基因的表达模式只有放到它所在调控网络的大背景下, 才会有真正的意义。
2. 蛋白质组学与生物信息学
基因是遗传信息的携带者, 而生命活动的执行者却是蛋白质, 即基因表达产物。30亿对碱基的序列全都解析清楚只是解决了基因序列问题, 还远远不是基因组研究的终结。虽然微阵列和基因表达序列分析法可以检测不同条件下的基因表达情况, 然而细胞内mRNA 信息还不能代表基因产物最终功能形式的蛋白质信息, mRNA 丰度并不一定与最终表达产物蛋白质直接关系, 更何况许多蛋白还有翻译后修饰和加工、剪接。所以最终还是要用蛋白质研究补充核酸分析数据。
从近年对基因组全序列分析已经完成的一些低等生物蛋白质组研究看来, 目前最现实、最有效的技术是双向凝胶电泳分离纯化蛋白质。该项技术结合计算机定量分析电泳图谱, 并进一步用质谱技术对分离蛋白质进行鉴定和运用现代生物信息学的知识和技术对所得的数据进行处理, 对蛋白质以及它们执行生命活动作出尽可能最精细、最准确、最本质的阐述。当前蛋白质组的研究可分为两个阶段:第一阶段建立一个细胞或一个组织以至一个机体在正常条件下蛋白质二维凝胶图谱或称参考图谱, 即所谓 组成蛋白质组 ; 第二阶段则研究在各种条件蛋白质组的变化, 从中总结出生命活动的规律, , 即所谓 功能蛋白质组 。
生物信息学由于基因组计划的启动和推动而兴起和迅猛发展, 它为基因组研究提供的数据之多在生物学是空前的。利用计算机来处理基因组计划所提供的大量信息, 检测基因差别表达和基因功能, 以替代实验方法得到同样结果, 这就是虚拟基因组学(Virtual Genomics) 。从理论讲, 假若掌握了不同组织、细胞中全部或大部分ESTs 数据或cDNA 序列, 就可用计算机来处理、分析, 可得到差别表达法和高密度点阵杂交法相同的结果。对蛋白质组结构及功能研究也可利用生物信息学, 外推DNA 序列编码蛋白的氨基酸结构, 比较研究其功能, 大大简化了一切从零开始定性蛋白功能的繁琐程序。
二、模式生物体! ! ! 功能基因组学研究工具
大规模基因表达调控研究可横向分析基因的功能, 比较不同模式生物; 可以纵向了解不同生物基因组基因的功能, 从而更系统地了解整个生命现象。
1. 比较基因组学
目前已有流感嗜血杆菌(Haemaphilus influenzae) 、生殖道支原体(Mycoplasmagenitalium) 、酿酒酵母(Saccharomyces cerevisiao) 三个模式生物全基因组学测序已经完成, 尤其是酵母作为首先得到全基因组序列的真核生物, 对进一步研究多细胞真核生物基因组具有里程碑式意义。其他模式生物(秀丽线虫、水稻、小鼠、果蝇、拟南芥等) 的研究已全面铺开, 模式生物体的基因组结构简单, 它们核心细胞过程和生化通路在很大程度是保守的, 通过比较、鉴别能了解基因的进化, 从而加速对人类基因组结构和功能的了解, 也可为阐明基因表达机制提供重要线索。对不同物种间基因调控序列的计算机分析, 已发现了一定比的保守性核心调控序列, 据此建立表达模式的数据库, 对破释基因调控网络提供了有利条件。
2. 突变体模式生物
一些模式生物(酵母、线虫、小鼠等) 较易得到突变体, 便于研究基因组编码的蛋白功能, 为比较高等生物蛋白功能提供重要信息, 如酵母为细胞循环、DNA 复制修复, 线虫为细胞分化发育, 果蝇为信号传导等有关蛋白功能及其基因结构提供信息。
小鼠作为哺乳类中代表性模式生物, 至少有500多种突变体小鼠基因组编码蛋白与人类的蛋白同源高达90%, 在功能基因组学研究占有特殊的地位。识别基因功能最有效的方法可能是观察基因表达被阻断后在细胞和整体所产生的表型变化。基因剔除术(knockout) 模式生物成为特别有用的工具。但是大部分基因在剔除后并不发生明显的表型改变, 多效性基因剔除后导致小鼠在胚胎期死亡, 因此建立转基因模型可观察其对网络的影响。
三、伦理、道德、法律问题及未来展望
功能基因组实施将最终揭示人类本身的一切奥秘, 乃至整个生物的衍生、进化和相互关系, 无疑将对整个社会产生深远的影响。
由于私人机构的介入, 具有足够新意和潜力的多态性标志(如SNP) 和新功能基因不断被占有, 并申请专利保护, 约束其他研究者的使用。基因组再测序和疾病易感基因的发现, 为最终消灭种族歧视创造了条件。区域和个人的基因图谱的清晰, 一方面使人们可以对疾病的发生进行预测和预防, 另一方面, 也可能会影响某些疾病易感者的就业、婚姻等问题。
随着克隆技术的成熟和对进化机制及网络调控的深入了解, 科学家们终将获悉哪些进化机制已经确实发生, 哪些在进化过程中有新的创造力, 从而能够认识生物构成和发展的真相, 甚至有可能构建新的生物体。