基因本体论(Gene Ontology)基本介绍
内部资料仅供参考
基因本体论
(GeneOntology)
数据库基本介绍
Version No. 2010.10.03
西安电子科技大学计算机学院
作者:孔垂亮
导师:高琳
目录
目录
第一部分
1.1
1.2
1.3GO 是什么?·····················································································2基因本体论(geneontology) 的建立·····························································2本体论(Theontologies) 简介·····································································3本体论语义之间的关系及其组织结构························································4
1.3.1
1.3.2
1.3.3
1.3.4
1.4
第二部分
2.1
2.2语义之间关系的基本理解·······························································4关系之间的推导···········································································5调节控制关系(theregulates relation) 及其推导·······································6本体论的组织结构········································································7GO 的注释(Annotation)···········································································8GO 怎么用?····················································································10下载本体论文件和注释文件···································································10GO 语义及其相关注释的浏览与搜索························································17
2.2.1AmiGO 的基本使用说明·······························································17
2.2.2语义关系的图形化描述·································································20
2.2.3根据语义检索··············································································22
2.2.4根据基因产物检索·······································································25
第一部分GO 是什么?
GO(geneontology) 是基因本体联合会(GeneOnotology Consortium) 所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。GO 是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能.
) 的建立1.1基因本体论(gene ontology ontology)
现今的生物学家们浪费了太多的时间和精力在搜寻生物信息上。这种情况归结为生物学上定义混乱的原因,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样。不光是精确的计算机难以搜寻到这些随时间和人为多重因素而随机改变的定义,即使是完全由人手动处理也无法完成。举个例子来说,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相关的基因产物,特别是那些和人体中蛋白质合成组分显著不同的。但如果一个数据库描述这些基因产物为“翻译类”,而另一个数据库描述其为“蛋白质合成类”,那么这无疑对于计算机来说是难以区分这两个在字面上相差甚远却在功能上相一致的定义。
Gene Ontology 就是为了解决上述问题,使各种数据库中基因产物功能描述相一致而发起的一个项目。这个项目最初是由1988年对三个模式生物数据库的整合开始:the FlyBase (果蝇数据库Drosophila) ,the Saccharomyces Genome Database (酵母基因组数据库SGD) 和the Mouse Genome Informatics (小鼠基因组数据库MGI) 。从那开始,GO 不断发展扩大,现在已是包含数十个动物、植物、微生物的数据库(详见GO Consortium Page ) 。
GO 开发了具有三级结构的语义词汇标准(Ontologies),根据基因产物的相关生物学途径、细胞学组件以及分子功能而分别给予定义,与具体物种无关。GO 的工作大致可分为三个部分:第一,给予并维持语义(terms);第二,将位于数据库当中的基因、基因产物与GO 本体论语言当中的语义(terms)进行关联,形成网络;第三,开发相关工具,使本体论标准语言的产生和维持更为便捷。
GO 的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高
的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO 可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物的受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产物特性的认识。
) 简介1.2本体论(The ontologies ontologies)
GO 提供了一系列的语义(terms )用来描述基因、基因产物的特性。这些语义分为三种不同的种类:细胞学组件,用于描述亚细胞结构、位置和大分子复合物,如核仁、端粒和识别起始的复合物等;分子功能,用于描述基因、基因产物个体的功能,如与碳水化合物结合或ATP 水解酶活性等;生物学途径,指分子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等。
基因产物可能分别具有分子生物学上的功能、生物学途径和在细胞中的组件作用。当然,它们也可能在某一个方面有多种性质。如细胞色素C ,在分子功能上体现为电子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜上。
注:基因产物和其生物功能常常被我们混淆。例如,“乙醇脱氢酶”既可以指放在Eppendorf 试管里的基因产物,也表明了它的功能。但是这之间其实是存在差别的:一个基因产物可以拥有多种分子功能,多种基因产物也可以行使同一种分子功能。比如还是“乙醇脱氢酶”,其实多种基因产物都具有这种功能,而并不是所有的这些酶都是由乙醇脱氢酶基因编码的。一个基因产物可以同时具有“乙醇脱氢酶”和“乙醛歧化酶”两种功能,甚至更多。所以,在GO 中,很重要的一点在于,当使用“乙醇脱氢酶活性”这种术语时,所指的是功能,并不是基因产物。
下面,将进一步的分别说明GO 的具体定义情况。
细胞组件
即细胞中的位置,指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核糖体,蛋白酶体等) 。
分子功能
分子功能描述在个体分子生物学上的活性,如催化活性或结合活性。GO 分子功能用来定义功能而不是整体分子,而且不特异性地指出这些功能具体的时空信息。分子功能大部分
指的是单个基因产物的功能,还有一小部分是此基因产物形成的复合物的功能。定义功能的义项包括催化活性、转运活性、结合活性等,更为狭窄的定义包括腺苷酸环化酶活性或钟形受体结合活性等。
生物学途径
生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。举例来说,较为宽泛的是细胞生长和维持、信号传导。一些更为具体的例子包括嘧啶代谢或α-配糖基的运输等。一个生物学途径并不是完全和一条生物学通路相等。因此,GO 并不涉及到通路中复杂的机制和所依赖的因素。
1.3本体论语义之间的关系及其组织结构
1.3.1语义之间关系的基本理解
基因本体论组织类似于图,语义作为图的结点,语义之间的关系为图中的边。因此,一旦产生新的语义,其与其它语义之间的关系也会同时被定义。语义之间的关系有三种:is a 、part of 和regulates 。
关系表示的几点约定
1. “语义”用图论的术语“结点”表示
2. 我们习惯于用父子结点来表示语义之间的关系,其中父结点离根结点较近,表示相对宽泛的语义,而子结点离叶子结点较近,相对父结点其语义所代表的内容更为具体。
3. 图中的实线表示结点之间的关系
4. 虚线表示推理而并未证明的关系
上述可以用下图表示:
A is a B ;B is part of C
从而可以得出:A is part of C ,其形式化表示为:is a ·part of →part of
GO 图具有树的性质,但与其不同的是,GO 图中结点不但可能具有多个孩子结点,而且可能具有多个父亲结点,且与不同的父结点具有不同的关系,如下图所示:线粒体(mitochondrion)便有两个父亲结点,因为线粒体既是一种细胞器(organelle),又是细胞质(cytoplasm)的一部分。同样,细胞器(organelle)也有两个孩子结点,因为线粒体是一种细胞器(organelle),细胞器膜(organellemembrane)
是细胞器的一部分。
1.3.2关系之间的推导
is a ·is a →is a
is a 具有传递性,即如果A is a B ,B is a C ,那么A is a C 。形式化表示为is a ·is a →is a 。如下图:线粒体(mitochondrion)是一种胞内细胞器(intracellularorganelle) ,而胞内细胞器是一种细胞器官(organelle)
,从而可以推出:线粒体是一种细胞器官。
part of ·part of →part of
part of 具有传递性,如果A is part of B ,B is part of C ,那么A is part of C 。形式化表示为part of ·part of →part of 。同样如下图所示:线粒体(mitochondrion)是细胞质(cytoplasm)的一部分,细胞质又是细胞(cell)的一部分,从而可得出:线粒体是细胞的一部分。
part of ·is a →part of 与is a ·part of →part of
如果关系is a 与part of 组合,则其关系均为part of 。分别如下图所示:
线粒体膜线粒体胞内细胞器线粒体胞内细胞器细胞
1.3.3调节控制关系(theregulates relation) 及其推导
基因本体论语义中,如果某一过程直接影响另一过程或参数值(quality)的表现形式,我们称前者调节控制(regulates)后者。被调节的对象可以是一个过程,如生物通路、酶促反应等,也可以是一个参数值,如细胞大小,pH 值等。与part of 类似,调节控制关系也是充分非必要的,即:B 能且仅能调节控制A ,而A 并非只受B 的调节控制
。如下图所示:
例如:一旦cell cycle checkpoint(细胞周期检查点) 出现时,它总是调节控制cell cycle(细胞周期) ,然而细胞周期并不单独受细胞周期检查点调节控制,还受其它过程的调节控制。
regulates ·is a →regulates 、is a ·regulates →regulates 以及regulates ·part of →regulates
均为正确的推导关系,其示意图分别如下:
截至目前,尚不能确定part of ·regulates →??? 、regulates ·regulates →??? 为何种关系。
1.3.4本体论的组织结构
GO 委员会除了要定义语义(term)以外,还要定义该语义与其它语义之间的关系,使语义总体构成有一定结构的语义词汇表。
本体论的图形化表示
本体论的结构可以用图表示,其中语义表示为结点,其间的关系表示为结点之间的边。当然GO 语义之间的关系是单向的,例如:线粒体(mitochondrion)是一个细胞器(organelle),可以表示为a mitochondrion is an organelle ,但反过来不成立,细胞器不是一个线粒体!在这种意义上说,本体论的结构更像是有向非循环树,其中离根结点越近的结点越概括,
离叶
子结点越近的结点越具体,但与有向非循环树不同的是,本体论结构图中的结点可以有两个及其以上的父结点。例如:生物过程当中的语义已糖合成(hexosebiosynthetic process) 就有两个父结点,已糖代谢(hexosemetabolic process) 和单糖合成(monosaccharidebiosynthetic process) 。其并不难理解,因为已糖(hexose)是一种单糖(monosaccharide),生物合成过程(biosyntheitcprocess) 也是一种生物代谢过程(metabolicprocess) 。
本体论中部分语义结构的图形化表示:
) 1.4GO 的注释(Annotation Annotation)
那么,GO 中的术语如何和相对应的基因产物相联系的呢?这是由参与合作的数据库来完成的,它们使用GO 的定义方法,对它们所包含的基因产物进行注解,并且提供支持这种注解的参考和证据。每个基因或基因产物都会有一个列表,列出与之相关的GO 术语。每个数据库都会给出所有这些基因产物和GO 术语的联系数据库,可以在GO 的站点查询到。GO 对基因和基因产物的注释阐明了基因产物和用于定义他们的GO 术语之间的关系。基因产物指一个基因编码的RNA 或蛋白产物。因为一个基因可能编码多个具有很不相同性质的产物,所以GO 推荐的注释是针对基因产物的而不是基因的。一个基因是和所有适用于它的术语联系在一起的。
一个基因产物可以被一种本体论定义的多种分支或多种水平注释。注释需要反映在正常
情况下此基因产物的功能,生物途径,定位等,而并不包括其在突变或病理状态下的情况。
GO 联合会的各个数据库成员采用手动或自动的方式生成注释,这两种方式共有的原理是:
1.
2. 所有的注释都需要有来源,可以是文字、另一个数据库或是计算机分析结果;注释必须提供支持这种基因产物和GO 术语之间联系的证据。
第二部分GO 怎么用?
如上所述,GO 是分别从三个不同的层面描述基因产物的语义集。基因产物数据库用GO 提供的语义去注释基因产物,并向GO 联合会提供注释文件,阐明了基因产物和用于定义他们的GO 术语之间的关系。下面将详细介绍如何下载本体论文件、注释文件,以及如何浏览GO 语义及其相关的注释。
2.1下载本体论文件和注释文件
如果在研究中用到GO 数据库,你需要下载相关的本体论文件和注释文件,在使用GO 之前,对于本体论文件和注释文件组织结构的了解尤为重要。
首先,打开浏览器,输入www.geneontology.org ,进入GO 数据的起始页。点击“Downloads ”便进入
GO 数据库相关文件的下载界面,如下图所示:
其中包括:tools 工具栏中相关的工具软件、本体论文件、注释文件、数据库文件以及其它相关的技术支持文件。本文主要介绍本体论文件、注释文件和教学资源文件。点击“Ontology file downloads ”进入如下界面:
如图所示的本体论语义的统计分析:截至2010年8月27日下午4时41分,共有32282条语义,99.3%已被明确定义。其中描述生物学途径的有19303条语义,描述细胞组件的有2750条,描述分子功能的有8784条。另有1445
为已被废弃的语义,因为随着语义集的不
断更新和发展,有些语义并不能被正确地定义,或者已不能用来描述生物学途径、细胞组件、分子功能。如果想要详细地了解本体论语义文件的格式信息,可以点击“format guide ”。这些本体论语义文件每天都会更新,GO 的管理者会加入当天新增的语义及其关系,因此在下载使用这些文件时一定要注意其版本和更新时间。
点击Download 列的“OBO v1.2”,可以在新打开的窗口中看到如下的文件内容信息:*******************************************************************************
format-version:1.2
date:27:08:201016:41
saved-by:tanyaberardini
auto-generated-by:OBO-Edit 2.0
subsetdef:goslim_candida"Candida GO slim"
subsetdef:goslim_generic"Generic GO slim"
subsetdef:goslim_goa"GOA and proteome slim"
subsetdef:goslim_pir"PIR GO slim"
subsetdef:goslim_plant"Plant GO slim"
subsetdef:goslim_pombe"Fission yeast GO slim"
subsetdef:goslim_yeast"Yeast GO slim"
subsetdef:gosubset_prok"Prokaryotic GO subset"
subsetdef:unvetted "unvetted"
synonymtypedef:systematic_synonym"Systematic synonym" EXACT
default-namespace:gene_ontology
remark:cvs version:$Revision:1.1393$
[Term]
id:GO:0000001
name:mitochondrion inheritance
namespace:biological_process
def:"The distribution of mitochondria, including the mitochondrial genome, into daughter cells after mitosis or meiosis, mediated by interactions between mitochondria and the cytoskeleton." [GOC:mcc,PMID:10873824,PMID:11389764]
synonym:"mitochondrial inheritance" EXACT []
is_a:GO:0048308! organelle inheritance
is_a:GO:0048311! mitochondrion distribution
[Term]
id:GO:0000002
name:mitochondrial genome maintenance
namespace:biological_process
def:"The maintenance of the structure and integrity of the mitochondrial genome; includes replication and segregation of the mitochondrial chromosome." [GOC:ai,GOC:vw]
is_a:GO:0007005! mitochondrion organization
[Term]
id:GO:0000003
name:reproduction
namespace:biological_process
alt_id:GO:0019952
alt_id:GO:0050876
def:"The production by an organism of new individuals that contain some portion of their genetic material inherited from that organism." [GOC:go_curators,GOC:isa_complete,ISBN:0198506732"Oxford Dictionary of Biochemistry and Molecular Biology"]
subset:goslim_generic
subset:goslim_pir
subset:goslim_plant
subset:gosubset_prok
synonym:"reproductive physiological process" EXACT []
xref:Wikipedia:Reproduction
is_a:GO:0008150! biological_process
……
*******************************************************************************
可以看到,在一段文件格式信息之后,便依次列举了每一个语义(term):首先是语义的ID 号,紧接着是语义的名字,以及所属的范畴。接下来是该语义的定义,在定义最后的方括号里说明了该定义的来源依据。最后列出了该语义与其它语义之间的关系。
点击Downloads 下的“Annotations ”, 如下图所示:
便进入到注释文件的介绍与下载界面:
点击“Annotation Details and Downloads ”下面的“Filtered
files
”:
可以看到,这里列举了所有物种或数据库用GO 语义的注释情况,统计时间为2010年8月28日。其中第一列为物种或数据库的名字,第二列为用GO 语义注释的基因产物数目,第三列为注释的条目数,第四列为提交的时间,第五列为该物种或数据库注释文件的下载链接。
仔细观察,不难得出:不同物种或数据库,其中用GO 语义注释的基因产物数目相差甚远!例如:Anaplasma phagocytophilum HZ JCVI 的数目为1289,而Agrobacterium tumefaciensstr.C58PAMGO 的数目为83。这些差别之所以存在,不光是因为不同物种或数据库本身所包含的基因产物数量不同,还与该数据库的注释水平有关,像酵母基因组几乎全部被GO
语义注释,而斑马鱼基因组的注释工作还处于刚起始的阶段。
如图,在GO 的下载页面点击“Teaching resources ”,进入关于GO
的教学文件的下载页面:
该页面提供了关于GO 如何使用的一些演示文件以及相关的说明文档,具体为GO 联合会的工作人员针对不同的情况,对GO 项目进行的介绍与讲解,其中有的讲解时间过早,已与目前的GO 项目有所出入,参考时请注意检查时期,并以GO 项目当前网站信息为准。
2.2GO 语义及其相关注释的浏览与搜索
本节介绍如何使用由GO 联合会开发的AmiGO 浏览器搜索本体论语义及与其相关的注释。
2.2.1AmiGO 的基本使用说明
打开浏览器输入amigo.geneontology.org
,如下所示:点击“Borwse
”,进入如下所示页面:
如上图所示,本体论语义可以归为三个独立的部分:biological_process、
+cellular_component、molecular_function。语义之间有类似树的组织结构,点击每行前面的□
+变为□-,再次点击□-,展开的项目收缩回原状。每一便展开包含于该项的所有语义,同时□
+/□-
后面的标志表示该语义与其父结点之间的关系,条语义单独地占据一行,每行□其中表
示关系is a ,表示关系part of ,表示关系regulates 。
点击任一语义的名字,能够在新窗口中显示该语义详细的信息,包括其定义及用其注释的基因产物的链接。例如:点击carbohydrate utilization ,
如图所示,为语义carbohydrate utilization 的详细信息,如果想知道用其注释的基因产物,点击图中的“4gene product associations
”便得到如下所有用该语义注释过的基因产物:
除此之外,也可以直接点击任一语义最后面方括号里面的内容,其也说明了用该语义注释的基因产物总数目。如下图所示:某些语义后有标志,如上图所示,点击后便得到该语义所包含的所有子语义各自所占的比例(注释的基因产物数目) ,如点击all:all
后面的
:
2.2.2语义关系的图形化描述
依次展开biological process ->biological regulation ->regulation of biological process
点击regulation of anti-apoptosis ,便得到该语义的详细信息,其中Term Lineage 显示了
该语义与其它语义之间的关系,树形显示如下:
点击右边栏中的Graphical View
,便得到该关系的图形显示:
2.2.3根据语义检索
在AmiGO 的浏览界面,在搜索栏输入想要搜索的语义,如cytokine secretion ,点击提
交按钮。
搜索到8个语义,语义右边是用该语义注释的基因产物,如点击“167gene products ”,便依次列出所有用语义cytokine secretion
注释的基因产物。
返回搜索结果页面,点击“cytokine secretion ”,打开语义“cytokine secretion ”的详细信息页面:
点击“167gene product associations ”,也能在新窗口中依次列出用该语义注释的所有基
因产物,如下所示:
注意到红色框里的过滤器,在这里可以通过基因产物的类型、来源、所在物种等条件对现存的基因产物进行过滤,从而更精确地搜索基因产物,提高研究结果的精确性。同时,在“View associations ”当中选择“Direct associations ”,则结果为直接用该语义注释的所有基因产物。
2.2.4根据基因产物检索
在AmiGO 的首页,可以通过选择按钮选择所要搜索的是语义还是基因产物,如下所示,选择“gene or proteins ”,然后在搜索框中输入“grim ”
,点击提交按钮。
如图依次列出了所有与“grim ”有关联的基因产物,以第一行为例,“grim ”为该基因产物的名字,名字右边“13associations ”为该基因注释的语义条目数,点击“grim ”,在新窗口中显示“grim ”的详细信息,点击“13associations ”则在新窗口中依次列出用来注释该
基因产物的所有语义条目,分别如下图所示:
如上图所示,有的语义条目用标注,如“nurse cell apoptosis ”,其说明根据实验数据,该基因产物并不在“nurse cell apoptosis ”过程中起明显作用,因而该基因产物用该语义注释只是研究者的一种推测与期望,此推测的根据是该基因产物与那些在“nurse cell apoptosis ”起明显作用的基因产物有着非常相似的序列结构。
如果你想要搜索的基因产物不存在,你可以联系GO 联合会申请对该基因产物的注释。首先点击“GO helpdesk ”
,如下图所示:
在下面的表格中填入相应的内容,其中subject 选为annotation ,并确定在Comment or query 栏中填入如下与基因产物相关的信息:
Gene ID [fromMOD, EntrezGene or UnitProt]
Gene Symbol or
Name
Publication [PubMedID]with experimental data
Suggestions [GO:IDand/orGO term]for GO annotation Thank you.
最后,点击“Send message
”按钮。