生物信息研究中常用蛋白质数据库的总结
生物信息研究中常用蛋白质数据库简述
内蒙古工业大学理学院 呼和浩特 孙利霞 2010.1.5
摘要:在后基因组时代生物信息学的研究当中,离不开各种生物信息学数据库。尤其在蛋白质从序列到功能的研究当中,目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。随着计算机技术及网络技术的发展,目前的蛋白质数据库不论是所包含数据量还是功能都日新月异,新的数据库层出不穷。一个新手面对如此浩瀚的数据量往往无从下手。本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓,作为自己蛋白质研究入门的一个引导。
关键词:蛋白质;数据库
0 引言
随着科技的发展,个人的知识往往赶不上快速膨胀的信息量,人们为了解决这个问题,便创建了形形色色的数据库。蛋白质数据库是指:在蛋白质研究领域根据实际需要,对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建出具有特殊生物学意义和专门用途的数据库。蛋白质数据库总体上可分为两大类:蛋白质序列数据库和蛋白质结构数据库,蛋白质序列数据库来自序列测定,结构数据库来自X-衍射和核磁共振结构测定(详见图1)。这些数据库是分子生物信息学的基本数据资源。上世纪90年代,我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。信息的传播储存甚为不便。随着蛋白质研究的发展飞快,同时伴随着计算机和因特网发展,蛋白质数据库的储存传播方式也发生的巨大的变化。进入21世纪后,我们所用的各种蛋白质数据库都发展成为存储在网络服务器上,基于“服务器—客户机”的访问查询方式。伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。但是面对如此浩瀚的数据,新手往往感到无从下手,在需要时找不到自己需要的合适数据库。
本文从目前蛋白质数据库建立的的逻辑层次出发,系统地简绍了常用蛋白质数据的概况,它们的查询方法以及它们相互之间的联系。同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术,为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。
图1 两大类蛋白质数据库
1 建库方式的分类
蛋白质数据库种类繁多。一个的数据库记录通常包括两部分:原始数据和对这些数据进行的生物学意义的注释。以建库的方式而论,大致可以分为四类:
一、最基础的一级数据库。这些数据库一般是由国家或国际组织建设和维护的数据库。如EMBL ,PDB 等。这样的数据库的优点是完整,更新及时,并提供了一些较好的服务软件和平台计算条件。缺点是对于数据的创新性,精确性和准确性没有权威的评价,数据过多,重复,分类较粗。
二、二级数据库,(如图2)。二级数据库是在一级库德基础上,结合工作的需要将部分数据从一级库中取出,重新组合而成的特定数据库。这类数据库专一性强,数据量相对较少,但质量高。数据库结构设计精致。
三、专家库。这是一种特殊的二级库。与一般二级库不同之处在于它是经过有经验的专家进行人工校对标识之后建立的。这样的库质量很高,使用方便可靠,但是更新发展较为缓慢。这类库的典型代表是SWISS-PORT 。[2]
图2 蛋白质二级结构数据库的逻辑结构
⎧⎫⎧蛋白质功能位点数据库:Prosite⎫⎪⎪⎪⎪蛋白质序列指纹图谱数据库:Prints⎪⎪⎪以蛋白质序列数据库为基础构建的二级库⎪⎨⎬⎪⎪同源蛋白质家族数据库:Pfam⎪⎪⎪⎪⎪同源蛋白质结构域数据库:Blocks⎪⎪⎪⎩⎭⎪⎪⎧免疫球蛋白数据库:Kabat⎫⎪⎪蛋白质二级库⎨以具有特殊功能的蛋白质为基础构建的二级库⎨⎬⎬蛋白激酶数据库:Pkinase⎩⎭⎪⎪⎪⎪蛋白质二级结构构象参数数据库DSSP ⎧⎫⎪⎪⎪⎪⎪以三维结构原子坐标为基础构建的二级库⎨已知空间结构的蛋白质家族数据库FSSP ⎬⎪⎪⎪⎪⎪⎪⎩已知空间结构的蛋白质及其同源蛋白质数据库HSSP ⎭⎪⎪⎪⎩⎭
2 蛋白质序列数据库:UniProt 数据库
UniProt 属于蛋白质序列数据库。如今的蛋白质序列数据库中,有的收集实验测定的序列,有的收集根据DNA 序列等翻译预测的蛋白质序列,有的这两者都有收录。SWISS-PROT 、TrEMBL 、PIR 是曾经用的很广泛的蛋白质序列数据库。而今都并入了UniProt 中。
现在UniProt 有三个层次的数据库:UniParc (UniProt Archive )收录所有UniProt 数据库子库中的蛋白质序列,虽然很大,但是信息比较粗糙。既包括重复的序列也包括未加注释的序列;UniRef (UniProt Reference Clusters )是归纳UniProt 几个主要数据库并将重复的序列去除后的数据库。其中UniRef100是只去除完全重复的序列的数据库,UniRef90是去除相似性在90%以上的相似序列数据库;UinProtKB (UniProt Knowledgebase )是有详细注释并与其他数据库及文献有链接的数据库,分为UinProtKB/SWISS-PROT与UinProtKB/TrEMBL两部分。
2.1 SWISS-PROT
SWISS-PORT 是含有详细注释内容的蛋白质序列数据库。1987年由日内瓦大学医学生物化学系(Department of Medical Biochemistry of the University of Geneva )与EMBL 共同维护,现由EMBL 的分支机构EBI 进行维护。网址为:http://www.expasy.ch/sprot/sprot-top.html。一般地,任何蛋白质序列数据的搜索和比较都应从SWISS-PORT 开始[3]。
2.2 TrEMBL (Translated EMBL)
EMBL 是指实验室欧洲分子生物学实验室EMBL(The European Molecular Biology Laboratory),TrEMBL 是EMBL-DNA 数据库中的核算序列翻译后产生的核酸序列数据库。EMBL-DNA 数据库于1982年由EMBL 建立,全球性的国际DNA 数据库,近年来发展很快,可进行核苷酸序列检索及序列相似性查询。
传统的蛋白质序列数据库的一种来源是通过对核酸序列数据库中的核算按照密码子人工翻译后,再用实验核实。但是对于EMBL-DNA 数据库中的核酸序列翻译进行核实远远落后EMBL-DNA 数据库中数据量的发展。EMBL-DNA 数据库中含有众多的由计算机直接分析得到的在SWISS-PORT 数据库中并不存在
的氨基酸序列。为了克服这一缺点,人们又开发了另一个数据库—EMBL 核酸序列翻译数据库,即TrEMBL(Translated EMBL)。该数据库中包含了EMBL 数据库中的所有编码序列的信息。网址为:http://www.expasy.ch/sprot/sprot-top.html。这是SWISS-PROT 数据库的重要补充,但是其中的数据质量要有所保留。
TrEMBL 是从EMBL 库中的核酸序列翻译出来的氨基酸序列,它们已经完成自动注释。分为两部分:SP-TrEMBL 的条目已经由专家人工分类并且赋予了SWISS-PORT 库的索取号,但是还没有通过人工审读并最终收入SWISS-PORT 。REM-TrEMBL(REMaining TrEMBL)包含了由于某种原因没有被收入到SWISS -PORT 的条目。
2.3 PIR 数据库
蛋白质信息资源数据库PIR (Protein Information Resource)是在很多文献中都要简绍的一个蛋白质序列数据库,其主要目的是提供按同源性和分类学组织的综合性,非冗余数据库。不过目前它的大部分服务已经停止使用。1984年建成PIR 数据库,在2005年其序列信息相应并入UniProt 中的SWISS-PROT 与TrEMBL 中。
3 蛋白质结构数据库
蛋白质结构的内容为被测定的蛋白质分子空间结构原子坐标,PDB 数据库、SCOP 数据库、CATH 数据库是几个常用的交重要的蛋白质结构数据库。
3.1 PDB
蛋白质数据库(Protein databank, PDB)由美国自然科学基金会,能源部和国立卫生研究院共同投资建立。主要由X 射线晶体衍射和核磁共振(NMR )测得的生物大分子三维结构所组成。用户可直接查询,调用和观察库中所收录的任何大分子三维结构。网址为:http://www.scsb.org/pdb/。随着晶体衍射技术的不断改进, 结构测定的速度和精度也逐步提高。90年代以来, 随着多维核磁共振溶液构象测定方法的成熟, 使那些难以结晶的蛋白质分子的结构测定成为可能。蛋白质分子结构数据库的数据量迅速上升。据2000年5月统计,PDB 数据库中已经存放了1万2千多套原子坐标, 其中大部分为蛋白质,包括多肽和病毒。此外, 还有
核酸、蛋白和核酸复合物以及少量多糖分子。近年来, 核酸三维结构测定进展迅速。
PDB 数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。除了原子坐标外, 还包括物种来源、化合物名称、结构递交以及有关文献等基本注释信息。此外,还给出分辨率、结构因子、温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。
每个PDB 文件可能分割成一系列行,由行终止符终止。在记录文件中每行由80列组成。每条PDB 记录末尾标志应该是行终止符。PDB 文件中每行都是自我识别的。每行的前六列存放记录名称,左对齐空格补足. 必须和规定的记录名称一致。PDB 文件也可看成是各种记录类型的总和。每个记录类型包括一行或多行又被更深一层分成各字段。以下是PDB 文件存储数据格式的一个完整简洁的说明:
一、标题部分
1 HEADER(分子类,公布日期、ID 号) 2 OBSLTE (注明此ID 号已改为新号) 3 TITLE(说明实验方法类型) 4 CAVEA T(可能的错误提示)
5 COMPND(化合物分子组成) 6 SOURCE(化合物来源)
7 KEYWDS(关键词) 8 EXPDTA(测定结构所用的实验方法) 9 AUTHO(结构测定者) 10 REVDAT (修订日期及相关内容)
11 SPRSDE(已撤销或更改的相关记录) 12 JRNL(发表坐标集的文献)
13 REMARK:REMARK 1(有关文献) 、REMARK 2(最大分辨率) 、REMARK 3(用到的
程序和统计方法) 、REMARK 4-999。
二、一级结构
1 DBREF(其他序列库的有关记录) 2 SEQADV ( PDB与其他记录的出入) 3 SEQRES(残基序列) 4 MODRES (对标准残基的修饰)
三、杂因子
1 HET (非标准残基) 2 HETNAM(非标准残基的名称)
3 HETSNY (非标准残基的同义字) 4 FORMOL(非标准残基的化学式)
四、二级结构
1 HELIX(螺旋) 2 SHEET(折叠片) 3 TURN(转角)
五、连接注释
1 SSBOND (二硫键) 2 LINK(残基间化学键) 3 HYDBND(氢键)
4 SLTBRG(盐桥) 5 CISPEP(顺式残基)
六、簿记
1 MASTER (版权拥有者) 2 END(文件结束)
另外,使用Rosmol 程序可以利用PDB 中的数据直接观察蛋白质的三维结构[3](如图3)。
图3 Rosmol 显示的蛋白质三维结构图
3.2 SCOP
SCOP (Structural Classification of Proteins Database)是收录蛋白质结构域的数据库。SCOP 根据数据结构与进化关系用人工及计算机自动处理,将蛋白质空间结构的组成部分结构域分为类(Class )、折叠(Folds ),超家族(Superfamoly ),家族(family )四个等级。其中按空间结构分出类与折叠。按进化关系分出超家族与家族。2004年SCOP 有超过4万个蛋白质结构域,分为7类,800个折叠,1294个家族,2327个超家族。
3.3 CATH
CATH 是收录蛋白质结构域的数据库。CATH 根据结构与同源性将蛋白质结构域分为C(class)A(architecture )T (topology )H (homologous )S (sequence
family )等几个层次。按空间结构分为C 、A 、T 从层,按同源性分为H 、S 两层。2005年CATH 中有3229个蛋白质结构域,分为4个C 层、37个A 层、813个T 层和1467个H 层[4]。
4 结语
由于时间仓促,本文在创新性方面略显单薄,并且没有对蛋白质二级库进行简绍。甚为遗憾。但资料收集整理颇为繁琐,仅以此文作为自己研一上半学期入门课程的一次总结和梳理。同时感谢胡老师的谆谆教导。
参考文献: [1]李伍举, 吴加令. 蛋白质功能位点预测. 生物化学与生物物理进展, 1993,
20:60~62
[2]赵国屏. 生物信息学. 北京:科学出版社, 2002
[3]张成岗, 贺福初. 生物信息学方法与实践. 北京:科学出版社, 2002
[4]许忠能. 生物信息学. 北京:清华大学出版社, 2008