生物信息研究中常用蛋白质数据库的总结

10-08

生物信息研究中常用蛋白质数据库简述

内蒙古工业大学理学院呼和浩特孙利霞 2010.1.5

摘要：在后基因组时代生物信息学的研究当中，离不开各种生物信息学数据库。尤其在蛋白质从序列到功能的研究当中，目前各种行之有效的方法都是基于各种层次和结构的蛋白质数据库。随着计算机技术及网络技术的发展，目前的蛋白质数据库不论是所包含数据量还是功能都日新月异，新的数据库层出不穷。一个新手面对如此浩瀚的数据量往往无从下手。本文粗浅地为目前蛋白质数据库的使用勾画出一个轮廓，作为自己蛋白质研究入门的一个引导。

关键词：蛋白质；数据库

0 引言

随着科技的发展，个人的知识往往赶不上快速膨胀的信息量，人们为了解决这个问题，便创建了形形色色的数据库。蛋白质数据库是指：在蛋白质研究领域根据实际需要，对蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释，构建出具有特殊生物学意义和专门用途的数据库。蛋白质数据库总体上可分为两大类：蛋白质序列数据库和蛋白质结构数据库，蛋白质序列数据库来自序列测定，结构数据库来自X-衍射和核磁共振结构测定（详见图1）。这些数据库是分子生物信息学的基本数据资源。上世纪90年代，我国从事蛋白质研究的学者使用的蛋白质数据库储存介质还是国外实验室发布的激光光盘[1]。信息的传播储存甚为不便。随着蛋白质研究的发展飞快，同时伴随着计算机和因特网发展，蛋白质数据库的储存传播方式也发生的巨大的变化。进入21世纪后，我们所用的各种蛋白质数据库都发展成为存储在网络服务器上，基于“服务器—客户机”的访问查询方式。伴随着计算机及物理测试技术的发展数据库的容量和功能成数量级膨胀。但是面对如此浩瀚的数据，新手往往感到无从下手，在需要时找不到自己需要的合适数据库。

本文从目前蛋白质数据库建立的的逻辑层次出发，系统地简绍了常用蛋白质数据的概况，它们的查询方法以及它们相互之间的联系。同时尽量不涉及数据库建设和维护方面的计算机和网络这些数据库底层的技术，为蛋白质研究的入门者及对蛋白质感兴趣的人员的一个引导。

图1 两大类蛋白质数据库

1 建库方式的分类

蛋白质数据库种类繁多。一个的数据库记录通常包括两部分：原始数据和对这些数据进行的生物学意义的注释。以建库的方式而论，大致可以分为四类：

一、最基础的一级数据库。这些数据库一般是由国家或国际组织建设和维护的数据库。如EMBL ，PDB 等。这样的数据库的优点是完整，更新及时，并提供了一些较好的服务软件和平台计算条件。缺点是对于数据的创新性，精确性和准确性没有权威的评价，数据过多，重复，分类较粗。

二、二级数据库，（如图2）。二级数据库是在一级库德基础上，结合工作的需要将部分数据从一级库中取出，重新组合而成的特定数据库。这类数据库专一性强，数据量相对较少，但质量高。数据库结构设计精致。

三、专家库。这是一种特殊的二级库。与一般二级库不同之处在于它是经过有经验的专家进行人工校对标识之后建立的。这样的库质量很高，使用方便可靠，但是更新发展较为缓慢。这类库的典型代表是SWISS-PORT 。[2]

图2 蛋白质二级结构数据库的逻辑结构

⎧⎫⎧蛋白质功能位点数据库:Prosite⎫⎪⎪⎪⎪蛋白质序列指纹图谱数据库:Prints⎪⎪⎪以蛋白质序列数据库为基础构建的二级库⎪⎨⎬⎪⎪同源蛋白质家族数据库:Pfam⎪⎪⎪⎪⎪同源蛋白质结构域数据库:Blocks⎪⎪⎪⎩⎭⎪⎪⎧免疫球蛋白数据库:Kabat⎫⎪⎪蛋白质二级库⎨以具有特殊功能的蛋白质为基础构建的二级库⎨⎬⎬蛋白激酶数据库:Pkinase⎩⎭⎪⎪⎪⎪蛋白质二级结构构象参数数据库DSSP ⎧⎫⎪⎪⎪⎪⎪以三维结构原子坐标为基础构建的二级库⎨已知空间结构的蛋白质家族数据库FSSP ⎬⎪⎪⎪⎪⎪⎪⎩已知空间结构的蛋白质及其同源蛋白质数据库HSSP ⎭⎪⎪⎪⎩⎭

2 蛋白质序列数据库：UniProt 数据库

UniProt 属于蛋白质序列数据库。如今的蛋白质序列数据库中，有的收集实验测定的序列，有的收集根据DNA 序列等翻译预测的蛋白质序列，有的这两者都有收录。SWISS-PROT 、TrEMBL 、PIR 是曾经用的很广泛的蛋白质序列数据库。而今都并入了UniProt 中。

现在UniProt 有三个层次的数据库：UniParc （UniProt Archive ）收录所有UniProt 数据库子库中的蛋白质序列，虽然很大，但是信息比较粗糙。既包括重复的序列也包括未加注释的序列；UniRef （UniProt Reference Clusters ）是归纳UniProt 几个主要数据库并将重复的序列去除后的数据库。其中UniRef100是只去除完全重复的序列的数据库，UniRef90是去除相似性在90%以上的相似序列数据库；UinProtKB （UniProt Knowledgebase ）是有详细注释并与其他数据库及文献有链接的数据库，分为UinProtKB/SWISS-PROT与UinProtKB/TrEMBL两部分。

2.1 SWISS-PROT

SWISS-PORT 是含有详细注释内容的蛋白质序列数据库。1987年由日内瓦大学医学生物化学系（Department of Medical Biochemistry of the University of Geneva ）与EMBL 共同维护，现由EMBL 的分支机构EBI 进行维护。网址为：http://www.expasy.ch/sprot/sprot-top.html。一般地，任何蛋白质序列数据的搜索和比较都应从SWISS-PORT 开始[3]。

2.2 TrEMBL (Translated EMBL)

EMBL 是指实验室欧洲分子生物学实验室EMBL(The European Molecular Biology Laboratory)，TrEMBL 是EMBL-DNA 数据库中的核算序列翻译后产生的核酸序列数据库。EMBL-DNA 数据库于1982年由EMBL 建立，全球性的国际DNA 数据库，近年来发展很快，可进行核苷酸序列检索及序列相似性查询。

传统的蛋白质序列数据库的一种来源是通过对核酸序列数据库中的核算按照密码子人工翻译后，再用实验核实。但是对于EMBL-DNA 数据库中的核酸序列翻译进行核实远远落后EMBL-DNA 数据库中数据量的发展。EMBL-DNA 数据库中含有众多的由计算机直接分析得到的在SWISS-PORT 数据库中并不存在

的氨基酸序列。为了克服这一缺点，人们又开发了另一个数据库—EMBL 核酸序列翻译数据库，即TrEMBL(Translated EMBL)。该数据库中包含了EMBL 数据库中的所有编码序列的信息。网址为：http://www.expasy.ch/sprot/sprot-top.html。这是SWISS-PROT 数据库的重要补充，但是其中的数据质量要有所保留。

TrEMBL 是从EMBL 库中的核酸序列翻译出来的氨基酸序列，它们已经完成自动注释。分为两部分：SP-TrEMBL 的条目已经由专家人工分类并且赋予了SWISS-PORT 库的索取号，但是还没有通过人工审读并最终收入SWISS-PORT 。REM-TrEMBL(REMaining TrEMBL)包含了由于某种原因没有被收入到SWISS -PORT 的条目。

2.3 PIR 数据库

蛋白质信息资源数据库PIR （Protein Information Resource）是在很多文献中都要简绍的一个蛋白质序列数据库，其主要目的是提供按同源性和分类学组织的综合性，非冗余数据库。不过目前它的大部分服务已经停止使用。1984年建成PIR 数据库，在2005年其序列信息相应并入UniProt 中的SWISS-PROT 与TrEMBL 中。

3 蛋白质结构数据库

蛋白质结构的内容为被测定的蛋白质分子空间结构原子坐标，PDB 数据库、SCOP 数据库、CATH 数据库是几个常用的交重要的蛋白质结构数据库。

3.1 PDB

蛋白质数据库（Protein databank, PDB）由美国自然科学基金会，能源部和国立卫生研究院共同投资建立。主要由X 射线晶体衍射和核磁共振（NMR ）测得的生物大分子三维结构所组成。用户可直接查询，调用和观察库中所收录的任何大分子三维结构。网址为：http://www.scsb.org/pdb/。随着晶体衍射技术的不断改进, 结构测定的速度和精度也逐步提高。90年代以来, 随着多维核磁共振溶液构象测定方法的成熟, 使那些难以结晶的蛋白质分子的结构测定成为可能。蛋白质分子结构数据库的数据量迅速上升。据2000年5月统计，PDB 数据库中已经存放了1万2千多套原子坐标, 其中大部分为蛋白质，包括多肽和病毒。此外, 还有

核酸、蛋白和核酸复合物以及少量多糖分子。近年来, 核酸三维结构测定进展迅速。

PDB 数据库以文本文件的方式存放数据，每个分子各用一个独立的文件。除了原子坐标外, 还包括物种来源、化合物名称、结构递交以及有关文献等基本注释信息。此外，还给出分辨率、结构因子、温度系数、蛋白质主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。

每个PDB 文件可能分割成一系列行，由行终止符终止。在记录文件中每行由80列组成。每条PDB 记录末尾标志应该是行终止符。PDB 文件中每行都是自我识别的。每行的前六列存放记录名称，左对齐空格补足. 必须和规定的记录名称一致。PDB 文件也可看成是各种记录类型的总和。每个记录类型包括一行或多行又被更深一层分成各字段。以下是PDB 文件存储数据格式的一个完整简洁的说明：

一、标题部分

1 HEADER(分子类，公布日期、ID 号) 2 OBSLTE (注明此ID 号已改为新号) 3 TITLE(说明实验方法类型) 4 CAVEA T(可能的错误提示)

5 COMPND(化合物分子组成) 6 SOURCE(化合物来源)

7 KEYWDS(关键词) 8 EXPDTA(测定结构所用的实验方法) 9 AUTHO（结构测定者) 10 REVDAT (修订日期及相关内容)

11 SPRSDE(已撤销或更改的相关记录) 12 JRNL(发表坐标集的文献)

13 REMARK：REMARK 1(有关文献) 、REMARK 2(最大分辨率) 、REMARK 3(用到的

程序和统计方法) 、REMARK 4-999。

二、一级结构

1 DBREF(其他序列库的有关记录) 2 SEQADV ( PDB与其他记录的出入) 3 SEQRES(残基序列) 4 MODRES (对标准残基的修饰)

三、杂因子

1 HET (非标准残基) 2 HETNAM(非标准残基的名称)

3 HETSNY (非标准残基的同义字) 4 FORMOL（非标准残基的化学式）

四、二级结构

1 HELIX(螺旋) 2 SHEET(折叠片) 3 TURN(转角)

五、连接注释

1 SSBOND (二硫键) 2 LINK(残基间化学键) 3 HYDBND(氢键)

4 SLTBRG(盐桥) 5 CISPEP(顺式残基)

六、簿记

1 MASTER (版权拥有者) 2 END(文件结束)

另外，使用Rosmol 程序可以利用PDB 中的数据直接观察蛋白质的三维结构[3]（如图3）。

图3 Rosmol 显示的蛋白质三维结构图

3.2 SCOP

SCOP （Structural Classification of Proteins Database）是收录蛋白质结构域的数据库。SCOP 根据数据结构与进化关系用人工及计算机自动处理，将蛋白质空间结构的组成部分结构域分为类（Class ）、折叠（Folds ），超家族（Superfamoly ），家族（family ）四个等级。其中按空间结构分出类与折叠。按进化关系分出超家族与家族。2004年SCOP 有超过4万个蛋白质结构域，分为7类，800个折叠，1294个家族，2327个超家族。

3.3 CATH

CATH 是收录蛋白质结构域的数据库。CATH 根据结构与同源性将蛋白质结构域分为C(class)A（architecture ）T （topology ）H （homologous ）S （sequence

family ）等几个层次。按空间结构分为C 、A 、T 从层，按同源性分为H 、S 两层。2005年CATH 中有3229个蛋白质结构域，分为4个C 层、37个A 层、813个T 层和1467个H 层[4]。

4 结语

由于时间仓促，本文在创新性方面略显单薄，并且没有对蛋白质二级库进行简绍。甚为遗憾。但资料收集整理颇为繁琐，仅以此文作为自己研一上半学期入门课程的一次总结和梳理。同时感谢胡老师的谆谆教导。

参考文献： [1]李伍举, 吴加令. 蛋白质功能位点预测. 生物化学与生物物理进展, 1993,

20:60～62

[2]赵国屏. 生物信息学. 北京：科学出版社, 2002

[3]张成岗, 贺福初. 生物信息学方法与实践. 北京：科学出版社, 2002

[4]许忠能. 生物信息学. 北京：清华大学出版社, 2008

与《生物信息研究中常用蛋白质数据库的总结》相关的范文

10-07 初中生物结业考试质量分析行动报告

初中生物结业考试质量分析行动报告一、概述 20XX年下学期xx区初中生物结业考试是属于xx市教研室组织的初中阶段水平测试。由xx市教研室具体负责命题，统一时间考试，由各区改卷，本区采取集中网上分散阅卷形式。本次考查要求着重考查课标中教学要求及与高中衔接的内容。考查学生掌握主干知识、核心概念、原理及思维能力和实践能力的情况。注重对知识和能力的考查有机结合，命题从生活、实践、新颖的角度去设问，题目灵 ...

12-22 2013年-2014年学年上学期期中考试高三生物试卷分析

20xx-20xx学年上学期期中考试高三生物试卷分析一．试卷结构本次考试采用的是金太阳研究所的试卷，卷面分值为100分，题型为选择题和非选择题两类，两类题型题各占50分。试卷主要考查了生命物质的组成，物质的输入与输出，细胞能量的供应，新陈代谢，遗传和变异等基础知识。试卷整体既注重基础知识的考查，又突出学科思维能力的考查；考查了学生的实验设计的能力和分析能力，尤其是对对照实验中的自变量的控制。 ...

05-24 2014届高三生物复习计划

20xx届高三生物复习计划官一中王媛一、指导思想：以教材、新课程标准、考试大纲和考试说明为依据，以加强双基教学为主线，以提高学生能力为重点，全面提高学生的综合素质和应试技巧。通过高三生物总复习，处理好高中生物教材，揭示单点知识，知识结构，知识结构扩展三个层次的知识内涵及内在的逻辑联系，形成立体知识结构。把基础知识教学与能力发展触为一体，从而提高分析问题和解决问题的能力。二、复习目标: 通 ...

12-11 辅修专业教学计划

《生物技术》辅修专业教学计划一、专业培养目标本辅修专业培养生物技术及其相关领域的应用型人才。二、专业培养要求本辅修专业的学生通过学习可获得以下几方面知识、能力和素质： 1、掌握生命科学和生物技术等方面的基本理论和基本知识，具有一定的生物工程原理的基础知识； 2、掌握生物技术方面的基本实验技能； 3、具有综合运用所掌握的理论知识和技能，从事生物技术及其相关领域产品研发、生产、管理的能力； 4 ...

02-20 化验实习总结

化验实习总结不知不觉，我到公司已经五个多月了。这段时间里，在领导的正确带领和细心指导下，通过自己的不断努力，我学到了更多新知识，现将这段实习期间学到的知识列举如下： 1.检测方面：从零开始学起来的，这是我的第一份工作。我学的是生物制药技术专业，虽然有些基础知识和基本操作在学校里学过，但对常规八大检测项目完全不知。经过一段时间的学习后，知道常规八大检测项目为水分、粗灰分、粗蛋白质、粗脂肪、粗纤维、 ...

06-18 高一年级下学期生物教学计划

　本学年我们承担着高中一年级九个班的生物学教育教学工作，依旧生物教学大纲要求，结合教材内容和学校，学生实际，为顺利完成学校下达的会考目标，把学生培养成为“四有”新人，特制定此计划。一. 主要措施和方法 1. 教师深入钻研大纲，教材，认真备课，熟悉教材章节重点，难点及考点，化难为易突出重点，突破难点；精讲精练，学生作业在课堂上完成。 2. 广泛收集高考，会考等复习资料，考试题，进行筛选，分析，总结 ...

07-19 卫生部CDC印发糖尿病管理模式推广项目实施方案通知

卫生部疾病预防控制局关于印发糖尿病管理模式推广项目实施方案和技术操作手册的通知卫疾控慢病便函〔20xx〕103号辽宁、黑龙江、上海、重庆、浙江省、市卫生厅局疾病控制处：　　为提高我国糖尿病防治水平，我局与部国际交流与合作中心合作，从20XX年7月起开展糖尿病管理模式推广项目。为使项目顺利实施，我局组织专家制订了《糖尿病管理模式推广项目实施方案》和《糖尿病管理模式推广项目技术操作手册》。现印发 ...

05-25 2014年高考理综生物部分试题分析

20XX年高考卷理综生物部分试题分析昆明八中杨丽 20XX年高考试题分析挑选了选择题1和非选择的29进行分析：选择题题目：1．同一物种的两类细胞各产生一种分泌蛋白，组成这两种蛋白质的各种氨基酸含量相同，但排列顺序不同，其原因是参与这两种蛋白质合成的（） A．tRNA种类不同 B．mRNA碱基序列不同 c．核糖体成分不同 D．同一密码子所决定的氨基酸不同分析：本题以细胞的成分为切入点，综合 ...

09-04 2014年高考生物试题分析

20XX年高考生物试题分析整体分析 20XX年高考新课标理综生物部分难度适宜，与去年相比持平，各模块的分值分布合理，突出主干知识点的考查，主要考查考生获取信息，处理信息和实验能力，突出综合考查生物学能力，引导学生回归教材，试题淡化了死记硬背，突出综合能力运用，避免了“题海战术”，减轻学生负担。其中，理综生物卷总分90分，由6题选择题、4题非选择题及两个选学题组成。试题情景源于教材又高于教材，既 ...

04-12 生物下学期教学工作计划

一．指导思想全面贯彻执行教育部《普通高中课程方案（实验）》为引导，结合科组实际，进行教学改革。学习生物课程标准，明确新课程的具体要求，利用备课组活动时间，认真学习新课程教学理念，深入研究教学方法。二．本学期教学任务遗传和进化、遗传因子、孟德尔实验、减数分裂、受精作用、基因、染色体、伴性遗传、基因本质、DNA、指纹技术、基因表达、生物信息学、密码破译、基因突变和其他变异、人类遗传病、杂交育种、 ...

随机推荐

猜你喜欢

生物信息研究中常用蛋白质数据库的总结

·党务公开工作总结

·大学生优秀团干标兵申报材料

·城管大队长述职报告

·智能手机中各种参数配置各自的作用是什么

·无源逆变的工程应用课程设计

·可再生能源在被动式超低能耗建筑中的应用分析

·劳动关系协调师练习题

·小学生谜语

·[我的股市人生]悬湖丑石股事三部曲

·简单库存管理系统的系统流程图及问题描述

·班主任辞职申请

·知行学社元旦晚会策划书

·深情毕业感言

·孵化场地租赁契约

·儿童视角观照下[城南旧事]与[呼兰河传]的书写

·试婚成瘾-肮脏的人,说话才和她的心一样肮脏

·山东"首虎"王敏官场往事:年初曾开车进京送礼

·哪种脸型的男人智商高.有财气,不是以貌取人,用实力说话

·致不交物业费业主的信

·北大研究生网上卖水果无照经营被指违法

生物信息研究中常用蛋白质数据库的总结

与《生物信息研究中常用蛋白质数据库的总结》相关的范文

·党务公开工作总结

·大学生优秀团干标兵申报材料

·城管大队长述职报告

·智能手机中各种参数配置各自的作用是什么

·无源逆变的工程应用 课程设计

·可再生能源在被动式超低能耗建筑中的应用分析

·劳动关系协调师练习题

·小学生谜语

·[我的股市人生]悬湖丑石股事三部曲

·简单库存管理系统的系统流程图及问题描述

·班主任辞职申请

·知行学社元旦晚会策划书

·深情毕业感言

·孵化场地租赁契约

·儿童视角观照下[城南旧事]与[呼兰河传]的书写

·试婚成瘾-肮脏的人,说话才和她的心一样肮脏

·山东"首虎"王敏官场往事:年初曾开车进京送礼

·哪种脸型的男人智商高.有财气,不是以貌取人,用实力说话

·致不交物业费业主的信

·北大研究生网上卖水果 无照经营被指违法

·无源逆变的工程应用课程设计

·北大研究生网上卖水果无照经营被指违法