分子生物信息学作业
实验一 生物信息学数据库及信息检索
一:实验目的
1:了解NCBI 、EMBL 、SWISS-PROT 、PDB 数据库。
2:了解NCBI 、EMBL 数据库的检索系统ENTREZ 、SRS ,并掌握文献、序列的快速高效检索方法。
二:实验内容及操作步骤
1. 登陆NCBI 、EMBL 、SWISS-PROT 、PDB 数据库主页,打开数据库的SITE MAP页面,了解各数据库的结构和主要内容。网址:NCBI:www.ncbi.nlm.nih.govEMBL:www.ebi.ac.uk
SWISS-PROT: www.expasy.org/sprot/PDB: www.rcsb.org/pdb/
2. 使用Entrez 信息查询系统检索文献,并阅读感兴趣文献的摘要或全文。
2.1调用Internet 浏览器并在其地址栏输入Entrez 网址(http://www.ncbi.nlm.nih.gov/Entrez) ―进入NCBI 主页―进入Entrez Home 页面 选择pubmed 文献数据库―在Search 后的输入栏中选择Pubmed ―在输入栏内输入关键词Avian Influenza/Bird Flu―点击go 查询。统计查询结果,并阅读感兴趣文献的摘要或全文。练习使用AND, OR, BUT 逻辑词来限定关键词,如Bird Flu AND human cases 等查询人感染禽流感的相关记录,比较查询结果。
2.2 学习使用limits 等限制字段查询方式,检索与禽流感相关的文献,并统计检索结果。比较不同检索方式的查询效率。
2.2.1进入Entrez Home页面―选择Pubmed 文献数据库―点击limits ,进入与Pubmed 有关的限制字段设置―如选择Title 等不同字段,及限制期刊类型,作者等进行查询。
2.2.2 Preview(搜索结果预览)/Index(索引词表检索)的应用。所谓的索引词表检索是当你选定查询字段并键入检索词如Bird Flu时―点击Index ―这时返回一个在该字段中的以“Bird Flu”开始的索引词表窗口,后面括弧中的数字代表包含该索引词的记录条数 选择一个或几个关键词,点击Preview 可进行结果的预览―点击Go 可获得查询结果。
2.2.3 点击History ,可以看到本次练习结果页面的历史记录。包括所采用的主题词、查询字段范围、花费时间、及相应结果等。
3. 使用Entrez 信息查询系统检索与禽流感相关的核酸序列,链接提取其中一条感兴趣的序列内容,阅读序列格式的解释,理解其含义。进入NCBI 主页―进入Entrez Home 页面 选择Nucleotide 数据库―在Search 后的输入栏中选择Nucleotide ―在输入栏内输入关键词H5N1―点击go 查询。阅读查询结果,选择一条感兴趣的核酸序列,点击该序列与数据库的超链接,阅读序列格式的解释,理解其含义。
4.GenBank 数据库FASTA 序列格式的显示与保存;
以步骤3所获得的感兴趣核酸序列结果页面为例,在显示模式“Display”的下拉菜单中选择一个需要的序列格式如FASTA 序列格式,然后点击Display 按钮,结果就出现该序列的FASTA 格式。如果需要保存该条序列信息,可以直接通过点击浏览器IE 的“文件”菜单中的另存为命令将序列保存到本地计算机;也可以利用Entrez 系统自身的保存功能,即点击Send to ,选择File, 就会出现保存文件相应的窗口,然后按指示操作即可。
5.使用SRS 信息查询系统检索一条核酸序列,链接提取该序列内容,阅读序列
格式的解释,理解其含义;比较NCBI 与EMBL 中序列格式的异同。调用Internet 浏览器并在其地址栏输入SRS 网址(http://srs.ebi.ac.uk),查询自己感兴趣的核酸序列。
三:实验结果
1、了解NCBI 、EMBL 和SWISS-PROT 数据库的结构和主要内容。
答:(略) 。
2、找到编码拟南芥(arabidopsis )phyA (光敏色素A )基因的核酸序列编号, 并记录查找过程。
1进入NCBI 主页 答:○
2进入Entrez Home页面选择Nucleotide 数据库 ○
3在输入栏内输入关键词arabidopsis[organism]phyA ○
4点击go 查询,阅读查询结果,点击fasta 获取核酸序列 ○
结果:arabidopsisphyA Nucleotide Sequence: NW_003302555
3、以phyA 为检索词,在pubmed 数据库中分别检索在题目和关键词字段中含有该检索词的文献,记录检索出的条目数目。
答:关键词字段条目数目:655; 题目字段条目数目:58
4、仔细阅读所查询核酸序列在NCBI 和EMBL 数据库中格式的解释,理解各字段的含义,并比较NCBI 与EMBL 中序列格式的异同。
答:NCBI 中的FASTA 序列格式包括三个部分:1. 在注释行的第一列用字符“>”标识,后面是序列的名字和来源;2. 标准的单字符标记的序列;3. 可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。FASTA 格式是序列分析软件最常用的格式。这种格式提供了从一个窗口到另一个窗口非常方便的拷贝途径,因为序列中没有数字或其他非字符。FASTA 序列格式和蛋白质信息资源NBRF 格式很相似。
EMBL 与GenBank 类似,通过大量信息来描述每个序列。该信息组成一个个字段,每个字段有一个标识符。这些标识符缩写成两个字母,某些字段还有次级字段。每行序列后面的数字显示片段胡位置。
5、将GenBank 数据库中检索出的任一条查询核酸序列以FASTA 序列格式显示并保存。
答:>gi|339961166|pdb|1VTO|E Chain E, 1.9 A Resolution Refined Structure Of Tbp Recognizing The Minor Groove Of Tataaaag
GCTATAAAAGGGCN