生物信息实验报告4(四)多序列分析及系统进化树构建
(四)多序列分析及系统进化树构建
实验目的:掌握多序列比对、构建系统进化树的基本步骤,熟悉使用CLUSTALW、MEGA5.1等软件的使用。 实验内容:
1、利用CLUSTALW工具进行多序列比对,学会参数设置,结果输出。将
本实验室获得的仿刺参EGFR基因氨基酸序列,搜索同源序列,保存序列进行
比对。
2、利用MEGA5.1构建系统进化树,并用自展分析对进化树进行评估。 实验步骤:
1、将仿刺参EGFR基因氨基酸序列使用在线NCBI工具,进行Blast同源性比较见表1。
NCBI上做Blast
找到相似度最高的几个序列,通常把序列(Fasta格式文件)下载下来,或点击GenBank登录号,复制FSATA格式,整合在一个*.txt文档中(单独建立一个文件夹存放,后面的很多文件会自动装入该文件夹),如
>XXXX
AGGCTTAACACATGCAAGTCGAGCGGAGCGAGGGTGCTTGCACCTTAGCTTAGCGGCGGACGGGTGAGTAATGCTTAGGAATCTGCCTATTAGTGGGGGACAACATTCCGAAAGGAATGCTAATACCGCATACGCC
表1氨基酸序列的同源性比对
物种 (Species) Anopheles gambiae Nasonia vitripennis Xiphophorus xiphidium Camponotus floridanus
Danio rerio Drosophila melanogaster Gryllus bimacµlatus Xenopus (Silurana)
tropicalis Lymnaea stagnalis
ABQ10634
46%
GenBank 登录号 (GenBank Accession No.)
CAC35008.1 XP_001602830 AAP55673 EFN60989 NP_919405 AAR85245 BAG65666 XP_002939960
相似性 (Similarity) 47% 49% 46% 49% 47% 49% 48% 47%
Gallus gallus Rattus norvegicus
NP_990828 EDL97896.1
47% 47%
2、仿刺参EGFR氨基酸序列通过GENBANK数据库比较,经CLUSTAL W
多重序列比对分析(图1)(注:图为部分比对序列图)。 3、
应用MEGA5.1软件在Bootstrap置信值为1000的条件下构建同源关系树 (图2)。在同源关系树中,直观的显示了仿刺参EGFR基因与其他各物种之间的相互关系。由同源树可已看出,仿刺参EGFR序列自聚为一支,在分子进化地位上与其生物学分类一致,因而得到的关系树反映了上述物种进化关系的远近。
图1 仿刺参与其他物种的EGFR氨基酸序列比较
注:“*”表示相同氨基酸,“:”“·”表示相似氨基酸,“-”表示此位置缺失氨基酸
100 99
Camponotus floridanus Nasonia vitripennis Gryllus bimaculatus
Drosophila melanogaster Anopheles gambiae
Lymnaea stagnalis
100
Xiphophorus xiphidium Danio rerio
100
99
100
Xenopus tropicalis Rattus norvegicus Gallus gallus
Apostichopus japonicus
0.1
A
图2 根据EGFR氨基酸序列构建的系统进化树
注:用MEGA5.1软件Njboostrap方法构建,分支上的数字代表boostrap值
具体操作步骤如下:
点击File/load sequences,将整理好的*.txt序列文件导入clustalx1.83,如图
接着点击
Alignment/Do Complete Aligment
程序自动运行,得出结果,自动输出*.aln 和* .dnd 为后缀的两个文件,并自动存入你*.txt文件所在的文件夹内。
序列比对也可以直接用MEGA来做。 4、运行程序MEGA 5.1,如下图所示:
点击:File导入Clustal程序得到的*.aln文件。再点File/Convert to MEGA Format,打开转换文件对话框,从目的文件夹中选中Clustal 对比分析后所产生的*.aln文件,转换为*.meg文件。转换时一路确认相关界面。最后查看meg序列文件最后是否正常,命名新文件存盘保存*.meg文件,*.meg文件会和aln文件保存在上述*.txt同一个文件夹中。
点击OK键,新建文件名*.meg,然后保存。
5、 关闭转换窗口,回到主窗口,现在点面板上的“Data ”打开刚才的*.meg文件。
如果为蛋白质序列,选择“Protein sequence”,点击“OK”,得到以下图示。
选择默认的Standard,点击OK后,如图所示。
点击程序中的,可以得到下图
在另外一个窗口内,出现以下数据文件点击选择和编辑数据分类图标, 可对所选择的序列进行编辑,完成后点击close即可。另外,通过点击“C”“V”“Pi”“S”可以分别看到序列的保守区、可变区、最大简约信息位点、单序列位点变异。
序列编辑完成后,可进行保存,点击保存后出现以下界面,点击ok即可。
用Bootstrap构建进化树,MEGA的主要功能就是做Bootstrap验证的进化树分析, 具体构建过程如下
① 参数的设置:点击,选择该菜单中的Construct/test Neighbor-Joining tree,
选择前面转换得到的*meg文件,对下图的参数进行设置: 说明:
系统进化树的测试方法Test of Phylogeny,通常要选择Bootstrap method,也可以选择不进行测试;
重复次数No. of bootstrap Replications——通常设定至少要大于100比较好,随机数种子可以自己随意设定,不会影响计算结果。一般选择500或1000。
Model/Method——通常选择Kimura 2-parameter。
设定完成,点compute,开始计算得到进化树构建的结果。如下图所示;
该窗口中有两个属性页,一个是原始树Original tree,一个是bootstrap验证过的一致树Bootstrap concensus tree。树枝上的数字表示bootstrap验证中该树枝可信度的百分比。
得到构建的进化树后可以对该进化树进行优化。
(2)保存成到word文档中:点击下图中的Image,选择子菜单中的Copy to Clipboard. 然后在Word中粘贴即可。
(1)利用该软件可得到不同树型,如下图所示:
除此之外,还可以有多种树型,根据需要来选择。
2)显示建树的相关信息:点击图标i。
3)点击优化图标,可进行各项优化:
Tree栏中,可以进行树型选择:rectangular tree/circle tree/radiation tree。每种树
都可以进行长度,宽度或角度等的设定
Branch:可对树枝上的信息进行修改。
Lable:可对树枝的名字进行修改。
Scale:标尺设置
Cutoff:cut off for consensus tree。一般为50%。
9、进化树的分类优化
Place root on branch:可以来回转换。
Flip subtree:180度翻转分枝,名字翻转180度。
Swab subtree:交换分枝,名字不翻转。
Compress/expand subtree与Set divergent time:可以把同一分枝的基因压缩或扩展。
点击Compress/expand subtree后,在要压缩的分枝处点击,出现以下界面,在name/caption 中输入文件名(例如wwww),其他还有很多的选项,设置好了,点击OK。
所得到的结果,可以在压缩和扩展之间转换。