生物信息学中一个优化的全局双序列比对算法

02-22

第24卷2004年6月

计算机应用

C omputer Applications

Vol. 24J une , 2004

文章编号:1001-9081(2004) 06Z -0307-02

生物信息学中一个优化的全局双序列比对算法

唐玉荣

(中国农业大学现代精细农业系统集成研究教育部重点实验室, 北京100083)

摘　要:最早的生物信息学中序列比对算法是基于动态规划思想的Needleman 2Wunsch 全局双序列比对算法, 由于其时间和空间复杂度巨大, 不适合实际的生物序列比对。态规划思想的全局双序列比对算法。实验结果表明, , 有效地降低了时间和空间复杂度。

关键词:算法; 双序列比对; ; 中图分类号:TP301. 61　引言

序列比对是生物信息学的核心研究内容之一。在生物学研究中, 为了判断两个序列是否具有足够的相似性, 从而判断两者是否具有同源性, 常常需要进行序列比对。序列比对根据同时进行比对的序列数目分为双序列比对和多序列比对。序列比对也可分为全局比对和局部比对, 全局比对考虑序列的全局相似性, 局部比对考虑序列片段之间的相似性。

最早的序列比对算法是Needleman 2Wunsch 全局双序列比对算法[1], 主要思想是利用动态规划的方法计算两条序列之间的一个最佳比对。该算法在其后的三十年中得到广泛的应用, 成为生物信息处理算法中的一个最基本的算法。随后涌现出了一大批优化的序列相似性比较算法, 它们虽有各自的定义, 但都是基于动态规划思想, 而且其时间和空间复杂度也都很巨大, 仅适用于字符数量不大的序列, 无法在实际中使用。本文提出了OG P 全局双序列比对算法, 该算法基于动态规划思想, 能有效地降低时间和空间复杂度。

过行i 的水平方向, 空位罚分的值取决于插入空格的个数。若两个序列为a =a 1a 2…a n 和b =b 1b 2…b n , 则s i ,j =s (a 1a 2…a n , b 1b 2…b n ) ,s i ,j 是到达序列a 中第i 位字符与序列b 中第j 位字符的比对得分值,s (a i ,b j ) 是字符a i 与b j 的计分值,w x 是在序列a 上空格长度为x 的空位罚分值,w y 是在序列b 上空格长度为y 的空位罚分值。在此注意,s i ,j 是得分矩阵中从三个方向上得到的一条最佳比对路径得分值。当得分矩阵的所有元素s i ,j 被计算出来后, 最佳路径的终点是在最后一行最后一列的位置。从这一点开始根据上面公式在得分矩阵中回溯寻找得到的路径就是一条最优路径

。

图1　动态规划算法描述

2　动态规划算法思想

[2]

生物序列包括DNA 序列和蛋白质序列,DNA 序列由4种碱基组成, 则DNA 序列可看作是由4种字符组成的字符序列; 蛋白质序列由20种残基组成, 则蛋白质序列可看作由20种字符组成的字符序列。序列比对算法实际上就是通过对两个或多个字符串序列插入“-”表示插入或删除, 来获得序列之间的最佳比对结果。例如两条DNA 序列ATG C 和AG TC , 希望通过对每条字符序列插入空格, 得到使两条序列的匹配字符数最大的最佳比对。经过观察, 最佳比对应该为:

ATG -C ; 　A -GTC

3　优化的全局双序列比对算法UHF

Needleman 2Wunsch 算法在计算得分矩阵D 过程中存储所

对于上述问题, 动态规划算法的解决方案基本可描述为:计算得分矩阵; 在得分矩阵中回溯寻找最优比对序列。

S i ,j =max{S i -1,j -1+s (a i , b j ) ,max (S i -x ,j -w x ) ,

x Ε1

max (S i ,j -y -w y ) }

y Ε1

具体如图1所示, 从三个方向可以到达矩阵元素(i , j ) :对角线方向元素、同一行或同一列的元素。在得分矩阵中, 到达位置为i , j 的某一个元素有三种可能的路径:通过位置i -1, j -1的对角方向, 没有空位罚分; 通过列j 的垂直方向, 通

有的元素, 时间和空间复杂度均为O (m ×n ) , 见图2(a ) 。

[3]

Hirschberg 算法能够解决基本动态规划算法空间复杂度太大的问题, 它在得分矩阵的计算过程中不存储所有元素, 只存储得分矩阵的当前行(或列) 和前一行(列) 。该算法的描述过程为:在矩阵D 的中间列(或行) 处将Bs 序列分割成两部分, 从上和下两个方向计算得分矩阵, 以寻找在这一列或行上最优路径所经过的点checkpoint ; 递归计算由checkpoint 点组成的子矩阵; 所有的checkpoint 点组成的路径就是最佳比对路径。此算法的空间复杂度为O (m +n ) , 计算时间却是基本动态规划算法的两倍。Ukkonen [4]是一种广泛使用的基于动态规划的快速序列比对算法, 在得分矩阵D 的基础上计算替换矩阵U , 矩阵元素为U [ab ,d], 其中ab =a -b 对应D 矩阵的对角线, d 对应D 矩阵中的得分值, U [ab ,d ]的值为a , 该值

ab +1和ab -1上值为d -1的元素所决定。由D 矩阵中ab 、

示例见图2(b ) 。此算法的时间复杂度为O (n +d 2) (在此n 是

　　收稿日期:2003-09-10; 修订日期:2003-12-23　　基金项目:北京市科技计划项目(H[1**********]021)

　　作者简介:唐玉荣(1974-) , 女(蒙古族) , 内蒙古准旗人, 博士研究生, 主要研究方向:计算机应用、生物信息学.

　　　　308计算机应用2004年

序列长度,d 是两条序列的得分值) , 但空间复杂度仍然为O (n 2) 。为了同时降低时空复杂度, 之后提出的将Hirschberg 算法和Ukkonen 算法进

行了结合应用, 时间和空间复杂度介于Hirschberg 和Ukkonen 之间。

在得分矩阵D 的计算过程中, 由于第i 行(或列) 的元素值都来源于第i -1行(或列) , 因此F A 算法[6]提出在计算得分矩阵时同时获得相邻两行元素的计算来源关系, 这样不需要回溯就可以获得checkpoint 点。并且为了降低时间复杂度, 在计算过程中增加了checkpoint 的数目, 减少了对矩阵的重复计算。实现过程见图2(d ) 。

从Ukkonen 算法中对U 、ab +列值为d 的元素值由列值为d -1行ab -1的元素所决定, 列计算得到, 见图2(c ) 2and 2C onquer 算法计算U 矩阵的过程中借鉴checkpoint 数目并记录元素来源关系的算法思想, 从而降低时间复杂度

。

Divide 2and 2Conquer 算法

[5]

{Outerloop , iterated until U[|As |-|Bs |,d]=|As |}U[ab,d]=max (U[ab+1,d -insertC ost ],

U[ab, d -mismatchC ost ]+1, U[ab-1,d -deleteC ost ]+1)

{InnerLoop , extends diagonal on a run of matches}

while (As[U[ab,d]+1]=Bs[U[ab,d]-ab +1]) U[ab,d]+=1

4　实验结果

G 000、5000和10000的序列, 2Wunsch 、Divide 2and 2C onquer 、和UHF 算法进行了对比实验, 以验证UHF 。实验是在一台Pentium4,CPU 主频为1. 6GHz , RAM 为640M B , 操作系统为Windows 2000的PC 机上进行。实验结果见表1和表2。表1结果表明, 序列长度为1000时,UHF 算法的时间复杂度明显小于Needleman 2Wunsch 、Divide 2and 2C onquer 和Hirschberg , 但略大于Ukkonen 算法; 序列长度为5000、10000时,UHF 算法的时间复杂度小于其他四种算法。表2结果表明, 在序列长度为1000、5000和10000时, UHF 算法的空间复杂度均明显小于Needleman 2Wunsch 和Ukkonen , 但略大于Divide 2and 2C onquer 和Hirschberg 算法。由于实际的生物序列长度很大, 而且UHF 算法在存储空间的需求增加在计算机可用存储空间的范围之内, 所以UHF 算法具有一定的实用性。

表1　不同序列长度下五种算法的运行时间比较

算法

Needleman 2Wunsch

Hirschberg Divide 2and 2C onquer

Ukkonen UHF

运行时间(s )

10009. 2218. 445. 994. 534. 98

500036. 5473. 0824. 3519. 9818. 73

1000066. 75133. 5040. 4135. 6232. 52

表2　不同序列长度下五种算法的空间需求比较

算法

图2　UHF 算法示例

Needleman 2Wunsch

Hirschberg Divide 2and 2C onquer

Ukkonen UHF

空间需求

100019M B 20K B 22K B 19M B 40K B

500054M B 49K B 52K B 54M B 141K B

10000101M B 87K B 95K B 101M B 265K B

UHF 算法在U 矩阵的计算过程中只存储前一列和当前

列, 寻找多个chekpoint 点, 从而达到节省存储空间的目的; 且

在U 矩阵计算过程中同时记录元素的来源关系, 最佳比对路径的获得不需要回溯。

UHF 算法的实现步骤如下:

1) 计算U 矩阵, 计算过程中只存储相邻两列的元素, 同时存储元素的来源关系;

2) 对U 矩阵的列进行k 等分, 由U 矩阵计算过程中保存的元素来源关系获得k 个checkpoint 。对k 个checkpoint 点进行排序, 得到各个小矩阵的开始点和结束点;

3) 对各个小矩阵递归调用UHF 算法, 直到小矩阵的开始点和结束点之间的行差和列差小于等于分割数k , 此时直接调用Hirschberg 算法计算;

4) 所有的checkpoint 点构成一条最佳比对路径。对U 矩阵进行计算的Ukkonen 算法描述如下:

{U[ab,d]=max a s. t. D[a,b ]=d where ab =a -b

=-infinity if no such a exists}

U[0,0]=max a s. t. As[1.. a ]=Bx[1.. a ]U[ab,d]=-infinity , if |ab |>d

参考文献

[1]　Needleman S , Wunsch C. A general method applicable to the search

for similarities in the amino acid sequences of tw o proteins [J].Journal of M olecular Biology , 1970,48. 443-453.

[2]　M ount DW. Bioinformatics :sequence and genome analysis [M].

USA :C old S pring Harbor Laboratory Press , 2002. 53-72. [3]　Hirschberg D. A linear space algorithm for com puting maximal

comm on subsequences [J].C omm ACM , 1975,18(6) :341-343. [4]　Ukkonen E. On approximate string matching [A].Proceedings Int

C orf F ound C om put Theory , 1983,158. 487-495

[5]　P owell DR , Allison L , Dix TI. A versatile divide and conquer

technique for optimal string alignment [J].Information Processing Letters , 1999,70(3) :127-139.

[6]　李昭, 杨琪, 祝明发. 存储约束条件下的序列联配算法[J].微电

子学与计算机, 2002,19(6) :1-5.

与《生物信息学中一个优化的全局双序列比对算法》相关的范文

09-04 2014年高考生物试题分析

20XX年高考生物试题分析整体分析 20XX年高考新课标理综生物部分难度适宜，与去年相比持平，各模块的分值分布合理，突出主干知识点的考查，主要考查考生获取信息，处理信息和实验能力，突出综合考查生物学能力，引导学生回归教材，试题淡化了死记硬背，突出综合能力运用，避免了“题海战术”，减轻学生负担。其中，理综生物卷总分90分，由6题选择题、4题非选择题及两个选学题组成。试题情景源于教材又高于教材，既 ...

08-10 教研工作总结

　　本学期，在市局教研室的正确领导之下，我中心校坚持以推进新课程改革为重点，以提升质量为核心，深化课题研究，强化队伍建设，强化质量监控，优化常规管理，开展各类课改培训和教研活动，不断提升新课程教学的实施水平，真正确立与新课程相适应的教学观念和方式，提高素质教育质量。现将主要工作概括如下：　　一、总体情况：　　我是一名刚刚担当教研工作的新手，中小学教研的各项工作还不熟悉，且各项活动亟待开展，尽管 ...

06-30 深圳市市属事业单位分类改革实施方案

深办[20xx]34号根据<深圳市深化事业单位改革指导意见>(深办发[20xx]11号),现就市属事业单位分类改革提出如下实施方案. 一.分类改革的主要内容 (一)转为国有企业的事业单位现有经营服务类事业单位和部分可按市场化经营的公益类事业单位原则上转为国有企业(下称转企或转为企业),撤销事业建制,收回事业编制.具体包括: 1．经营性演出场所.新闻传媒出版.影视文艺创作.勘察设计. ...

11-14 税务系统政风行风先进集体事迹材料

税务系统政风行风先进集体事迹材料 -打造“四个环境”提升税务所行风工作水平区地税局税务所始终把税收环境建设作为行风工作的重要组成部分。特别是本年度，在市、区局的高度重视、统一领导下，我们注重领会精神、把握实质、狠抓落实，通过税收环境建设有效确保了“控税源、强征管、优服务”三大任务的完成；全年实现全口径税收1.7亿元，实现社保费收入8100万元，均超额完成了年度收入计划；税务所被评为区“先进集体 ...

05-25 2014年高考理综生物部分试题分析

20XX年高考卷理综生物部分试题分析昆明八中杨丽 20XX年高考试题分析挑选了选择题1和非选择的29进行分析：选择题题目：1．同一物种的两类细胞各产生一种分泌蛋白，组成这两种蛋白质的各种氨基酸含量相同，但排列顺序不同，其原因是参与这两种蛋白质合成的（） A．tRNA种类不同 B．mRNA碱基序列不同 c．核糖体成分不同 D．同一密码子所决定的氨基酸不同分析：本题以细胞的成分为切入点，综合 ...

02-27 现代科技文阅读六

·现代科技文阅读六　　现代科技文阅读生物全息律　　（1）在70年代末，我国学者首先发现了在生命系统中存在生物全息律。“全息”是从全息照相技术中借用过来的，全息照片的每一部分都能反映出整体的图案。生物全息律的表述形式就是：生命机体的整体与部分之间具有相似性和对应性。　　（2）________。植物叶片上的叶纹与整株植物的外形十分相似，而任意一点的碎片在显微镜下显示出来的纤维纹也与整张叶片的叶纹 ...

03-09 发票管理应对措施

　　当前，发票违法活动出现了一些新动向，制售假发票和非法代开虚开发票成为久治不愈的顽症。发票管理中多发性问题成为税收执法矛盾焦点。深入分析发票管理和执法中的突出问题，研究应对措施，制定规范管理、综合整治办法，对提高税收管理质效，及时化解执法风险，有效打击发票违法，维护市场经济秩序，具有重要现实意义。一、发票管理中存在的突出问题（一）发票打假任务更加艰巨。表现在：一是制售假发票和非法代开虚开发票 ...

10-09 推行完税审批制度构建两税征管体系

　　“一书当关”　　推行完税审批制度　　“多管齐下”　　构建两税征管体系　　自20XX年1月1日耕地占用税和契税交由地税机关征管以来，我们严格按照省局关于加强耕地占用税和契税工作要求，积极争取各级政府领导支持，主动寻求土管、房产部门配合，坚持“先税后证”原则，推行完税审批制度，构建两税征管体系，有力地推进了我市地税工作逐步走上精细化、科学化的轨道。截止9月底，全市入库“两税”税款1105万元， ...

03-05 记者行业竞选演讲稿

　各位领导，各位同事，你们好，接下来的十分钟里，我会竭尽全力地向你们证明，我胜任多媒体工作室主任一职。　　我叫XXX，1995年毕业于XXX大学信息管理系，1999年就读XXX大学计算机理论与软件专业的研究生课程班，20XX年6月获得中山大学计算机系硕士学位。　　从1995年7月开始，我先后在档案管理科、技术科工作。自1996年1月至今一直在声像科任职。多年来，我的工作可以用三句话概括：档案整理一 ...

07-14 多媒体工作室主任竞职演讲稿

各位领导，各位同事，你们好，接下来的十分钟里，我会竭尽全力地向你们证明，我胜任多媒体工作室主任一职。我叫***，**年毕业于***大学信息管理系，**年就读***大学"计算机理论与软件"专业的研究生课程班，20XX年6月获得中山大学计算机系硕士学位。从**年7月开始，我先后在档案管理科、技术科工作。自**年1月至今一直在声像科任职。多年来，我的工作可以用三句话概括：档案整理一丝不苟，外出拍摄兢 ...

随机推荐

猜你喜欢

生物信息学中一个优化的全局双序列比对算法

·商务送礼四原则

·旅行社绩效考评实施方案

·观焦裕禄事迹展览后感悟

·信访工作经验交流材料

·加强和改进机关作风建设工作总结

·高中毕业的自我鉴定

·高校党建管理系统的设计与构建

·行政执法案卷评查指导办法

·社团外联部规章制度模版

·2014最新酒驾处罚标准

·XX街创建安全生产优秀街道活动工作方案

·学校迎新晚会主持词

·幼儿园双星宝贝班级"探究式科学教育"专题总结

·培智一年级班主任工作总结

·11月份教师国旗下讲话

·4.2.2指数函数应用举例

·热爱生命读后感

·2012年度采购部长述职报告(食品企业)

·[精品]党员教育工作典型经验材料

·重庆大学城大学生旅游市场调查方案