基于隐马尔科夫模型的基因预测算法

07-27

第34卷　第4期

2008年11月

大连海事大学学报

JournalofDalianMaritimeUniversity

Vol.34　No.4Nov.,　2008

文章编号:100627736(2008)0420041204

基于隐马尔科夫模型的基因预测算法

马宝山,朱义胜

(大连海事大学信息科学技术学院,辽宁大连　116026)

摘要:为更好地从DNA序列中识别蛋白质编码区,提高计算效率,将隐马尔科夫模型与前向算法相结合,提出一种生物基因的预测算法.理论证明,该隐马尔科夫模型与经过EM算法优化后的模型具有相同的参数,能够降低计算量,提高计算效率.利用该方法对DNA序列F56F11.4a的外显子进行识别的仿真结果表明,该算法是有效的.

关键词:基因识别;隐马尔科夫模型;前向算法;EM算法中图分类号:TP18　　　　　文献标志码:A

主要的课题之一

YOON等

[2]

[1]

建立了一种csHMM,可以看作是对

隐马尔科夫模型的一种推广,它所包含的发生概率和过渡概率可随“上下文”而改变,这对研究某些具有相关特性的模型非常有效,RNA二级结构[2]

[YOON又提出了基

[]

,改进的算法.罗泽举等

[4]

Gene2predictiononMA,sheng

(CollegeofInfScienceandTechnology,DalianMaritimeUniversity,Dalian116026,China)

提出一种基于隐马

[5]

.实验表明,其性能优于支持向量机方法.朱红梅等提出一种延时隐马尔科夫模型.实验表明,该模型优于标准隐马尔科夫模型.通常,用于基因预测的隐马尔科夫模型一般需先对参数进行优化后再进行预测,且优化算法需要大量的运算.为此,本文建立基因外显子的隐马尔科夫模型,并结合前向算法,研究一种用于蛋白质编码区识别的新方法,提高了计算效率.

Abstract:PredictionalgorithmofbiologicalgeneswasdevelopedcombiningtheforwardalgorithmwithhiddenMarkovmodel(HMM)toidentifyproteincodingregionsfromDNAsequencesandimprovingcalculationefficiency.TheoreticalproofshowsthattheHMMhasthesameparameterswiththemodelopti2mizedbytheexpectationmaximization(EM)algorithm,whichcanreducethecalculationcapacityandimprovethecalculationefficiency.SimulationsontheDNAsequenceF56F11.4aalsoshowthattheproposedalgorithmiseffectiveandefficient.Keywords:geneidentification;hiddenMarkovmodel;forward

algorithm;expectationmaximization(EM)algo2rithm

1　隐马尔科夫模型

隐马尔科夫模型是由马尔科夫链扩展而来的一种随机过程过程.

1.1　隐马尔科夫模型的定义

[6]

,可以理解为一个双随机过程,分别为

系统状态变化的随机过程和由状态决定输出的随机

隐马尔科夫模型定义为λ={S,O,A,B,π},

0　引　言

真核生物基因的编码序列在DNA分子上不是

连续排列的,而是被不编码的序列隔开,其中外显子为编码序列,内含子不编码.因此,从真核生物基因组DNA序列中预测蛋白质编码区,是生物信息学最

Ξ收稿日期:2008203207.

其中:状态集合S={s1,s2,s3,…,sN},N为状态总数;观测事件集合O={o1,o2,o3,…,oM},M为观测事件总数;状态转移概率矩阵A={aij},aij表示由状态si转移到状态sj的转移概率,记为aij=

P(qt+1=sj|qt=si),1≤i≤N,1≤j≤N,qt

基金项目:重大基础研究前期研究专项资助项目(2005CCA02200),国家自然科学基金资助项目(60671061).作者简介:马宝山(1977-),男,吉林德惠人,博士研究生,讲师,E2mail:[email protected];

朱义胜(1945-),男,山东德平人,教授,博士生导师,E2mail:[email protected].

　　　　　　　　　　　　　　　　　　大连海事大学学报　　　　　　　　　　　　　第34卷　42

表示在t时刻模型所处的状态,并且有aij≥0,

Nj=1

～

bjk=[

∑a

=1;在状态sj时产生观测事件vk的概率矩阵

t=1

o=v

γ(j)]Πγ(j)][∑∑

t=1

(3)

B={bjk},bjk=P(vk|qt=sj),1≤j≤N,1≤k≤M,vk∈O;初始状态分布矩阵π={πi},其中

3　前向算法

定义前向变量:α=P(o1o2…ot,qt=t(i))表示模型λ下,在t时刻观测事件为ot、si|λ状态

πi=P(q1=si),1≤i≤N,并且有πi≥0,=1.

1.2　隐马尔科夫模型

i=1

π∑

为si的概率.则在t+1时刻,

α)t+1(j)=P(o1o2…ot+1,qt+1=sj|λ

图1为基因外显子的一种三状态隐马尔科夫模

型.模型中3个状态分别代表三联密码子的3个状态,其中每个状态只能单向运动,即1至2,2至3,3又回到1,不能反向运动或发生跳跃.因此,该模型的转移概率为a12=a23=a31=1,其余转移概率为

i=1

α(i)a∑

]bj(ot+1)

(4)

则前向算法为:

(1)初始:α1(i)=πibi(o1),1≤i≤N(2)递归:

(j(i)t

]bj(ot+1)

-1,1≤j≤N

图1)=　　(3)终止:P(O|λ

i=1

α(i)∑

2　EM算法

EM算法可以重新估计隐马尔科夫模型的参数

A、B和π,经常用来对隐马尔科夫模型进行训练,以

4　基于隐马尔科夫模型的EM算法

由图1所示隐马尔科夫模型,可以得到模型的概率转移矩阵A={aij},a12=a23=a31=1,其余转移概率为0;参数初始状态π={π0}={1,0,0}.

将初始条件代入EM算法中得到

T-1

增强隐马尔科夫模型的预测性能

[7]

.EM算法利用最

)优化的方法,使模型生成观测序列的概率P(O|λ

最大.算法的思想是先得到一组参数值,然后通过迭代计算,直到算法收敛至一个局部最优值.

定义t时刻状态为si以及t+1时刻状态为sj的概率为

ξλ)t(i,j)=P(qt=si,qt+1=sj|O,

)P(qsqsOλ

)P(O|λ

αij=

～

T-1

ξ(i,j)∑

t=1

∑P(q

=si,qt+1=sj)

T-1

γ(i)∑

t=1

∑P(q

=si)

()()

P(q1=si)+P(q2=si)+…+P(qT-1=si)

　　为方便分析,假设时间长度为3的倍数,由隐马尔科夫模型及初始条件可知P(qt=si,qt+1=sj)与P(qt=si)在t时刻总是同时为0或1,所以上式

(1)

αi(i)aijbj(ot)βt(j)=

)P(O|λ

αt(i)aijbj(ot+1)βt+1(j)=NN

αt(i)aijbj(ot+1)βt+1(j)∑∑

i=1j=1

简化为

αij=

～

其中:αt(i)和βt+1(j)分别为前向变量和后向变量,

t时刻状态为si的概率为

(TΠ3)×P(qt=si,qt=sj)

(TΠ3)×P(qt=si)

P(qt+1=sj|qt=si)=aij

(5)

同理

γt(i)=

则EM算法为

πi=γαij=[1(i),

～

j=1

ξ(i,j)∑

T-1

(2)

～

T-1

bjk=

t=1o=v

γ(j)∑

t=1

o=v

∑P(q

=sj)

t=1

ξ(i,j)]Πγ(i)][∑∑

t=1

γ(j)∑

t=1

∑P(q

=sj)

第4期　　　　　　　　　　马宝山,等:基于隐马尔科夫模型的基因预测算法　　　　　　　　　　　　43

t=1

∑

P(qt=sj,ok=vk)

5.2　仿真步骤

(1)根据编码区密码子使用的偏好性,建立三状

t=1

∑P(q

=sj)

态隐马尔科夫模型,如图1所示.模型包含3个状态1、2和3,分别代表外显子的三个状态.每个状态对

P(q1=sj,ok=vk)+…+P(qT=sj,ok=vk)=

P(q1=sj)+P(q2=sj)+…+P(qT=sj)

(T)P(qsov)

　(TΠ3)×P(qt=sj)

P(qt=sj,ot=vk)

P(qt=sj)

应的观测事件为4种,分别为四种碱基A、T、C和G.起始状态π={π0}={1,0,0}.状态转移矩阵A={aij},a12=a23=a31=1,i=1,2,3,j=1,2,3.

每个状态下取所有观测事件的概率分布B={bjk}.取已标注的DNA序列F56F11.4a中第1个外显子作

(6)

=P(ot=vk|qt=sj)=bjk　　训练序列,长度为111,其中每个3联密码子中的3个碱基分别对应状态1、2和3,统计出每个状态对应的4种碱基的个数,除以该状态出现的总数得到每个状态对应观测事件的条件概率.假设状态sj=1,2,3,碱基k=A,T,C,G,bjk=nj(k)ΠNj,其中

nj)sjk出现的总次数,Nj

实际上,即使T不为3的倍数,上面的结论也是成立

的.因此,基于文中隐马尔科夫模型的EM算法简化为

～～～π=π(7)0　aij=aij　bjk=bjk　　可见,经过EM算法优化后的系统参数与图1所示隐马尔科夫模型的参数是一致的.文中状态总

数N=3,观测事件总数M=4.由式(7)～

sj,Nj=NΠ3,N为外显子.

(2)使用EM算法对隐马尔科夫模型的参数进行优化,其中A和π初值同上,B的初始值可以是任意值,但要为正数,并且每行元素之和为1.经过EM算法优化计算后,模型的参数值B与隐马尔科夫模型的参数B相同,即

0.2644

B=B=

～

bjkN×T=12×TEM～

～

都需要重新计算aijjk.由式(3)可知,计算aij需要N×N×[(T-1)+N(T-1)]次运算,计算bjk需要N×M×(N×T+N×T)次运算,优化一次模型参数共需要计算N×N×(N+1)×(T-1)+2×N×N×M×T次.代入数值为36(T-1)+72T=108T-36.故文中提出算法的计算量比EM算法优化过程的计算量大大降低了.

～

0.12620.25370.3235

0.25910.28990.1221

0.11810.0.33830.2671

　　训练用的数据是已标注的DNA序列F56F11.4a的第1个外显子,与序列的其他4个外显子同属一

5　仿真及分析

5.1　仿真数据

个DNA序列,基因结构上具有很高的相似性,因此使用同源序列进行训练后,会使得算法对基因的预测更加准确.

(3)根据获得的模型参数,结合前向算法计算预测序列的生成概率.概率大于设定阈值的,可认为是编码序列,否则认为是非编码序列.5.3　仿真结果

本文计算使用的数据是从美国国家生物信息中心网站www.ncbi.com下载的基因序列F56F11.4a(在染色体中排列的碱基号从7949～14625,编号:AF099922),该序列共有5个外显子,如表1所示.

表1　基因序列F56F11.4a的外显子预测结构

Exon#12345

RelativetoItselfStart[***********]5

End[***********]05

RelativetoF56F11Start[***********]14275

End[***********]14625

通过EM算法优化后的模型参数与隐马尔科夫模型参数是相同的,并且预测的外显子结果也是相同的,如图2所示.图中5个黑色方框区域为预测的外显子位置.对照表1中的外显子实际位置,预测的外显子位置是正确的.

6　结　语

本文基于隐马尔科夫模型与前向算法,提出了一种基因外显子的预测算法.通过EM算法优化后

　　　　　　　　　　　　　　　　　　大连海事大学学报　　　　　　　　　　　　　第34卷　44

　quenceswithcomplexsymbolcorrelationsusingprofilecont2

ext2sensitiveHMMSandpre2screeningfilters[C].ΠΠICASSP2007,Hawaii,USA:IEEEPress,2007,1:3452348.[4]罗泽举,李艳会,宋丽红,等.基于隐马尔可夫模型的DNA序列识别[J].华南理工大学学报:自然科学版,2007,35(8):1232126.

LUOZe2ju,LIYan2hui,SONGLi2hong,etal.Recogni2tionofDNAsequencesbasedonhiddenMarkovmodels[J].

图2　预测的基因外显子结果JournalofSouthChinaUniversityofTechnology:NaturalScienceEdition,2007,35(8):1232126.(inChinese)[5]朱红梅,王家　,赵燕南,等.延时HMM在基因剪接供体

的模型参数与该隐马尔科夫模型参数相同,但该算法的计算量大大降低,计算效率明显提高.对已标注的DNA序列的预测结果表明,该方法是有效的.参考文献(References):

[1]张春霆.生物信息学的现状与展望[J].中国科技研究与

位点识别中的应用[J].计算机工程,2007,27(5):123.

ZHUHong2mei,WANGJia2xin,ZHAOYan2nan,etal.Applicationoftime2delayHMMingenesplicedonorsitesprediction[J].ComputerEngineering,2007,27(5):123.(inChinese)

[6]LRintroductiontohidden

].,SpeechandSignal,1986,3(1):4216.

[M,OPPENHEIMAV,WEINSTEINE.Maxi2mumlikelihoodnoisecancellationusingtheEMalgorithm[J].IEEETransactionsonAcoustics,SpeechandSignalProcessing,1989,37(2):2042216.

进展,2000,22(6):17220.

ZHANGChun2ting.Thecurrentstatusandtheprospectofbioinformatics[J].WorldSci2techR&D,2000,22(6):17220.(inChinese)

[2]YOONBJ,VAIDYANATHAN2tificationandofburied].ProcessingMagazine,2007,1)64274.

[3]YOONBJ,VAIDYANATHANPP.Fastsearchofse2

(上接第40页)

参考文献(References):

[1]JINGLi2ping,NGMK,HUANGJZ.Anentropy

weightingk2meansalgorithmforsubspaceclusteringofhigh2dimensionalsparsedata[J].IEEETransactionsonKnowledgeandDataEngineering,2007,19(8):102621041.

[2]HUANGJZ,NGMK,RONGH,etal.Automatedvari2ableweightingink2meanstypeclustering[J].IEEETransPatternAnalysisandMachineIntelligence,2005,27(5):1212.

[3]FRIGUIANDH,NASRAOUIO.Unsupervisedlearningofprototypesandattributeweights[J].PatternRecognition,2004,37(3):5672581.

[4]CHANY,CHINGW,NGMK,etal.Anoptimizationalgorithmforclusteringusingweighteddissimilaritymea2sures[J].PatternRecognition,2004,37(5):9432952.[5]DOMENICONIC.Locallyadaptivetechniquesforpattern

classification[D].NewYork:GeorgeMasonUniversity,2002.

[6]DOMENICONIC,PAPADOPOULOSD,GUNOPULOS

D,etal.Subspaceclusteringofhighdimensionaldata[C]ΠΠProceedingsoftheFourthSIAMInternationalConferenceonDataMining.Florida,USA:[s.n.].2004:5172521.[7]杨善林,李永森,胡笑旋,等.K2means算法中的k值优化

问题研究[J].系统工程理论与实践,2006(2):972101.

YANGShan2lin,LIYong2sen,HUXiao2xuan,etal.Op2timizationstudyonkvalueofk2meansalgorithm[J].Sys2temsEngineering-Theory&Practice,2006(2):972101.(inChinese)

[8]胡清河,张　爽,汪定伟.神经网络在项目评估中的应用[J].东北大学学报:自然科学版,2007,28(2):1692171.HUQing2he,ZHANGShuang,WANGDing2wei.Applica2tionofneuralnetworktoprojectevaluation[J].JournalofNortheasternUniversity:NaturalScience,2007,28(2):1692171.(inChinese)

[9]宋擒豹,沈钧毅.Web页面和客户群体的模糊聚类算法[J].小型微型计算机系统,2001,22(2):2292232.SONGQin2bao,SHENJun2yi.Fuzzyclusteringalgorithmsforwebpagesandcustomersegments[J].Mini2microSys2tems,2001,22(2):2292232.(inChinese)

与《基于隐马尔科夫模型的基因预测算法》相关的范文

12-29 登山行动重大项目申报材料

　　为了进一步加强本市的基础研究工作，提升*科技持续创新能力和国际学术地位，围绕国家和*市中长期科技发展规划和“登山行动计划”的要求和重点任务，针对生命科学、信息科学、材料科学等领域的前沿科学问题。开展以应用为导向的创新研究，特发布本指南。　　一、研究专题和期限　　专题一、成形制造中材料微观结构与应力场控制的研究　　研究目标、内容　　成形制造过程中的材料微观结构与应力场的控制是高精度、高性 ...

08-29 科技的灵魂是创新

尊敬的各位领导、评委，亲爱的老师，同学们：大家好! 　　我叫虞澜，很高兴和各位交流，刚刚看到同学们慷慨陈辞、侃侃而谈，我也倍受鼓舞。是啊，科技给人类带来的冲击实在是太大了，科技所涉及到的方方面面实在是太广了，那么今天我仅就时下最时髦的一个话题-创新，来谈谈我对科技走进生活的感受。朋友，你还记得人类历史上第一台电子计算机吗?那可是美国的宾西法尼亚大学创造的人类一大奇迹啊!可是它的机身太笨重，有好 ...

06-29 高一数学下学期教学计划

一、指导思想：使学生在九年义务教育数学课程的基础上，进一步提高作为未来公民所必要的数学素养，以满足个人发展与社会进步的需要。具体目标如下。 1．获得必要的数学基础知识和基本技能，理解基本的数学概念、数学结论的本质，了解概念、结论等产生的背景、应用，体会其中所蕴涵的数学思想和方法，以及它们在后续学习中的作用。通过不同形式的自主学习、探究活动，体验数学发现和创造的历程。 2．提高空间想像、抽象概括、 ...

07-29 高一数学下学期教学计划2

02-19 第四章现代文阅读第三节辨别和筛选文中重要信息

［第四章现代文阅读］ ·第三节辨别和筛选文中重要信息一、考纲要求此项考查学生对文章的理解，能力层级要求是B。 从读物中辨别各种信息的性质，并辨别筛选自己所需要的信息，是达到阅读目的、获得所需信息的重要手段。这里所说的信息，是指通过阅读而得到的知识、消息、情报或代表某些信息的词语、符号、数据、图形等。 二、知识结构 1.哪些是重要信息 2.如何辨别、筛选重要信息 三、知识点、能力点提示 ...

10-29 商务网站项目策划书

商务网站项目策划书 yIXININFoRmATIoNBUSINESSco,.LTD wIRAN No：210105w04 December18,20xx ★ PleaseProtectthecopy’scopyrightforAllReserve★ wESTRAGE.com商务网站项目策划书正文摘要从新经济背景、区域经济特点、网络经济与信息服务市场现状、模型分析等分析证明，实施本项目， ...

09-08 留学澳大利亚心得与体会

留学澳大利亚心得与体会 20XX年1月5日，作为黄委第6期青年科技干部赴澳大利亚学习的Group成员之一，带着领导和同事的殷切期望以及亲人的嘱托，我来到了位于Brisbane的昆士兰大学（UniversityofQueensland），开始了为期28周的学习。在紧张而又忙碌的生活里，日历不知不觉翻到了20XX年6月27日。回首经过的25周的学习、生活和实习，感触和体会颇多。 1学习经历雅思考试 ...

04-18 计算机科学与技术专业(本科)毕业设计(论文)要求

（一）教学目标　　毕业设计是完成教学计划达到本科生培养目标的重要环节，是教学计划中综合性最强的实践教学环节，它对培养学生的思想、工作作风及实际能力、提高毕业生全面素质具有很重要的意义。　　毕业设计的教学目标应使学生在以下几方面的能力得到训练和提高：　　1．综合运用所学专业知识分析、解决实际问题的能力；　　2．掌握文献检索、资料查询的基本方法以及获取新知识的能力；　　3．计算机软件、硬件或 ...

02-10 电子商务毕业论文实施计划

电子商务毕业论文实施计划一、毕业论文的目的毕业论文是培养学生综合运用本专业基础理论，基本知识和基本技能分析解决实际问题能力的一个重要环节。它是本专业各个先修教学环节的继续深化和检验。通过毕业论文使学生在实际的电子商务系统管理与工程实际中，充分利用所学的专业知识，理论联系实际，独立开展工作，从而使学生具备从事电子商务工作的实际能力。毕业论文的目的具体有：培养学生综合运用所学知识和技能，解决电子 ...

08-17 标兵现场演讲稿

标兵现场演讲稿尊敬的各位老师，亲爱的同学们：大家晚上好！我是来自电子与信息学院08级的同学曹x，今天很荣幸站在这里与大家一起回忆我大学生活的点点滴滴。把老师和家长的期望背在肩上，将高中岁月获得的荣誉藏进行囊，我在自己18岁生日的那一天走进了华南理工大学，人生的新一段旅程开始起航。刚进大学的时候，和很多人一样，告别了“小学生、初中生、高中生”的身份，我在思考如何重新诠释“大学生”这个充满希 ...

随机推荐

猜你喜欢

基于隐马尔科夫模型的基因预测算法

·简报(2)我院召开深入学习实践科学发展观活动动员大会

·突出战略地位发展基础教育

·硕士毕业生毕业感言

·小学五年级学生班主任评语

·软环境宣传教育交流材料

·初三安全教育教学计划

·初中语文古诗词赏析总复习卷

·快乐与幸福之源

·落花生设计

·北大青鸟学生讲我校开学典礼流程

·镇党委书记述职报告

·在杨善洲同志先进事迹报告会上的讲话

·世界强国的十大黄金定律

·现代比较优势理论_当代国际贸易理论的理论基准

·螺栓扭矩与预紧力的区别,一个视频全看懂!

·吴学昭忆杨绛:丧事从简先生遗体穿的是80年代的大衣

·初三英语教学案例

·如何开好幼儿园家长会

·学习数学心得体会数学教学工作心得

·一年级看图写话夏天

基于隐马尔科夫模型的基因预测算法

与《基于隐马尔科夫模型的基因预测算法》相关的范文

·简报(2)我院召开深入学习实践科学发展观活动动员大会

·突出战略地位发展基础教育

·硕士毕业生毕业感言

·小学五年级学生班主任评语

·软环境宣传教育交流材料

·初三安全教育教学计划

·初中语文古诗词赏析总复习卷

·快乐与幸福之源

·落花生设计

·北大青鸟学生讲我校开学典礼流程

·镇党委书记述职报告

·在杨善洲同志先进事迹报告会上的讲话

·世界强国的十大黄金定律

·现代比较优势理论_当代国际贸易理论的理论基准

·螺栓扭矩与预紧力的区别,一个视频全看懂!

·吴学昭忆杨绛:丧事从简 先生遗体穿的是80年代的大衣

·初三英语教学案例

·如何开好幼儿园家长会

·学习数学心得体会 数学教学工作心得

·一年级看图写话夏天

·吴学昭忆杨绛:丧事从简先生遗体穿的是80年代的大衣

·学习数学心得体会数学教学工作心得