基于翻译规则的统计机器翻译
第40卷 第2期2013年2月计算机科学
ComutercienceSVol.40No.2
Feb2013基于翻译规则的统计机器翻译
刘 颖 姜 巍
()清华大学中文系 北京100084
摘 要 扩展HMM模型可以解决词语对齐结果与句法约束冲突,从而更好地进行词语对齐。在短语对齐基础上利该算法可以处理非乔姆用目标语言的短语结构树抽取翻译规则。采用扩展CYK算法CYKA+作为系统的解码器,斯基范式的翻译规则;采用两轮解码算法在解码过程中整合语言模型。实验表明,与传统词语对齐模型相比,改进的并且翻译结果的BHMM词语对齐模型具有更高的对齐准确率,LEU评测得分更高。采用翻译规则的系统在不同数据集上具有更稳定的翻译结果。两轮解码算法与立方剪枝算法具有相近的解码质量,但前者解码速度更快。关键词 统计机器翻译,扩展HMM模型,翻译规则,CYK+算法,BLEU评分中图法分类号 TP391.1 文献标识码 A
StatisticalMachineTranslationBasedonTranslationRules
LIU YinIANG Wei Jg
(,,)DeartmentofChineseLanuaeandLiteratureTsinhuaUniversitBeiin100084,China pgggyjg
AbstractImrovedhiddenMarkovmodelwasusedtoalinwordsandsolvetheinconsistencbetweenwordalinment pgyg hrasestructures.TranslationruleswereextractedbasedonalinedhrasesandEnlishhrasetrees.Anextendedand pgpgpCYK-CYK+alorithm wasusedasthedecoderandatwodecodinalorithm wasforinterratintheassroosed -p- gggggpp ,modeldurindecodinwhichcandecodenonhomsknormalform.Theexerimentalresultsshowthelanuae -C ggypgg
BLEUualitscoreofimrovedHMMishiherthanthescoreofHMM,andthetranslationoftranslationrulesisbet -qypg hraseassterthanbasedmachinetranstion.TheBLEUscoreoftwodecodinalorithmisclosetothescoreofcube - -p- pgg alorithmanddecodintimecostsless.rune ggp
,(,,KewordstatisticalmachinetranslationImrovedhiddenmarkovmodelHMM)TranslationruleCYK+alorithm, S pgyBLEU
基于句法的翻译模型利用句法分析器或树库的信息,期望获得句法信息的指导。基于句法的模型应当能够兼容所有的短语,这样才能既充分保留基于短语的模型的优点,又能发挥句法信息的指导作用。Chian005年实现了对双语短g在2语的完全兼容。Yamada和Kniht提出了真正意义上的基于g
10]
。其输入是一棵句法树,输出是句法的树到串的翻译模型[
1 引言
IBM的Brown等人于1993年提出了基于词对齐的5个
[]
复杂度递增的模型—实现了统计机器翻IBM模型1至51,
译。简称HMM)的1996年,Voel提出基于隐马尔克夫模型(g
]2
。O统计翻译[实现了ch系统比较了IBM模型和HMM模型,[]
IBM模型1至模型5和HMM模型词语对齐Giza++3。
一个句子。Yamada和Kniht的树串模型平均对齐评分高于gIBM模型5平均对齐评分。
近年来,国内也逐渐开展了统计机器翻译研究。在统计机器翻译学术领域,中科院计算所、自动化所、软件所、哈尔滨清华大学、东北大学、北京大学、厦门大学等单位联工业大学、
,丝路”近年来发表合推出了基于短语的统计机器翻译系统“了若干有影响的研究工作。
总体来说,基于短语的模型是目前统计机器翻译中主流的方法,模型简单,翻译质量较高。但短语对齐的质量依赖于词语对齐。IBM模型1至5和HMM模型可能导致词语对齐结果与句法约束冲突,本文在HMM模型基础上利用短语结构树距离来解决这个冲突,从而提高词语对齐质量。串-树
HeidiJ.Fox指出,Giza++的词语对齐结果与句法约束出现 冲突的可能性很高,Giza++存在大量这类错误的词语对齐
4]
。O结果[ch等人提出的对齐模板技术可以解决数据稀疏问5]
。O题[ch用最大熵模型将各种各样的语言特征和统计信息6]
。在统计机器翻译中比较深入地利融合到统计机器翻译中[
7]
、用句法信息的有吴德恺的反向转换文法[Chiang提出的层[0]8,9]
、、次化短语模型[Yamada和Kniht的树串模型1Gallegy11,12]、的树串模型[刘洋和刘群的树到串对齐模板的翻译模13]14]
、型[宗成庆的改进树串模型[和Melamed的多文本语15]
法[等。C运用柱搜hiang的模型借用了形式化语法的结构,
索的CYK句法分析器。
)到稿日期:资助。201205162012081720111081010-- 返修日期:-- 本文受教育部自主科研项目(
,:;,刘 颖(女,博士,副教授,主要研究方向为自然语言处理,姜 巍(男,硕士,主要研究方向1969-)E-mailsinhua.edu.cn1983-)inliu@tygg为自然语言处理。
·214·