基于翻译规则的统计机器翻译

03-26

第４０卷　第２期２０１３年２月计算机科学

ＣｏｍｕｔｅｒｃｉｅｎｃｅＳＶｏｌ．４０Ｎｏ．２

Ｆｅｂ２０１３基于翻译规则的统计机器翻译

刘　颖　姜　巍

（）清华大学中文系　北京１０００８４

摘　要　扩展ＨＭＭ模型可以解决词语对齐结果与句法约束冲突，从而更好地进行词语对齐。在短语对齐基础上利该算法可以处理非乔姆用目标语言的短语结构树抽取翻译规则。采用扩展ＣＹＫ算法ＣＹＫＡ＋作为系统的解码器，斯基范式的翻译规则；采用两轮解码算法在解码过程中整合语言模型。实验表明，与传统词语对齐模型相比，改进的并且翻译结果的ＢＨＭＭ词语对齐模型具有更高的对齐准确率，ＬＥＵ评测得分更高。采用翻译规则的系统在不同数据集上具有更稳定的翻译结果。两轮解码算法与立方剪枝算法具有相近的解码质量，但前者解码速度更快。关键词　统计机器翻译，扩展ＨＭＭ模型，翻译规则，ＣＹＫ＋算法，ＢＬＥＵ评分中图法分类号　ＴＰ３９１．１　　　文献标识码　Ａ　

ＳｔａｔｉｓｔｉｃａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎＢａｓｅｄｏｎＴｒａｎｓｌａｔｉｏｎＲｕｌｅｓ　　　　　　

ＬＩＵ　ＹｉｎＩＡＮＧ　Ｗｅｉ　Ｊｇ

（，，）ＤｅａｒｔｍｅｎｔｏｆＣｈｉｎｅｓｅＬａｎｕａｅａｎｄＬｉｔｅｒａｔｕｒｅＴｓｉｎｈｕａＵｎｉｖｅｒｓｉｔＢｅｉｉｎ１０００８４，Ｃｈｉｎａ　　　　　　ｐｇｇｇｙｊｇ　

ＡｂｓｔｒａｃｔＩｍｒｏｖｅｄｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌｗａｓｕｓｅｄｔｏａｌｉｎｗｏｒｄｓａｎｄｓｏｌｖｅｔｈｅｉｎｃｏｎｓｉｓｔｅｎｃｂｅｔｗｅｅｎｗｏｒｄａｌｉｎｍｅｎｔ　　　　　　　　　　　　　　　ｐｇｙｇ　ｈｒａｓｅｓｔｒｕｃｔｕｒｅｓ．ＴｒａｎｓｌａｔｉｏｎｒｕｌｅｓｗｅｒｅｅｘｔｒａｃｔｅｄｂａｓｅｄｏｎａｌｉｎｅｄｈｒａｓｅｓａｎｄＥｎｌｉｓｈｈｒａｓｅｔｒｅｅｓ．Ａｎｅｘｔｅｎｄｅｄａｎｄ　　　　　　　　　　　　　　ｐｇｐｇｐＣＹＫ－ＣＹＫ＋ａｌｏｒｉｔｈｍ　ｗａｓｕｓｅｄａｓｔｈｅｄｅｃｏｄｅｒａｎｄａｔｗｏｄｅｃｏｄｉｎａｌｏｒｉｔｈｍ　ｗａｓｆｏｒｉｎｔｅｒｒａｔｉｎｔｈｅａｓｓｒｏｏｓｅｄ　　　　　　　－ｐ－　　　ｇｇｇｇｇｐｐ　　，ｍｏｄｅｌｄｕｒｉｎｄｅｃｏｄｉｎｗｈｉｃｈｃａｎｄｅｃｏｄｅｎｏｎｈｏｍｓｋｎｏｒｍａｌｆｏｒｍ．Ｔｈｅｅｘｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈｅｌａｎｕａｅ　　　　　－Ｃ　　　　　ｇｇｙｐｇｇ　　

ＢＬＥＵｕａｌｉｔｓｃｏｒｅｏｆｉｍｒｏｖｅｄＨＭＭｉｓｈｉｈｅｒｔｈａｎｔｈｅｓｃｏｒｅｏｆＨＭＭ，ａｎｄｔｈｅｔｒａｎｓｌａｔｉｏｎｏｆｔｒａｎｓｌａｔｉｏｎｒｕｌｅｓｉｓｂｅｔ　　　　　　　　　　　　　　　　　　－ｑｙｐｇ　ｈｒａｓｅａｓｓｔｅｒｔｈａｎｂａｓｅｄｍａｃｈｉｎｅｔｒａｎｓｔｉｏｎ．ＴｈｅＢＬＥＵｓｃｏｒｅｏｆｔｗｏｄｅｃｏｄｉｎａｌｏｒｉｔｈｍｉｓｃｌｏｓｅｔｏｔｈｅｓｃｏｒｅｏｆｃｕｂｅ　　－　　　　　　－ｐ－　　　　　　　ｐｇｇ　ａｌｏｒｉｔｈｍａｎｄｄｅｃｏｄｉｎｔｉｍｅｃｏｓｔｓｌｅｓｓ．ｒｕｎｅ　　　　　ｇｇｐ　

，（，，ＫｅｗｏｒｄｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎＩｍｒｏｖｅｄｈｉｄｄｅｎｍａｒｋｏｖｍｏｄｅｌＨＭＭ）ＴｒａｎｓｌａｔｉｏｎｒｕｌｅＣＹＫ＋ａｌｏｒｉｔｈｍ，　Ｓ　　　　　　ｐｇｙＢＬＥＵ　

基于句法的翻译模型利用句法分析器或树库的信息，期望获得句法信息的指导。基于句法的模型应当能够兼容所有的短语，这样才能既充分保留基于短语的模型的优点，又能发挥句法信息的指导作用。Ｃｈｉａｎ００５年实现了对双语短ｇ在２语的完全兼容。Ｙａｍａｄａ和Ｋｎｉｈｔ提出了真正意义上的基于ｇ

１０］

。其输入是一棵句法树，输出是句法的树到串的翻译模型［

１　引言

ＩＢＭ的Ｂｒｏｗｎ等人于１９９３年提出了基于词对齐的５个

［］

复杂度递增的模型—实现了统计机器翻ＩＢＭ模型１至５１，

译。简称ＨＭＭ）的１９９６年，Ｖｏｅｌ提出基于隐马尔克夫模型（ｇ

］２

。Ｏ统计翻译［实现了ｃｈ系统比较了ＩＢＭ模型和ＨＭＭ模型，［］

ＩＢＭ模型１至模型５和ＨＭＭ模型词语对齐Ｇｉｚａ＋＋３。

一个句子。Ｙａｍａｄａ和Ｋｎｉｈｔ的树串模型平均对齐评分高于ｇＩＢＭ模型５平均对齐评分。

近年来，国内也逐渐开展了统计机器翻译研究。在统计机器翻译学术领域，中科院计算所、自动化所、软件所、哈尔滨清华大学、东北大学、北京大学、厦门大学等单位联工业大学、

，丝路”近年来发表合推出了基于短语的统计机器翻译系统“了若干有影响的研究工作。

总体来说，基于短语的模型是目前统计机器翻译中主流的方法，模型简单，翻译质量较高。但短语对齐的质量依赖于词语对齐。ＩＢＭ模型１至５和ＨＭＭ模型可能导致词语对齐结果与句法约束冲突，本文在ＨＭＭ模型基础上利用短语结构树距离来解决这个冲突，从而提高词语对齐质量。串－树

ＨｅｉｄｉＪ．Ｆｏｘ指出，Ｇｉｚａ＋＋的词语对齐结果与句法约束出现　冲突的可能性很高，Ｇｉｚａ＋＋存在大量这类错误的词语对齐

４］

。Ｏ结果［ｃｈ等人提出的对齐模板技术可以解决数据稀疏问５］

。Ｏ题［ｃｈ用最大熵模型将各种各样的语言特征和统计信息６］

。在统计机器翻译中比较深入地利融合到统计机器翻译中［

７］

、用句法信息的有吴德恺的反向转换文法［Ｃｈｉａｎｇ提出的层［０］８，９］

、、次化短语模型［Ｙａｍａｄａ和Ｋｎｉｈｔ的树串模型１Ｇａｌｌｅｇｙ１１，１２］、的树串模型［刘洋和刘群的树到串对齐模板的翻译模１３］１４］

、型［宗成庆的改进树串模型［和Ｍｅｌａｍｅｄ的多文本语１５］

法［等。Ｃ运用柱搜ｈｉａｎｇ的模型借用了形式化语法的结构，

索的ＣＹＫ句法分析器。

）到稿日期：资助。２０１２０５１６２０１２０８１７２０１１１０８１０１０－－　返修日期：－－　　本文受教育部自主科研项目（

，：；，刘　颖（女，博士，副教授，主要研究方向为自然语言处理，姜　巍（男，硕士，主要研究方向１９６９－）Ｅ－ｍａｉｌｓｉｎｈｕａ．ｅｄｕ．ｃｎ１９８３－）ｉｎｌｉｕ＠ｔｙｇｇ为自然语言处理。

·２１４·

与《基于翻译规则的统计机器翻译》相关的范文

06-04 期末学业水平测试9年级语文学科质量分析报告

期末学业水平测试9年级语文学科质量分析报告一、命题分析 1.试卷结构全卷满分为150分，共五大题，22小题，选择题（共10题）与非选择题（共11题），分值比约为1：3。考查内容是9（上）全册及部分7、8年级诗词内容。各种题型的数量和权重分布情况如下：第一部分积累与运用，共34分，占全卷分值的23%，其中语文知识积累与运用19分，占全卷分值的13%，古诗文积累与运用15分，占全卷分值的10% ...

09-17 2013年-2014年学年高三部分学校调研测试语文试卷分析

20xx-20xx学年高三部分学校调研测试语文试卷分析一、命题意图模拟高考：题数题型同高考，答题形式仿高考指导复习：知识技能重技巧，答题标准求规范关注现实：材料信息传时效，国计民生须知晓控制难度：平易之中设陷阱，清晰现状指方向本次考试语文命题以20XX年高考语文课标卷《考试大纲》为依据，参照20XX年高考语文新课标卷的考查内容和试卷结构，在全面考查的基础上，重点考查语文能力。整个试卷 ...

10-21 社会实践活动总结报告:沟通没有那么难

社会实践活动总结报告:沟通没有那么难作为这个暑假的社会实践活动，我在xx文化美国校园文化夏令营担任志愿者。志愿者的主要工作是协助外教管理自己的小组，参与小组活动，当然，更要当好语言的桥梁。参与这个夏令营的中国学员的年龄段为7至18岁，而我则在小学三年级组进行志愿服务。有了去年与小孩子打交道的经验，面对这群小鬼自然没什么好担心的了。夏令营的活动每天上午八点半开始，中午十一点半结束。虽然路程不是太 ...

02-27 第一学期期末质量检测九年级语文试卷分析

第一学期期末质量检测九年级语文试卷分析随着20XX年的到来，期末考试的帷幕渐渐落下，这次考试给我留下了许多值得深思的东西。一试卷特点整套试卷紧扣中考题型，难易程度适中，覆盖面较广，全面考查了学生对初三年级所学两册书的内容。无论是基础知识的考查还是阅读能力的检测都能显示出平日教与学的扎实程度。客观地说试题不算难，但是就我们的学生答题情况看却不容乐观。二学生成绩最高分：分最低分：分 ...

08-09 酒店销售员实习报告

20XX年3月1日,大四下学期,我来到祖国首都北京,在一家五星级酒店开始了我的实习生涯. xxxxxxx,是中国首都机场集团下属的一家集五星级商务酒店和商住两用公寓于一体的中外合资企业,坐落在朝阳区东三环南路17号华威桥西南,南接京津塘高速,直通北京经济技术开发区:北指首都机场路,迩邻中国最大古玩城:首都图书馆.龙潭湖公园.北京游乐园.劲松民间艺术品旧货市场.全聚德烤鸭店.国贸大厦诸般文化.娱东. ...

12-18 高三第二次质量检测语文试卷分析

高三第二次质量检测语文试卷分析本次阅卷，在任务均分的情况下，博爱县、温县一中表现出良好的团队精神，团结互助，最早最好完成了任务；沁阳市和武陟县在任务重的情况下，任劳任怨，勤恳敬业，保质保量按时完成了任务；焦作外国语学校、焦作十二中、焦作四中在本次阅卷中也提前完成任务。一、命题意图模拟高考，指导复习，冲刺警示，提升能力。本次考试语文命题以20XX年高考语文课标卷《考试大纲》为依据，参照20X ...

03-23 文言文的翻译

·文言文的翻译　　文言文翻译是一种性练习，它既能考查文言文基础知识的运用，又能提高文言文阅读能力和学生的书面表达能力。文言文翻译要求字字落实，以直译为主，意译为辅。要尽量保持原文的语言风格。翻译的步骤，首先要通读全文，把握文章大意，做到心中有数，切忌一上来就匆匆忙忙翻译。在翻译时，遇到疑难词句，可暂时放过，等译完上下文，再进行推敲。译完全文后，再通读一遍，检查校正，以防误译、漏译和曲译。翻译时的 ...

03-08 "国培计划"之反思日志(4-5)

“国培计划”之反思日志（4-5） 12月6日下午天气：阴转小雨星期一今天下午有幸聆听了南昌市教研室特聘教研员赵静贞老师的小专题研究的讲座。其中赵老师谈到了如何优化教学设计，她深刻地剖析和精辟的见解使我们豁然开朗，让我感受到山重水复疑无路，柳暗花明又一村的境界。赵老师在讲座中从三方面就如何优化教学设计进行了阐述；一方面具体分析了教学设计的程序；另一方面详细讲解了教学过程的设计，再次是教学评价的 ...

03-15 翻译专业实习体会:译路漫漫

翻译专业实习体会：译路漫漫知悉xx是同学介绍，当时已是20XX年9月尾，距离研究生考试只有三个月，怀着对xx执着的信任以及对自己翻译水平提高的愿望，我毅然参报了xx的翻硕备考班课程。而之后所经历的一切亦令我感触颇多：首先是xx的老师们，有机智灵活的xx老师，幽默风趣的xx老师，还有负责各项事务美丽大方的xx老师，他们有的是长期从事笔译工作的专职翻译，有的是口译经验丰富的专业口译员，对于机械、地 ...

04-09 高中阶段招生统一考试试卷分析

高中阶段招生统一考试试卷分析为期五天的“乐山市20XX年高中阶段教育招生统一考试”评卷活动已结束，此次考试本着考查学生知识运用情况与语言感悟能力为指导方针，分数严格控制在人平82-85分之间。阅卷工作完后，我个人针对本次中考试题及每小题对应的答题方法技巧做一些简要的分析：全卷总分150分，客观题24分，主观题126分，具体分值安排如下：一、语文基础知识（15分，每小题3分）考查方向：1、基 ...

随机推荐

猜你喜欢

基于翻译规则的统计机器翻译

·我的语文实践观

·深入学习实践科学发展观活动个人剖析材料

·两会学习心得:关注两会关注民生

·综合考核条例

·防冻液的主要功能和性能要求

·管理人员绩效考核工作方案

·金口诀分类预测

·[暗黑血统2]亡灵之书收集

·引用诗句点亮文章

·外交部长王毅就中国外交政策和对外关系答中外记者问

·大学生军训总结

·商业物业管理服务方案

·畜牧局2006年机关党建工作总结

·厂区物料部原材料仓库工作总结

·腐败风险预警防控工作总结

·大学歌剧演出策划书

·学困生心得体会

·市政排水处个人年终总结

·在公共生活中自主构建公共意识

·股权转让纠纷案判决书