人工智能在自然语言理解技术上的应用_魏晓宁
科 技 论 坛
中国科技信息2005年第19期 CHINA SCIENCE AND TECHNOLOGY INFORMATION Oct.2005
人工智能在自然语言理解技术上的应用
魏晓宁 南通大学计算机科学与技术学院
摘 要:本文介绍了自然语言理解技术的特点与发展,阐述了人工智能技术在自然语言理解技术方面的应用。关键词:人工智能;自然语言;HNC理论;智能搜索
Abstract: In this paper, the character and the development about the technology of natural language comprehension are introduced. Then based on what has proposed, the applicationof artificial intelligence to the technology of natural language comprehension is analyzed.Keywords: artificial intelligence; natural language; HNC theory; intelligent search语言是人类区别于其它动物的重要标志之一。人借助于自然语言交流思想,达到相互了解,组成人类社会;人还借助于自然语言进行思维,认识事物的本质和规律,创造了人类丰富的物质文明和精神文明。
自然语言理解就是人工智能(ArtificialIntelligence)的主要研究内容之一,是用计算机模拟人类智能的一个重要方面。人们通过程序使计算机能进行一些思维推理,使其具备一定的环境适应、自动学习、自动决策等人类高级智能。
理解系统的研究近年来也有进展。
究,我国HNC联合攻关组应用HNC理论也研制开发了相关产品。如他们开发的第一个产品“HNC智能汉语拼音转换系统”,通过该系统,把一个用汉语拼音写出来的句子,不标声调,词语之间不留间隔,输入到计算机中,屏幕上就完整地显示出汉字的语句。这说明计算机已经读懂句子的意思了。它标志着计算机理解语言这个困扰人类半个多世纪的世界科学难题有了重大突破,而且已经从理论探索阶段跨越到技术开发和产品研制的阶段。
近年来自然语言理解技术在搜索技术方面得到了广泛的应用,将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,具有信息服务的智能化、人性化特征。它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,为用户提供采用自然语言进行信息的检索,从而为他们提供更方便、更确切的搜索服务。现在,已经有越来越多的搜索引擎宣布支持自然语言搜索特性,比如Accoona、Google、网易等。
IBM宣称,即将推出的OmniFind软件采用了UIMA架构(Unstructured InformationManagement Architecture),能将字词背后的含意解释出来,再输出合适的搜索结果。以往此类人工智能软件不易开发,一大原因是计算机的运算速度不足,无法在短时间内得出所需结果,如今硬件运算速度大增,OmniFind才有实用价值。如在输入1篇描述加拿大政府现况文章之后,再询问软件加拿大总理的名字,软件会显示正确的答案。
此外,在自然语言理解技术智能短信服务、情报检索、人机对话等方面也具有广阔的发展前景和极高的应用价值,并有一些阶段性成果出现在商业运用中。我们相信,自然语言理解技术的发展也必将增进社会的交流,促进经济、文化、科技的进步。
参考文献:[1]蔡自兴,徐光裕著.人工智能及其应用.清华大学出版社.2003.9[2] 王永庆著.人工智能原理与方法.西安交大出版社.2001.10
[3] 黄曾阳.HNC(概念层次网络)理论——计算机理解语言研究的新思路.清华大学出版社.1998年11月
[4] 董振东.机器翻译研究的展望 《计算机世界》.1998年第13期作者简介:
魏晓宁,出生年月:1977年12月,性别:女 ,籍贯:江苏省南通市 ,民族:汉族 ,工作单位:南通大学计算机科学与技术学院 , 苏州大学计算机科学与技术学院04级高教在职硕士.
二、我国自然语言理解技术的发展
我国自然语言理解的研究起步较晚,国外在1963年就建成了早期的自然语言理解系统,而我国直到1980年才建成了两个汉语自然语言理解模型,都以人机对话的方式来实现。
中科院声学研究所黄曾阳研究员经过潜心研究,创立的概念层次网络理论(HierarchicalNetwork of Concepts)是我国关于自然语言理解处理的一个重大理论体系。在各方的努力和推动下,HNC的研究逐渐得到学术界的承认,先后列入了国家“九五”攻关项目、国家973基础研究战略规划项目。
HNC理论以概念化、层次化、网络化的语义表达为基础。HNC理论把人脑认知结构分为局部和全局两类联想脉络,认为对联想脉络的表达是语言深层(即语言的语义层面)的根本问题。它的中心目标是建立自然语言的表述和处理模式,使计算机能够模拟人脑的语言感知功能。该理论使自然语言理解获得了突破性的进展,它所蕴涵的精深丰富的思想对人工智能、语言学、计算机科学和认知科学等都具有重要的理论和应用价值,对中文信息处理和汉语研究尤其具有实际意义。
HNC理论提出了可供工程实现的完整的自然语言理解的理论框架,它是一个面向整个自然语言理解的强大而完备的语义描述体系,包括语句处理、句群处理、篇章处理、短时记忆向长时记忆扩展处理、文本自动学习处理。HNC理论的出发点就是运用两类联想脉络来“帮助”计算机理解自然语言。自然语言的词汇是用来表达概念的,因此,HNC建立的词汇层面的局部联想脉络体现为一个概念表达体系。概念分为抽象概念与具体概念。HNC理论的概念表达体系侧重于抽象概念的表达,对具体概念采取挂靠近似表达方法。
自然语言理解技术大致可分为机器翻译、语义理解及人机会话技术几个方面。其中机器翻译MT (machine translation),是利用计算机把一种自然语言转变成另一种自然语言的过程。语义理解通过将语言学的研究成果和计算机技术结合在一起,实现了对词语在语义层次上的理解。人机会话技术可以为计算机提供下一代的人机交互接口,实现从文字接口、图形接口到自然语言接口的革命,同时在家用电器的人性化设计方面有着广泛的应用前景,其技术内涵主要包括语音识别、语音合成两个核心部分。
一、自然语言理解技术及其发展
从人工智能的观点看,自然语言理解的任务是建立一种计算机模型,这种计算机模型能够给出像人那样理解、分析并回答自然语言(即人们日常使用的各种通俗语言)的结果。现在的计算机的智能还远远没有达到能够像人一样理解自然语言的水平,而且在可预见的将来也达不到这样的水平。因此,关于计算机对自然语言的理解一般是从实用的角度进行评判的。如果计算机实现了人机会话,或机器翻译,或自动文摘等语言信息处理功能,则认为计算机具备了自然语言理解的能力。
自然语言处理就是研究如何能让计算机理解并生成人们日常所使用的(如汉语、英语等)语言,使得计算机懂得自然语言的含义,并对人给计算机提出的问题,通过对话的方式,用自然语言进行回答。目的在于建立起一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活动。自然语言理解系统可以用作专家系统、知识工程、情报检索、办公室自动化的自然语言人机接口,有很大的实用价值。
面向人工智能的自然语言处理着重于研究自然语言的计算机理解。自然语言处理研究在电子计算机问世之初就开始了。20世纪60年代末期,M.R.Quillian提出了语义网络理论,用于描述概念之间的关系,1973年,Roger Schank提出了概念依存理论,1975年,Marvin Minsky提出了框架理论,这些都是自然语言理解的基础性研究。早期的自然语言理解系统出现于20世纪60年代初期,这些系统是建立在对词类和词序分析的基础之上的。1972年,设计出了LUNAR系统和SHRDLU系统,1975年,设计出了MARGIE系统,这些系统把句法分析、语义分析、逻辑推理结合起来,具有很好的自然语言理解功能。目前,自然语言理解的研究已走向实用化,广泛应用于自然语言的人机接口中。
上述的系统都是书面的自然语言理解系统,输入输出都是用书面文字。口头的自然语言理解系统,还牵涉到语音识别、语音合成等复杂的技术,显然是更加困难的课题,口头自然语言
三、自然语言理解技术的应用
自然语言理解技术的应用领域非常广泛,具有极高的应用价值。几十年来,美国、日本、德国、俄罗斯等许多国家以及Microsoft、IBM等公司,在语言信息处理方面都投入巨资进行研
-57-