网络教育学院毕业论文范文
汉语股市公告信息抽取系统的设计与实现
学
学
专
导生:号:业师:
学校代码:
上海交通大学网络教育学院
二OO四年十一月
摘要
本文介绍了一个基于中文信息抽取模型的股市公告信息抽取系统(SBIES)的设计与实
现。介绍了该系统的结构框架和分布图。讨论了汉语信息抽取模型的具体结构,构建了由自动分词、自动标注和模板填充三个阶段组成的简化模型。简单介绍了自动分词的常用算法和自动标注中的标注规范。重点探讨了模板填充的具体算法。文中分别讨论了采用基于规则的结构主义方法和基于语料库概率统计的功能主义方法。着重讨论了采用隐马尔科夫模型进行信息抽取的具体算法。对模型的参数获取算法作了讨论,改进了Baum-Welch算法以适应信息抽取的应用。对领域文本做了人工标注,通过计算机处理获取所需的统计数据。利用统计数据完善HMM模型。
关键词:信息抽取,隐马尔科夫模型,自然语言
THEDESIGNANDIMPLEMENTATIONOFCHINESESTOCKBULLETININFORMATIONEXTRACTIONSYSTEM
Abstract
ThisarticleintroducedthedesignandimplementationofaChineseIETechnologybasedstockbulletininformationextractionsystem(SBIES).Theframeworkanddeploymentofthesystemweredescribed.ThestructureoftheChineseinformationextractionmodelwasdiscussedindetail.Weproposedasimplified3tiersIEmodelconsistingofautomaticwordsegmentation,automaticannotation,andtemplatefilling.Thealgorithmsusedinautomaticwordsegmentationandannotationwerebrieflyintroducedwhilealgorithmsusedintemplatefillingwerefocusedon.Inthisarticle,therule-basedstructuralismmethodsandthecorpus-basedstatisticalfunctionalismmethodswerediscussedrespectively.TheHiddenMarkovModel(HMM)wasintroducedtoextractinformationandthealgorithmwasexplainedatlength.ThealgorithmformodelparameteracquisitionwasalsoanalyzedandtheBaum-Welchiterationalgorithmwasmodified.Domaintextswereannotatedmanuallytoacquirestatisticaldataviacomputation.Withthesedata,HMM-basedIEwasimplemented.KEYWORDS:
informationextraction,hiddenMarkovmodel,naturallanguage
目录
自动生成
1概述
1.1信息抽取技术(InformationExtraction)
信息技术高速发展的时代中,信息的获取、处理和应用已经成为了经济、科学、军事、文化等各个领域发展的关键活动。而其中,信息的获取是三个步骤的开端,在信息技术领域中具有尤其重要的地位。
近年来,随着计算机和互联网技术的迅猛发展,各领域可及信息量呈指数级增长。如何
高效获取有用信息成为有效利用信息的关键。信息抽取(InformationExtraction,简称
IE)技术,是自然语言处理领域中一种新兴的技术。该技术通过抽取、过滤无关信息,使文
本信息以用户关心的形式得以再组织,实现高效重组。将结构松散的自然语言信息,通过抽
取转为结构严谨、语义明确的表现形式,利用计算机进行高效存储并加以利用。
1.1.1信息抽取技术的发展
信息抽取技术的雏形最早出现在二十年前。下面介绍一些信息抽
取发展上重要的研究成果以及国内外的研究现状。
●ATRANS系统
ATRANS系统是早在1981年由Cowie研究出来关于动植物正规结构描述数据库的系统及
其商用化产品。该系统采用了概念句子分析技术,通过一些简单的语言处理技术能够完
成限制在小规模,特定专业领域的信息抽取任务。
FRUMP系统
FRUMP系统由GeraldDejong在80年代初实现。该系统把有限新闻网络作为数据源,
使用一些新闻故事的简单脚本来对有限新闻网络进行监控。它采用关键字检索、概念句
子分析、脚本匹配等方法来寻找新闻故事。FRUMP系统是一个面向语义的系统,采用了
一个特定专业领域的事件描述脚本知识库。
SCISOR系统
80年代末,美国GE研究与开发中心的LisaF.Rau等研制的SCISOR(Systemfor
ConceptualInformation,OrganizationandRetrieval)系统所处理的对象是有关"
公司合并"的新闻报导。SCISOR首先采用关键词过滤和模式匹配的方法对待处理文献进
行主题分析,以便判定该报道的内容是否与"公司合并"有关;然后采用自底向上的分析
器识别句子结构,生成概念表示;最后应用自顶向下的预期驱动分析器提取预期内容。
MUC(MessageUnderstandingConference)是一个ARPA资助的、为推动IE技术发展
的一个重要的系列工程。有许多大学、研究所参加。1987年的MUC-1和1989年的MUC-2
主要集中在从小规模的海军信息文本中抽取相关的信息。1991年的MUC-3和1992年的
MUC-4采用的文本主题和类型发生了变化,采用关于拉丁美洲国家恐怖事件通用主题的
报纸和有线新闻文本作为语料源,系统包括预定义好的信息模板和辅助抽取规则,基本
任务是从在线文本中抽取有关信息填入预定义的模板中的属性槽中。1993年的MUC-5
的文本主题是关于合资企业的商业新闻以及微电子芯片的制作方面的新闻,涉及英语和
日语文档。所抽取的信息包括合资企业的合资者、合资公司的名称、所有权和资本以及
预期的活动,或者微电子芯片的制作活动的性质和状态等有关项。涉及到多语言和多领
域的文档,以便进行抽取信息的性能评价比较。1995年的MUC-6的信息抽取任务第一
次涉及到用SGML语言所标记的文本中的名称项(namedentity)和指同项(coreference)
的处理。除了场景模板(scenario)任务以外,名称项、指同项和模板元素(template
element)信息抽取任务均与特定专业领域无关。测试的语料采用"华尔街杂志"中的文
[7]●●●
本。1998年的MUC-7是最近的一次信息理解会议。它的信息抽取任务涉及抽取文档中的名称项(人名、组织名和地点名);指同项;确定模板元素之间的关系,如地点关系、雇佣关系和生产关系等;抽取文档中的事件。文档包含多语种的新闻稿。训练用的文档专业领域是关于飞机坠毁报道,而测试用的文档专业领域是关于发射事件报道。
●FASTUS系统
FASTUS系统(FiniteStateAutomatonTextUnderstandingSystem)是美国加里福尼亚斯坦福研究所人工智能中心从1991年开始开发的一个基于多层、非确定有限状态自动机模型的自然语言文本信息抽取系统。它共有六层转换机制,即:切分标记层、预处理层、名称项识别层、简单短语识别层、复杂短语识别层、指同求解层。分解的语言处理使此系统能够处理大量的与专业领域无关的句法结构,以致于与专业领域相关的语义和语用处理能被应用到相当大部分的语言结构上。正因为FASTUS系统具有这样的特点,它已被成功地运用于许多应用中。
●TIPSTER计划
由美国国防部(DoD)、DefenseAdvancedResearchProjectsAgency(DARPA)和CentralIntelligenceAgency(CIA)共同资助的TIPSTER计划包括至少15个与工业和学术有关的项目。目的是改进文本处理的流行技术。TIPSTER的体系结构使用一组通用的文本处理模块已能满足不同的文本处理应用的需要。这些应用主要是文本检测(定位包含某一信息类型的文本)和信息抽取(定位文本中的特定信息)。在TIPSTER研究的第一阶段,参与者通过一些活动如MUC和TREC(TextRetrievalConferences)对文本检测和信息抽取所建立算法进行改进以及提高对评价这些改进的技术。在第二阶段的研究中,TIPSTER参与者为了使技术组成构件标准化,将注意力转向软件体系结构的开发上。使各种所开发的工具具有"即插即用"的性能,增加软件的共享程度。在目前进行的第三阶段的研究中,一种称为ACP(ArchitectureCapabilitiesPlatform)的平台被开发,它支持评价、扩展和探索进展中的TIPSTER体系结构。ACP将采用CORBA(CommonObjectRequestBrokerArchitecture)结构为研究者提供鲁棒及相配的TIPSTER组成构件。它将支持TIPSTER体系结构的扩展,以便与机器翻译、语音和光学字符识别、图象观察、用户界面构件以及大规模信息系统相适应。
●SMES系统
由德国人工智能研究中心语言技术实验室(DFKI-LT)在Paradime项目中所开发的SMES(SaarbrückenInformationExtractionSystem)系统是一个联机的德语文挡信息抽取智能系统。文档的专业领域包括通讯稿、经济报告和技术说明书。SMES系统拥有大量的语言知识资源(如电子词典包括12万条词项以及可扩展性很强的专门语法)以及极其快速和鲁棒的自然语言构件。它还能利用机器学习机制使自身能为实现新功能得到训练和配置,并能适应所需的信息数量和各种文档长度。它被集成了图形可视化技术、服务器体系结构和英特网访问技术。SMES作为一个有效的智能信息检索的核心系统已经成功地运用于科学和工业项目中。
国内对信息抽取的研究才刚刚起步。1998年2月在东北大学学报(自然科学版)发表了《中文信息自动抽取》一文,介绍了中文信息抽取的概念和对一些问题进行了初步的探索。国内对涉及中文和其他语种的多语种信息抽取技术还未见报道。
1.1.2信息抽取技术的特点
●信息抽取技术不同于传统的信息检索和自动摘要技术。与信息检索(InformationRetrieval,简称IR)技术的区别
与传统的信息检索技术比较,信息抽取技术有明显的优势:信息检索只是通过单纯的匹
●配检索得到相关的文档,而并不真正理会文档的实际内容信息,文档被等同于无意义的词汇堆砌物;而信息抽取则是通过文本分析、语段分析、模板生成等过程抽取出有效的信息内容。与自动摘要(AutomaticAbstraction)技术的区别
与传统的自动文摘(AutomaticAbstraction)技术比较,信息抽取技术的应用前景更好:自动文摘产生的文摘往往质量较低,而且容易产生不全面、不连贯和冗余多等等问题;而信息抽取则针对有价值的相关领域的文本进行结构分析,其效率和质量显著提高,也更容易面向实际应用。
信息抽取技术具有其独有的优势。利用浅层的自然语言处理技术(ShallowNaturalLanguageProcessingTechnology,简称SNLPT),可以实现高效率的自然语言处理;将非结构化的信息改变为利于计算机存储、处理的结构化形式,有利于信息的重复高效利用。
1.2股市公告信息抽取系统(SBIES)
1.2.1应用背景
随着我国改革开放的深入,市场经济的发展,证券市场的到了空前的繁荣。目前,在沪深两地上市的公司数目已达几千家。每天在两地市场公布的股市公告少则几十条,多则百余条,文本量较大。如果需要在若干年的公告纪录中,迅速查找各种相关的公告,如采取传统的关键字查找技术,恐怕难以获取很高效率。
考虑到信息抽取技术能够有效地从大量文本中过滤出用户可能关心的信息,并进行结构化存储以便迅速查询,希望基于信息抽取技术构造股市公告信息抽取系统(StockBulletinInformationExtractionSystem,简称SBIES)。由于股市公告文本具有以下一些特点,故认为采取信息抽取技术能够大幅度提高系统的性能表现。
●句法简单。在一般股市公告中,通常以简单而表意清楚陈述句式为主。几乎不出现具有
二义性的语句。这为自然语言处理和信息抽取提供了较好的先决条件。
●格式规整。常见的股市公告大致可以分为若干种,如:停牌公告、财务指数公告、董事
会决议公告、配送股公告、新股上市公告、等等。每一种公告都有相对固定的组成要素,容易构造模板加以描述。
●文本量大。仅以上海证券交易所为例,每天的临时性公告文本量平均约20KB(以汉字
记约1万字)。一年累计的公告文本约有6MB(约300万汉字)。对于计算机而言,这个数量可谓及其微小,而对于人工阅读而言却是一个繁复而耗时的工作。
●多语种特性。股票市场使金融的重要组成部分,而在全球金融一体化的今天,世界各大
证券市场之间的息息相关。而各国的证券市场在第一时间通常只能以一种或有限的几种语言发布公告信息,这就给股市公告带来了天生的多语种特性。
设计一个股票文本的信息抽取系统具有较高的实用价值。股市公告的文本量庞大,但结构固定、内容单一,这正适合于计算机处理。信息抽取技术能够自动的从庞大的文本库中,动态地根据用户关心的内容提取文本蕴含的信息。同时,信息抽取能够采用独立于语种的方式存储信息。这样,用户就不必关心原始文本的语种,可以用他(她)所熟悉的语种进行抽取请求,并得到以他(她)希望语种表示的信息抽取结果。
1.2.2系统框架结构
如上所述,该系统将基于信息抽取技术进行构建。但是为了实现真正可用的应用系统,还需要其它一些模块的进行协同工作。图一种给出了本系统的基本框架结构。
控制
数据
用户需求
用户其它结果表现形式自然语言
原始文本
采集信息抽取模块自然语言生
成(英语)
自然语言生
成(……)
结果表示独立于语种的信息存储
系统结构图
图一:SBIES结构框架图
图中,信息抽取模块是整个系统的核心所在,他将根据用户的需求将原始文本经信息抽取后,以独立于语种的方式存入信息库中。对该模块的设计与实现,是本文的重点,将在后面进行详细论述。
用户需求分析模块,是能够收集用户需求,控制其它个模块进行协同工作的智能人机界面。该模块是系统的控制中心,体现了以用户需求为核心的设计思想。该模块能为用户提供一个智能化的易用界面。用户只需以自然语言形式输入询问的问题,该模块即可将询问转化为一系列的内部指令,控制各模块针对询问做出响应。
结果表示模块,是将查询结果以用户易于理解的方式进行表示的模块。其中主要采用了自然语言生成(NaturalLanguageGeneration,简称NLG)技术。自然语言生成的主要目
标是研究计算机如何根据信息在机器内部的表达形式生成一段高质量的自然语言文本。所谓高质量是指生成的文本与人工文本比较接近,形式多样,而且能适应外部应用的变化而做相
[2]应的调整,整个系统的维护性好。在本系统中,根据用户询问,从信息库中查询获取的结
果,对用户而言仍然是晦涩难懂的。因此需要一种较好的方式来将查询结果反馈给用户。由于信息抽取技术的结果能够使信息以独立于语种的方式进行存储,如果结合相应的不同语种的自然语言生成技术,即可使根据用户的要求,获得以各种语言表述的查询结构。除了结合自然语言生成技术,以自然语言形式生成结果外,还可以用图表等形式输出一些数据的统计结果,这也是表示模块的功能之一。
1.2.3系统分布结构
图二给出了系统的整体分布图。
INTERNET
Robot
结果表示
预处理查询界面
信息抽取查询分析
信息库
XML数据库数据分析
(可选)
图二:SBIES分布图
由图可见,本系统直接挂接在Internet上,数据来源和用户界面主要都通过Web实现。由一个Robot程序自动通过Web进行股票公告文本的自动搜集,搜集的文本经过预处理成为信息抽取模块能够接受的文本后,采用IE技术进行信息抽取,将结果存放入信息库中。如果必要,可以对信息库数据进行分析。用户通过Internet访问该系统,查询的结果也通过Internet返回给用户。
1.3本文内容简介
本文将详细论述股市公告信息抽取系统中,信息抽取模块的设计和实现。
第一章,概述。简介信息抽取技术的历史和特点,与传统的NLP技术做了优缺点比较。提出SBIES的应用背景,介绍整体结构框架和模块分布情况。
第二章,信息抽取模块的设计。提出SBIES中信息抽取模块(也就是本系统的核心模块)的具体结构。
第三章,信息抽取的关键算法。这是本文的重点章节。具体探讨了信息抽取模块中信息抽取的几种关键算法。比较了采用传统语言学方法和统计学方法进行信息抽取的优缺点和适用情况。
第四章,实现与结果分析。将给出部分统计数据和结果总结。
2信息抽取模块的设计
2.1模块内部结构
2.1.1串行化的模块内部结构及其问题
自然语言信息抽取是一系列浅层自然语言处理技术的结合体。为了将非结构化的自然语言文本转化到结构化的信息库中,需要多种自然语言处理技术的协同工作。从某种意义上说,这些处理技术将以串行的方式运行,即前一个步骤的处理输出结果将作为后一步骤的输入。这种工作方式优点是模块内部结构简单,便于分级调试。
根据传统的自然语言处理技术,汉语的信息抽取模块中大致应包含的处理步骤应当包括了分词处理、名称分析、语法分析、语义分析、场景匹配、一致性分析、推理判断、模板匹配填充,等等。
但子过程的串联,带来的问题是,各个阶段处理的准确性高度依赖于前端输出的正确性。例如:假设信息抽取全过程由n个串联子过程组成,第k个子过程的查准率(或者查全率)分别为Pk,则整个模块的查准率(或者查全率)应为:
P=∑Pkk=1n
一般而言,目前自然语言处理技术中虽然存在众多不同的算法,进行不同层次的分析处
[17]理,但其查准率和查全率却大都不是很高。通常在60%~90%之间不等。当前MUC英文信息
提取的各项指标(最好水平)大体上如下[SAIC99][Chinchor99]:实体(Entities)识别90%,属性识别(Attributes)80%(TE任务);事实识别(Facts)70%(TR任务);事件识别(Events)60%(ST任务)。这些指标也自然地反映了自然语言处理在各个层次上的难度。
在最近一届MUC上表现最好的是SRA公司的系统[Aoneetal,98],其所有3项IE指标都是最高的。其评测结果如下:
Recall
TE
TR
ST86%67%42%Precision87%86%65%F-Score86.7675.6350.79
表一:MUC-7测评结果
可以看出,在这样的查准率和查全率下,整个模块的性能表现将随着串联模块数量的增加迅速下降。显然,过低的查准率和查全率,对于一个应用系统是缺乏实用意义的。
因此,要构建可实用的信息抽取系统,有两个种途径:
其一,进一步探讨各个处理模块的更有效的处理方法,以达到更高的查准率和查全率;其二,改变信息抽取模型结构,根据应用领域的特殊性,简化串行结构的长度,以提高模块整体的性能表现。
第一种途径显然是信息抽取技术逐步发展成熟的必然途径,但是在短期内恐怕还难以在这一方向上取得突破性的发展。而第二种途径却是目前可能做到的。因为不同的应用领域具有不同的特性,结合这些特性可以有力地提高各个模块的处理正确性,简化信息抽取模型。以下将结合股市公告文本信息抽取的特点,讨论信息抽取模型的简化。
2.1.2简化的高性能信息抽取模型
在我们即将设计和实现的股市公告信息抽取系统中,希望通过缩短处理子
过程的路径长度,来提高信息抽取模型的性能。
由于股市公告文本具有以下一些特性,所以简化信息抽取模型是可能的。一方面,股市公告文本的主题分类比较明显。一般而言,股市公告主要包括了停牌公告、财务指数公告、董事会决议公告、配送股公告、新股上市公告等若干种类型。每种公告文本类别论述的主题比较固定,利于用抽取模板加以描述。
另一方面,各类公告文本的格式相对简单、固定。通常很少出现句式的变化,陈述过程中句法规则也相对简单。
同时,简化后的模型应该能够比原模型具有更好的性能表现。
首先,缩短了处理过程路径的长度,避免了过长的串行系统结构可能导致的低查准率和查全率。
其次,合并简化处理子过程,减少了处理所需的时间,提高了处理的效率。
基于以上观点,考虑将信息抽取中的某些步骤合并简化。简化后的高性能系统结
A类文本
自动标注A类模板填充词典
股市公告
文本分词处理B类文本自动标注B类模板填充信息
库
C类文本
自动标注
文本自动分
类C类模板填充
构如图三所示。
图三:简化后的信息抽取模型
从图中可以看出,处理过程的长度大大缩短了。一篇中文文档一般只需经过分词处理、自动标注和模板填充三个步骤即可完成信息抽取。文本自动分类主要是根据关键词进行的,由于股市公告文本的特殊性,其准确率可达到98%以上。而在正确分类的前提下,对已知文本类型进行词类自动标注和模板填充将变得更为容易,也具有更高的准确性。
本章的余下部分,将对自动分词和文本自动标注的实现做部分介绍。而模板填充算法的实现,是本模块的关键环节,将在下一章中详细论述。
2.2自动分词
近年来,国内众多研究机构已经在计算机汉语文本自动分词方面进行了大量的研究,并
取得了很多成就。二十年来,已经提出了许多分词算法。我们可以将现有的分词算法分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。●基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如:正向最大匹配、逆向最大匹配、最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。由于分词是一个智能决策过程,机械分词方法无法解决分词阶段的两大基本问题:歧义切分问题和未登录词识别问题。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。
另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。●基于理解的分词方法
通常的分析系统,都力图在分词阶段消除所有歧义切分现象。而有些系统则在后续过程中来处理歧义切分问题,其分词过程只是整个语言理解过程的一小部分。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
●基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息为:,其中是汉字X、Y的相邻共现概率,、分别是X、Y在语料中出现的概率。互现信息体现了汉字之间结合关系的
紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
这些算法各具特色,需结合具体的应用领域进行综合利用。已见诸报道的研究成果如:北京航空航天大学计算机系的CDWS分词系统,山西大学的现代汉语自动分词及词性标注系
[1]统,北京大学计算语言学研究所的汉语切分与标注软件,清华大学SEG分词系统和SEGTAG系统,哈工大统计分词系统,杭州大学改进的MM分词系统,MicrosoftResearch汉语句法
[15]分析器中的自动分词,等等。
这些切分与标注软件大都通过大量跨领域文本的测试,具有较为稳定的性能表现。但是在我们的特殊领域的应用系统中,并不需要对任意领域文本都能进行准确切分的能力。不仅如此,在我们的应用领域中,期望的文本切分效果也不同于普通文本。在股市公告中,普遍存在大量的术语和惯用语。我们当然希望不要将这些词切碎,以利于更好的进行信息抽取。因此,设想构造一个规模较小的,能够较好识别领域词汇的小型分词子系统。在构造自动分词子系统时,以人工分词得到得语料库为标准。统计各类词汇出现的概率,构造词典。在分词时处于性能考虑,采用了较简单的最长匹配法分词规则。经过测试,自动分词的结果完全能够满足信息抽取的需求。
由于分词模块并非本系统的重点核心所在,故在此仅作简短介绍。
2.3词类自动标注
在分词的结果上,还应该为各个词汇标注上一些表明词汇作用或属性的信息,以便利用这些信息去填充模板。
进行自动标注的方式和层次有多种。例如,可以对词性进行标注,如名词、动词、形容词、数量词等等;也可以对识别的命名实体(NamedEntity)、专有名词(ProperNoun)等进行标注,主要取决于后续处理阶段的需要。传统的自然语言处理过程中,通常认为,对词类的标注应该从词性的层次上开始,其他自然语言的处理过程都将建筑在对词性的分析之上。但是,我们认为在特定领域的信息抽取任务中,从词性开始的词类标注并非必要。
由于信息抽取实际上是在给定语义框架(用模板描述)的基础上,对语义框架中的关键部分(属性槽Slot)以相应内容(填槽物SlotFiller)填充,所以可以期望直接标注出全部或部分的关键内容。
出于这种想法,我们希望能够在此采用一个直接标注包含语义信息的词类自动标注子系统。其中最重要的一项工作就是确定标注的词类。从图三可以看出,词类自动标注是在文本分类之后才进行的,所以应该根据不同的文本类别来进行不同的词类标注。信息抽取的任务就是根据不同的文本类别,以合适的抽取模板加以刻画。我们就可以尝试根据模板的属性槽来定义词类。例如,如下所示是一个描述停牌公告抽取模板的DTD文件:
其中定义了一系列元素(如停牌时间、时间跨度、股票名称等等),这些都是需要抽取的模板属性槽。考虑根据以上的模板,抽取以下的公告实例:
“东盛科技”(600771)因刊登公告,9月11日上午停牌半天。
将获取如下XML文档作为结果:
东盛科技
600771
9月11日上午
半天
刊登公告
此例充分体现了股市公告文本句法特殊,结构固定的特点。对此例原文分词后,我们可以期望获取如下自动标注的XML文档:
“
东盛科技
”
(
600771
)
因
刊登
公告
,
9月11日上午
停牌
半天
。
其中punctuation标注标点,stockname标注股票名称,stockid标注股票id,date标注日期,length标注时间跨度,sw是模板特殊词(SpecialWord)的缩写,na标注的是本模板中无需关心的词(NotAvailable)。
在同课题组的许多老师和同学的共同努力和大力帮助下,我们对近年来上海证券交易所的公告进行了人工分词和标注。通过计算机程序统计,构造起了自动分词和标注所需的小规模领域词典,包含领域常用词汇约1200词,另外还有沪深两地各类股票名称和编号等。针对不同类型(模版)的文本,将具有不同的标注标准。对标注文本统计数目
公告类别
决议公告
财务指数公告
停牌公告
其它公告
共计
见表二。公告文本量(篇)[1**********]2百分比15.7%70.1%3.5%10.6%100%
表二:人工标注文本量统计
在进行了自动分词和词类标注的基础上,下一章将详细探讨如何利用标注信息填充模板的具体算法。
3信息抽取的关键算法
在前一章里,已经将信息抽取的问题归结为对文本的自动分词、自动标注和模板填充三个步骤,并且已经简单介绍了前两个步骤的设计和实现方法。本章中将要详细论述的是模板的自动填充算法。将分别讨论采用传统语言学方法以及统计学方法进行的模板填充算法。
3.1传统语言学方法
3.1.1基于规则的信息抽取算法
根据传统的语言学方法,一般采用语法分析的方式来填充模板。语言学中语法分析的理论和方法众多,各有优缺点。比较著名的如Kaplan和Bresnan(1982)的词汇功能语法(LFG)、Shieber(1984)的PART-II,Kay(1985)的功能合一语法(FUG),Gazdar(1985)的广义短语结构语法(GPSG),Polland和Sag(1987)的中心词去动的短语结构语法(H-DPSG)等等[3][8][9][13]。
上述的各种分析方法从理论上,对自然语言本质性问题进行了较深入的研究。然而在一个中文的信息抽取的实用系统中充分应用这些分析方法,却存在着困难。
首先,信息抽取技术应当避免采用深层自然语言处理技术(DNLPT)。这一方面是出于性能考虑,信息抽取系统往往要对大量文本进行高效率的处理,另一方面则是考虑到信息抽取系统往往不需要完全明晰一片文档的内容,而只需直起大概即可。所以采用浅层自然语言处理技术(SNLPT)将使系统具有更好的性能表现。
其次,中文语法分析存在着特殊的复杂性。例如,汉语中存在着多动词连用问题、词性歧义问题、句子的词序问题、汉语特殊模式(“把”、“被”字句)问题、汉语语义歧义问题,等等。如果逐层分析语法关系,可能相当困难。
此外,上述分析方法应用于实际时,往往难以有很高的准确率。而这对于一个实用系统而言,却往往是致命的缺陷。
因此,可以采用较简单的语法规则,来抽取相关的基本语义信息。
例如[14],制定以下若干规则,来对股市停牌公告进行抽取。
(1)S->NSCcommaDvlenfstp
(2)N->sn
(3)N->snsid
(4)NS->N
(5)NS->NScaeN
(6)C->conjun
(7)C->Cun
(8)D->date
(9)D->yeardate
其中,S表示整个停牌公告;N表示单个股票,可以由股票名或连同其代码构成;NS是股票的集合,可以有一系列任意个连续单个股票用顿号串接构成;C表示停牌原因,是由关键连词“因”或“因为”引起的原因状语从句;D表示日期,既可是单独的月日格式,也
可是年月日格式;sn是股票名称;sid是股票代码;date是月日格式日期;year是年份;conj是关键连词“因”或“因为”;len是时间跨度;cae是顿号;comma是逗号;fstp是句号;v是中心动词“停牌”;un是其它与本模板信息抽取无关的词汇。不难验证,该文法可以无冲突地采用SLR分析法进行分析,参见表三。
ACTION
Sn
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19R10S19R2S18R6S16R9S17R6S4R4S14S15R8R7R8R7R413S8R4S6R3R5S7R3S9S10S11125S4ACCSidConjvlendateYearCaeCommaFstpun$S1N2GOTONS3CD
表三:LR分析表
利用以上分析表,我们实现了机与简单语法规则的信息抽取。由于在根据分析表分析过程中,自然地构造起了一棵语法分析树,图四中给出一个例句的分析树。
四砂股份600783、上海医药600849因未刊登股东大会决议公告,9月13日停
牌一天。
cae、snsid600849conj
因un刊登会un未comma,unDv停牌date9月13日len一天fstp。股东大上海决议四砂600783
股份
图四:分析树示例
在获取分析树的结果上,可以通过对树的遍历来填充模板。此步骤显然比较简单,在此不再赘述。
3.1.2基于规则信息抽取面临的严峻问题
对于停牌公告这样语法极其简单的公告而言,采用简单的分析规则已经足以完成信息抽取任务。但是,对于其它结构较为复杂的公告文本,要构造这样一套规则却并不永远是件容易的事。
随着公告文本的复杂化,规则数目将大大增加。而随着规则的增加,如果仍然采用LR分析法分析,分析表的规模(行数)将以指数级速度扩充。不仅如此,分析表中还很容易出现冲突项,这一方面是由于自然语言中普遍存在着文法的二义性,另一方面是由于自然语言中存在着很大的自由性,语言意义的表达并非完全受限于固定的文法规则,这也是自然语言和形式文法的最大区别。
对于这个问题,有两条解决途径。
其一,对LR分析法进行扩充。传统的LR分析法通常只有移进(Shift)和归约(Reduce)
[14][16]两个动作。如果在某些情况下添加若干特殊扩充分析动做,将对增强分析能力有所帮助。
在此方面的研究结果表明,扩充的LR分析法的确能够加强分析能力,尤其是加强了处理自然语言过程中的鲁棒性。但是这样的扩充毕竟还是基于原有LR分析法进行的,扩充的幅度有限。
其二,采用非基于规则的分析方法。基于规则的方法在处理自然语言时遇到的困难,是分析形式文法时的难度无法相比的。改变分析方法可以从根本上突破形式文法的局限性。
下一节就将讨论采用统计方法来设计信息抽取模块中的模板匹配算法。
3.2统计学方法
3.2.1基于语料库的统计语言学方法
近年来,基于语料库分析的自然语言处理方法受到了越来越多的计算语言学家的重视和
应用。在规则方法即理性主义方法屡受挫折的事实面前,语料库语言学的发展促使计算语言学家们越来越重视数理统计在语言学中的应用。应该说,统计方法并不是包治百病的良药,
[11]而是人类由于认识能力和认识范围的有限迫不得已采用的方法。
传统语言学给我们积累了丰富的语言实例,但对于语言规律的把握,人类至今仍未找到最好的方法。但是,数理统计方法已经发展的比较成熟,值得信赖。语料库是经过处理的大量领域文本的集合,通过对语料库中的文本进行统计分析,可以获取该类文本的某些整体特征或规律。如果能够充分地利用这些统计现象、规律,就可以构造基于语料库的统计学信息抽取算法。
现代语言学研究已经形成两个大的阵营,结构主义和功能主义(或称为理性主义和功能主义)。多年来结构主义一直占上风,西方学者称为“语言学主流”(mainstreamlinguistics)。功能主义相比之下处于劣势、守势。两阵对垒的天平近十几年来似乎在发生变化。如果我们把新兴学科如社会语言学、语用学、会话分析、语篇分析等都划入功能主义(因为这些都是研究语言的各种功能的),那么功能主义大有取代结构主义成为语言学主流之势。语料库和语料库语言学可以说是两阵对垒的天平上的一个举足轻重的砝码。
统计的分析方法多种多样,近期研究的热点主要集中于由随机过程发展而来的理论和方法。其中最重要的,是应用隐马尔科夫模型(HMM)进行自然语言处理的方法。
3.2.2隐马尔科夫模型(HMM)简介
●马尔科夫(Markov)过程的定义
一般地,考虑只取有限个(或可数个)值的随机过程{Xn|n=1,2, }:若Xn=i,就说过程在n时刻处于状态i,假设每当过程处于状态i,则过程在下一时刻处于状态j的概率Pij为一定值,即∀n≥1有:
Pij=P(Xn+1=j|Xn=i,Xn-1=in-1, , ,X1=i1)=P(Xn+1=j|Xn=i)
这样的随机过程称为Markov链(给定过去的状态X1, ,Xn-1和现在的状态Xn,将来的状态Xn+1的条件分布独立于过去的状态,只依赖于现在的状态——这就是Markov性)。
一个马尔科夫模型(MM)M就是一个Markov链加上一个转移概率矩阵。显然,它可被视为一个随机有限状态自动机,其每个状态都代表一个可观察的事件,之间的转换都对应一定的概率。
[10]●隐马尔科夫模型(HMM)的概念
对于马尔科夫模型而言,每个状态都是决定性地对应于一个可观察的物理事件,所以其状态的输出是有规律的。然而,这种模型限制条件过于严格,在许多实际问题中无法应用。于是人们将这种模型加以推广,提出了隐马尔科夫模型(HMM)。隐马尔科夫过程是一种双重随机过程。即:观察事件是依存于状态的概率函数,这是在HMM中的一个基本随机过程,另一个随机过程为状态转移随机过程,但这一过程是隐藏着的,不能直接观察到,而只有通过生成观察序列的另外一个概率过程才能间接地观察到。
对于隐马尔科夫模型的应用,在语音识别领域已经取得了很好的
成效,在信息抽取领域的应用也正在不断的尝试和推广中。
隐马尔科夫模型(HMM)的模型参数1.N:模型状态数。
2.M:每个状态可能输出的观察符号的数目。3.T:观察符号序列的长度。4.5.6.
A={aij}:状态转移概率矩阵。B={bj(k)}:观察符号的概率分布集。
π={πi}:初始状态概率分布。
一般地,由于当A、B确定后,M、N也随即确定,故通常将一个HMM描述为λ(A,B,π)。3.2.3
隐马尔科夫模型(HMM)在信息抽取上的应用
在我们的问题中,考虑的是如何应用隐马尔科夫模型,从自动标注后的文本中抽取相关信息到对应模板的合适属性槽中。为了完成这个目的,有必要对问题进行重新描述。
先引入几个概念:
1.属性槽(attributeslot):表示为s。它同时具有类型。
2.填槽物(slotfiller):是用来填充模板构成模板实例的语言单位(通常是一个
单词或短语),通过自动文本标注获得。
3.模板(template):是用来表示结构化数据的待填属性槽的序列。表示为
T=(s1,s2, ,sk),其中si(1≤i≤k)是第i个待填属性槽。
4.模板实例(templateinstance):是指用适合的填槽物填充了模板中全部或部分
属性槽(关键属性槽必须填充)后得到的实例对象。
我们的模型中,考虑使一个HMM对应于一个模板,模型中的各个状态分别对应到该模板的各个属性槽。而将待抽取的标注文本视为该模型的一种输出结果。于是,对于标注文本中的每一个关键标注部分,都将有模型状态与之对应。这样,在固定的隐马尔科夫模型下,对于任意标注文本做为模型输出,通过寻找最佳路径的方式,都可以找到一条概率最大的隐路径(即由初始状态经由若干中间状态到达终止状态的状态转移序列)。在这条最佳路径上,各个输出对应的状态就是利用隐马尔科夫模型求得的模板填充方案。
图五是HMM求解模板填充问题的示例图。
四砂股份600783上海医药600849
…
9月13日停牌一天
股票名称
股票编号
日期中心动词
停牌长度
…
图五:HMM信息抽取示例
在求解模型对应于某一特定输出时的最佳路径(路径概率最大)时,采用如下Viterbi算法进行计算。
对于给定的观察序列,为了找到单个最佳状态序列,需要定义一个量δt(i):
δt(i)=
q1,q2, ,qt-1
max{P[q,q, ,q
1
2
t
=Si,o1,o2, ,ot|λ]}
即:δt(i)是沿着一条路径在t时刻的最好得分(最高概率),它说明产生头t个观察符号且终止于状态Si。δt(i)可以用迭代法进行计算:
⎡⎤
δi+1(j)=⎢max{δt(i)}aij⎥bj(ot+1)
⎣1≤i≤N⎦
为了实际找到这个状态序列,需要跟踪使上式最大的参数变化的轨迹(对每个t和j值)。可以借助于矩阵ψt(j)来实现这一点。寻找最佳状态序列的完整过程如下所示:
1.初始化:δ1(i)=πibi(o1),ψ1(i)=0,1≤i≤N
2.迭代计算:δt(j)=⎢
⎡⎣
⎤
{}δ(i)at-1ijmax⎥bj(ot),
1≤i≤N
⎦
2≤t≤T,1≤j≤N
⎡⎤
ψt(j)=⎢argmax{δt-1(i)}aij⎥bj(ot),2≤t≤T,1≤j≤N
1≤i≤N⎣⎦
3.最后计算:P=
*
max{δ
1≤i≤N
T
(i)}
*
qT=argmax{δT(i)}
1≤i≤N
4.路径回溯(最佳状态序列生成):qt=ψt+1qt+1,t=T-1,T-2, ,1
*
*
()
3.2.4隐马尔科夫模型的训练与优化问题
上面已经讨论了隐马尔科夫模型的最佳路径问题。余下的问题(也是最为困难的),就是模型参数的获取问题。
如在3.2.2中介绍的那样,隐马尔科夫模型可以描述为λ(A,B,π),如何确定其中的A、B和π就是所谓的模型参数获取问题。到目前为止,对于隐马尔科夫模型的参数选择和优化问题,尚没有什么分析算法可以得到最优解。目前使用较广的处理方法是Baum-Welch估计算法(或称期望值修正法,即EM法)。该算法是一种迭代算法,初始时刻由用户给出各参数的经验估计值,通过不断迭代,使个参数逐渐趋向更为合理的较优值。算法可简单描述如下:1.
初始化:γ1(i)=i,时间t=1时处于状态Si的期望值
λ=MA0,B0,2.
迭代计算:令λ0=λ
ij=
∑ξ(i,j)∑a(i)ab(o)β(j)
t=1-t=1
t
T-1T-1t=1
tijt+1t+1
=
∑γ(i)
tT
T
t=1st.ot=vk
tt
=∑a(i)β(i)
t=1
t
t
t
t
t
k
-,
j(k)=
∑γ(i)∑a(i)β(i)δ(o,v)
=
∑γ(i)
t=1
∑a(i)β(i)
t=1
t
t
,其中:δ(ot,vk)=⎨
⎧1,ifot=vk⎩0,otherwise
λ=M3.
终止条件:logP(O|λ)-logP(O|λ0)
要在我们的系统中,应用Baum-Welch算法获取模型参数,需要对算法做适当的更改。最主要的修改是上述算法中的终止条件。与应用在语音识别中的隐马尔科夫模型不同,我们衡量模型质量时,并不是要求整个模型输出某一序列的总体概率最大为最优,而是输出该序列时所经历的隐路径中最佳路径的概率最大为最优。所以,在第三步应该改为:
终止条件:logP
⎛
⎫⎛⎫jj
⎪ ⎪Q|λ-logPQ|λ0⎪
4实现与结果分析
4.1模块实现情况
在本模块的实现中,使用到了如下一些资源,在此做简单叙述。
由于考虑到本系统将能够方便地挂接在Internet上,要求具有较好的跨平台能力,故决定采用Java做为开发工具。目前使用的是Borland的JBuilder4作为IDE。使用的数据库系统是IBM的DB27通用数据库系统。在模块内部的中间数据表示,均采用的是XML1.0规范,即以XML文档的形式在各个子系统之间传递。为了使用Java方便地处理XML文档,使用了XML4J3.1.1作为XML的Java语言分析器。该分析器是源代码公开的自由软件,并通过了IBM的内部测试。此分析器目前支持XMLSchema、DOM1、DOM2、SAX1、SAX2标准API,是公认的功能完善、性能可靠的Java语言XML分析器。由于以上工具在Windows98/NT/2000、Linux等多种操作系统上均可运行,所以可以很方便地实现移植。开发调试操作系统平台是Windows2000Professional。硬件平台是PIII550MHz,RAM128MB,HD20GB。
经过对人工分词标注的语料库的单词统计,共获得领域单词1995个。
在对公告分类后,主要集中研究两种类型的公告:决议公告、财务指标公告。对语料做关键词统计后,得到的结果如下:
关键词决议决议公告董事会监事会董、监事会
公告董事董、监事监事股东大会
总共语料数量(篇)
表四:决议公告语料分析部分结果
关键词
财务指标每股净资产净资产收益率每股收益
调整后每股净资产
每股净资产每股收益单位基金收益单位基金资产净值期末基金资产净值基金资产净值收益率期末基金资产总值单位基金净收益
出现次数[***********]402833333
出现次数
[**************]21
平均单篇出现率
0.880.760.960.350.300.250.100.050.030.2393
平均单篇出现率
1.000.970.970.970.960.970.970.020.010.010.010.010.01
单位基金净资产
总共语料数量(篇)
4.2
8
415
表五:财务指数公告语料分析部分结果两种信息抽取方法的比较
0.02
在本模块的设计和实现中,前后采用了基于规则的结构主义方法和基于语料库统计的功能主义方法。两种方法的异同及优缺点比较如下:
基于规则的结构主义方法
基于语料库统计的功能主义方法
抽取规则是人为总结制定的,故抽取效果很抽取规则隐含于HMM的模型参数中,通过语大部分取决于规则的完善性与合理性。
料库训练模型的而得,故抽取效果主要取决于语料库的文本容量和标注质量。
对于简单文本分析效率高、准确率高。
对于简单文本分析效率和准确率都相对较低。
分析能力相当有限,且扩充性差,难以分析具有较强的可扩充性,只要训练获取合适的复杂文本,准确率也随文本复杂性增加而显模型参数,即可对更复杂的文本类型进行抽著下降。
取,而准确率仍有一定的保障。
一旦确定规则,即可采用自动语法分析器生需要大量训练才能获取模型参数,且不能保成器(如YACC或BISON)自动构造分析器。证获取最佳值,必要时需要人工调整。
表六:两种信息抽取方法的比较
可见,两种方法在不同的应用环境下具有不同的优缺点。所以应该根据需要选择合适的方法。近期其它一些研究中,已经考虑将两种方法有机地结合,使它们互补短长,发挥各自最佳的分析优势向统一。
4.3结果总结
在基于汉语信息抽取模型的股市公告信息抽取系统的设计与实现中,已获得的成果罗列如下:
●提出了基于汉语信息抽取模型的股市公告信息抽取系统的框架结构和分布图。●分析了简化信息抽取模型的必要性,给出了简化后的信息抽取模型。●简单讨论了小领域分词子模块的设计原则。
●对大量领域文本做了人工标注,初步够建了领域语料库。●尝试了采用基于规则的简单文本信息抽取算法。●提出了基于隐马尔科夫模型的信息抽取算法。●改进了选择模型参数的迭代算法。
●分析了两种信息抽取方法的异同及优缺点
4.4遗留的问题
目前为止,本信息抽取系统的设计与实现过程中,发现了以下一些问题,有待解决:
本系统目前为止仍然是基于汉语信息抽取技术的。但是根据信息抽取技●多语种的问题。
术的特征,构建跨语种的信息抽取系统是可能的。可以构建中间语汇,将抽取后的信息以独立于语种的方式表述。具体研究仍有待于进一步的讨论。
目前的自动分词词典结构仍然相当简单,可以通过添加一些附加属性●自动分词的完善。
[4][6]
。这也是计算语言学发展的必然趋势,结构主义和功能主义必将走
●●
●
●
●
来提高分词的质量。
自动标注的实现。自动标注的实现中,又将包括许多复杂的浅层自然语言处理技术,如
[18][5]
命名实体的识别、指代分析,等等。标注质量的提高。目前的人工标注标准仍然具有一定的模糊性,可能因为主观差异导致标注尺度掌握的不同。这从某些方面极大地影响到了语料的可信度。因此需要制定更为明确清晰的标注标准,加上适当的标注工具,可以更高效率获取更高质量的语料库。模型参数学习。目前的迭代算法虽然能够获取较优的HMM模型参数,但是并不能够保证对语料库信息的充分利用。可以结合其它机器学习方法,提高模型参数学习的效率和质量。
两种信息抽取方法的结合。结构主义与功能主义的结合是目前自然语言处理领域的必然
[4][6]
趋势,例如可以通过语料库统计来学习抽取规则,也可以通过规则指导统计数据的应用,等等。这有待相关理论的发展和应用上的尝试。模型的推广。本文论述了股市公告信息抽取系统的设计和实现,但是其中的绝大多数方法可以方便地扩展到其他应用领域。当然,仍然必要针对相应领域的特征,适当修改模型或算法。
1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.16.17.18.
参考文献
刘开瑛,《中文文本自动分词技术研究》,山西大学计算机科学系,2001张冬茉,姚天昉,王纤,《多语种天气预报文本生成系统中句子规划器的设计与实现》,上海交通大学计算机系刘开瑛,郭炳炎,《自然语言处理》,科学出版社,1991
StephenSoderlandetal.,IssuesinInductiveLearningofDomain-SpecificTextExtractionRules,1995
Kam-FaiWong,WenjieLi,ChunfaYuan,ClassifyingTemporalConceptsinChineseforInformationExtraction,1999
MaryElaineCaliff,RaymondJ.Mooney,RelationalLearningofPattern-MatchRulesforInformationExtraction,1999张冬茉,王纤,《基于WEB的信息抽取模型的研究》,上海交通大学,2001姚天顺,《自然语言理解》,清华大学出版社,1995蔡自兴,徐光祐,《人工智能及其应用(第二版)》,清华大学出版社,1996于江生,《隐Markov模型及其在自然语言处理中的应用》,北京大学计算语言学研究所于江生,《计算语言学中的概率统计方法》,北京大学计算语言学研究所,1999
JosephF.McCarthy,ATrainableApproachtoCoreferenceResolutionforInformationExtraction,UniversityofMassachusettsAmherst,1996于江生,《基于约束的句法-语义分析》,北京大学计算语言学研究所胡睿,《基于INTERNET的信息抽取模型的研究和实现》,上海交通大学计算机系,2001孙宾,《现代汉语文本的词语切分技术》,北京大学计算语言学研究所()孙宾,《Shift-Reduce-PutbackParsing》,北京大学计算语言学研究所,1999(http://icl.pku.edu.cn/bswen/pls/shift-reduce-putback.html)
孙宾,《汉语信息提取的部分研究》,北京大学计算语言学研究所(http://icl.pku.edu.cn/bswen/nlp/bsPhD-chapt4.html)姚天昉等,《一种基于信息抽取和文本生成的多语种信息检索模型》,上海交通大学计算机科学与工程系,德国人工智能研究中心
致谢
在本文即将结束之际,我要由衷地感谢在我毕业设计阶段,乃至本科四年学习生活中帮助过我的师长与同学。
我要首先感谢我的导师XXX教授。在整整一年的学习、科研中,X老师给予了我极大的关心和帮助。张老师治学严谨、知识渊博、诲人不倦,在学术和为人上都为我作出了榜样。在张老师的帮助下,使我的课题研究能够顺利开展,并取得一定阶段性成果。在此,我向她表示最真挚的感谢。
我还要感谢XX老师。在一年的研究与实践中,X老师为课题的顺利进行作出很多贡献。尤其在安排语料库构造的工作中,王老师作出很多贡献。
本项目是国家自然科学基金项目,在此我要特别感谢项目负责人盛焕烨副校长,感谢他给予过我的帮助。
我还要感谢本实验室的几位研究生同学,他们是胡睿(已毕业),房一飞,李雪蕾,孔祥勇,他们都曾帮助过我。同时感谢与我一同进行毕业设计的本科生同学,郑宇宏,周轶璐,宿季魁,陈波,傅力波。正是大家的共同努力、激烈研讨,才使研究有所成果。
最后,我将我的这篇论文献给我的母亲。十年来,她独自一人抚养我长大,其中艰辛自不用说。希望能够以此文回报她的养育之恩。