基于多分类器的金融领域多元关系信息抽取算法
23482011, V ol.32, No.7计算机工程与设计Computer Engineering and Design
0引言
其对提高多文档文摘[1]、自动问答[2]、邮件处理[3]等系统的性能具有重要作用。近年来,事件抽取一直吸引着许多学者的注意,并提出了若干比较有效的算法[1-11]。
研究面向金融领域的事件抽取对于深入分析金融领域的文本信息,为投资决策提供支持具有重要意义。本文以收购类信息为例,对从中文文本中识别事件描述句及抽取事件角色(即识别关系及关系的元) 进行了研究。例如,句子“可口可乐公司斥资179.2亿港元收购汇源果汁集团有限公司100%股份”描述了一起收购事件,该句子属于收购事件的描述句,其中的收购关系如表1所示。
本文在事件句的识别方面,提出了基于SVM 的有监督算法。对于关系识别及关系元的抽取,针对多元关系的特点,分别设计了单分类器的算法和多分类器的算法,单分类器的算法由一个分类器负责识别多元关系的所有角色,而多分类器
信息在人类的生产生活中扮演着重要角色。然而,面对海量互联网信息,人们往往无所适从。虽然利用搜索引擎可
使用户获取相关文档(网页) 的效率大大提高,但用户必须通过阅读、浏览、理解文档内容,才能获取到真正感兴趣的信息。为进一步挖掘利用互联网上丰富的信息,提高用户获取所需信息的效率,信息抽取技术应运而生。信息抽取(IE ) 旨在从一个给定的文档集中自动识别出预先设定的实体、关系和事件等类型信息,并将这些信息结构化存储,以供用户查询分析利用。借助于信息抽取技术,自由文本或半结构化的网页被结构化为事实性信息,这样查询处理更方便,用户可以直接获取感兴趣的信息。事件抽取是信息抽取领域一个重要的研究方向,指从文本中自动地抽取特定类型的事件及其事件要素。
收稿日期:2010-09-25;修订日期:2010-11-22。
赵小明,朱洪波,陈黎,等:基于多分类器的金融领域多元关系信息抽取算法2011, V ol.32, No.72349
事件,本文首先采用启发式方法过滤掉明显的非事件描述句,对剩余的句子,再使用分类算法进行事件描述句的识别。
2.1基于启发式的非事件描述句过滤
经过考察发现,事件描述句往往包含与特定事件描述相
关的特征词,不包含这些特征词的句子不可能成为事件描述
的算法对每类语义约束的角色采用不同的分类器来识别,如表1所示的事件角色中,收购公司名和被收购公司名属于一类语义约束的角色,收购费用和收购股份属于另一类语义约束的角色,多分类器算法需要构建两个分类器,来分别识别前两个角色和后两个角色。实验结果表明,多分类器的算法明显优于单分类的算法,角色识别的F-Measure 可以提高1.9%。
句。基于上述观察,本文设计了一个启发式算法用于过滤非事件描述句,其基本思想是:在训练语料(其中标注了事件描述句和事件角色) 中统计事件描述句所包含的词语的出现频率,根据这些频率识别与事件描述相关的特征词;对于待识别的句子,根据其中特征词的出现情况确定该句子是否该过滤,是否为非事件描述句。算法的基本步骤如下:
步骤1步骤2步骤3
从训练语料中筛选事件描述句;
对所筛选的事件描述句进行预处理,包括分词、统计预处理后语料中每个词的出现频率,
用于衡量
对事件描述句识别的预示程度
=
步骤4
/max (
0=
1相关工作
近年来,从无结构的自由文本和半结构化的网页中抽取
词性标注、去除停用词(保留名词、动词和量词) ;
事件信息,由于具有广泛的应用前景,引起了学术界和产业界的广泛关注。事件抽取是指从文本或网页中自动抽取特定类型的事件及其要素。目前已经提出的方法可以分为两类,一是基于模式匹配的方法,二是基于机器学习的方法。属于第一类的系统有GenPAM 等,基本思想是用模板描述待抽取信息在文本或网页中必须满足的约束条件,这样信息抽取就归结为在文本中寻找能够匹配特定模板的串的过程。这种方法虽然思想简单,容易实现,而且可以达到较高的抽取精度,然而,由于模板的定义往往由专业人员手工完成,这导致算法的可移植性差,召回率偏低。为此,机器学习方法被引入到信息抽取中,并成为目前的主流方法。例如,Zhao Yanyan [5]等将事件识别看成分类问题,将触发词表同最大熵和支持向量机两种机器学习方法相结合进行了实验;Tan Hongye [6]等针对ACE 中文事件研究了用于事件识别的特征选择策略和用于角色识别的模板匹配方法;David Ahn [2]将MegaM 和TiMBL 两种分类模型应用于ACE 英文事件识别及角色识别;Chen Zheng 和Ji Heng [7]讨论了不同特征对事件角色识别的影响;Fu Jianfeng [8]等针对事件抽取的两个阶段,讨论了如何对不同的特征进行加权,以准确反映它们对分类的不同贡献。
针对事件角色识别,大部分基于分类器的研究都采取为不同角色构建单一分类器的方法。而这种做法在分类时会加大错判率。例如,对于表1所定义的事件角色识别,若为所有
角色统一设计分类器,将其看成5类分类问题(添加none 类别,即不是事件角色) ,则数词这种只可能被填入收购费用角色和收购股份角色的候选实例,也可能被误填入收购公司角色或被收购公司角色。针对上述问题,本文在进行事件角色识别时,为公司类别(即收购公司角色和被收购公司角色) 和数词类别(即收购费用角色和收购股份角色) 分别设计不同的分类器,即将其看成两个3类分类问题,并实验对比了单一及多分类器方法对角色识别效果的影响,结果表明,多分类器设计优于单一分类器。
[4]
) (1) 的
根据预先设定的阈值
词作为特征词。
在识别事件描述句时,将每个句子看成是特征词的集合,
即
={
2
,
0¡Ý
0,score ≤
的动词,再经
过人工筛选可作为触发词的动词;
(3) 上下文词:一般来说,触发词的前后文与事件描述具有很强的关联,因此,选取触发词前后各n 个词的词性信息作为特征,本文实验中设置n =4。
对于上述3类特征,为了兼顾分类精度和效率,需要进一步进行降维处理,把对分类贡献小、不重要的词汇从特征集中删掉,保留分类能力强的特征。这里采用类似
TF
事件描述句中包含词
训练数据集中事件描述句的总数
2事件描述句的识别
为了从文本中抽取事件,首先需要识别事件描述句,过滤
掉与事件描述无关的句子,然后从事件描述句中抽取事件的各个角色。一篇文档通常只包含少量的句子用于描述特定的
=
23502011, V ol.32, No.7
log
总的句子数
计算机工程与设计Computer Engineering and Design
时,人工从各大金融门户网站上挑选关于公司收购语句62个,
设定阈值
,过滤掉Grade 小于阈值的特征。
分类时使用了支持向量机(support vector machines ,SVM ) 。支持向量机[12]是一种构造最优线性分类面的分类算法,对于线性可分问题,SVM 可直接进行分类,对于线性不可分情况,SVM 通过核变换,将数据从n 维空间映射到高维空间,再进行线性分类。
为2.47,过滤后得到305个句子,
其中真正的事件描述句为116个。
表2给出了启发式方法和启发式方法结合有监督学习方法在事件描述句识别方面的对比实验结果。从表2可以看出,启发式方法精确率很低,这是因为它仅仅利用词的简单组合来判断句子是否属于事件描述句,简单且利用的信息少。对启发式算法过滤后的句子进一步使用SVM 进行分类识别,其
中获取关键词时设定的阈值
3事件角色的识别
在识别事件角色时,首先对事件描述句进行分词、词性标
注、公司名识别,然后将数词和公司名作为分类对象,判断它们所承担的事件角色或none 。
已有的方法通常为所有角色统一设计分类器,然而这样势必会增加角色识别的误判率,而为具有不同语义约束的角色分别设计分类器,则可有效提高识别效果,例如为公司类别
(即收购公司角色和被收购公司角色) 和数词类别(即收购费用角色和收购股份角色) 分别设计不同的分类器。本文即采用这样的设计方法,尝试了最大熵(ME ) 和支持向量机(SVM ) 两种分类模型,并讨论了不同特征对角色识别的作用。
角色识别时使用了如下的上下文特征和实体特征:
(1) 一元特征:
每个分类对象左边第一个位置的词1及其词性,
左边第二个位置的词
,
) 及右
12
边的二元组
(
=
+
=
=
,
,
+
³öÏֵĴÎÊý
(6
)
ѵÁ·ÑùÀýµÄ×ÜÊý
, ,
=
=
包含特征
训练样例的总数
不包含特征
训练样例的总数
(7
) (8
)
(9)
=
=2
+
4
4.1
实验
事件描述句识别的实验结果与分析
实验所用语料由网络爬虫从百度新闻上爬取,共有关于
公司收购的新闻文档111篇,总共2625个语句。收集特征词
赵小明,朱洪波,陈黎,等:基于多分类器的金融领域多元关系信息抽取算法
计分类器的方法,得到的结果更优。
表4为SVM 和ME (最大熵) 分类器在角色识别方面的实验结果对比(均采用单分类器设计) ,其中SVM 还是选取SVMlib 软件包(设置c =103,g =1,其他参数为默认) 。可以看出,SVM 的效果好于ME 。
[3][2]
2011, V ol.32, No.72351
tive summarization [C ]. Barcelona, Spain:Proceeding of ACL Workshop on Summarization,2004:104-111.
David Ahn.The stages of event extraction [C ].USA:Proceedingsof the Workshop on Annotating and Reasoning About Time and Events,Association for Computational Linguistics Morristown, 2006:1-8.
Julie A Black,Nisheeth Ranjan.Automated event extraction from Email [DB/OL].http://nlp.stanford.edu/courses/cs224n/2004/jblack-final-report.pdf,2004. [4]
姜吉发. 自由文本的信息抽取模式获取的研究[D ]. 北京:中国科学院,2004:1-18.
赵妍妍, 王啸吟. 中文事件抽取中事件类别的自动识别[C ]. 沈阳:第三届学生计算语言学研讨会,2006. [6]
Tan Hongye, Zhao Tiejun, Zheng Jiaheng. Identification of Chinese event and their argument roles [C ]. Sydney, Australia:Proceedings of the IEEE 8th International Conference on Com-puter and Information Technology Workshops.IEEE Computer Society,2008:14-19.[7]
Chen Zheng,Ji Heng.Language specific issue and feature explo-ration in Chinese event extraction [C ]. Boulder, Colorado:Pro-ceedings of NAACL HLT,2009:209-212.[8]
Fu Jianfeng,Liu Zongtian,Zhong Zhaoman,et al.Chinese event extraction based on feature weighting [J ]. Information Techno-logy Journal,2010,9(1) :184-187.[9]
Saeedeh Momtazi,Dietrich Klakow.Language model-based sen-tence classification for opinion question answering systems [C ]. Mr
为了探讨不同特征对角色识别的重要程度,采用单分类器设计和最大熵分类器,利用不同特征组合进行了角色识别测试,结果如表5所示。从中可以看出,二元特征对角色的识别具有消极作用,使用它反而使F 值降低了,究其原因可能是由于二元特征更容易受到数据稀疏的影响,很难从训练数据中准确估计它们的概率分布。
[5]
表6给出了仅采用一元特征,使用最大熵分类器,分别采用单分类器和多分类器进行角色识别的实验对比。从该表可以发现,在仅使用一元特征的情况下,多分类器的F-Measure 比单分类器提高了2.81%,而表3中两种方法F-measure 的差值为1.9%,提高了0.91%。可见,在单分类器的情况下,实体特征对角色识别具有一定的作用。
5结束语
金融事件抽取对于深入分析金融领域的文本信息,为投
资决策提供支持具有重要意义。本文以收购类信息为例,对从中文文本中识别事件描述句及抽取事件角色(即识别关系及关系的元) 进行了研究。针对事件角色的识别,本文提出了多分类器的设计方法,分别为具有不同语义约束的角色设计不同的分类器,实验结果表明,这种方法相对于单分类器的方法,角色识别的F-Measure 可以提高1.9%。
参考文献:
[1]
Elena Filatova,V asilesios Hatzivassiloglou.Event-based extrac-