基于多分类器的金融领域多元关系信息抽取算法

08-05

23482011, V ol.32, No.7计算机工程与设计Computer Engineering and Design

0引言

其对提高多文档文摘[1]、自动问答[2]、邮件处理[3]等系统的性能具有重要作用。近年来，事件抽取一直吸引着许多学者的注意，并提出了若干比较有效的算法[1-11]。

研究面向金融领域的事件抽取对于深入分析金融领域的文本信息，为投资决策提供支持具有重要意义。本文以收购类信息为例，对从中文文本中识别事件描述句及抽取事件角色(即识别关系及关系的元) 进行了研究。例如，句子“可口可乐公司斥资179.2亿港元收购汇源果汁集团有限公司100%股份”描述了一起收购事件，该句子属于收购事件的描述句，其中的收购关系如表1所示。

本文在事件句的识别方面，提出了基于SVM 的有监督算法。对于关系识别及关系元的抽取，针对多元关系的特点，分别设计了单分类器的算法和多分类器的算法，单分类器的算法由一个分类器负责识别多元关系的所有角色，而多分类器

信息在人类的生产生活中扮演着重要角色。然而，面对海量互联网信息，人们往往无所适从。虽然利用搜索引擎可

使用户获取相关文档(网页) 的效率大大提高，但用户必须通过阅读、浏览、理解文档内容，才能获取到真正感兴趣的信息。为进一步挖掘利用互联网上丰富的信息，提高用户获取所需信息的效率，信息抽取技术应运而生。信息抽取(IE ) 旨在从一个给定的文档集中自动识别出预先设定的实体、关系和事件等类型信息，并将这些信息结构化存储，以供用户查询分析利用。借助于信息抽取技术，自由文本或半结构化的网页被结构化为事实性信息，这样查询处理更方便，用户可以直接获取感兴趣的信息。事件抽取是信息抽取领域一个重要的研究方向，指从文本中自动地抽取特定类型的事件及其事件要素。

收稿日期：2010-09-25；修订日期：2010-11-22。

赵小明，朱洪波，陈黎，等：基于多分类器的金融领域多元关系信息抽取算法2011, V ol.32, No.72349

事件，本文首先采用启发式方法过滤掉明显的非事件描述句，对剩余的句子，再使用分类算法进行事件描述句的识别。

2.1基于启发式的非事件描述句过滤

经过考察发现，事件描述句往往包含与特定事件描述相

关的特征词，不包含这些特征词的句子不可能成为事件描述

的算法对每类语义约束的角色采用不同的分类器来识别，如表1所示的事件角色中，收购公司名和被收购公司名属于一类语义约束的角色，收购费用和收购股份属于另一类语义约束的角色，多分类器算法需要构建两个分类器，来分别识别前两个角色和后两个角色。实验结果表明，多分类器的算法明显优于单分类的算法，角色识别的F-Measure 可以提高1.9%。

句。基于上述观察，本文设计了一个启发式算法用于过滤非事件描述句，其基本思想是：在训练语料(其中标注了事件描述句和事件角色) 中统计事件描述句所包含的词语的出现频率，根据这些频率识别与事件描述相关的特征词；对于待识别的句子，根据其中特征词的出现情况确定该句子是否该过滤，是否为非事件描述句。算法的基本步骤如下：

步骤1步骤2步骤3

从训练语料中筛选事件描述句；

对所筛选的事件描述句进行预处理，包括分词、统计预处理后语料中每个词的出现频率，

用于衡量

对事件描述句识别的预示程度

步骤4

/max (

1相关工作

近年来，从无结构的自由文本和半结构化的网页中抽取

词性标注、去除停用词(保留名词、动词和量词) ；

事件信息，由于具有广泛的应用前景，引起了学术界和产业界的广泛关注。事件抽取是指从文本或网页中自动抽取特定类型的事件及其要素。目前已经提出的方法可以分为两类，一是基于模式匹配的方法，二是基于机器学习的方法。属于第一类的系统有GenPAM 等，基本思想是用模板描述待抽取信息在文本或网页中必须满足的约束条件，这样信息抽取就归结为在文本中寻找能够匹配特定模板的串的过程。这种方法虽然思想简单，容易实现，而且可以达到较高的抽取精度，然而，由于模板的定义往往由专业人员手工完成，这导致算法的可移植性差，召回率偏低。为此，机器学习方法被引入到信息抽取中，并成为目前的主流方法。例如，Zhao Yanyan [5]等将事件识别看成分类问题，将触发词表同最大熵和支持向量机两种机器学习方法相结合进行了实验；Tan Hongye [6]等针对ACE 中文事件研究了用于事件识别的特征选择策略和用于角色识别的模板匹配方法；David Ahn [2]将MegaM 和TiMBL 两种分类模型应用于ACE 英文事件识别及角色识别；Chen Zheng 和Ji Heng [7]讨论了不同特征对事件角色识别的影响；Fu Jianfeng [8]等针对事件抽取的两个阶段，讨论了如何对不同的特征进行加权，以准确反映它们对分类的不同贡献。

针对事件角色识别，大部分基于分类器的研究都采取为不同角色构建单一分类器的方法。而这种做法在分类时会加大错判率。例如，对于表1所定义的事件角色识别，若为所有

角色统一设计分类器，将其看成5类分类问题(添加none 类别，即不是事件角色) ，则数词这种只可能被填入收购费用角色和收购股份角色的候选实例，也可能被误填入收购公司角色或被收购公司角色。针对上述问题，本文在进行事件角色识别时，为公司类别(即收购公司角色和被收购公司角色) 和数词类别(即收购费用角色和收购股份角色) 分别设计不同的分类器，即将其看成两个3类分类问题，并实验对比了单一及多分类器方法对角色识别效果的影响，结果表明，多分类器设计优于单一分类器。

[4]

) (1) 的

根据预先设定的阈值

词作为特征词。

在识别事件描述句时，将每个句子看成是特征词的集合，

即

0¡Ý

0，score ≤

的动词，再经

过人工筛选可作为触发词的动词；

(3) 上下文词：一般来说，触发词的前后文与事件描述具有很强的关联，因此，选取触发词前后各n 个词的词性信息作为特征，本文实验中设置n =4。

对于上述3类特征，为了兼顾分类精度和效率，需要进一步进行降维处理，把对分类贡献小、不重要的词汇从特征集中删掉，保留分类能力强的特征。这里采用类似

事件描述句中包含词

训练数据集中事件描述句的总数

2事件描述句的识别

为了从文本中抽取事件，首先需要识别事件描述句，过滤

掉与事件描述无关的句子，然后从事件描述句中抽取事件的各个角色。一篇文档通常只包含少量的句子用于描述特定的

23502011, V ol.32, No.7

log

总的句子数

计算机工程与设计Computer Engineering and Design

时，人工从各大金融门户网站上挑选关于公司收购语句62个，

设定阈值

，过滤掉Grade 小于阈值的特征。

分类时使用了支持向量机(support vector machines ，SVM ) 。支持向量机[12]是一种构造最优线性分类面的分类算法，对于线性可分问题，SVM 可直接进行分类，对于线性不可分情况，SVM 通过核变换，将数据从n 维空间映射到高维空间，再进行线性分类。

为2.47，过滤后得到305个句子，

其中真正的事件描述句为116个。

表2给出了启发式方法和启发式方法结合有监督学习方法在事件描述句识别方面的对比实验结果。从表2可以看出，启发式方法精确率很低，这是因为它仅仅利用词的简单组合来判断句子是否属于事件描述句，简单且利用的信息少。对启发式算法过滤后的句子进一步使用SVM 进行分类识别，其

中获取关键词时设定的阈值

3事件角色的识别

在识别事件角色时，首先对事件描述句进行分词、词性标

注、公司名识别，然后将数词和公司名作为分类对象，判断它们所承担的事件角色或none 。

已有的方法通常为所有角色统一设计分类器，然而这样势必会增加角色识别的误判率，而为具有不同语义约束的角色分别设计分类器，则可有效提高识别效果，例如为公司类别

(即收购公司角色和被收购公司角色) 和数词类别(即收购费用角色和收购股份角色) 分别设计不同的分类器。本文即采用这样的设计方法，尝试了最大熵(ME ) 和支持向量机(SVM ) 两种分类模型，并讨论了不同特征对角色识别的作用。

角色识别时使用了如下的上下文特征和实体特征：

(1) 一元特征：

每个分类对象左边第一个位置的词1及其词性，

左边第二个位置的词

) 及右

边的二元组

(

＝

＋

³öÏÖµÄ´ÎÊý

)

ÑµÁ·ÑùÀýµÄ×ÜÊý

, ,

包含特征

训练样例的总数

不包含特征

训练样例的总数

) (8

)

(9)

＝

＝２

＋

4.1

实验

事件描述句识别的实验结果与分析

实验所用语料由网络爬虫从百度新闻上爬取，共有关于

公司收购的新闻文档111篇，总共2625个语句。收集特征词

赵小明，朱洪波，陈黎，等：基于多分类器的金融领域多元关系信息抽取算法

计分类器的方法，得到的结果更优。

表4为SVM 和ME (最大熵) 分类器在角色识别方面的实验结果对比(均采用单分类器设计) ，其中SVM 还是选取SVMlib 软件包(设置c =103，g =1，其他参数为默认) 。可以看出，SVM 的效果好于ME 。

[3][2]

2011, V ol.32, No.72351

tive summarization [C ]. Barcelona, Spain:Proceeding of ACL Workshop on Summarization,2004:104-111.

David Ahn.The stages of event extraction [C ].USA:Proceedingsof the Workshop on Annotating and Reasoning About Time and Events,Association for Computational Linguistics Morristown, 2006:1-8.

Julie A Black,Nisheeth Ranjan.Automated event extraction from Email [DB/OL].http://nlp.stanford.edu/courses/cs224n/2004/jblack-final-report.pdf,2004. [4]

姜吉发. 自由文本的信息抽取模式获取的研究[D ]. 北京:中国科学院,2004:1-18.

赵妍妍, 王啸吟. 中文事件抽取中事件类别的自动识别[C ]. 沈阳:第三届学生计算语言学研讨会,2006. [6]

Tan Hongye, Zhao Tiejun, Zheng Jiaheng. Identification of Chinese event and their argument roles [C ]. Sydney, Australia:Proceedings of the IEEE 8th International Conference on Com-puter and Information Technology Workshops.IEEE Computer Society,2008:14-19.[7]

Chen Zheng,Ji Heng.Language specific issue and feature explo-ration in Chinese event extraction [C ]. Boulder, Colorado:Pro-ceedings of NAACL HLT,2009:209-212.[8]

Fu Jianfeng,Liu Zongtian,Zhong Zhaoman,et al.Chinese event extraction based on feature weighting [J ]. Information Techno-logy Journal,2010,9(1) :184-187.[9]

Saeedeh Momtazi,Dietrich Klakow.Language model-based sen-tence classification for opinion question answering systems [C ]. Mr

为了探讨不同特征对角色识别的重要程度，采用单分类器设计和最大熵分类器，利用不同特征组合进行了角色识别测试，结果如表5所示。从中可以看出，二元特征对角色的识别具有消极作用，使用它反而使F 值降低了，究其原因可能是由于二元特征更容易受到数据稀疏的影响，很难从训练数据中准确估计它们的概率分布。

[5]

表6给出了仅采用一元特征，使用最大熵分类器，分别采用单分类器和多分类器进行角色识别的实验对比。从该表可以发现，在仅使用一元特征的情况下，多分类器的F-Measure 比单分类器提高了2.81%，而表3中两种方法F-measure 的差值为1.9%，提高了0.91%。可见，在单分类器的情况下，实体特征对角色识别具有一定的作用。

5结束语

金融事件抽取对于深入分析金融领域的文本信息，为投

资决策提供支持具有重要意义。本文以收购类信息为例，对从中文文本中识别事件描述句及抽取事件角色(即识别关系及关系的元) 进行了研究。针对事件角色的识别，本文提出了多分类器的设计方法，分别为具有不同语义约束的角色设计不同的分类器，实验结果表明，这种方法相对于单分类器的方法，角色识别的F-Measure 可以提高1.9%。

参考文献:

[1]

Elena Filatova,V asilesios Hatzivassiloglou.Event-based extrac-

与《基于多分类器的金融领域多元关系信息抽取算法》相关的范文

08-29 XX市环岛路廉政建设情况汇报

关口前移强化监管锻造精品工程 -XX市环岛路廉政建设情况汇报　　20XX年9月8日，历时xx年建设的XX环岛路实现了全线贯通，全长48公里，总投资26亿元的XX环岛路是XX市最具代表性的一条路，也是目前等级最高的一条城市交通道路，它集交通、旅游、文化、景观、休闲于一体，它的全线的贯通，完善了XX本岛的网状交通结构，极大改善了XX的城市精神文明风貌，对构筑XX海湾型城市建设有着重要的意义。　　X ...

08-17 标兵现场演讲稿

标兵现场演讲稿尊敬的各位老师，亲爱的同学们：大家晚上好！我是来自电子与信息学院08级的同学曹x，今天很荣幸站在这里与大家一起回忆我大学生活的点点滴滴。把老师和家长的期望背在肩上，将高中岁月获得的荣誉藏进行囊，我在自己18岁生日的那一天走进了华南理工大学，人生的新一段旅程开始起航。刚进大学的时候，和很多人一样，告别了“小学生、初中生、高中生”的身份，我在思考如何重新诠释“大学生”这个充满希 ...

10-07 六年级下册数学复习整理和复习建议

六年级下册数学复习整理和复习建议　　一、整理和复习内容　　系统的、全面的回顾与整理小学数学的全部内容。　　二、整理和复习目标　　 1．比较系统地掌握有关整数、小数、分数和百分数、负数、比和比例、方程的基础知识；能比较熟练地进行整数、小数、分数的四则运算，能进行整数、小数加、减、乘、除的估算，会使用学过的简便算法，合理、灵活地进行计算；会解学过的方程；养成检查和验算的习惯。　　 2．巩固常用计 ...

09-09 2014年秋季学期一年级数学上册教学计划

20XX年秋季学期一年级数学上册教学计划一、教材简析：这一册教材包括下面一些内容：数一数，比一比，10以内数的认识和加减法，认识图形，分类，11～20各数的认识，认识钟表，20以内的进位加法，用数学，数学实践活动。本册以基本的数学思想方法为主线安排教学内容。在认识10以内的数之前，先安排数一数、比一比、分一分、认位置等内容的教学；在10以内加、减法之前，先安排分与合的教学。通过数一数，让学生 ...

06-30 深圳市市属事业单位分类改革实施方案

深办[20xx]34号根据<深圳市深化事业单位改革指导意见>(深办发[20xx]11号),现就市属事业单位分类改革提出如下实施方案. 一.分类改革的主要内容 (一)转为国有企业的事业单位现有经营服务类事业单位和部分可按市场化经营的公益类事业单位原则上转为国有企业(下称转企或转为企业),撤销事业建制,收回事业编制.具体包括: 1．经营性演出场所.新闻传媒出版.影视文艺创作.勘察设计. ...

11-06 两会学习话改革-两会学习体会

两会学习话改革-两会学习体会 3月3日，中国人民政治协商会议第十届全国委员第三次会议在北京人民大会堂开幕。3月5日，十届全国人大三次会议在北京也同时开幕，两会在中国政治生活中占有重要地位，一直以来都被海内外媒体看作是中国走势的“风向标”。在一个多星期的两会期间，我始终关注两会的进展情况，认知学习和听取了政府年度工作报告，也通过各种媒介了解了委员们提出的一些宝贵建议和想法。关于政府工作报告我认为以 ...

10-02 银行业务部经理竞职演说

各位领导、同志们，大家好：今天我竞聘的岗位是个人业务部经理在这里我以平常人的心态，参与这次三年一度的岗位竞聘。首先应感谢领导为我们创造了这次公平竞争的机会！对此，我十分珍惜这次机会，实现自己的人生价值。下面从四个方面向各位评委和代表陈述我的竞聘报告一、工作简历我现年46岁，中共党员，大学文化程度，经济师职称。1975年4月至1975年10月在讷河县团委任干事，同时参加全国第一批路线教育， ...

01-05 银行个人业务部经理竟聘报告

12-12 一年级下册数学.语文教学计划

一年级下册数学计划一、情况分析我班学生活泼好动，天真烂漫，大多数学生思维活跃，学习数学的兴趣较浓，有着良好的家庭教育和学习爱好。虽然他们有着强烈的好奇心和求知欲。但是，他们不懂得怎样去学习，也不会学习；有些同学学习能力差，注意力容易分散，所以教师要有层次、有耐心得进行引导，教给学生们学习的方法，培养他们养成爱好学习的习惯，使每个学生都能够顺利地完成本学期的学习任务。二、教材分析本册教材是 ...

03-08 xx地市金融服务创新年活动实施方案

　　为加快金融服务体系建设步伐，促进金融更好地为地方经济服务，形成经济与金融良性互动发展的新局面，根据《xx地市“金融服务创新年”活动实施方案》，结合xx地实际，特制定以下实施方案：　　一、指导思想　　以三个代表¡重要思想为指导，全面落实科学发展观，围绕“对接长珠闽，融入主城区，争当排头兵，建设新xx地的战略目标，以提高金融服务水平和服务效率为核心，以深化金融创新、加大有效信贷投入、优化县域金 ...

随机推荐

猜你喜欢

基于多分类器的金融领域多元关系信息抽取算法

·在同学升学宴上的演讲

·鼓励朋友的短信祝福

·原创学生评语

·县人民检察院争创省级文明单位汇报材料

·小学教学活动月实施方案

·土壤理化性质分等定级

·她在垃圾桶里滴了3滴醋,一夜之间竟然就--

·幼儿园教案废品再利用doc

·改写[清平乐.村居]

·天平使用操作注意事项

·优秀共青团员典型事迹报告

·农委树立社会主义新型荣辱观演讲稿

·xxxx年上半年全区组织工作总结

·毕业30年返校聚会感言

·河南教育网:2014年河南理工大学教师招聘119人

·进场人员安全教育培训

·教师基本功比赛活动总结

·高考期间饮食注意事项

·网购珠宝首饰调查问卷.doc.a

·"讲纪律.守规矩"心得体会