基于全信息的中文信息抽取系统及应用

09-06

2005年12月

第28卷第6期

北京邮电大学学报

Journal of Beijing University of Posts and Telecommunications

Dec. 2005Vol. 28No. 6

文章编号:100725321(2005) 0620048204　　

基于全信息的中文信息抽取系统及应用

李　蕾, 　周延泉, 　王菁华

(北京邮电大学智能科学与技术研究中心, 北京100876)

摘要:从全信息理论的思想出发, 综合建立、分析和使用语法、, 用领域———财经新闻领域的中文信息抽取实验系统. 应用模式, 即“信息抽取+手机短信”, 、灵巧性、普及性等优点很好地结合起来, . . 关　键　词:; ; ; :11:A

Comprehensive Information B ased Chinese Information

Extraction System and Application

L I Lei , 　ZHOU Yan 2quan , 　WAN G Jing 2hua

(Center for Intelligence Science and Technology Reseach , Beijing University of Posts and Telecommunications , Beijing 100876, China )

Abstract :A grope research is described on specific application domain oriented Chinese Information Extraction System from the point of Comprehensive Information Theory. A Comprehensive Informa 2tion Knowledge Base is built through defining , analyzing and using syntactic , semantic and pragmatic information as an integrated entity. An experimental demo system is implemented for the application domain of financial news about management leaders ’alteration in companies. Based on this , a kind of application model is discussed for information extraction system in Intelligent Mobile Information Ser 2vice , which is Information Extraction plus Mobile Short Message Service. We assembled the charac 2teristics of conciseness , definiteness in focus of Information Extraction result with that of mobility , fa 2cility and popularity of mobile phone into an experimental system. Testing results have shown its feasi 2bility.

K ey w ords :information extraction ; comprehensive information ; comprehensive pragmatic information analysis ; intelligent mobile information service

0　引　言

信息抽取是从信息海洋中捕获有用信息并以结

构化形式呈现给用户的一种智能化信息获取技术, 是人工智能自然语言处理领域面向实际应用而产生

的1个新分支. 它的基本特点是从一段自然语言文本中抽取指定的事件、事实等信息, 形成结构化的数据. 可见, 与一般的信息检索技术相比, 信息抽取技术具有更强的可用性, 当然也具有更大的技术难度, 因此, 更加值得关注和研究.

收稿日期:2005203223基金项目:国家“863计划”重点基础研究发展规划项目(2001AA114210213)

) , 女, 讲师, 博士, E 2mail :lilei @nlu.caai. cn. 作者简介:李　蕾(1974—

第6期　　　　　　　　　　　　李　蕾等:基于全信息的中文信息抽取系统及应用49

国外信息抽取研究最早始于20世纪60年代, DARPA 资助的消息理解研讨会对其发展起了巨大的推动作用. 目前, 欧美国家有很多研究者从事英语信息抽取研究与开发工作[1].

中文信息抽取研究起步较晚, 目前很多研究集中在中文命名实体识别上, 在设计实现完整系统方面也有一些尝试, 如北京大学会议新闻抽取系统[2], 上海交通大学多语种投资信息抽取系统[3].

本文针对信息抽取系统面向特定领域的天然属

[4～6]

性, 引入钟义信教授的“全信息理论”, 研究了基于全信息理论的中文信息抽取技术, 原型系统, , 与手机传递信息, 实现了1个智能化移动信息服务实验系统. 这种智能性的移动信息业务, 具有特别诱人的应用前景.

系统对输入的自然语言文本进行分析处理, 提取相关信息点填入框架中. 如果输入文本中有多个不同事件, 则应生成多个框架填充实例. 系统结构如图2所示.

图2　中文信息抽取实验系统结构示意图

1　基于全信息中文信息抽取实验系统

111　全信息理论简介

输入的自然语言文本经过分句、分词、命名实体

识别、局部事件抽取、事件推理合并和结果生成模块, 就可以得到最终的信息抽取结果. 图2右边框架是全信息知识库, 根据其作用对象, 可以分为语句级和事件级全信息知识库. 语句级全信息知识库包括通用词典、领域词典与规则、语用感知信息和施效信息. 这3部分以及事件推理信息之间也形成了1种自底向上的层次关系, 高层直接依靠低层来组织自己的知识.

①分句模块

其功能是在自然语言文本中自动识别出不同的语句单元并加以标注, 例如:

但整个市场经济制度的配套改革深入到今天, 仍矛盾重重, 错综复杂, 各项制度改革互为因果.

②分词模块

完成词语的自动切分, 采用正向最大匹配, 所需词典是全信息知识库中最基础的通用词典, 主要描述词汇的语法信息.

③命名实体识别模块

其功能是在分词结果基础上识别并标注公司名称、职务名称和人名. 这3类命名实体是符合目标信息框架定义的候选槽值填充单元. 目前识别算法主要是基于规则和领域词典实现的. 以职务名称为例, 领域词典包含职位名称常用基本词, 如“经理”, 结合常用前缀词“总”, , 常用后缀词“助理”, 等进行动态识别. 同时考虑了英文, 如“CEO ”、“CTO ”. 该

全信息理论引入了认识主体与客体事物之间的

关系, 事物状态和状态变化方式的形式化关系是语法信息; 这种形式化关系与它相应客体的关联产生语义信息; 而语法语义与主体的关联则形成语用信息. 语法、语义、语用信息的有机整体, 称为“全信息”. 由于研究语用信息要以语义和语法信息为基础, 因此语用信息本身也具有“全信息”的含义.

本文从全信息角度综合分析语法、语义、语用信息, 面向财经新闻中公司人事变动领域建立了全信息知识库. 112　系统描述

主要分析上市公司高层人事变动类事件, 为此制定目标信息框架如图1所示.

事件类型人事变动公司名称职务名称离职人员到任人员事件类型公司名称职务名称

到任人员

到任

事件类型公司名称

离职

职务名称

离职人员

图1　目标信息框架

50北京邮电大学学报　　　　　　　　　　　　　　　　　第28卷

模块所用知识是全信息知识库的第2层, 与第1层

相比, 在语法信息基础上增加了领域相关的语义信息. 例句1:

湘火炬A/聂新勇/辞去公司董事长/职务, 推选张明久/为公司董事长/.

说, 公司名称在这里可以显式出现, 也可以隐式出现. “Person ”表示存在1个人名, 其后的编号表示不同的人名, 此例中有2个不同的人名. “Position ”表示存在1个职位名称, 第2个“Position ”要与第1个相同. 这3种实体就是前面命名实体识别模块标注的结果. “V HIR ”和“VFIR ”是两类人事变动语句中常用的动词变量“, V HIR ”, 如“选举”、“推选”“、等“; , 如“辞去”、“等“; ”.

, , 后者将语句中的信息点, 根据语用施效信息所描述的目标框架槽值的填充条件放入1个框架实例中. 仍看上例,

公司名称←Company 职务名称←Position 到任人员←Person2离任人员←Person1

示例:例句1的抽取实例.

事件类型人事变动公司名称职务名称离职人员到任人员

湘火炬A 董事长聂新勇张明久

④局部事件抽取模块

该模块是在1个语句单元范围内检测是否有符合目标信息框架定义的事件存在, 如果有, 则抽取各个信息点填入1个框架实例. 语句单元就是分句模块标注的结果. 本语法单元, , 1, “局部”事件抽取层分析. 语用信息的前提是存在1个目标作为评价效用的参照物, 这恰好与信息抽取系统的前提相呼应, 即面向特定领域定义目标信息框架. 语用信息的特点是体现效用价值, 从而可以直接标示出所分析的语句是否可用. 因此, 主要任务就是根据目标信息框架定义综合语用信息. 本文从分析人的阅读行为出发, 考察人是如何判断一句话是否有用. 人在阅读时都带有一定目的, 将此目的与一句话所表达的语法语义信息对比, 就可以确定其是否有用. 换句话说, 在人的潜意识中存在着某种符合其目的的语句表示模型, 将该模型与所阅读的语句对比, 符合的就认为是可用的. 因此可以通过定义符合目标信息框架的语句表示模型来表达语用信息. 语句表示模型使用语法、语义信息, 因此可以反映综合语用信息.

根据上述观点, 该模块功能可划分为2部分, 即语用感知器和语用施效器, 分别依靠全信息知识库中的语用感知信息和语用施效信息. 这是全信息知识库的第3层, 其与前2层关联紧密, 根据作用范围, 将它们共同称为“语句级全信息知识库”. 语用感知器依据语用感知信息来检测一句话, 语用感知信息描述语句表示模型. 以公司人事变动的一种语句模型为例:

…Company …Person1…VFIR …Position …V HIR …Person2…(Company ) ? …Position …其中“, Company ”表示存在1个公司名称, 第2个用括号括起来的“(Company ) ? ”表示可以存在0个或1个公司名称, 其与前面1个公司名称要相同, 也就是

⑤事件推理合并模块

事件可能在几个不同位置的语句中被多次叙述, 而且每次叙述所给出的信息点不一定都相同. 在局部事件抽取基础上, 该模块对事件实例在全篇范围内进行去重、合并、推理, 以生成最终的事件. 该功能依靠全信息知识库中的最高层“事件推理信息”, 描述事件实例的语法、语义和语用信息, 称为“事件级全信息知识库”. 事件去重与合并都是比较分散事件实例, 如果特征槽值完全相同, 或存在包含与被包含的关系, 则从效用角度认为是相同的. 事件推理是在已知分散实例基础上推理出新的实例. 例如2个分散实例.

离职实例A 事件类型职务名称离职人员

离职总裁何经华

到任实例B 事件类型职务名称到任人员

到任总裁王京文

公司名称用友软件公司名称用友软件

A 与B 的“公司名称”“、职务名称”槽值相同, 语用信

息互为补充, 可以生成1个新的人事变动实例C.

⑥结果生成模块

抽取实例按照事先约定好的形式输出, 或是存

第6期　　　　　　　　　　　　李　蕾等:基于全信息的中文信息抽取系统及应用

事件类型人事变动公司名称用友软件职务名称离职人员到任人员

总裁何经华王京文

服务请求, 查询资源数据库得到所需信息发给用户.

入数据库中供用户阅读、使用. 113　实现和测试

系统用Perl 实现, 在Windows 或Linux 操作系统中运行.

测试语料是网上采集的20篇新闻, 事变动事件的10篇, 共涉及22变动. 采用准确率(评价标准.

=Recall =

3、处理、存储、管理层, 主要负责所需资源数据库的建设和管理, 包括新闻信息

采集和动态监控模块、对采集到的信息进行抽取的模块以及资源数据库管理模块.

其中信息抽取也可以作为1个主动客户端访问手机短信服务器, 基于TCP/IP 的Socket 编程实现. 传送信息采用UN ICODE 编码, 以适应多语言信息服务.

系统支持用户预订和实时点播. 预订点播即用户首先在系统注册, 设定点播内容. 实时点播是当用户临时需要时, 向其发送更贴近需求的信息. 系统可以动态收集最新新闻, 及时更新资源数据库, 从而提供实时的信息服务.

所有抽取到的事件数

发生事件总数

测试结果:共抽取到19个人事变动事件, 其中正确抽取18个.

Recall =0172　Precision =0195

可见, 正确率较高, 召回率较低. 规则制定比较精确, 出现错误的原因是人名识别有误, 因此准确率高; 规则由人工制定覆盖面较窄, 召回率较低; 命名实体识别错误是影响系统性能的重要因素. 测试效果证明了综合语用信息抽取的可行性, 但各模块的功能还需要优化提高.

3　结束语

作为应用性技术, 信息抽取近年来正受到越来越多的重视. 本文基于全信息理论建立知识库, 使知识得到更加合理、高效的组织和应用. 下一步, 将扩大语料规模, 研究如何改进系统功能, 同时探索利用机器学习技术进行知识获取.

应用方面, 本文将信息抽取与移动终端技术结合是对智能移动信息服务研究的探索, 利用智能技术研究成果提供更方便、更人性化的移动信息服务必将是智能移动信息服务的重要途径. 参考文献:

[1]　Ralph Grishman. Information extraction :techniques and

challenges[Z].S pringer 2Verlag , 1997.

[2]　孙斌. 信息提取技术概述[J].自然语言处理, 2003,

2(1) :34.

Sun Bin. A summarization of information extraction[J].Natural Language Processing , 2003, 2(1) :34.

2　手机信息服务应用初探

211　信息抽取+手机

信息抽取把文本里包含的用户感兴趣事件、实体和关系等信息进行结构化处理, 输入是原始文本, 输出是固定格式的信息点, 简洁、明确, 一目了然.

手机作为自由式文本的显示终端也存在局限性, 由于屏幕较小, 几乎所有信息阅读都需要多次翻屏, 这样使得上下文的阅读思路不连贯, 对全文的理解造成障碍.

本文将二者结合起来, 直接将用户关心的焦点内容发送到手机上, 用户只需通过一二次翻屏就可以得到所需信息, 从而大大方便了用户.

212　智能移动信息服务实验系统

系统框图见图3. 其功能划分为2层.

①前台为点播信息服务层, 主要负责与用户手机的交互, 接受、跟踪用户的点播服务请求; 对于查询

(下转第64页)

64北京邮电大学学报　　　　　　　　　　　　　　　　　第28卷

取结果的相反数, 即可求得外部到达顾客在系统中

的平均总逗留时间. 为简单起见, 以下仅限外部到达顾客反馈1次的情况, 即m =2. 使用多元微分的链式法则, 经计算, 得推论1.

推论1　平稳状态时, 在外部到达顾客只反馈1次的情况下(m =2) , 顾客在系统中的平均总逗留时间为

E (T ) =(-1) T (s ) |s =0=

d s

系统、计算机网络的性能建模分析提供了更为方便实用的数学工具, 也为各种计算机模拟仿真提供可靠的分析基础[4]. 参考文献:

[1]　Choi B D , K im B. M/G /1queueing system with fixed

feedback policy [J].The ANZIAM Journal , 2002, 44(2) :2832297.

[2]　张奇支, M/

/, , ) :, Liao Jianxin , Zhu Xiaomin. On queue sizes of M/G /1queueing system with fixed times of feedbacks [J].Journal of Beijing University of Posts and Telecom 2munications , 2005, 28(3) :17219.

[3]　张奇支. 移动智能网话务模型及SCP 中若干性能问题

3223

ρ) 1+ρ1ρ2+ρ1ρ2+ρ2-ρ-(1+ρ

ρ(c +1) /∑

λ(1+ρ2) (ρ-1)

(7)

注记:]E (N ) . 经计算, 它与式(7) 中的平均总逗留时间E (T ) 相差1个λ系数, 即E (N ) =λE (T ) . 这正好是Little 公式的标准结果, 这从另一个角度说明了文献[2]中结论和本文结论的正确性.

研究[D].北京:北京邮电大学, 2005.

Zhang Qizhi. A study on teletraffic model and some per 2formance issues of SCP in mobile intelligent network[D].Beijing :Beijing University of Posts and Telecommunica 2tions , 2005.

[4]　杨飞, 李晓峰, 詹舒波等. 一种智能外设的结构和性

4　结束语

本文结论是文献[2]的进一步深入研究的结果,

它不但可以验证文献[2]中结论的正确性, 而且可以通过L ST 的性质, 借助于数学软件求得顾客在系统中的总逗留时间的二阶矩和更高阶矩. 同时为通信

能分析[J].北京邮电大学学报, 2000, 23(2) :52256.

Y ang Fei , Li Xiaofeng , Zhan Shubo , et al. Structure and performance analysis of intelligent peripheral [J ].Journal of Beijing University of Posts and Telecommuni 2cations , 2000, 23(2) :52256.

(上接第51页)

[3]　李芳, 盛焕烨, 张冬茉. 多语种投资信息抽取系统的

[5]　李蕾, 孙春葵, 杨晓兰, 等. 一种特定领域中文自动

摘要系统实现研究[J].北京邮电大学学报, 2000, 23

(1) :6210.

Li Lei , Sun Chunkui , Y ang Xiaolan , et al. Understand 2ing 2based chinese automatic abstracting system in special domain [J].Journal of Beijing University of Posts and Telecommunications , 2000, 23(1) :6210.

[6]　钟义信. 面向智能研究的全信息理论[J].北京邮电大

实现[J].上海交通大学学报, 2004, 38(1) :21225.

Li Fang , Sheng Huanye , Zhang Dongmo. Realization of a multilingual investment information extraction system [J].Journal of Shanghai Jiaotong University , 2004, 38(1) :21225.

[4]　钟义信. 信息科学原理[M ].第三版. 北京:北京邮电

大学出版社, 2002. 1220.

Zhong Y ixin. Principle of information science [M ].Bei 2jing University of Posts and Telecommunications Press , 2002. 1220.

学学报, 1998, 21(4) :126.

Zhong Y ixin. Intelligence oriented comprehensive infor 2mation theory[J].Journal of Beijing University of Posts and Telecommunications , 1998, 21(4) :126.

与《基于全信息的中文信息抽取系统及应用》相关的范文

06-25 进口药品管理制度

第一章总则第一条为加强进口药品的监督管理，保证进口药品的质量和安全有效，根据《中华人民共和国药品管理法》的规定，制定本办法。第二条国家对进口药品实行注册审批制度。进口药品必须取得中华人民共和国国家药品监督管理局核发的《进口药品注册证》，并经国家药品监督管理局授权的口岸药品检验所检验合格。第三条国家药品监督管理局主管进口药品的审批和监督管理工作，地方各级药品监督管理部门主管辖区内进口药品的监 ...

03-23 数字化商务与现代物流配送中心整体解决方案

数字化商务与现代物流配送中心整体解决方案 第一期工程建设电子信息服务平台 第二期工程实施网络综合布线工程 第三期工程建立现代物流配送中心 第四期工程电子商务政务服务体系 xx市商业步行街数字化商务与现代物流配送中心第一期工程建设电子信息服务平台互联网以其大容量、高速度的信息传递方式迅速渗透到社会经济的各个环节，逐步成为新一轮经济的基础。它对社会经济的许多方面产生了深刻的影响 ...

01-05 xx集团网站方案书

xx集团网站方案书目录一、前言…………………………………………………………………………3 二、为什么需要一个新的xx集团网站………………………………………4 2.1、好马配好鞍，名企配好站…………………………………………………4 2.2、xx集团网站应该是这样的…………………………………………… 5三、网站设计需求………………………………………………………………6 3.1、建立完善的产 ...

05-04 2014年春季学期信息技术教学计划

20XX年春季学期信息技术教学计划信息技术是一门讲究操作性和实践性的课程，所以应注重培养孩子的动手操作实践能力，达到手脑并用，同步发展。小学生先从培养兴趣爱好入手，只有对信息技术产生了浓厚的兴趣，才有学习的动力。一、指导思想以邓小平同志“教育要面向现代化、面向世界、面向未来”和江泽民同志“三个代表”重要思想为指导，全面贯彻党的教育方针，全面推进素质教育，进一步提高素质教育和教育现代化发展水平 ...

12-17 关于网站建设的策划书

关于网站建设的策划书第一章网络现状第二章网站策划第三章网站建设第四章网站推广第五章盈利模式第六章管理机制第七章联盟合作第八章电子商务第九章网站案例第十章关于我们 xx工作室手机： E：第一章网络现状第一节报道最新新闻报道：北京10月26日消息：中国电信集团有关人士昨天透露，年内上网费用将下调，而且幅度不小。新一轮资费下调计划即将出台。自今年7月 ...

01-14 2014年2014年XX区教育科研工作思路

　　一、指导思想　　进一步贯彻上级教育科研部门有关工作要求，从本区学校和教师发展实际出发，“立足前沿、面向实际、探索规律、注重实效”，推进学校教育科研范式的转变，积极为广大教师搭建有利于反思实践、交流研讨的活动平台，为不断深化基础教育课程改革的研究与实践，为提高学校和教师实施素质教育的水平和能力，不断提高教育科研的针对性、实效性、指导性和服务性。　　二、工作目标和任务　　（一）落实省市区制定 ...

12-29 登山行动重大项目申报材料

　　为了进一步加强本市的基础研究工作，提升*科技持续创新能力和国际学术地位，围绕国家和*市中长期科技发展规划和“登山行动计划”的要求和重点任务，针对生命科学、信息科学、材料科学等领域的前沿科学问题。开展以应用为导向的创新研究，特发布本指南。　　一、研究专题和期限　　专题一、成形制造中材料微观结构与应力场控制的研究　　研究目标、内容　　成形制造过程中的材料微观结构与应力场的控制是高精度、高性 ...

02-10 电子商务毕业论文实施计划

电子商务毕业论文实施计划一、毕业论文的目的毕业论文是培养学生综合运用本专业基础理论，基本知识和基本技能分析解决实际问题能力的一个重要环节。它是本专业各个先修教学环节的继续深化和检验。通过毕业论文使学生在实际的电子商务系统管理与工程实际中，充分利用所学的专业知识，理论联系实际，独立开展工作，从而使学生具备从事电子商务工作的实际能力。毕业论文的目的具体有：培养学生综合运用所学知识和技能，解决电子 ...

08-29 XX市环岛路廉政建设情况汇报

关口前移强化监管锻造精品工程 -XX市环岛路廉政建设情况汇报　　20XX年9月8日，历时xx年建设的XX环岛路实现了全线贯通，全长48公里，总投资26亿元的XX环岛路是XX市最具代表性的一条路，也是目前等级最高的一条城市交通道路，它集交通、旅游、文化、景观、休闲于一体，它的全线的贯通，完善了XX本岛的网状交通结构，极大改善了XX的城市精神文明风貌，对构筑XX海湾型城市建设有着重要的意义。　　X ...

05-02 市世博科技项目申报材料

为进一步推进世博会建设.保障世博会运行和管理,在国家科学技术部的支持下,*市科学技术委员会发布*年世博科技专项指南. 一.研究内容和期限专题1世博园区建设规划及后续利用研究研究目标:针对世博会"城市试验区"."创新广场".世博园区新能源利用和园区后续利用.以及世博科技推进的需求,完成相应的规划方案,为世博会"城市,让生活更美好"主题提 ...

随机推荐

猜你喜欢

基于全信息的中文信息抽取系统及应用

·重庆粮食集团后备干部培训心得体会

·雅思作文题目常见

·养金毛犬是养公的还是母的好呢?

·正确对待得与失

·反腐题材议论文

·护士转正申请

·教师教研工作总结

·举办纪念建团90周年全校共青团员重温誓词仪式的心得

·房产公司2015年年会主持词

·电火花加工过程

·XX县非法采供血液和单采血浆专项整治工作方案

·环保倡议书格式

·街道办事处突发公共卫生事件社区应急预案

·与外方老板相处八项注意

·朋友之间的禁忌

·[剖析]管理一严员工就会辞职的十二大原因

·西苑中医院医药清单

·因为性质较一般氧化镁活泼较容易反应

·学校优秀学生评选方案

·农村孩子家庭教育问题多