基于全信息的中文信息抽取系统及应用
2005年12月
第28卷第6期
北京邮电大学学报
Journal of Beijing University of Posts and Telecommunications
Dec. 2005Vol. 28No. 6
文章编号:100725321(2005) 0620048204
基于全信息的中文信息抽取系统及应用
李 蕾, 周延泉, 王菁华
(北京邮电大学智能科学与技术研究中心, 北京100876)
摘要:从全信息理论的思想出发, 综合建立、分析和使用语法、, 用领域———财经新闻领域的中文信息抽取实验系统. 应用模式, 即“信息抽取+手机短信”, 、灵巧性、普及性等优点很好地结合起来, . . 关 键 词:; ; ; :11:A
Comprehensive Information B ased Chinese Information
Extraction System and Application
L I Lei , ZHOU Yan 2quan , WAN G Jing 2hua
(Center for Intelligence Science and Technology Reseach , Beijing University of Posts and Telecommunications , Beijing 100876, China )
Abstract :A grope research is described on specific application domain oriented Chinese Information Extraction System from the point of Comprehensive Information Theory. A Comprehensive Informa 2tion Knowledge Base is built through defining , analyzing and using syntactic , semantic and pragmatic information as an integrated entity. An experimental demo system is implemented for the application domain of financial news about management leaders ’alteration in companies. Based on this , a kind of application model is discussed for information extraction system in Intelligent Mobile Information Ser 2vice , which is Information Extraction plus Mobile Short Message Service. We assembled the charac 2teristics of conciseness , definiteness in focus of Information Extraction result with that of mobility , fa 2cility and popularity of mobile phone into an experimental system. Testing results have shown its feasi 2bility.
K ey w ords :information extraction ; comprehensive information ; comprehensive pragmatic information analysis ; intelligent mobile information service
0 引 言
信息抽取是从信息海洋中捕获有用信息并以结
构化形式呈现给用户的一种智能化信息获取技术, 是人工智能自然语言处理领域面向实际应用而产生
的1个新分支. 它的基本特点是从一段自然语言文本中抽取指定的事件、事实等信息, 形成结构化的数据. 可见, 与一般的信息检索技术相比, 信息抽取技术具有更强的可用性, 当然也具有更大的技术难度, 因此, 更加值得关注和研究.
收稿日期:2005203223基金项目:国家“863计划”重点基础研究发展规划项目(2001AA114210213)
) , 女, 讲师, 博士, E 2mail :lilei @nlu.caai. cn. 作者简介:李 蕾(1974—
第6期 李 蕾等:基于全信息的中文信息抽取系统及应用49
国外信息抽取研究最早始于20世纪60年代, DARPA 资助的消息理解研讨会对其发展起了巨大的推动作用. 目前, 欧美国家有很多研究者从事英语信息抽取研究与开发工作[1].
中文信息抽取研究起步较晚, 目前很多研究集中在中文命名实体识别上, 在设计实现完整系统方面也有一些尝试, 如北京大学会议新闻抽取系统[2], 上海交通大学多语种投资信息抽取系统[3].
本文针对信息抽取系统面向特定领域的天然属
[4~6]
性, 引入钟义信教授的“全信息理论”, 研究了基于全信息理论的中文信息抽取技术, 原型系统, , 与手机传递信息, 实现了1个智能化移动信息服务实验系统. 这种智能性的移动信息业务, 具有特别诱人的应用前景.
系统对输入的自然语言文本进行分析处理, 提取相关信息点填入框架中. 如果输入文本中有多个不同事件, 则应生成多个框架填充实例. 系统结构如图2所示.
图2 中文信息抽取实验系统结构示意图
1 基于全信息中文信息抽取实验系统
111 全信息理论简介
输入的自然语言文本经过分句、分词、命名实体
识别、局部事件抽取、事件推理合并和结果生成模块, 就可以得到最终的信息抽取结果. 图2右边框架是全信息知识库, 根据其作用对象, 可以分为语句级和事件级全信息知识库. 语句级全信息知识库包括通用词典、领域词典与规则、语用感知信息和施效信息. 这3部分以及事件推理信息之间也形成了1种自底向上的层次关系, 高层直接依靠低层来组织自己的知识.
①分句模块
其功能是在自然语言文本中自动识别出不同的语句单元并加以标注, 例如:
但整个市场经济制度的配套改革深入到今天, 仍矛盾重重, 错综复杂, 各项制度改革互为因果.
②分词模块
完成词语的自动切分, 采用正向最大匹配, 所需词典是全信息知识库中最基础的通用词典, 主要描述词汇的语法信息.
③命名实体识别模块
其功能是在分词结果基础上识别并标注公司名称、职务名称和人名. 这3类命名实体是符合目标信息框架定义的候选槽值填充单元. 目前识别算法主要是基于规则和领域词典实现的. 以职务名称为例, 领域词典包含职位名称常用基本词, 如“经理”, 结合常用前缀词“总”, , 常用后缀词“助理”, 等进行动态识别. 同时考虑了英文, 如“CEO ”、“CTO ”. 该
全信息理论引入了认识主体与客体事物之间的
关系, 事物状态和状态变化方式的形式化关系是语法信息; 这种形式化关系与它相应客体的关联产生语义信息; 而语法语义与主体的关联则形成语用信息. 语法、语义、语用信息的有机整体, 称为“全信息”. 由于研究语用信息要以语义和语法信息为基础, 因此语用信息本身也具有“全信息”的含义.
本文从全信息角度综合分析语法、语义、语用信息, 面向财经新闻中公司人事变动领域建立了全信息知识库. 112 系统描述
主要分析上市公司高层人事变动类事件, 为此制定目标信息框架如图1所示.
事件类型人事变动公司名称职务名称离职人员到任人员事件类型公司名称职务名称
到任人员
到任
事件类型公司名称
离职
职务名称
离职人员
图1 目标信息框架
50北京邮电大学学报 第28卷
模块所用知识是全信息知识库的第2层, 与第1层
相比, 在语法信息基础上增加了领域相关的语义信息. 例句1:
湘火炬A/聂新勇/辞去公司董事长/职务, 推选张明久/为公司董事长/.
说, 公司名称在这里可以显式出现, 也可以隐式出现. “Person ”表示存在1个人名, 其后的编号表示不同的人名, 此例中有2个不同的人名. “Position ”表示存在1个职位名称, 第2个“Position ”要与第1个相同. 这3种实体就是前面命名实体识别模块标注的结果. “V HIR ”和“VFIR ”是两类人事变动语句中常用的动词变量“, V HIR ”, 如“选举”、“推选”“、等“; , 如“辞去”、“等“; ”.
, , 后者将语句中的信息点, 根据语用施效信息所描述的目标框架槽值的填充条件放入1个框架实例中. 仍看上例,
公司名称←Company 职务名称←Position 到任人员←Person2离任人员←Person1
示例:例句1的抽取实例.
事件类型人事变动公司名称职务名称离职人员到任人员
湘火炬A 董事长聂新勇张明久
④局部事件抽取模块
该模块是在1个语句单元范围内检测是否有符合目标信息框架定义的事件存在, 如果有, 则抽取各个信息点填入1个框架实例. 语句单元就是分句模块标注的结果. 本语法单元, , 1, “局部”事件抽取层分析. 语用信息的前提是存在1个目标作为评价效用的参照物, 这恰好与信息抽取系统的前提相呼应, 即面向特定领域定义目标信息框架. 语用信息的特点是体现效用价值, 从而可以直接标示出所分析的语句是否可用. 因此, 主要任务就是根据目标信息框架定义综合语用信息. 本文从分析人的阅读行为出发, 考察人是如何判断一句话是否有用. 人在阅读时都带有一定目的, 将此目的与一句话所表达的语法语义信息对比, 就可以确定其是否有用. 换句话说, 在人的潜意识中存在着某种符合其目的的语句表示模型, 将该模型与所阅读的语句对比, 符合的就认为是可用的. 因此可以通过定义符合目标信息框架的语句表示模型来表达语用信息. 语句表示模型使用语法、语义信息, 因此可以反映综合语用信息.
根据上述观点, 该模块功能可划分为2部分, 即语用感知器和语用施效器, 分别依靠全信息知识库中的语用感知信息和语用施效信息. 这是全信息知识库的第3层, 其与前2层关联紧密, 根据作用范围, 将它们共同称为“语句级全信息知识库”. 语用感知器依据语用感知信息来检测一句话, 语用感知信息描述语句表示模型. 以公司人事变动的一种语句模型为例:
…Company …Person1…VFIR …Position …V HIR …Person2…(Company ) ? …Position …其中“, Company ”表示存在1个公司名称, 第2个用括号括起来的“(Company ) ? ”表示可以存在0个或1个公司名称, 其与前面1个公司名称要相同, 也就是
⑤事件推理合并模块
事件可能在几个不同位置的语句中被多次叙述, 而且每次叙述所给出的信息点不一定都相同. 在局部事件抽取基础上, 该模块对事件实例在全篇范围内进行去重、合并、推理, 以生成最终的事件. 该功能依靠全信息知识库中的最高层“事件推理信息”, 描述事件实例的语法、语义和语用信息, 称为“事件级全信息知识库”. 事件去重与合并都是比较分散事件实例, 如果特征槽值完全相同, 或存在包含与被包含的关系, 则从效用角度认为是相同的. 事件推理是在已知分散实例基础上推理出新的实例. 例如2个分散实例.
离职实例A 事件类型职务名称离职人员
离职总裁何经华
到任实例B 事件类型职务名称到任人员
到任总裁王京文
公司名称用友软件公司名称用友软件
A 与B 的“公司名称”“、职务名称”槽值相同, 语用信
息互为补充, 可以生成1个新的人事变动实例C.
⑥结果生成模块
抽取实例按照事先约定好的形式输出, 或是存
第6期 李 蕾等:基于全信息的中文信息抽取系统及应用
事件类型人事变动公司名称用友软件职务名称离职人员到任人员
总裁何经华王京文
51
服务请求, 查询资源数据库得到所需信息发给用户.
入数据库中供用户阅读、使用. 113 实现和测试
系统用Perl 实现, 在Windows 或Linux 操作系统中运行.
测试语料是网上采集的20篇新闻, 事变动事件的10篇, 共涉及22变动. 采用准确率(评价标准.
=Recall =
3、处理、存储、管理层, 主要负责所需资源数据库的建设和管理, 包括新闻信息
采集和动态监控模块、对采集到的信息进行抽取的模块以及资源数据库管理模块.
其中信息抽取也可以作为1个主动客户端访问手机短信服务器, 基于TCP/IP 的Socket 编程实现. 传送信息采用UN ICODE 编码, 以适应多语言信息服务.
系统支持用户预订和实时点播. 预订点播即用户首先在系统注册, 设定点播内容. 实时点播是当用户临时需要时, 向其发送更贴近需求的信息. 系统可以动态收集最新新闻, 及时更新资源数据库, 从而提供实时的信息服务.
所有抽取到的事件数
发生事件总数
测试结果:共抽取到19个人事变动事件, 其中正确抽取18个.
Recall =0172 Precision =0195
可见, 正确率较高, 召回率较低. 规则制定比较精确, 出现错误的原因是人名识别有误, 因此准确率高; 规则由人工制定覆盖面较窄, 召回率较低; 命名实体识别错误是影响系统性能的重要因素. 测试效果证明了综合语用信息抽取的可行性, 但各模块的功能还需要优化提高.
3 结束语
作为应用性技术, 信息抽取近年来正受到越来越多的重视. 本文基于全信息理论建立知识库, 使知识得到更加合理、高效的组织和应用. 下一步, 将扩大语料规模, 研究如何改进系统功能, 同时探索利用机器学习技术进行知识获取.
应用方面, 本文将信息抽取与移动终端技术结合是对智能移动信息服务研究的探索, 利用智能技术研究成果提供更方便、更人性化的移动信息服务必将是智能移动信息服务的重要途径. 参考文献:
[1] Ralph Grishman. Information extraction :techniques and
challenges[Z].S pringer 2Verlag , 1997.
[2] 孙斌. 信息提取技术概述[J].自然语言处理, 2003,
2(1) :34.
Sun Bin. A summarization of information extraction[J].Natural Language Processing , 2003, 2(1) :34.
2 手机信息服务应用初探
211 信息抽取+手机
信息抽取把文本里包含的用户感兴趣事件、实体和关系等信息进行结构化处理, 输入是原始文本, 输出是固定格式的信息点, 简洁、明确, 一目了然.
手机作为自由式文本的显示终端也存在局限性, 由于屏幕较小, 几乎所有信息阅读都需要多次翻屏, 这样使得上下文的阅读思路不连贯, 对全文的理解造成障碍.
本文将二者结合起来, 直接将用户关心的焦点内容发送到手机上, 用户只需通过一二次翻屏就可以得到所需信息, 从而大大方便了用户.
212 智能移动信息服务实验系统
系统框图见图3. 其功能划分为2层.
①前台为点播信息服务层, 主要负责与用户手机的交互, 接受、跟踪用户的点播服务请求; 对于查询
(下转第64页)
64北京邮电大学学报 第28卷
取结果的相反数, 即可求得外部到达顾客在系统中
的平均总逗留时间. 为简单起见, 以下仅限外部到达顾客反馈1次的情况, 即m =2. 使用多元微分的链式法则, 经计算, 得推论1.
推论1 平稳状态时, 在外部到达顾客只反馈1次的情况下(m =2) , 顾客在系统中的平均总逗留时间为
3
E (T ) =(-1) T (s ) |s =0=
d s
2
系统、计算机网络的性能建模分析提供了更为方便实用的数学工具, 也为各种计算机模拟仿真提供可靠的分析基础[4]. 参考文献:
[1] Choi B D , K im B. M/G /1queueing system with fixed
feedback policy [J].The ANZIAM Journal , 2002, 44(2) :2832297.
[2] 张奇支, M/
/, , ) :, Liao Jianxin , Zhu Xiaomin. On queue sizes of M/G /1queueing system with fixed times of feedbacks [J].Journal of Beijing University of Posts and Telecom 2munications , 2005, 28(3) :17219.
[3] 张奇支. 移动智能网话务模型及SCP 中若干性能问题
3223
ρ) 1+ρ1ρ2+ρ1ρ2+ρ2-ρ-(1+ρ
22
ρ(c +1) /∑
i
i
λ(1+ρ2) (ρ-1)
(7)
注记:]E (N ) . 经计算, 它与式(7) 中的平均总逗留时间E (T ) 相差1个λ系数, 即E (N ) =λE (T ) . 这正好是Little 公式的标准结果, 这从另一个角度说明了文献[2]中结论和本文结论的正确性.
研究[D].北京:北京邮电大学, 2005.
Zhang Qizhi. A study on teletraffic model and some per 2formance issues of SCP in mobile intelligent network[D].Beijing :Beijing University of Posts and Telecommunica 2tions , 2005.
[4] 杨飞, 李晓峰, 詹舒波等. 一种智能外设的结构和性
4 结束语
本文结论是文献[2]的进一步深入研究的结果,
它不但可以验证文献[2]中结论的正确性, 而且可以通过L ST 的性质, 借助于数学软件求得顾客在系统中的总逗留时间的二阶矩和更高阶矩. 同时为通信
能分析[J].北京邮电大学学报, 2000, 23(2) :52256.
Y ang Fei , Li Xiaofeng , Zhan Shubo , et al. Structure and performance analysis of intelligent peripheral [J ].Journal of Beijing University of Posts and Telecommuni 2cations , 2000, 23(2) :52256.
(上接第51页)
[3] 李芳, 盛焕烨, 张冬茉. 多语种投资信息抽取系统的
[5] 李蕾, 孙春葵, 杨晓兰, 等. 一种特定领域中文自动
摘要系统实现研究[J].北京邮电大学学报, 2000, 23
(1) :6210.
Li Lei , Sun Chunkui , Y ang Xiaolan , et al. Understand 2ing 2based chinese automatic abstracting system in special domain [J].Journal of Beijing University of Posts and Telecommunications , 2000, 23(1) :6210.
[6] 钟义信. 面向智能研究的全信息理论[J].北京邮电大
实现[J].上海交通大学学报, 2004, 38(1) :21225.
Li Fang , Sheng Huanye , Zhang Dongmo. Realization of a multilingual investment information extraction system [J].Journal of Shanghai Jiaotong University , 2004, 38(1) :21225.
[4] 钟义信. 信息科学原理[M ].第三版. 北京:北京邮电
大学出版社, 2002. 1220.
Zhong Y ixin. Principle of information science [M ].Bei 2jing University of Posts and Telecommunications Press , 2002. 1220.
学学报, 1998, 21(4) :126.
Zhong Y ixin. Intelligence oriented comprehensive infor 2mation theory[J].Journal of Beijing University of Posts and Telecommunications , 1998, 21(4) :126.