基于同义词扩展的文本检索改进研究
●技术在线
赵医娟潘来奇:基于同义词扩展的文本检索改进研究
95
10.3969/j.issn.1671—489X.2010.18.095
基于同义词扩展的文本检索改进研究
赵医娟潘来奇
山东师范大学传播学院济南250014
摘
要目前的文本检索系统多数是基于关键词的检索,关键词检索是依赖于字符串机械匹配的检索模式,由于
用户的生活背景不同,对同一概念町能会产生不同的表述,从而导致用户输入关键词而查找不到相应文本的情况。试图通过同义扩展查询对传统文本检索系统进行改进,从而提高检索系统的整体性能。关键词同义词扩展;查伞率;查准率;文本检索中图分类号:TP319
文献标识码:B
文章编号:1671-489X(2010)18—0095—02
1同义词扩展的算法与实现
同义词扩展就是用人工构造同义词库、蕴含词库等辅助词库,或是从语料库中自动取得同义词关系,使得检索系统能自动“联想”到与其同义或者意思相近的词,提高信息匹配的准确度,从而提高检索系统的整体性能…。本文把意义相同或相近的词称为同义词,当用户输入预想的关键词时,
同义词扩展的核心代码是用VisualBasic编写的一个
动态链接库(d11)文件,通过代码调用同义词词典。dll文件需要先注册后使用,注册的命令为“regsvr32\宰.d11”。榆索系统通过asp代码调用dll文件。
文件路径
2检索系统性能的评价指标
评估检索系统性能常用到的各项指标有查全率(Recall,简记为R)、查准率(PreciSion,简记为P),以及两者的综合评估。好的检索系统中查准率和查全率应该有较好的平衡关系,且有较高的综合评估值。各项指标定义:R=检索到的相关文本数/索引库中全部相关文本数;P=检索到的相关文本数/检索到的全部文本数。
检索系统将自动进行~系列的预处理,从而得到单个的关键
词。这些预处理包括分词、过滤无效词和去除非法字符等,然后对预处理后的关键词进行同义词扩展。本文进行同义扩展的基础是手工建立的同义词词典,该词典依据《哈工大信息检索研究室同义词词林扩展版》(以下简称《同义词词林》)编制。
1.1同义词词典的建立
《同义词词林》按照树状的层次结构把所有收录的词条组织到一起,把词汇分成大、中、d,3类,大类有12个,中类有97个,小类有l400个。每个小类里都有很多的词,这些词又根据词义的远近和相关性分成若干个词群(段落)。每个段落中的词语又进一步分成若干个行,同一行的词语要么词义相同(有的词义十分接近),要么词义有很强的相关性旧1。按照《同义词词林》的编码规则,可以分出具体的3种情况,分别是“=”“#”“@”。“=”代表“相等”“同义”;“#”代表“不等”“同类”,属于相关词语:末尾的“@”代表“自我封闭”“独立”,它在词典中既没有同义词,也没有相关词。这三类词语中,前两类对本系统而言用处不大,选取最后一类词作为同义词词典扩展的原始词。
组织同义词词典的格式表示为“同义词1:同义词2...…・:同义词13”,然后,把包含n个同义词的一组同义词变成n组同义词,并保证n个同义词在11组同义词的第一个位置上分别出现一次。例如,对“电脑:计算机:微机”展开,得到满足条件的同义词“计算机:电脑:微机”“微机:计算机:电脑”。同义词词典按照词语首字在汉字区位码表中的位置顺序组织,首字相同的同义词组集中在一起并按首词词长由长到短依次排列。
1.2同义词扩展的实现
R反映该系统索引库中实有的相关记录在多大程度上能
被检索出来。P反映每次从该系统索引库中实际检出的全部记录中有多少是相关的。根据国外有关专家所做的实验表明,查全率与查准率是一组互逆关系。应当根据课题的具体要求,合理平衡查全率和查准率,保证一个总体较优的检索效果。
借助于P和R的综合性能评估,通常用F-Measure方法引,它的计算公式为:F=2/(I/P-4-1/R)=2PR/(P+R)。F取值在[0,1]内,并随P、R的增大而增大。F越大,说明检索系统的综合性能越好。F-Measure对P和R两者没有权重上的偏向,它们对F值的贡献是相同的。
3实验结果分析
本实验用基于内容的Flash检索系统进行实验,选取
3000条记录的小样本进行实验统计,结果见表l。
项目扩展后扩展前
记录总数鬻查全率相关记录查准率
30003000
27601770
0.920.59
2511l735
0.910.98
扩展前,系统的F值为0.74;扩展后,系统的F值为
0.91。实验结果表明,同义词扩展对文本检索系统的改进、对系统总体性能的提高非常显著。在查准率仅降低7个百分点的情况下,查全率提高33个百分点,与预想结果
作者:赵医娟,山东师范大学传播学院教育技术学专!Ik2008级研究生。研究方向为网络教育应用。
2010年6月下第18期(总第204期)
万方数据
一中国教育技术装备一一
96
刘加达张德成:教育电视片中的数字化制作之美
一技术在线
10.3969/j.issn.1671—489X.2010.18.096
教育电视片中的数字化制作之美
刘加达张德成
盐城师范学院信息科学与技术学院江苏盐城224002
摘
要电视节目制作的数字化,其便捷的操作和多样化的特技效果,使电视画面更富有艺术感染力。从画面元
素、数字特效、数字动画等3个方面,结合具体实例,探讨教育电视片中的数字化制作之美。关键词教育电视片;数字化制作;美感中图分类号:G432
Beauty
ofDigitaI
文献标识码:B
Production
in
文章编号:1671—489X(2010)18-0096~02
Programs//Liu
digital
EducationaITelevision
programs
Jiada,ZhangOecheng
easy
AbstractNoweducational
specialof
television
to
productwith
more
ways,itsoperation
and
a
varietyofthebeautydigital
effectsmaketelevisionrichartistic
appeal.ThiSarticle
from
Investigate
element,
educationaltelevision
programs
with
digital
are
production
thepicture
effectsanddigital
animation,some
examples
given.
KaywordseducationalAuthor’S
address
televisionprograms:digitalproduction:beauty
of
Information
Science
And
Techn0109y,Yancheng
Teachers
College,
School
Yancheng,Jiangsu,China224002
艺术性是教育电视节目评价的标准之一,也是应用于教学的必然要求。随着电视节目制作数字化的普及和简便,越来越多的教育工作者投身到教育电视节目制作的行列,制作
很容易给观众造成视觉上的疲劳。如今AdobePremiere、
After
Effect、UleadVideoStudio等专业或家用视频制作
软件可进行色彩平衡、色彩替换,亮度、对比度等方面的调
出满足自身教学需求的电视节目。本文从电视画面、数字特
技、动画制作等方面探讨教育电视片中的数字化制作之美。
整与更换,操作简便,效果丰富,使教育电视片在色度、饱
和度、亮度等方面给日常事物以不一样的视觉冲击力。无论是汶川还是玉树的大地震,都是人类的悲剧,带给亲人的是心中永远的痛。然而在灾难面前,党和人民没有忘记伸出援助之手,五星红旗燃起灾区人民生的希望,激发了救灾勇士的斗志。因此在制作这类视频时,利用色彩过滤特效,可将画面处理成黑白效果,强化人们失去亲人的痛苦,表示对逝者的哀思;而保留五星红旗的红色,红色代表热情、温暖、
1画面元素的表现之美
电视画面的表现元素是多种多样的,通常包括形状、线条、色彩、影调、质感、立体感等方面。教学电视专题片也不例外,无论是片头、教学过程,还是片尾,只要有画面的地方,就会涉及画面造型元素,就可以利用数字化制作的技法,根据创作者的意图创造出具有美感的画面。1.1色彩美
如果说光线赋予电视画面以生命,那么色彩就给电视画面注入情感…58。通过画面形象的色彩设计、提炼和选择搭配,可有效渲染、烘托主题,在教学中有效突出重点,强化和引起注意。
生命等,五星红旗更是国家的象征,与黑色相映衬,起到较
好的宣传效果。1.2线条美
线条是画面形象所表现出的明暗分界线和形象之间的连接线。线条可以是客观的具体实物形状线,也可以通过光线、影调等生成,在数字视频制作中,还可以通过主观绘制而得到。线条是构图的“主心骨”,能够起到提纲挈领、删
在传统的电视节目制作中,由于缺少色彩调整的方法和技术,往往满足于物体色彩的准确还原而缺少创造特色,
基本符合。询扩展作为解决词的不匹配问题的一种解决方案,有效地解决TWeb信息检索存在的查全率和查准率低的问题,引起国内外很多学者的注意并参与。然而目前查询扩展方法仍然存
4结论与展望
基于同义词的扩展依赖于同义词词典的完备程度和数据库标注的准确程度以及文本检索的算法模型,所以,检索整
在很大的缺陷,即无法同时解决自然语言中词汇的同义性和
歧义性问题,这也是今后需要关注的方向之一。
体性能的提高,要从各个环节去做进一步的改进。目前,查
参考文献
[1]计算机检索基础[EB/OL].http://202.120.96.104:7777/wxjpkc/skja/2—4j.html
[2]王晓黎,王文杰.基于向量空间模型的文本检索系统[D].中国科学院研究生院,2006
r’国教育技术装备一
2010年6D下第18lJ](总第204期)
万方数据
基于同义词扩展的文本检索改进研究
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
赵医娟, 潘来奇
山东师范大学传播学院,济南,250014中国教育技术装备
CHINA EDUCATIONAL TECHNIQUE & EQUIPMENT2010(18)1次
参考文献(2条)1.计算机检索基础
2.王晓黎;王文杰 基于向量空间模型的文本检索系统 2006
本文读者也读过(10条)
1. 张文东.易轶虎.ZHANG Wen-dong.YI Yi-hu 利用潜在语义分析和关联规则挖掘构造同义与关联词集[期刊论文]-计算机工程与科学2007,29(1)
2. 亓俊红.张文东.QI Jun-hong.ZHANG Wen-dong 文本挖掘中同义与关联词集的构造算法研究[期刊论文]-微电子学与计算机2007,24(4)
3. 徐建民.陈富节.朱松 基于量化同义词扩展的贝叶斯网络结构化检索模型[会议论文]-20074. 任红梅 文本分类中的同义词和关联词聚类算法研究[期刊论文]-计算机系统应用2007(11)
5. 徐建民.唐万生.XU Jianming.TANG Wansheng 基于查询术语同义词的扩展信念网络检索模型[期刊论文]-计算机工程2007,33(10)
6. 徐建民.陈振亚.白彦霞.Xu Jianmin.Chen Zhenya.Bai Yanxia 利用查询术语同义词关系扩展信念网络检索模型[期刊论文]-情报学报2008,27(3)
7. 林绮屏 基于格语法的中文文本检索系统的设计与实现[期刊论文]-图书情报工作2004,48(8)8. 徐今 同义词和词性——兼谈同义词词典处理词性的问题[期刊论文]-辞书研究2008(1)9. 严戎庚 论现代汉语同音同义词和异序同义词[期刊论文]-韩山师范学院学报2004,25(4)10. 姚冬磊.赵晓鹏.卫耀伟 同义词挖掘及表示研究[期刊论文]-福建电脑2010,26(3)
引证文献(1条)
1.李海芳.史俊冰.段利国.陈俊杰 一种基于含糊同义词的查询扩展方法[期刊论文]-计算机应用与软件 2011(12)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_zgjyjszb201018055.aspx