信息检索2

05-15

江西财经大学信息管理学院

信息检索大作业

论文检索

学院：信息管理学院专业：计算机科学与技术班级： 07级班姓名：赵银凤 0072328

黄浩 0072297

任课教师：刘德喜

2009年12月27日

一、实验背景

21 世纪是经济信息化、社会信息化的时代。终身教育、开放教育、能力导向学习成为教育理念的重要内涵。为满足知识创新和终身学习的需求，培养适应21 世纪现代化建设需要的新型人才，发达国家和地区纷纷将信息素养或信息能力教育作为21 世纪人才能力的重要内容。科学技术的发现、发明与创造，实质上是一整套的创新过程。科学的发现是科学家的创新思维和实验手段相结合的成果，把科学定理、定律转化为技术的发明也是一种创新，把新的科学技术运用到生产过程，形成现实的生产力，当然离不开创新。

信息检索的作用与意义主要体现在以下三方面:

避免重复研究或走弯路

科学技术的发展具有连续性和继承性，闭门造车只会重复别人的劳动或者走弯路。在研究工作中，任何一个课题从选题、试验直到出成果，每一个环节都离不开信息。研究人员在选题开始就必须进行信息检索，了解别人在该项目上已经做了哪些工作，哪些工作目前正在做，谁在做，进展情况如何等。这样，用户就可以在他人研究的基础上进行再创造，从而避免重复研究，少走或不走弯路。

节省研究人员的时间

科学技术的迅猛发展加速了信息的增长，加重了信息用户搜集信息的负担。许多研究人员在承接某个课题之后，也意识到应该查找资料，但是他们以为整天泡在图书馆“普查”一次信息就是信息检索，结果浪费了许多时间，而有价值的信息没有查到几篇，查全率非常低。信息检索是研究工作的基础和必要环节，成功的信息检索无疑会节省研究人员的大量时间，使其能用更多的时间和精力进行科学研究。

是获取新知识的捷径

在改革开放的今天，传统教育培养的知识型人才已满足不了改革环境下市场经济的需求，新形势要求培养的是能力型和创造型人才，具备这些能力的人才首先需要具备自学能力和独立的研究能力。

综上所述，在经济信息化和社会信息化的21 世纪，无论是素质教育的实施，创新人才的培养，科学研究的开展，信息资源的开发，还是科学决策的进行，都离不开信息检索技术的普及与应用。信息检索的重要作用及意义在未来的社会中

将日益显现。信息检索是信息化时代帮助人们快速获得所需信息的有效途径，但是，由于用户不能够准确构造表达信息需求的检索式，导致检索效率低下甚至失败。例如，用户选择使用的词可能与检索库中出现的词不匹配，如何解决词的不匹配现象已经成为信息检索领域的重要研究方向。查询扩展(query expansion)是解决该问题的有效方法之一。它利用各种统计信息，对原始查询进行有利于检索的扩展，从而使得查询可以包含更多的相关信息，有效解决大部分词的不匹配问题，达到提高信息检索性能的目的。二、

实验内容

实验要求：

经过一个学期时间的学习，学会使用一种信息检索模型，并使用该模型实现一个检索系统的设计。

1. 能对一个目录的所有文件进行检索； 2. 检索结果返回文件名和相关度。实验背景：

信息检索模型是指如何对查询和文档进行表示，然后对它们进行相似度计算的框架和方法。它的本质是对文档的相关度进行建模。信息检索模型也是IR中的核心内容之一。它按照所用的数学方法可以分为三类。

A. 基于集合论的IR模型(Set Theoretic models) B. 基于代数论的IR模型(Algebraic models) C. 基于概率统计的IR模型(Probabilistic models)

本文所用的向量空间模型(Vector Space Model, VSM)属于基于代数论的IR模型。向量空间模型(Vector Space Model)指的是自每个文档中选择M个无序特征项ti，可以是词根、词、短语或者其他选自文档的语料；利用这些特征项，就可以将每个文档dj用特征项向量(a1j,a2j,a3j,......,aMj)来表示；然后通过对N个训练文档进行权重计算AM*N(aij)，也就是计算各个向量的余弦值。

向量的模(大小) ：



xxx12x2...xn



向量的(欧式)距离：

dist(x,y)

夹角：



(x1y1)2(x2y2)2...(xnyn)2





cos

xy



xy

向量空间模型是一个应用于信息过滤，信息撷取，索引以及评估相关性的代数模型。它是康奈尔大学Salton等人于上个世纪70年代提出并倡导的。SMART是首个使用这个模型的信息检索系统。

Term独立性假设：Term在文档中出现是独立、互不影响的。查询词(query)和文档都可以转化成Term及其权重组成的向量表示，都可以看成空间中的点。向量之间通过距离计算得到查询词和每个文档的相似度。

文件(语料)被视为索引词(关键词)形成的多次元向量空间，索引词的集合通常为文件中至少出现过一次的词组。

搜寻时，输入的检索词也被转换成类似于文件的向量，这个模型假设，文件和搜寻词的相关程度，可以经由比较每个文件(向量)和检索词(向量)的夹角偏差程度而得知。事实上，计算夹角向量之间的余弦比直接计算夹角容易：

余弦为零表示检索词向量垂直于文件向量，即没有符合，也就是说该文件不含此检索词。

CtfD(q)

sim(D,Q))

Ddf(q)qQ

VSM的优缺点：

优点：

1. 简洁直观，可以应用到很多其他领域(文本分类、生物信息学)； 2. 支持部分匹配和近似匹配，结果可以按照相似度进行排序； 3. 检索效果可以接受。

缺点：

1. 理论不够，它属于直觉的经验性公式

2. 标引项之间的独立性假设与实际不符，实际上，Term的出现之间是

有关系，不完全独立的。

三、实验步骤

1) 从中国知网下载十篇论文，并且把这些论文转化成TXT文件；

2) 把文件读入内存中，并保存至数组中，程序采用的文件读取方法是将实

事先保存在数组中的文件名通过循环的方式打开并将文件头指针赋给source[i]指针中；

void freadtxt(){ int i; char ch; for(i=0;i

}

3) 对所有文档内容进行二元切词；事先对文件进行处理，使得文档中不存

在除了汉字以外的其他字符，然后通过简单的嵌套循环，每隔四个字节一断就是两个汉字，达到切词的目的。

for(int c=0;c

4) 计算相关数据：文件长度，文件平均长度；利用切词得出的文件内容，

简单循环至数组末端就可以计算出文件长度。

for(i=0;i

// cout

5) 读取检索词，对检索词进行二元切词；过程和文件切词类似。

6) 把每个关键词与文档内容进行匹配，计算关键词在文档中出现的次数；

while(searchTerm[i]!='\0') { keyWord[j][k++]=searchTerm[i++]; if(k%4==0) { keyWord[j][k]='\0'; // cout

7) 通过上一步骤，可求出关键词在几篇文档中出现，计算出其频率； 8) 根据以上求出的数据，利用向量空间模型求出检索词在每篇文档的权重；

for(c=0;c

0.2*wordCount[c]/wordAverage)) *log((NUM+1)*NUM/wordDoc[i]);

}

weight[c]=weight[c]+keyWeight; // cout

通常采用的公式如下：

1ln(1ln(c(w,d)))N1

c(w,q)lnddf(w)wqd

(1s)s

avdl

9) 采用冒泡法对权重及论文进行排序，按从大至小的顺序输出论文的标题。

for(i=1;i

四、程序流程

五、实验不足

1. 只对文档内容进行检索，未从标题及作者进行多方面检索

可以试试将作者和标题另外重新作为一个文档内容，实现检索，时间不足，没有实现。

2. 在对文档进行切词后，没有把相同的词进行统计，且未将切记后的

内容保存到文件中，以至于每次进行检索时，所有的数据都需重新计算

3. 文件的读入需先把文件名保存到数组中，当有大量文档时，工作量

大

六、实验心得

好久没编程序了，都快不知道程序怎么写了。这恐怕是最大的感想了。然后就是对检索的理解，原本看着那个式子挺顺眼的，可以到真实操作却麻烦了。终于搞定，一个字，累！附：代码

#include

char name[NUM][100]={

论.txt

void freadtxt(){

}

void main()

{

int success=1; while(success){ int i; char ch; for(i=0;i

char searchTerm[50]={0}; cout

} } { } Word[j][k]='\0'; j++; i=i-2; k=0; int jj=j; for(i=0;i

} double keyWeight=0.0; double weight[10]={0.0}; for(c=0;c

} weight[c]=weight[c]+keyWeight; // cout

} } } } } title[k]=name[j][k]; name[j][k]=name[j+1][k]; name[j+1][k]=title[k]; cout

与《信息检索2》相关的范文

09-04 外文网络信息资源检索实习

外文网络信息资源检索实习一、实习内容：　　1、ScienceDirect数据库 ScienceDirect是荷兰Elsevier公司的核心产品，是全学科全文数据库。该数据库收录2200多种期刊，6000余种电子图书，900多万篇全文，24个学科的文献。目前，可以通过在国外的主服务器(简称SDoL数据库）sciencedirect.com访问ScienceDirect数据库，查找1995年以来的 ...

04-27 图书馆信息检索大赛策划书

活动主题：图书馆信息检索大赛一、主办单位：太原工业学院图书馆学生管理委员二、指导单位：太原工业学院图书馆三、协助媒体：太原工业学院校园广播站、校报四、活动目的及原则：促进同学们对图书馆的了解，增强主人翁意识。使自习室得到合理、高效利用。认识图书馆数字资源的重要性。学会数字资源检索知识，提高检索能力，以便充分利用图书馆资源。本次活动本着公平、公证、公开、自愿原则。五、活动时间地点赛式组别时 ...

02-06 学校图书馆2014年工作总结

　　今年以来，在全体馆员的共同努力下，在学校领导的全面支持、关心下，图书馆本着一切为读者服务的宗旨，围绕优化服务、拓展图书馆教育和信息的功能，从读者服务、业务管理、读书活动、提高人员素质入手，通过一年扎扎实实的努力，圆满地完成了20XX年的各项工作。　　一、优化基础服务　　在这一年中，我馆继续把读者至上，服务第一的服务宗旨贯穿到各项基础服务工作之中。　　1．满足读者需求，增加开放时间。随着学 ...

01-09 图书馆实习报告

图书馆实习报告新的假期马上又开始了，同学们也在忙着实习和找工作，我的专业是公司事物管理，公司的日常生活都是很琐碎的事情，所以我决定应该锻炼一下我对待事物的敏感程度和办事情的角度。所以我决定到图书馆去帮忙。图书馆是个各个方面都要注意到的地方，比如图书的摆放，环境的考虑和书籍的保存都是有讲究的。我主要是进行图书的排架上架的实习；第三天在采编部，进行了图书的加工，采购验收及编目的实习，最后主要是进行 ...

07-24 第四周实习周记

第四周实习周记周一，又得上班了，烦人的雨还是没完没了的下，一大早似乎还在睡梦中便要出去赶公交，因为要撑雨伞，加上提着电脑，所以行动起来特别的不方便，而且还要赶在公交来之前草草吃完早餐，幸好这一路有他们三个的陪伴，旅途上才多了些乐趣。公司考勤是上午8:00上班，中午12：00点下班。，午1：30点上班，5:30下班。因为是实习生的缘故所以我们并不需要考勤，但是我们每天都会赶在8:00之前到公司， ...

02-16 结合远程教育理论及自身实际及学习体会,试作传统校园翔鹰励志协会

网络教育能否取代传统教育？说实话，这个辩题本身就有问题。“传统”与“网络”，并不是同一个逻辑层面上的概念，辩论起来免不了要出现“鸭同鸡讲”的尴尬场面。其实，网络作为一种新的教育形式，能否取代传统的学校教育形式，倒是一个很有趣味的辩题。　　稍具历史知识的人都知道，今天学校教育的形式，的确是100多年前从西方“引进”的，大到班级授课制，小到统一校服、统一作息时间表等等，都是当年所谓“新式学堂”取代科 ...

07-13 企事业单位知识产权管理制度

　　目录　　1.企事业单位知识产权管理制度概述...2 　　2.知识产权管理办法...4 　　3.专利管理办法...8 　　4.发明创造专利申请表...13 　　5.商标管理办法...16 　　6.技术合同管理办法...19 　　7.技术合同管理办法...22 　　8.保密协议...26 　　9.科研档案管理规定...29 　　10.知识产权奖励办法...33 　　11.发明创造奖评分表...3 ...

02-01 网站项目策划书

网站项目策划书目录一、前言………………………………………………………………………..…3 二、行业市场分析……………………………………………………………..…4 三、网站设计需求……………………………………………………………..…53.1、商务会员系统…………………………………………………………..…53.2、产品展示系统…………………………………………………………..…..53.3、 ...

08-09 大学生创新之星事迹简介

大学生创新之星事迹简介　　陈x，男，1988年11月生，汉族，中共党员。20xx级电科3班学生。　　平时爱思考设计发明新产品，解决生活问题，对新颖科技产品感兴趣，有不断提高自己创新意识，动手能力强等。20xx.12：参加“建军杯专业技能大赛”设计制作的机器人获一等奖；20xx～20xx：课余间制做了对讲机，单片机频率计，遥控电扇控制器等；20xx.6：帮老师顺利完成环境监测系统和GPS面积测试 ...

04-05 计算机实习报告范文

[实习目的] 通过理论联系实际，巩固所学的知识，提高处理实际问题的能力，了解设计专题的主要内容，为毕业设计的顺利进行做好充分的准备，并为自己能顺利与社会环境接轨做准备。 [实习任务] 对计算机在人事管理方面的应用进行归纳总结,并查阅资料为毕业设计作准备. [实习内容] 计算机在人事管理中的应用随着社会的发展，科技的进步，作为信息载体的计算机日益显露出其举足轻重的地位。当今社会已步入了信息社会，知 ...

随机推荐

猜你喜欢

信息检索2

·2013年新年致词范例

·学习立德树人师德师风的心得体会

·骨干教师鉴定意见

·唐山一中高一物理10月月考试题(含答案)

·2015年两高报告出炉

·曼陀罗花的功效与作用

·当前我国的教育政策

·地税局年度税务工作总结及工作计划

·河南省大学生创业(开业)补贴申请表

·云南特色菜系及做法

·关于××同志廉洁自律情况的组织鉴定

·卡耐基的演讲谈判准备术

·搅拌站轮胎劳务承包合同

·停车场承包协议

·议基层党支部开展党日活动如何紧贴部队实际突出实效

·欧洲当代电影

·绩效管理三步走

·下好"四个功夫",保持经济持续健康发展

·语言教学论

·优智八年级物理上册期末试题及答案