信息检索知识点
信息检索考点整理
1. 信息检索的概念
广义的信息检索是指将信息按一定的方式组织、存储起来,并根据信息用户的需要找出有关信息的过程,包括信息的存储和检索两个过程;
而狭义的信息检索仅指有序化信息的检索查找。
2. 信息检索的原理
就是将检索者的检索提问标识与存储在检索工具中的信息特征标识进行相符性比较,凡是信息特征标识与检索提问标识相一致或者信息特征标识包含着检索提问的标识,则具有该特征的信息就从检索工具中输出,输出的信息就是初步命中检索所需的信息。
3. 为什么说信息存储和检索是两个不可分割的有机体?
检索的全过程包括存储和检索两个过程,存储和检索是相辅相成、不可分割的。存储过程主要是利用检索语言对文献进行标引,形成文献特征标识并输入检索工具,为检索提供有规律的检索途径;检索过程主要是利用检索语言对检索提问进行标引,形成检索提问标识,再按照存储所提供的检索途径,将检索提问标识与文献特征标识进行比较。检索过程是存储过程的逆过程。因此,检索者只有在全面了解存储者是怎样把文献存入到检索工具中去以后,才知道怎样从检索工具中把所需要的信息检索出来。
4. 信息检索的方法
(1)顺查法
(2)倒查法
(3)抽查法
(4)追溯法
(5)循环法
5. 信息检索的途径
(1)内部特征途径
a) 分类途径
b) 主题途径
(2)外部特征途径
a) 题名途径
b) 著者途径
c) 文献编号途径
d) 目录检索途径
e) 机构检索法
f) 引文检索途径
6. 布尔模型的优缺点
优点:(1)简单,形式简洁,易于理解;
(2) 可操作性强,应用广泛;
(3) 构成的逻辑提问式可以表达与用户思维习惯相一致的查询要求,提供非常精确
的语义概念;
(4) 能处理结构化提问。
缺点:(1)表达用户复杂需求效果欠佳
(2)准确匹配无法提供定量比较
(3)匹配标准不尽合理
(4)检索结果不易控制
7. 概率排序原则:
如果一个检索系统对用户的每个检索提问的反应是以文献集合中的文献按相关性递减的顺序排列的,那么系统的总体效果是最好的。
8. 什么是计算机信息检索?
所谓计算机信息检索,就是在计算机和人的共同作用下,按照一定的方法组织和存储信息,并通过人机对话从计算机存储的大量数据中自动输出用户所需的那部分信息的过程。实质上计算机信息系检索是利用计算机信息检索系统存储和查找信息的技术,是计算机硬件资源、系统软件、检索软件和数据库的综合。
9. 计算机信息检索的类型:
(1) 根据检索系统的工作方式,可分为:
a). 脱机信息检索
脱机信息检索是利用单台计算机的输入装置进行检索的系统,用磁带作为存储介质,并且为连续的顺序检索方式,适合大批量的定题信息检索。
b). 联机信息检索
联机信息检索是利用计算机终端设备,通过通信线路或网络,与世界上的信息检索系统相连,从信息检索系统的数据库中进行检索并获取信息的过程。
联机检索模式是主从式,即为所有的工作都在主机上进行,主机负担重,一旦主机瘫痪,整个系统都将处于瘫痪状态,因此对主机的性能要求极高。
c). 光盘信息检索
d). 网络信息检索
(2) 根据信息的服务方式,可分为:
a). 定题检索
定题检索是用户根据课题的要求,事先编写出逻辑检索提问式,并将存储在计算机的存储器中,每次系统加入新的信息,系统便会按检索要求,找出用户所需的资料,并把结果分给用户,用户能及时得到最新的文献信息。具有定期性、新颖性和批处理性的特点。
b). 回溯检索
回溯检索是追溯查找过去的信息,让用户一次检索一段时间内与某一课题有关的信息。也可以查找最新的信息,可以适应多数用户的查询需要。
c). 日常检索
10. 计算机信息检索技术初级检索6个
1) 布尔逻辑检索
2) 位置限制检索
3) 短语检索
4) 截词检索
5) 字段限制检索
6) 区分大小写检索
11. 计算机信息检索技术高级检索6个
1) 加权检索
2) 自然语言检索
3) 相关信息反馈(相似检索)
4) 概念检索
5) 模糊检索
6) 聚类检索
布尔逻辑检索
(1)逻辑与 用AND 或*表示 检索式写作A AND B或A *B
(2)逻辑或 用“OR ”或“+”表示
(3)逻辑非 用NOT 或 — 表示 A NOT B (A 当中除去B 所剩下的)
字段名称及缩写
AB abstract TI title AU author JN journal name
LA language PY publication year SP source publication
分类和聚类的异同
相同点:基于“类”的思想进行检索。
不同点:(1)分类基于分类法,其类目体系主要是先组式,有系统性的。类目与文献之间具有相对独立性。而聚类则先有文献后聚类,类的性质及整体类目体系完全由系统中的文献决定。(2)从类目形成过程看,分类是总到分,聚类由分到总。
会构建检索式(主要是积木型)
12. 计算机信息检索策略含义
狭义的计算机信息检索策略是指检索提问式的构建,即运用系统特定的检索技术,确定检索词之间的逻辑关系,形成表达用户信息需求的检索提问式。
广义的计算机信息检索策略是指在分析检索课题的实质内容和明确检索目标的基础上,选择检索工具,确定检索途径与检索用词,以及检索词之间逻辑关系与查找步骤最佳方案的一系列科学安排。
13. 计算机信息检索策略类型(即联机检索五原则)
(1) 最专指面优先:从最专指的概念入手
(2) 最低登录量面优先
(3) 积木型(重点掌握,会构建此检索式)
(4) 引文珠型增长
(5) 逐次分馏
14. 网络信息资源的评价方法:
(1) 定性评价法:是指按照一定的评价标准从主观角度对网络信息资源所做的优选和评
估,主要有指标体系法和调查表法。
(2) 定量评价法:国内外比较典型的定量评价方法有信息计量法、层次分析法和对应分
析法等三种。
(3) 综合评价法:是定性评价和定量评价相结合的一种方法,有包括分析法、模糊综合
评价法等。
(4) 分类方法:分为第三方评价法、用户评价法和网络计量法。
15. 搜索引擎的类型:
(1) 按检索机制划分:检索型、目录型和混合型检索工具
(2) 按检索内容划分:综合型、专题型和特殊型检索工具
(3) 按包含检索工具数量划分:单独型和集合型检索工具
(4) 按检索资料类型分:万维网检索工具和非万维网检索工具
16. 元搜索引擎的含义
所谓元搜索引擎,是对分布于网络的多种检索工具的全局控制机制,它通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索引擎来实现检索操作。
17. 元搜索引擎的特点:
(1) 虚拟索引数据库
(2) 查全率高
(3) 用户界面友好
(4) 适宜二次加工
(5) 扩展性好
18. 元搜索引擎的工作原理
19. 实现跨语言信息检索的方法:
(1)提问式翻译方法
(2)文献翻译方法(唯一结果是源语言描述)
(3)提问式—文献翻译方法(将查询语言提问式翻译成目标语言提问式,与目标语言描述的信息库进行匹配,检索相关信息,然后再把检索结果的全部或部分内容翻译成查询语言描述的信息。 检索结果一般选择部分翻译,这样工作量较小,容易提高翻译的效率和质量,部分翻译一般是对结果文本的前两行、文摘或文本中重要的词进行翻译,在重要词的翻译中,如何确定重要词是决定这种方法效果的关键。
(4)中间语种翻译方法
(5)非翻译方法
20. 语义网的应用
(1) Web 服务
(2) 智能信息检索
(3) 基于语义的网页搜索引擎
(4) 企业数据管理
21.Ei 收录论文的两个层次
(1) Compendex 数据。数据的内容全面,主要包括:论文标题;作者;作者单位;英文
文摘;论文所在期刊名称;卷,期;论文页码;分类码;主题词等等。其中:分类码;主题词需要专业人员单独给出。
(2) Page One数据:数据内容主要包括:论文标题;作者;作者单位;论文所在期刊名
称;卷,期;论文页码;少数数据带有英文文摘。不需要任何专业人员再做工作。
22.Compendex 数据 和Page One数据的主要区别在于:数据中是否有分类码和主题词;有这两项内容的数据是Compendex 数据,反之是Page One数据。有没有主题词和分类号是判断论文是否被Compendex 数据正式收录的唯一标志。
23. 主题指南
按字母顺序列出与分类表中类目名称相关的主题词,并注明相关的分类号,实际上是分类表的主题索引,是从分类途径检索文献的指南。便于不能确定分类号的读者实现从主题查到分类号,再由分类号查到文献所在页码。
24.SCI (科学引文索引)的编制结构及检索方法
(1) 引文索引
(2) 来源索引
(3) 机构索引
(4) 轮排主题索引
25. 如何决定收录期刊的数量和种类?
(1)“加菲尔德文献集中定律”——确定适宜的期刊数量
该定律认为:在几万种科技期刊中,最重要的期刊(即核心期刊)不过一千种,甚至可能还不足500。因而,把收录期刊的范围定在3000种以内,足以把重要的科技文献包括在内。
(2)“费用—效果原则”——用来选择每一种期刊,具体方法是“引用频率统计法”
先计算一种期刊在一年内被引用的总次数,再计算其中每篇论文的平均引文章,其他因素对引文章的影响通过加某些修正系数来解决,引用频率越高,说明该刊质量越高。 通过上述两个指标决定了收录期刊的数量和种类
26. 什么是专利?
这种受法律保护的发明就称专利。
含义:专利权——法律
受专利法保护的发明创造——专利技术
专利说明书等专利文献——文献
这三层含义的核心是受专利法保护的发明,而专利权和专利文献是专利的具体表现。
27. 什么是同族专利?
同族专利指同一个发明为了在不同国家得到保护,而在这些国家分别申请的一系列内容相同或基本相同的专利。由于同族专利或相同专利都具有相同的优先权项,所以通过优先权项可以方便、快捷地检索出有关同一发明的全部相同专利或同族专利。
28. 专利的类型
(1) 发明专利
(2) 实用新型专利
(3) 外观设计专利
(4) 植物性专利
(5) 防卫性专利
知识产权:工业产权和著作产权
29. 学位论文的文献价值:
(1) 较高价值的一次文献:写作不受篇幅限制,论述详尽:从研究背景、技术线路、实
验方法到数据获取、分析结论论述翔实。
(2) 珍贵的信息资源价值:能集中反映所在单位的科研领域、学术活动、研究进展和最
新成果,论文的使用者可以跟踪名校导师的科研进程。
(3) 综述性二次文献:对相应研究领域有系统深入的讨论和综述,拥有详尽的参考文献,
可得到课题研究现状综述。
(4) 写作技巧的启发蓝本:通过对学位论文的阅读,可大致梳理出作者的写作思路和研
究方法,学习学位论文的写作方法。
30. 信息检索评价方法
(1) 测试文档集合法
(2) 人机交互
(3) 用户体验日志分析法
(4) 自然观察法
31. 召回率:R=(检索出的相关文献量 / 数据库中的全部相关文献)x100%
准确率:P=(检索出的相关文献量 / 检出的文献总量)x100%
32. 平均准确率(并会计算)
平均准确率是一个通过所有相关文献测定系统绩效的单值指标。如果检索系统能快速返回所需的相关文献,并对被检文献进行等级排序,则该系统的性能较好。
平均准确率是求各个相关文献准确率的平均值。因此平均准确率的计算只考虑相关文献的数量,而与检出文献的总量无关。