信息检索与存取期末考试重点
1. 纸质文献资源的存储与组织的4个基本要素
长期以来,纸质文献资源的存储与组织多从4个基本要素着手,即信息内容、载体材料、记录符号和记录方式。
(1)
(2)
(3)
(4) 2. 零次文献、一次文献、二次文献、三次文献的区分 零次文献——尚未经过系统整理形成正式文献的零散资料,包括草稿、记录和谈话等 一次文献——即作者最初发表的原始文献,是作者根据自己的科研而发表的原始创作。 二次文献——是对一次文献进行加工整理后的产物。 三次文献——是在运用一次文献成果并借助二次文献检索的基础上,用科学的研究
方法,对一次文献进行综合分析、比较研究,从而揭示某种规律性认识的一种文献类型。
3. 信息存储与检索定义:
信息存储与检索(Information Storage and Retrieval)是信息检索的全称形式或广义的信息检索,又称为信息存取,它既包括采用多种形式记录信息、排序信息的信息存储过程,也包括通过一定的设备、采用一定的手段与技巧从信息系统中快速、准确地搜寻所需信息的方法与活动。
广义的信息检索包括信息的存储和检索两个过程(Storage and Retrieval)。全称又叫“信息存储与检索”(Information Storage and Retrieval)。信息存储是指工作人员将大量无序的信息集中起来,根据信息源的外表特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的工具或检索系统,供人们检索和利用。而信息检索是指运用编制好的检索工具或检索系统,查找出满足用户要求的特定信息。
狭义的信息检索则仅指该过程的后半部分,即从某一信息集合中找出所需的信息的过程,相当于人们通常所说的信息查询(Information Search)
4. 信息检索方法
信息存储与检索的基本原理就是,查询语言(检索提问)和系统标识语言所进行的“相符性比较”与“匹配运算”。即是:通过大量的、分散无序的文献信息进行搜集、加工、组织,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。其中存储是为了检索,而检索又必须先进行存储。
(1) 常规法(工具法):可分为顺查法、倒查法、抽查法;
(2) 追溯法:当查到一篇参考价值较大的新文献时,以文献后面附的参考文献为线
索,由近及远,进行逐一追踪;
(3) 综合法:又称为分段法或循环法,将常规法和追溯发相结合;
(4)
5. 信息检索语言的类型
(一) 描述信息内容特征的检索语言有:分类语言和主题语言 2种
分类语言
分类语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。
以知识属性来描述和表达信息内容的信息处理方法称为分类法。著名的分类法有《国际十进分类法》、《杜威十进分类法》、《美国国会图书馆图书分类法》、《国际专利分类表》、《中国图书馆图书分类法》等。
⏹ 主题语言
主题语言是指以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。以主题语言来描述和表达信息内容的信息处理方法称为主题法。 (主题语言又可分为:标题词、单元词、叙词、关键词 )
(二) 描述信息的外部特征的检索语言主要是指文献的篇名(书名、刊名、篇名)、作者姓名、
出版者、报告号、专利号、文献类型、出版年份等。
6. 信息检索的类型(按照执行主体、对象和目标):
(1)按检索活动的执行主体划分:手工检索,计算机检索
①手工检索(Manual Retrieval ):手翻、眼睛浏览、大脑思维并举;对印刷型手工检索工具(包括书本式的手检工具 和卡片目录)中的文献款目进行扫描和匹配;
②计算机检索 (Computer Retrieval):将用户信息需求转换为检索提问,即编制提问检索式、制定检索策略和使用检索指令
(2)按检索活动的对象和目标划分:文献检索(目录,全文)、数据检索、事实检索
6. 几大著名的索引
国外著名的四大索引包括:美国的《工程索引》(Ei )、《科学引文索引》(SCI )、《科技会议录索引》(ISTP )、《科学评论索引》(ISR )。
其他《社会科学引文索引》 SSCI 、 《科学文摘》SA 及其对应的INSPEC 存取系统。
7. 提问检索式及其构造
☆句子切分 ☆词汇剔除 ☆概念替换 ☆概念限定与补充 ☆组合式检索式 亦称检索式(项)或检索提问表达,它是一个直接面对数据库或检索喜用的完整的检索条件表达式,是要求系统执行的检索语句。最简单的检索式由一个检索词和一个字段名(字段标识)构成,如information science/TI杂的检索式常由多个检索词及字段名经由关系运算符链接组合而成,如legal and liability or malpractice/ti;laster/ti,de ,ab 等。
关系算符——布尔逻辑算符、字段限定符、位置算符、截词算符
a) 布尔逻辑算符
逻辑“与”—— AND 或 *
主要用于交叉概念或限定关系概念之间的组配。
逻辑“或”—— OR 或 +
主要用于并列关系的概念组配。
逻辑“非”—— NOT 或 -
主要用于排斥与选择关系的组配。
*布尔逻辑算符执行的优先顺序为NOT 、AND 、OR 。
❑ 示例1 检索表达式:题名=薄膜 OR 摘要%超导器件 AND (作者=赵钱孙 OR 机构=
物理) NOT 来源=中国科学
检索意图:题名中有“薄膜”并且作者中有“赵钱孙”或者题名中有“薄膜”并且机构中有“物理”,还要在摘要中对“超导器件”进行模糊检索的同时排除来源中含有“中国科学”的条件。
示例2 检索表达式:摘要%文物保护*'历史 $ 2'
检索意图:在摘要中对“文物保护”进行模糊检索,同时要求摘要中还包含至少2个“历史”。
(二) 字段限定符
(三) 位置逻辑算符
(W)或( ) — With
(nw)
(N) — Near
(nN)
(F) — Field
(S) — Sub field
(L) — Link
(C) — Citation
(X)和(nX)
在位置算符的前面加上NOT 即可构成位置算符的逻辑(非)
以Dialog 系统的位置检索说明位置检索的功能。
位置操作符(W )通常表现形式为k1( W )k2,它表示k1、k2两词彼此相邻,并且k1位置在前,k2位置在后。它的扩展形式(n W ),通常表现形式为k1(n W )k2,它表示k1、k2两词靠近,次序为k1前k2在后,中间最多有n 个词。
位置操作符(N )通常表现形式为k1(N )k2,它表示k1、k2两词靠近,次序可变。它的扩展形式(n N)。
位置操作符(F )通常表现形式为k1(F )k2,它表示k1、k2两词在同一字段中。 位置操作符(S )通常表现形式为k1(S )k2,它表示k1、k2两词在同一句子中出现。
(四) 截词算符
所谓截词检索算符,是指在检索词的某个局部截断,利用检索词的词干或不完整的词形加上截词符号所进行的检索。
后截词——前方一致检索 前截词—后方一致检索 有限截词
前后截断—中间一致检索 中截断—前后方一致检索 无限截词
截词检索的主要形式是右截词,部分支持中间截词,左截词十分罕见。在不同系统或工具中的采用的截词符号可能不同,如EBSCO 数据库采用截词符号为“*”、“?”。Dialog 系统则采用“?”作为截词符
如,comput ?等同于“computer”、“computing”、“computerized”和“computerization”等词的逻辑或运算。
Wom?n 包含“woman”、“women”等词的检索结果。
?ment 可同时检索attachment 、establishment 、equipment 等文献记录 。
有限截词和无限截词
(1) 有限截词:即在检索词干的左、右方或词中间加截词符“?”或“*”,截词符的个数与
允许变化的字符数相等。
(2) 无限截词:即在检索词词干后面加上一个“?”,表示允许在词干后出现的字符数不限。
8. 信息检索步骤
(1) 分析检索课题,明确检索需求
⏹ 检索目的与意图。
⏹ 学科范围与主题概念。
⏹ 文献性质、类型与数量。
(2) 制定检索策略。
(3) 选择检索系统与数据库。
(4) 确定检索词和检索途径,编制逻辑检索式。
(5) 检索策略的调整.
9. 文献检全率和检准率的计算:
查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。
查全率=[检出相关信息量/信息库内相关信息总量]×100%
查全率=a/(a+c)*100%
例如,要利用某个检索系统查某课题。假设在该系统文献库中共有相关文献为40篇,而只检索出来30篇,那么查全率就等于75%。
查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。
查准率=[检出相关信息量/检出信息总量]×100%
查准率=a/(a+b)*100%
如果检出的文献总篇数为50篇,经审查确定其中与项目相关的只有40篇,另外10篇与该课题无关。那么,这次检索的查准率就等于80%。显然,查准率是用来描述系统拒绝不相关文献的能力,有人也称查准率为“相关率”。查准率和查全率结合起来,描述了系统的检索成功率。
漏检率=c/(a+c)*100%
误检率=b/(a+b)*100%
▲习题:在一个具有1000篇文献的试验性机检系统中检索某一课题,用一特定检索策略查该课题时输出文献60篇。经分析评估,发现该系统中共有该课题相关文献50篇,检出的文献中实际相关文献只有30篇,求查全率、查准率、漏检率、误检率
10. 数据型数据库与事实型数据库的区别
⏹ 数据型数据库
存取的内容主要是各类数据,原材料、产品的价格行情,各类经济数据、股市行情、气象数据、经济分析等
支持此类存取系统的数据库是数值型数据库如:人口数据库、商品价格数据库、气象数据库、化学分子结构数据库等。例:ESA/IRS系统中,PRICE DATA数据库就是典型的数值型存取系统库。该系统收录了自1972以来世界上的60多种主要商品的价格行情,以及十几种货币的汇兑等数据。
⏹ 事实型数据库
事实型存取系统是一种直接面对各类事实和事项提问的信息存取系统。也有人称之为事实或事项存取系统。
存取的内容是有关人物、机构、地域、事件等一般性描述的信息,人物传记、机构名录、产品指南、成果介绍数据库,用于人事档案管理、科研项目管理、企业决策、城建管理
11. 国内外联机存取系统有哪些,了解概况
(1)国外联机存取系统
DIALOG 系统——是目前世界上规模最大、检索功能最完善、用户终端最多的联机存取系统。目前它拥有600多个数据库、记录量超过3亿条,内容涉及40多种语种和占世界发行总量60%的6万多种期刊,为全球100多个国家和地区的15万用户提供各种类型的联机存取服务。目前我国信息用户可以通过已经获得DIALOG 系统账户和密码的信息机构(如各类信息服务部门、高校图书馆等)直接通过Internet 连入DIALOG 实施信息检索。
STN 系统——国际科技信息网络
OCLC FirstSearch ——联机计算机图书馆中心。FirstSearch (第一检索服务)是OCLC1992年开始推出的一个新产品,1999年8月OCLC 完成了新版的FirstSearch (即New FirstSearch )。我国1996年2月成立了“清华大学OCLC 服务中心”
(2)国内联机存取系统
万方数据资源系统——( http://www.wanfangdata.com.cn)
CNKI 数据资源系统 ——( http://www.cnki.net )
维普数据资讯系统 ——( http://dx2.cqvip.com/ )
12. 区分Internet 环境下的联机信息检索与网络信息检索的异同
(1) 联机信息检索与网络信息检索的相似之处
① 检索实质相同——都是将文献标识与提问标识相比较、匹配
② 逻辑组织大体相同——在逻辑上的核心部分可分为文献库及其索引两部分,两
者都使用了词表;
③ 提供检索的逻辑组配手段相似——均为用户提供构造检索表达式的逻辑方法; ④ 检索入口相同 ——提供分类和主题检索两种途径;
(2) 联机信息检索与网络信息检索的差异
① 标引所依据的语言不同——DIALOG 等联机系统采用叙词表等人工语言,网络
信息检索采用自然语言;
② 系统界面设计不同——联机信息系统一直使用非图形界面;网络信息检索采
用图形界面。
③ 信息组织方式不同——联机信息系统以文档的形式按线性组织;网络信息检
索采用超文本组织方式;
13. 根据检索式写出相应的检索意图and 根据检索意图编制相应的检索式
⏹ 例1 用国际联机检索查找“用激光散斑法测三维位移量”的文献。课题分析
课题名称:用激光散斑法测三维位移量
英文名称:Laser Speckle Method for Three-dimension Displacement Measurement 课题说明:用激光散斑法对三维物体受力后或经过其他变形后的位移量进行测量,本课题涉及光学和力学
选择数据库
本课题属于物理学范畴,选用FILE6 NTIS(美国政府研究报告) 、FILE12、13INSPEC(英国科学文摘)
确定检索词,共5个
Laser 、 Speckle 、 Method 、displacement 、Measurement
编制检索提问式:(Laser(w)speckle? ?/TI)and(displacement? ?(w)measurement? ?)
⏹ 例2 AU=Wang Li AND (CS=Wuhan Univ.)
表示要检索著者是Wang Li ,著者单位是Wuhan University 的记录,即要查找“武汉大学”姓名为“Wang Li”的作者的文献。
⏹ 例3 Life(N)insurance AND PY=1999
即要查找“1999年”出版的关于“人寿保险”的资料。
⏹ 例4 要求检索钱伟长在清华大学或上海大学时发表的文章
检索式:作者=钱伟长and(单位=清华大学or 单位=上海大学)
⏹ 例5 要求检索钱伟长1980年以前在清华大学期间发表的题名或摘要中包含“物理”的
文章
检索式:作者=钱伟长and 单位=清华大学and (题名=物理 or 摘要=物理) and 出版年
14. 了解网络信息检索工具及方法
(1) 网络信息检索的一般方法
⏹ 浏览检索——网上遨游
⏹ 通过资源指南(Resource Guide)来查找相应的信息——资源指南分为综合性和
专业性的
⏹ 利用网络信息检索工具, 对www 、FTP 、Telnet 、 Gopher 、Wais 资源进行信息
查询
⏹ 使用搜索软件——可同时启动互联网上的多个搜索引擎
⏹ 充分利用E-mail 获取信息资源
⏹ RSS 订阅
(2) 网络信息检索的工具
网络信息检索工具——是指因特网上提供信息检索服务的计算机系统,其检索对象是存在于因特网中的各种类型的网络信息资源。如 www 、FTP 、Telnet 、 Gopher 、Wais 资源
www 检索工具的典型代表是搜索引擎,搜索引擎以一定的策略在互联网上搜集、发现信息,对信息进行理解、提取、组织和处理,并为客户提供检索服务,从而起到信息导航的目的,被称为“网络门户”。 15. 区分通用(综合) 搜索引擎与专业垂直搜索引擎特点
垂直搜索引擎优势在于覆盖面广阔、信息量巨大,缺点是不能完全精确定位搜索;而垂直搜索引擎优势在于准确率高、选择性强,缺点是覆盖面窄、信息量小,一般搜索结果就几百个左右。所以综合搜索引擎一般单独的用于搜索(如百度),而垂直搜索引擎一般在大型网站内部使用(如淘宝搜索)
16. 区分单一搜索引擎、多元搜索引擎
Internet 网络搜索引擎可分为单一搜索引擎和多元搜索引擎,目录型搜索引擎与索引型
(1)
(2)
(3)
(4)
(5) 搜索引擎都属于单一搜索引擎,它们都有自己的数据库,所覆盖的学科领域、资源类型等等都不同,同样的检索提问在不同的搜索引擎会产生不同的检索结果。而多元搜索引擎是指在查询时要调用其他多个独立的搜索引擎的检索工具,它将多个搜索引擎集成在一起,提供一个统一的检索界面,并将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。其本身不一定有数据库。与独立搜索引擎最大的区别在于:可以同时使用多个搜索引擎进行查询,这也是多元搜索引擎的最大优点,不用就同一提问一次次访问多个搜索引擎即可实现检索目的,检索的综合性、全面性也有所提高。 17. 了解图书、期刊、专利文献、会议文献、标准文献的特点; 图书:是品种最多、数量最大的一种文献,它是对科学知识、技术成果、生产技术和经验的概括论述,多属于经过总结和组织的三次文献 图书文献检索包括图书文本的检索和电子图书的检索。 图书检索即书目检索,分为手工书目检索和计算机数目检索。 期刊:是指拥有固定名称、统一版式和连续的卷、期号或年月标识的定期或不定期的连续出版物,每期刊载两篇以上的学术论文 期刊检索主要包括期刊目录检索和期刊论文检索。 PS :图书与期刊都具有知识系统、内容全面、理论成熟可靠等特点。 专利文献:是一种集技术、法律和经济情报于一体的实用文献,在人类技术进步和社会经济发展历程中一直起着十分重要的作用,长期以来人们通过手工检索、光盘检索和联机检索获取各种专利信息 专利文献检索主要包括手工检索和网上检索。 会议文献:主要指会议上发表的论文。主要有会前文献、会间文献和会后文献三种类型 会议文献检索主要是网上检索。 标准文献:通常是指由技术标准、管理标准和工业标准及其他具有标准性质的文件组成
的特种文献。包括标准、技术规范、操作规则和法规等文件。
标准文献检索包括书本式检索和计算机检索。
18. 网络环境下的图书检索
(1) 图书馆馆藏目录检索
(2)出版社网站书目检索
(3)网上书店书目检索
❑ 亚马逊网络书店
❑ 当当网上书店
❑ 卓越网
(3) 其它网上书店(贝塔斯曼,布衣书局(http://www.booyee.com.cn) ,孔夫子
www.kongfz.com ,99网上书城 )
19. 美国政府四大报告及其检索系统
(一) 美国政府著名的四大报告是:
⏹ PB 报告(行政系统)
⏹ AD 报告(军事系统)
⏹ NASA 报告(航空与宇航系统)
⏹ DOE 报告(原子能和能源管理系统)
(二) 美国科技报告检索系统(四大报告检索系统)
⏹ 《美国政府报告通报及索引》(Government Reports Announcement and Indexes) ⏹ NASA 科技信息通报(http://www.sti.nasa.gov)
⏹ NASA 技术报告服务(NASA Technical Report Server,NTRS)
(http://techreports.larc.nasa.gov)
⏹ 美国国防部科技报告服务(Scientific and Technical Report Collection)
(http://www.dtic.mil/stinet/str/index.html)
⏹ 美国政府报告服务(National Technical Information Service,NTIS)
()
20. 中外专利文献检索工具
(1) 中国专利文献检索途径
① 专利文献手工检索
② 国内专利网上检索
a) 中国专利信息网(http://patent.com.cn)
b) 中华人民共和国知识产权局专利检索系统(http://sipo.gov.cn/sipo/zljs)
c) 中国知识产权网(http://www.cnipr.com
d) 其他专利检索网站
⏹ 易信专利信息网(http://www.exin.net)
⏹ 中国专利网(http://www.cnpatent.com)
⏹ 中国专利信息中心专利检索系统(http://www.cnpat.com.cn)
⏹ 万方数据库系统的“专利数据库”
⏹ CNKI 的中国专利全文数据库\国外专利数据库
(2) 国外专利检索
① 美国专利文献检索
a) 《美国专利公报》
b) 美国专利分类表及其分类索引
c) 美国专利数据库()
*专利号检索(Patent Number Search)
IBM 公司的免费专利文献数据库(http://www.delphion.com)等。
② 日本专利文献检索
a) 《日本专利分类表》(特许、实用新案分类表)
b) 《日本专利分类表索引》
c) 《日本专利年度索引》
d) 《日本专利索引快报》
e) 《特许新案集报》
f) 《公开特许摘要》
g) J apan Patent Information Organization(JAPIO)
www.japio.org.jp
③ 德温特(WPI )专利检索
WPI 概况
WPI 的具体内容:
a) W PI 索引周报
⏹ 专利权人索引(Patentee Index)
⏹ 国际专利分类号索引(IPC-Index )
(1)
(2)
(1)
(2) ⏹ 登记号索引(Accession Number Index) ⏹ 专利号索引(Patent Number Index) ⏹ 优先权索引(WPI Number Index) b) W PI 文摘周报 ⏹ 快报型文摘周报(Alerting Abstracts Bulletins) ⏹ 基本专利文摘周报(Documentation Abstracts Journals) ⏹ 21. 国内和国外学位论文的检索系统 国内学位论文检索系统有 ⏹ 中国科技信息研究所、国家图书馆 ⏹ 高校学位论文数据库(CALIS ) ⏹ 国家科技图书文献中心中文学位论文数据库 ⏹ 高校图书馆站点 ⏹ 万方数据资源系统学位论文数据库 ⏹ CNKI 数据资源系统优秀博硕士学位论文库 国外学位论文检索系统 国外的检索系统比较多,如:《国际学位论文文摘》(DAI )、最全面的是PQDD 。 22. 国内外著名信息存取系统中索引文摘类系统和全文系统的区分 相同: a) 网络检索 b) 资源整合和集成检索 c) 融合菜单检索和高级检索于一体 d) 中和运用布尔检索、截词检索和位置检索等检索技术 e) 数据库检索人性化 不同:
检索途径存在差异
收录文献的原则和目的不同,数据库所起的作用不大
检索技术的运用不尽相同(检索原理不同、主题检索特征不同、输出格式不同)
23. 字词典 、百科全书 、年鉴 、手册、名录等参考工具的适用对象区别
● 查字词注音和释义——用综合或专业性字词典;
● 检索内容包括多学科领域——百科全书(可用来查询事实型信息和某些数据及基本
文献,知识门类齐全,问题的解释详尽完备,被称为“工具书之王”);
● 检索一年中的大事、学科进展及统计数字和资料——年鉴
● 检索参考公式、规格、具体事实等——手册(大全、指南)
● 人物、机构和地域信息参考工具——名录
● 历史年月日和图像信息 ——表谱与图录
● 历史典故、制度、诗赋文章的参考工具书——类书、政书
● 法令法规与统计资料参考工具(部分可通过手册年鉴及统计资料网页获得)——资
料汇编
● 另外就是可以利用事实型、数据型数据库和相应网站。
24. 著名的ABC 三大百科全书 :《美国百科全书》 《新不列颠百科全书》 《科利尔
百科全书》
25. 中文事实型和数据型信息的检索工具有2大类,分别是:参考工具书和事实型、数据型
数据库