信息检索_理论与方法
信息检索:理论与方法
第一部分 信息检索理论
一.掌握和熟悉
1. 信息检索的基本原理:即对信息集合与需求集合的匹配与选择。* .........
2. 信息检索常用技术:* ........
· 布尔检索:逻辑与:如,A*B ,表明一篇文献中A和B必须同时存在。
例:郭沫若*语言学 (同时满足两个条件)
逻辑或:如,A+B ,表明文献中A或B必须存在,包含同时存在。
逻辑非:如,A- B ,表明一篇文献中包含A但不包含B。
例:郭沫若;除去语言学 (对某一个检索要求进行限
制)
逻辑“或”提高查全率,逻辑“与”和“非”提高查准率。
· 截词检索:后截断:computer*,可检索出:computeracy, computerise, computers 前截断:*computer,可检索出:microcomputer, minicomputer
中截断:organi ? ation,可检索出:organisation,organization
前后截断:*computer*
· 限制检索:为缩小命中文献的数量,将检索范围限定在某个字段或范围中。
·全文位置检索:可以反映出两个检索词在文献中的邻近关系。常用在全文检索中, 弥补布尔检索的不足。
· 加权检索:
·多媒体检索:基于内容的检索是指根据媒体对象的内容及上下文联系,在大规模
多媒体数据库中进行检索。它的目标是提供在没有人类参与的情况
下能自动识别或理解声音、图象、视频重要特征的算法。
· 超文本检索:超文本是一种信息的组织方法。
3.信息检索当代技术:* ........
• 并行检索:两个或两个以上的程序或任务并行处理。
• 分布式检索:允许检索请求在不同地点、不同结构的系统平台上运作。Z39.50
协议是一种信息检索标准,常用于分布在各地的图书馆书目数据库系统的检
索。
遵循了Z39.50协议,只要进入一个界面,不需要重新退出再进入。
近年来推出了基于OAI协议的分布式检索。作为开放式数字资源库,OAI必
须
遵守如下规定:作为数据库提供者应能用通用公共元数据描述所存储的对象
• 基于知识的智能检索:如检索“华人”,可把包含“中华人民共和国”的内容
不
检索出来;检索“电脑”,可以把包含“计算机”的内容检索出来。现阶段智
能
型检索系统应该有以下功能:a.具有大规模实例描述的汉语分词排歧知识库;
b.
具有主题词典、广义同义词检索、拼音检索、同音检索等功能;c.具有基于内
容
的相似性检索功能,具有自动分类和自动摘要功能,具有知识压缩和去重功能;
d.具有文本挖掘功能等。
• 知识挖掘:主要指文本挖掘技术的发展,目的是帮助人们更好地发现、组织、
表示信息,提取知识,满足信息检索的高层次需要。(包括摘要、分类等)
• 异构信息整合检索:能够检索和整合不同来源和结构的信息。
• 全息检索:就是支持一切格式和方式的检索。
• 自然语言检索:应是信息检索的发展趋势。自然语言与人工语言相结合,才能
更好地发挥自然语言检索的优势。
• 跨语言信息检索:可以用一种语言去检索其他语言的资源。
• 问答系统:输入的查询是问题,要求从给定语料库中返回文本。
• 概念空间:通过对目标文档进行概念选取、概念类聚而形成,是一个概念网络。
概念空间是一个智能化索引,每个索引项(概念)通过一层或多层的概念与原 文档建立联系。
• 信息融合技术:是一种综合利用多种信息资源,以获得对某一事物更客观、更
本质认识的信息处理技术。可以合理地组织查询结果,减少不必要的信息冗余,
使用户获得完整、准确、及时、有效的而且是简洁、明了的实用信息。
4.检索效果评价:判定一个检索系统的优劣,主要应从质量、费时和时间三方面来衡......
量。*
5.查全率=检出的相关信息数/信息库中相关信息总数*100 %= a / a + c *100 %* 6.查准率=检出的相关信息数/检出的信息总数*100% = a / a + b * 100%*
查全率和查准率必须结合使用,单独使用两者中的任何一个都不能全面说明检索效
果的好坏。若检出一篇相关信息,必能达到100%的查准率,但查全率却会非常低;同样,若检出信息数等于库中信息的总量,则必能100%的查全率,但查准率一定很低。*
7.误检率=检出的非相关信息数/检出的信息总数*100%=b / a+b * 100% *
8.漏检率=未检出的相关信息数/信息库中相关信息总数*100% =c / a+ c 100% * 查全率和漏检率是互补的;查准率和误检率也是互补的。它们相加等于一。
9.其他评价指标:均衡查全和相对查全指标。还有错检率和相关率。*
10.不同的用户对查全率和查准率的要求不同。如一个正在从事某项研究的用户,可
能需要高查全率,允许较低的查准率,以保证不遗漏任何重要的信息。而对于查新人员来说,为了找到与查新项目内容一致的信息,他可以要求高查准率。*
二.了解
1.信息检索经历了从手工到机械再到计算机化检索的发展过程:
· 手工检索(1876-1954)
· 脱机批处理检索(1954-1965)
· 联机检索(1965-1991)联机检索是计算机技术、信息处理技术和现代通信技术
三者的有机结合。
· 网络化联机检索(1991- )
2. 息检索技术发展:一是传统信息检索向全文本、多媒体、多载体、多原理等新型信
息检索的发展,二是信息资源的网络化和分布化。
3. 信息检索的模型,就是运用数学的语言和工具,对信息检索系统中的信息及其处理
过程加以翻译和抽象,表述为某种数学公式,在经过演绎、推断、解释和实际检验,反过来指导信息检索实践。
4. 布尔逻辑检索模型、向量空间模型、概率检索模型、模糊集合检索模型、扩展布尔
逻辑检索模型、相关反馈模型:经过了十多年的理论研究与实验比较,发现所有这
些新的理论都无法取代布尔检索。这不仅因为现有的操作系统大都是布尔检索系
统,更重要的是布尔检索的简单易懂、提问式的方便构造是向量等模型无法比拟的。
5.信息检索系统:一个完整的信息检索系统,通常由以下几个功能模块组成。
• 信息选择子系统:信息源是检索系统的信息或数据来源。功能:根据系统的目
标和服务对象的需要,确定数据收集范围,采集各种信息资源,为系统提供充
足、适用的数据。
• 标引子系统:标引,就是对文献内容进行分析,然后给每篇文献以一定数量的
内容标识(如分类号、主题词、关键词等),作为存储与检索的依据。
• 建库子系统:功能是建立和维护可直接用于检索的数据库,包括系统所用的索
引文档。
• 词表管理子系统:主题词表是控制标引用词和检索用词,使两者尽可能取得一
致的有效工具。
• 用户接口子系统:全称是“系统-用户接口”,由用户模型、信息显示、命令语
言和反馈机制等部分构成(界面)。
• 提问处理子系统:专门处理用户输入的提问式,将提问式中的检索元和算符区
分,并转换成系统可接受的命令方式。与数据库中存储的数据进行比较运算后,
把结果输出给用户。
6.索引与书目不同的是它能更深入地揭示文献内容,与书目相同的是都是指引性工具。 7.检索系统评价:
•信息源评价:数据规模、收录范围、信息源质量控制指标可反映信息源的质量。
量大、面广、信息全、信息质量高、提供一站式服务,是理想的信息源。
•信息组织管理:主要指标引的方法、组织方式及更新周期。
•系统功能评价:取决于系统所能提供的检索途径、检索方式和检索方法。(一般系
统都提供布尔组配、截词检索等,也有一些系统提供二次检索、超文本检索。)
•输出结果评价:包括系统对用户的响应时间、命中记录的排序功能输出显示形式。
•用户接口:影响到用户是否喜欢使用和该系统。用户友好、方便使用是建设宗旨。
•系统技术支持:指软、硬件平台的通用性、兼容性、先进性、可靠性和稳定性。
8.检索效益评价:要考虑社会效益和经济效益。
第二部分 社科信息检索
一. 熟悉和掌握
1. 社科信息检索工具体系:检索工具是根据特定需求,对原始文献进行筛选、..........
浓缩、有序组织、提供文献线索和知识的一种特殊的文献类型,是信息检索的
主要工具。检索工具按载体形态可分为书本式、卡片式、期刊式、附录式、缩
微型、机读型等。按检索方式可分为手工检索系统和计算机检索系统。*
2. 按不同的功能和编制特点,社科信息检索工具可分为:
P96*
指引型检索工具:指引型检索工具的特点是揭示文献形式和内容特征,提供原始.......
文献线索,让读者作进一步查检。主要有三类:
书目:书目是揭示与记录一批相关文献,并按一定次序编排而成的检索工具。
又称目录。
书目的主要功用:从题名、著者、主题等特定角度查找相关文献;查考某
一学科或某一专题文献的出版和收藏情况;指导阅读,指引学术门径。
索引:索引是将书、刊或其他文献中重要的或有意义的信息,如词语、主题、
篇目或人名、地名等事项摘录下来,按一定方式顺次编排,并注明出
处的检索工具。它是对文献集合中包含的文献事项或单元知识进行的
记录和指引,能比书目更微观、更深入地揭示文献内容。
索引的功用有:提供文献线索;指引篇名、文句、语词与专题论述的出处;
增加检索途径。
文摘:文摘是将文献的主要内容简要确切地加以描述,并注明出处,以一定
的方法编排的检索工具。文摘不仅提供文献的基本书目信息,还提供
文献的内容梗概(与书目不同处)。文摘是对原文的浓缩,忠实于原
文,不允许加入个人评价。文摘按摘要方式分为指示性文摘(简介)
和报道性文摘。
文摘的功用有:帮助用户迅速鉴别选择文献,减少利用资料和查阅资料的
盲目性;有的文摘在一定程度上可替代原文,节省阅读全文的时间;多语
种文摘被摘录成一种语种的文摘时,可帮助用户克服语言障碍;提供学术
动态和学科研究进展。
以上三类检索工具若以一定格式存储在计算机存储介质中形成书目数据
库,则可进行计算机检索。
参考型检索工具:是能直接提供事实、知识、数据和观点等的检索工具。(它
能直接提供问题的答案,要与指引型工具区分) P 98*
辞典(字典、词典):是解释字或词的概念、意义和用法,并按一定顺序
编排的检索工具。
东汉许慎的《说文解字》是第一部部首法字典,以字典为书名,通常认为始
于《康熙字典》。
综合性语文辞典:对词语的音形义用法等 加以全面解释 特种语文辞典:同义辞典、成语辞典、方言辞典等
辞典 :用于查考一种或几种学科或专门领域的术语、
专名、概念等
百科辞典:是汇集各学科专业词汇,对术语、概念和
事物加以概括解释的综合性工具书。(辞海既是百科
辞典,又兼有语文辞典的功能)
百科全书:是会萃人类一切门类或某一门完整的知识,概要地加以叙述并有序
编排的工具书。百科全书具有系统性、完备性、权威性、检索性、可读性
等特点。百科全书的功用有:寻检查阅特点知识;系统学习有关知识。(系
统地学习知识要找百科全书)
年鉴:是汇集一年内的重要时事文献、学科进展,各种统计资料和重要信息,
并按年度出版的连续性出版物。
年鉴的功用有:提供新颖适时的资料;提供简明事实和统计数据;逐年编排;
累积性强,具有可比性和预测性;具有非正式的索引作用。
手册:是汇集某一领域或某一学科的基本知识、事实性资料与统计数据,将其
浓缩整理,加以系统性编排,以便解答各种事实性问题的参考工具。手
册信息密集,资料详实、具体,实用性强,具有很大的参考价值,可供
随时翻检。(手册还叫指南、必备、大全、宝鉴等。提供的是“既成的
知识”如公式、数据、图表条例制度等)
类书:类书是摘录、汇集多种文献中的原文,按类目或按韵部编排而成的工具
书。
类书的功用:(查考事物起源,查检史实典故渊源,查找诗词文句出处,检索参
考资料,辑录散佚残缺古书佚文,校勘考证古籍等。 )
政书:(是记述历代或 某一朝代的典章制度的沿革及政治、经济、军事、文化
制度等方面史料的工具书。)十通是《通典》、《通志》等三个系统十部
书的总称。
名录:[是提供有关专名(人名、地名、机构名称)及其基本情况的资料性检索
工具。]
表谱:(是以表格或类似表格形式反映事物变化的工具书。)(如家谱等)
表谱的功用:用来查检时间、事件和人物资料。
图录:(是以图形、图象表示事物、人物等某个方面的形象直观的工具书。)
原文性检索工具:是指一些既具有原始文献的阅读功能,又有检索工具的查检功用
的文献。(边缘性工具书) 如资料汇编、各种方志、经典著作等。
全文数据库和电子图书是应用越来越广泛的原文性检索工具。
3.社科信息检索技能包括三个方面:一是信息检索技术的熟练应用,二是对检索工具
的有效选择,三是通过分析和推理获得正确的检索结果。
4.社科检索技术:P103**
熟悉检索语言:从检索标识规范化的角度来看,检索语言分为自然语言检索标识
和规范语言检索标识。从检索语言的构成原理,可主要类分为分类检索语言和
主题检索语言两大类。
了解检索工具常用的排检方法:形序法中的部首法、笔画法、笔形法、笔顺法,
号码法中的四角号码法,音序法中的汉语拼音字母排列法。
掌握不同检索工具的结构及相应的使用方法
直接浏览
5.检索工具的选择:P105** (可能选择考填空题)
文科信息检索可分为三大类,即文献检索、事实检索和数据检索。
指引性检索工具(如书目、文摘、索引及书目数据库)与原文性检索工具(如全文数据库、资料汇编)主要用于文献检索,事实性工具书如辞典、百科全书、年鉴、图录及事实数据库等主要用于事实检索,主手册、年鉴、资料汇编及统计数据库等要用来进行数据检索。
6.(工具书指南是收录和评价工具书的分类提要书目,其作用是有选择地报道重要的工
具书)如《中国工具书大辞典》,美国的《工具书指南》。**
7.对于数字资源的选择,可利用数据库指南、网络资源导航、网络资源评价网站、搜
索引擎、网址簿等。**
8.选择检索工具,首先应考虑是否能满足特定的信息需求,其次考虑易得性、易用性、
可靠性。同类工具书中选用权威性强的;同种工具书中选用新出版的;既有印刷本
又有电子本的,优先使用电子本。**
9.检索过程中的分析与推理:应认真分析检索需求,设计好检索思路。利用多种检索
工具、多种检索途径进行查找,使检索结果内容全面。*
10.图书的检索:(以下可能考选择填空题)P2、**
①查找近现代图书(1840-1949):《民国时期总书目》是查找近现代图书最重要的
工具,书收录1911-1949年出版的中文书10万种;《(生活)全国总书目》收录
1911-1935;《中国近现代丛书目录》收录1902-1949年间的丛书及图书。
②查找当代图书:
查找已出版的图书:《全国总书目》是根据大陆全国出版单位的呈徼本编成。1970
年起按年度出版。《中国国家书目》(采取“领土—语言原则”旨在全面系统地
揭示与报道中国出版的所有文献。收录了包括港澳台在内的全中国出版物。我
国著者在国外发表的著作、海外华侨和外籍华人的著述等。中国国家书目比全
国总书目更完备、规范。)《全国内部发行图书总书目》(1949-1986)收录内部
发行的图书,包括1974年以前全国总书目未收的“只限国内发行的图书”。
查找将出版和正在出版的图书:《新华书目报》(旬报);《全国新书目》,报道
全国每月新书出版的情况。
③专题书籍的检索:《中国学术名著提要》。
11.报刊的检索:p121**
①近代报刊的检索:《(1833-1949)全国中文期刊联合目录》(是检索1949年以前我国出版的期刊情况的最系统、完备的目录。它是全国50所图书馆的馆藏联合目录,可获得期刊收藏分布情况。)《中国近代期刊篇目汇录(1857-1918)》(每种期刊下说明期刊的性质、出版情况及收入卷期,并逐期汇录全部篇目。)
②当代报刊的检索:《最新中国期刊全览》、〈当代中国报纸大全〉、〈报刊简明目录〉、
〈中国报刊总目录〉、〈中文核心期刊要目总览〉(可查找各专业学科领域的中文核
心期刊)。现代报刊的检索通过网络信息资源查找更为快捷:如中国报刊目录、中
华期刊展示网。
12.论文资料的检索:P123**
①近代报刊资料的检索:〈中国近代期刊篇目汇录〉(1857-1918)
②现代论文、报刊资料的查找:
利用综合性的报刊资料索引:〈全国报刊索引〉(1955年创刊,月刊,1980年起分
“哲社版”和“科技版”是我国出版时间最长、收录报刊最多、报道范围最广的检索刊物。)〈内部资料索引〉(可补全国报刊索引收录内部资料较少之弊)
利用综合性的文摘刊物检索:〈新华文摘〉(特点:a.选择全国主要报刊上有价值的
学术文章、文艺作品、科技动态等。b.有全文刊载、详细摘编、论点摘编三种摘录....
方式。)〈中国社会科学文摘〉、〈高等学校文科学报文摘〉(高校文科)
③利用数字资源检索论文资料:〈全国报刊索引数据库:哲社版〉(采取核心期刊
全收,非核心期刊选收的原则)。文科引文数据库CSSCI、CHSSCD、TSSCI、书目数据库、全文检索数据库利用馆藏书目数据库或联合书目数据库如
CALIS中文现刊目次库。
13.文科信息的网上综合检索:P133**
利用OPAC检索(联机公共检索):查找图书、报刊及其他类型文献的基本信息
及馆藏情况最为便利的途径是利用图书馆的OPAC和图书馆联盟的联合书目数据
库。
利用网上书店和出版社网站
利用专题资源网站:中国经济信息网、国务院发展研究中心信息网等
利用数字图书馆:如中国数字图书馆、超星图书馆、书生之家、北大方正。
利用文科学术机构网站、学术研究网站
14.文科学者情况检索:P137**
〈中国人名大词典〉、〈中国近现代人名大词典〉〈当代中国社会科学学者大辞典〉
〈世界人物大辞典〉(外国人物的查找)
15.国外文科检索常用索引和文摘:P139**
〈人文科学文献索引〉;〈历史文摘〉、〈心理学文摘〉、〈社会学文摘〉
16.国外文科信息检索常用数据库:P144**
Lexis-Nexis系统 ProQuest Gale数据库 ERIC等
17.国外文科网络信息资源集成与评价网站:P145
Argus (对各学科主题网络资源的指南有完备的描述和明确的评价。被称为“指南
的指南”)、 “虚拟图书馆”是著名的学术性网络信息资源指南。
18.文科常用参考工具书:P147(可能考比较著名的百科全书有那些)
辞典:〈辞海〉、〈中国历史大辞典〉、〈经济大辞典〉、〈世界文化百科全书〉等
百科全书:国外:〈美国百科全书〉简称EA,〈新不列颠百科全书〉简称EB、〈科
里尔百科全书〉简称EC,它们分别为英语著名三大百科全书A、B、C
中之A、B、C。
国内:〈中国大百科全书〉是我国第一部综合性大百科全书,74卷,词
条7万多条。
年鉴:〈中国百科年鉴〉(是我国1949年以来第一部大型综合性年鉴。)、〈中国统计
年鉴〉、〈中国年鉴〉等
手册:〈世界政治手册〉、〈国际政治手册〉、〈心理学手册〉等
书目:〈外文图书总书目〉、〈英国国家书目〉、〈在版图书〉等
网络工具书:从直接访问工具书出版社、利用搜索引擎等方面入手。
二. 了解
1.社科信息检索的特点:
·从内容上看,社科信息资源思想倾向性较强,观点的个性化较强,学科交叉性较强。 ·从时间上看,社科研究性信息源半衰期长,更新较慢,一些经典著作具有历久弥新
的生命力。
·从著录特征上看,著录事项不甚规范。
·从信息源的类型上看,图书是重要的形式,一些重要著作多以专著形式发表。
2.从文献中提取出来的外在特征(如责任者、题名、文献号、出版者、出版时间)和
内容特征(如分类号、叙词、标题词、关键词)都是检索语言,它们提供了不同的检索途径。P104
3. 《中国图书馆分类法》是中文文献检索中常用的分类语言,《杜威十进制分类法》、
《美国国会图书馆分类法》等是常用的西文文献分类语言。
第三部分 科技信息检索
1.手工检索的意义:在电子读物日益走进人们生活的今天,传统的印刷型出版物在短
期内仍然占据着难以替代的重要位置。所以,学习和掌握手工检索工具的用法与原理,可以更有效地学习和掌握检索系统的结构,掌握计算机检索的过程与原理,从而提高检索的效率和效果。
2.理工科检索工具介绍: P156-185
(1)《生物学文摘》(美国、半月刊)收录:动物学、植物学、微生物学、实验医学、
农学、药学、生化、生态学、生物医学工程及仪器。
文摘本: 类目表:决定了文摘正文的编排顺序
文摘正文:按类目表的标题等级表,分类编排。
生物体索引:按生物分类体系编排
辅助索引 主题索引:是单纯关键词索引
著作索引
来源期刊目录
BA/RRM:是索引,收BA未收的生物学文献。
BA特点:目前关于生命科学的最大一部文摘型检索工具。
I.查找BA途径:4种,类目表、主题索引、著者索引、生物体索引。
II.每一种检索工具书都有著者索引。
III.BA数字版有联机数据库、光盘数据库、网络版检索系统。BA光盘版检索途径有:
输入检索式检索;浏览式检索。印刷版和数字版的不同在于检索方法。
(2)《化学文摘》(美国、周刊)收录:16000多种期刊,还有专利文献、专著、会议录、
学位论文等;有物理化学、有机化学、无机化学、分析化学、生物
化学、高分子化学、应用化学与化学工程等。
分类目次表:
文摘本 :文摘正文:按分类目次表编。
索引:关键词索引、专利索引、著者索引。
附录:4个
累积索引本 :卷索引 化学物质索引、普通主题索引、分子式索引、 年索引 环系索引、著者索引、专利索引、
5年累积索引 年索引还有登记号索引、来源索引
索引指南:对CA各索引用法指导。
辅助出版物:有登记号索引,收录有登记号的化学物质,但不带文摘号。
CA特点:a.广博的收录范围;b.完备的索引体系(多达10多种索引);c.短暂的
出版周期;d.多样化的出版形式。(是世界上公认的最大型、最权威的
化学化工信息检索工具。)
CA的文摘特点:以报道性文摘为主,阅读CA的文摘在某种程度上可以代替阅
读原文。
I.CA数字版有联机数据库、光盘数据库、网络版检索系统。
II.数字版检索途径有:索引浏览式检索;词条检索二次检索。
III. 从专利号查不到,可以从著者索引查。
(3)《科学文摘》(英国、A辑半月刊、B辑C辑月刊)收录:A辑:《物理文摘》B辑:
《电气与电子学文摘》C辑:《计算机与控制文摘》
文摘本:分类目次表:有主题指南,是从主题词检索的主要途径
文摘正文:按分类目次表的顺序编排。
辅助索引:有著者、图书、会议、团体著者、参考书目等多种索引 。
索引本:半年累积索引本
多年累积索引本
INSPEC叙词表:SA检索语言(由比较标准的叙词表构成 )
SA特点:文献类型较多;以期刊论文为主;1977年以后不收专利。
I.“分类目次表”是利用文摘本从主题内容角度检索文献信息的主要途径。
II.如果检索时对某课题所在的类目不能确定,则可以借助分类表后的主题指南来确定
课题的分类号。
III.INSPEC数据库就是SA数据库(SA网络版)。
IV.SA数字版:联机数据库、光盘数据库、网络版检索系统。
V.检索途径:光盘版:直接检索、浏览检索、叙词检索;网络版:提供表单检索、命
令检索。
(4)《工程索引》(美国、月刊和年刊)收录:50多个国家,10多种文字的工程出版物
(土木、建材、运输等各个工程领域和各种工程活动)。
Ei
工程索引月刊 月刊本:主题索引、著者索引
工程索引年刊 文摘正文 年刊本:主题索引、著者索引、出版物一览表、
工程信息主题词表 会议一览表。
Ei特点:纯理论的基础科学文献一般不报道;期刊和会议文献收得比较全面,不收专利文献。
I.Ei 虽然名为索引,实为文摘刊物。文摘正文是按主题词字顺编排的.
II.Ei主题索引是从主题内容角度检索Ei文献的唯一途径。
III. Ei数字版有联机版、光盘版、网络版。
(5)世界专利索引(英国、周刊)收录:30多个国家和2个国际专利组织的专利文献;
包含化学、综合、机械和电器等领域。
文摘本: 分国文摘:报道8个国家2个专利组织的专利。
分类文摘:化学专利索引、综合与机械专利索引、电器专利索引。 索引本(题录本)
WPI特点:收录范围广,报道量大,报道速度快,文献加工标引质量高,能区分基本
专利和相同专利,辅助索引种类多,可以多途径检索等。
I.题录和文摘都有相应的索引;有独立的〈优先案索引〉(是从优先权查找同族专利的
有效途径)
II.文摘正文按德温特分类体系编排;文摘和索引以及累积索引的各个分册都有专利权
人索引、入藏号索引(也称登记号索引,用以区分相同和同族专利)和专
利号索引。
III.WPI数字版:联机数据库、光盘数据库、网络版检索系统。
第四部分 基于DIALOG的信息检索
1.DIALOG系统的发展特征:P226
庞大的数据库体系:有书目数据库、全文数据库、指南数据库、数值数据库等 优良的服务网络:5万个用户,10万个终端。
丰富的服务方式:晚间联机检索服务;多文档检索服务;光盘检索服务等。
先进的发展策略:技术先进策略;用户第一策略;灵活收费策略。
2.DIALOG数据库索引:P237
DIALOG系统中每个数据库中都有两种索引:
基本索引:是一种主题性质的索引,它含有所有的与主题内容相
关的词,如题目、文摘和规范词字段中的词等。有以下8种:
题名字段(/TI)、文摘字段(/AB)、叙词或标题词字段(/DE或/SH)、专
用叙词字段(/ID)、自由词字段(/IF)、注释字段(/NT)。它们被置于检
索项的后面,对检索项加以限制。
辅助索引:是一种非主题性质的索引,它含有记录中除基本索引字段之外的那部分信
息,如作者、语种、出版年等。
3.禁用词表(禁用词是指出现频率很高但没有实际检索意义的词,如介词、连词、代
词等。在检索时遇到禁用词的场合,基本的处理方式有两种:
一是检索字段用单元词标引的,检索时用位置算符(W)或(N)来代替禁用词。 二是检索字段是用词组标引的,检索时可以使用双引号将整个词组引起来。
4.DIALOG检索技术:布尔检索、词位检索、截词检索、限制检索。
(1)布尔检索技术:P240运算符号的作用;运算次序;在有括号的情况下,„„NOT AND OR;缺陷。
(2)截词检索技术:P241优点
(3)词位检索技术:P243定义;算符的用法;记录级检索;字段级检索;自然级检索。
(4)限制检索技术:P245缩小或约束检索结果的方法;利用前、后缀对主题字段进行
限制;利用系统规定的限制符或限制命令进行数值和范围限制等。
5.DIALOG 检索操作:P248
DIALOG系统的基本检索模式有三种:经典的命令检索、Web化检索、菜单式检索 DIALOG经典联机操作方式:
⑴通过DialogLink等通信软件进入DIALOG系统;
⑵输入用户标识及号令;
⑶进入缺省文档;
⑷选择数据库或文档。免费使用《数据库蓝页》(405文档)了解每一个数据库的特征、可检字段及字段性质、输出格式等。熟悉的用户也可直接使用进库指令(熟悉文档编号);
⑸使用文档选择指令(SF)进行检索;
⑹构造检索式并实施检索:包括选择检索词、使用各种检索技术确定组配方式等内容; 主要选词指令:i.进库指令Begin (B),其格式为:?Begin n 或?B n,其中, ?是
DIALOG系统检索命令提示符,n代表某一个具体的数据库或文
档号。例如,检索式“?B 7”表示开始检索DIALOG系统中编号
为7的数据库或文档。在Begin指令后面可以输入多个文档号,
一次打开多个数据库;
ii.选词指令Select (S) ,在S指令后输入适当的检索词或代码(即检索
策略),系统就会从数据库文档中检出含有这些检索词或代码的文
献,并赋予一个集合号(Set No.),或称提问编号。检索词可以是
单元词或多元词,要求不超过240字符;布尔算符、词位算符、
后缀码、前缀码都可以进行组配提交。
iii.分布检索指令Select Steps (SS) :SS指令与S 指令的功能相同,
区别在于SS 指令是分步给号查找文献信息的指令,系统给组配
的每个检索项都赋予一个集合号,以供修改检索策略和重新组配
时调用。
iv.逻辑组配指令Combine (C) :C指令的功能是对各检索词进行逻辑
组配。但在C指令后面只能是集合号,而不能直接使用检索词例
如,“?C(1 and 2 and 3)”
v.去重指令Remove Duplicates (RD) :RD指令的功能是对来自不同数
据库的文献进行比较,是同一文献只出现一次,使用格式为?
RD[Set No.] 。
vi.其他指令如限定指令(对检出的文献进行进一步限定)等。
⑺检索结果的处理:i.联机打印指令Type (T)。使用方式有两种:
a.以集合号联机打印,其格式为:?Type集合号/输出格式/命中
文献记录的序号。例如,“?Type 7/4/3 ”就表示用户要求联机
系统以第4种打印格式联机打印第7种提问编号的命中文献记
录的第3篇。
b.是以文献记录索取号联机打印。例如:“?Type 4723/7”中,4723
是文献记录的存取号,7为第7种打印格式。
ii.脱机打印指令Print(PR):是指DIALOG系统先将用户的脱机打
印指令和要求存储在主机内,再由检索系统中心打印处理后邮寄
给用户。费用较低,时间较长。
⑻屏幕显示指令Display (D):显示符合记录要求的记录。例如,检索式“?Display S2/5/1”,就表示按格式5显示第1条记录。 Display指令的功能和使用方法与Type基本相同,差别在于Type指令把命中文献连续显示在屏幕上,而 Display指令则会按屏显示命中记录。
⑼完成检索,退出系统。
i.End指令:当完成一个检索课题后,可以使用“?END”指令。表示结束查找,开始结帐但不停机可以继续查找其他文献。
ii.Logoff Hold。暂停检索指令,用户可以在30分钟内再次进入上次检索的文档中,并调用上次的全部检索策略。
iii.Logoff指令。“?Logoff”结束检索,退出系统。
iv.B, S, T, RD, Logoff使用率最高。
第五部分 基于搜索引擎的信息检索
1.搜索引擎:是互联网上专门用于检索的网站的统称。P256
三大类型:通用万维网搜索引擎、通用元搜索引擎、专用搜索引擎
工作原理:从跟踪一个网站的链接开始,就有可能检索整个互联网。
2.一个搜索引擎由搜索器、索引器和用户界面三部分组成。P257
⑴搜索器的功能:作为一个计算机程序,搜索器日夜不停地运行,尽可能多、尽可能
快地搜集各种类型的新信息,并定期更新已经搜集过的旧信息,以避免出现死链接和无效链接。搜索器运行的两种策略:
策略一:一个起始 URL集合开始,顺着这些URL中的超链以宽度优先、深度优先
或启发式方式循环地在互联网中发现相关信息。
策略二:将eb空间按照域名、IP地址或国别域名划分成子空间,让每个搜索器负
责一个子空间的穷尽搜索。
⑵索引器的功能:是理解搜索器所搜索的信息,从中抽取出索引项,并生成文档库的
索引表。
⑶检索界面的功能:用户检索界面是搜索引擎呈现在用户目前的形象,其作用是接受
用户输入的查询、显示查询结果、提供用户相关性反馈。
用户界面包括简单界面和高级界面两类。
3.搜索引擎运作的三个过程:
⑴发现并搜集网页信息:一个典型的网络蜘蛛工作的方式是通过查看一个页面,从中找到与索内容相关的信息,然后从该页面的所有链接中继续寻找相关的信息,以类推,直至穷尽。
⑵对信息进行提取并建立索引库:建索引库时对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而最大限度地保证搜索出的结果与用户的检索提问相一致。
⑶用户检索利用:搜索引擎根据用户输入的检索词,在索引库中快速检出文档,进行文档与检索的相关度评价,对将要输出的结果进行排序,并将检索结果返回给
用户。
此外,有的搜索引擎建目录索引。如Yahoo!,就是将网站分门别类地存放在相应的目录中,这样,用户在查询信息时,可直接按分类目录逐层查找。目前搜索引擎与目录索引有相互融合渗透的趋势:一些纯粹的全文搜索引擎现在也供目录搜索。
搜索引擎的设计希望达到快、准、全三大目标。其中,快是最关键的。准也是
关键性的,全则只是力所能及的要求,因为网络空间太大了,很难求全。„„故主要关注查准率。
搜索引擎两大检索方法:全文搜索引擎与目录搜索。
4.搜索引擎检索方法:P261
⑴简单搜索:输入一个单词(关键词),提交搜索引擎检索后反馈结果,也叫单词检索。 ⑵词组搜索:指输入两个单词以上的词组(短语),提交搜索引擎检索并反馈结果。也叫短语搜索。把词组或短语放在引号“ ”内。如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来。
⑶高级检索:指用布尔逻辑组配方式检索。常用的逻辑运算为AND(与)、OR(或)、
NOT(非),还有位置检索NEAR(邻近)算符。
有的搜索引擎还支持使用通配符,用于指代一串字符。每个搜索引擎所用的通配符不完全相同,大多数使用 或 ?,少数用$。不少搜索引擎还支持加(+)、减(-)词操作,相当于逻辑与(AND)和逻辑非(NOT)。(在搜索词前冠以“+”可以限定搜索结果中必须包含的词汇,用“-”则限定搜索结果不能包含的词汇。当只用一个单词进行搜索时,经常会出现数以千计甚至百万计的匹配网页,这时就可以用“+”再加上一个单词,使搜索结果缩小范围;同样,如果用“-”去除一个单词,就能立即排除不需要的搜索结果。)
⑷语句搜索:指输入任意自然语言问句,提交搜索引擎检索后反馈结果。
⑸目录搜索:指按分类目录逐级检索,也叫分类检索。用户一般不需要输入检索词。
5.搜索引擎使用技巧:P262
⑴有针对性地选择搜索引擎。
⑵根据要求选择检索方法并细化检索:如果需要快速找到一些相关性比较大的信息,可以使用目录索引式搜索引擎检索;如果想得到某一方面比较系统的资源信息或比较冷门的信息,则应该选用全文搜索引擎查找。
许多搜索引擎都提供了对搜索结果进行细化与再检索的功能。还有一些则可以对得到的结果进行新一轮的检索。
6.万维网搜索引擎的主体是全文搜索引擎(有多个检索框):三大著名万维网搜索引擎
Google、yahoo! 、Ask 。
⑴Google的检索方法:(http://www.google.com)P263
i简单搜索:仅需输入检索内容并敲一下回车键或单击“Google搜索”按钮,即可得
到相关资料。Google不仅会返回那些符合全部检索条件的网页,而且会先列出那些于搜索关键词相距较近的网页。如果想缩小范围,不需要在关键词之间加上“and”或“+”,可输入更多的关键词,只要在关键词中间留空格就行,此时,它会自动使用“and”进行逻辑组配检索。
ii词组搜索:使用英文双引号(在检索到的文档中将作为一个整体出现,查找名言警句或专有名词时有用),Google 会自动忽略最常用的词和字符,包括“http” 、“com” 和“的”,除非用英文双引号将忽略词强加于搜索项,如输入“宇宙的演化”时,加上英文双引号就会使“的”强加于搜索项中;不用词干法和通配符()
搜索。也就是说,Google只搜索与输入的关键词完全一样的字词。支持+、-检索,但要在加、减号之前留一空格;不区分英文大小写;运用智能型汉字简繁自动转换系统(不是简单的字符转换,而是简体和繁体之间的翻译转换。例如简体的“计算机”会对应与繁体的“电脑”)。在google 中输入简体字会出现繁体字的网页。 iii高级检索:可以将检索策略输入google 主页面的检索框中也可以进入高级检索界
面后将检索策略输入检索框中
7.在主页面上一般都有:所有网站、图像、新闻、网上论坛、网页目录。
8.google 的特殊功能P266
⑴图象搜索:选择主页上方的图象键或直接用URL http://images.google.com即可进入,在图象搜索框中输入要查找的图象主题或相关关键词,然后单击“搜索”按钮。
⑵信息挖掘:如果要查找网络上的PDF格式、DOC 格式、GIF 格式等专门格式文
件,只需在检索词后加上.PDF、.DOC、.GIF 等信息,google会自动到服务器甚至数据库去找,体现了信息挖掘功能。(问:要找格式的文件怎么做?)
⑶手气不错:用“手气不错”按钮就能直接进入最符合搜索条件的网站,省时方便。 ⑷网页快照:google 在访问网站时,会将看过的 网页复制一份网页快照(域名),以备在找不到原来的网页时使用。
⑸类似网页:网页越有个性,能找到的类似网页就越少。
⑹按链接搜索:有一些词后面加上冒号,对google 具有特殊的含义。如:“link:”。检索link:显示所有指向该网址的网页。例如:“link:www.google.com”将找出所有指向google 主页的网页。
⑺指定域网:又一个后面加冒号而有特殊含义的词是“site:”。要在某个特定的网域或网站中进行搜索,可以输入“site:xxx.com”。
⑻语句搜索:将google 工具箱安装到IE的工具列内,使用户在任何网上随时可以使用google 的强力搜索,而不要每次造访google 首页。
9.yahoo! (http://www.yahoo.com)P269
yahoo!特点:是目录索引类搜索引擎
常用检索技术:yahoo!支持简单检索,性能良好;支持词组搜索,性能优秀;支持高
级搜索,性能一般。
yahoo!提供的简单搜索和高级搜索具有匹配关系:前者主要检索其分类结构中的一级目录,后者可使用关键词构成布尔逻辑式进行检索,并可以使用作为通配符,支持+、-词操作。
10.yahoo!特色搜索P270
yahoo!的特色和优势是具有独特的目录搜索和系列化的专门搜索功能。
⑴目录搜索:yahoo!的魅力,就在于它的可浏览式分类主题目录,按照主题建立分类索引,提供全面的分类体系结构。yahoo!包含的主题内容按字母顺序归为14个大类。 使用yahoo!只要进入其网站,选定所查主题,逐级进入即可,这些目录由于是人工参与建立的,故标引准确,查准率高,无论是偶尔浏览还是专门检索,使用yahoo!都是很好的选择。
⑵专门搜索:yahoo!针对各国用户和专门用户设计开发了相应的功能检索界面,例如中文yahoo!(http://cn.yahoo.com)、德文„„。
⑶注意事项:yahoo!对大小写字母不敏感,也支持任意词检索
缺陷:只能进行关键词检索,并且只支持布尔算符and和or ,未提供near等,高级搜索功能平平。
11.百度搜索引擎(http://www.baidu .com)P274
最大的中文搜索引擎,风格与google 类似。
12.元搜索引擎:是搜索引擎的搜索引擎,在接受用户查询请求时,同时调用多个已有
引擎进行搜索,并将结果统一返还给用户。三大元搜索引擎是:
Search (http://www.search.com):支持简单搜索、词组搜索和高级搜索,可以调用1-8
个搜索引擎。
ProFusion (http://www.profusion.com):并行式元搜索引擎,能自动对搜索结果进行整
理,删除冗余的结果,并按相关性进行排序,高级搜索健全。
Mamma (http://www.mamma.com):并行式元搜索引擎,自称是所以搜索引擎之母。
13.中文元搜索引擎:万纬(http://www.widewaysearch.com),包括了8个英文搜索引擎
和12个中文搜索引擎。