信息资源检索
1.1、因特网上的信息资源:
1.2、网上有什么样的信息:(1)政府信息(2)科研信息(3)教育信息(4)文化信息(5)休闲娱乐信息。
1.3、尽管网上信息发展很繁盛,还是有许多重要信息不可能在网上公开,或任用户自由访问、获取。比如:有关企业、公司的战略、发展规划,商业、贸易秘密;商业性数据库和大多数有版权印刷资料。
1.4、因特网信息资源的特点:(1)无限性和广泛性(2)多样性(3)廉价性(4)共享性(5)新颖性(6)无序性
(1)价廉(2)新颖、深入(3)广泛、直接交流(4)非正式、自由
1.6、因特网上信息资源的种类:(1)从媒体类型上看,网络信息综合了文本、图形、声音、视频等多种格式的信息;(2)根据访问信息的权限不同,可以将网络信息分为开放信息与保密信息两大类;(3)按信息的表现形式可以分为全文型(如各种报纸)、事实型(如企业名录)、数据型(如报价网站)、目录型(如OPAC)、实时型(如各种论坛)等;(4)最常见的方法还是按照信息资源所采用的网络传输协议的不同来划分。
1.7、web信息资源:(1)超文本传输协议HTTP:HTTP是浏览器与Web服务器之间相互通信的协议。即WWW客户机和服务器用于在网上传输、响应用户请求的协议。(2) )超文本标记语言HTML:HTML是一种专门编程语言,具体规定和描述了文件显示的格式。也即Web描述语言,用于编制通过WWW显示的超文本文件。(3)通用资源定位程序URL:URL又称信息资源的统一定位格式或统一资源定位器。(4)主页(5)链接(6)浏览器。 1.8、Telnet的概念:指借助远程登录,在Telnet的支持下,在远程计算机上登录,使自己的计算机暂时成为远程计算机的终端,进而可以实时访问、使用远程计算机中对外开放的相应资源。简言之,就是通过远程登1.9、目前BBS信息资源也同时在向着采用Web和Telnet两种方向发展,Web类型的BBS可展示包括图像和声音、视频在同的多种信息,视觉表现方面更加丰富,用户操作也更加简便;而Telnet类型的BBS虽然只能展示文本信息,并且需要用户记忆不少键盘操而受到上网历史较长的老用户青睐。 1.10、FTP是因特网使用的文件传输协议。
FTP不公允许从远程计算机上获取、下载文件,也可将文件从本地机上传到远程计算机。
1.11、RSS信息资源:RSS是一种用于共享新闻和其他Web内容的数据交换规范,起源于Netscape公司1997年开发的技术,是将用户订阅的内容传送给他们的通信协同格式。RSS原来是RichSite Summary或RDF Site Summary的缩写,意思是把网站内容如标题、链接、部分内文甚至全文转换为“可扩展标示语言”(XML)的格式,以向其他网站提供信息。后来演变为“简易供稿”的缩1.12、介绍RSS就不能不谈Blog(网志,也称博客)。Blog指的是个人在网站上写日志(Web log)供大众阅读,由于Blog出版系统许多相似主题的Blog之间自然串连成为一个个社群,尤其在美国9.11事件之后,Blog成为重要的新闻来源,逐渐受到人们重视,人们以Blog形式来共享观念与思想变得越来越流行。典型由于RSS是XML格式文件,所以它很容易被期货程序所使用。Blog以RSS文档形式为其内容提供一个提要,该RSS文档可以通过一个普通的URL获得。 1.13、RSS阅读器是一种软件或是说一个程目前流行的有:RSSReader、FreeDemon、SharReader、看天下RSS阅读器等。这些软件能够把新闻标题、摘要、内容按照用户的要求,“推”到用户的桌面。站点也能利用RSS的优点来聚合内容,例如,多数主流的新闻站点包括Wired、CNet、Yahoo、NPR News和国内的新华网都提供RSS提要。RSS阅读带来的是从“拉(Pull)”到“推(Push)”的信息获取方式变革。
1.14、因特网信息资源评价的标准:目的、范围、内容
1.15、评价主围绕该网站内容的如下方面
简单易行,利于上手。(2)检索到的信息较新,时效性好(3)可以达到较高的检全率(4)符合检索语言的文献保障原则和用户保障原则。2、基于关键词的检索的缺点:(1)关键词语言难以反映词间的相关关系(2)分散主题,影响查准率(3)自动标引无法完全解决标引不一致的问题。
2.4、论述最早的网络信息检索工具类型:所有搜索引擎的祖先,是1990年由Montreal的McGill University学生AlanEmtage、Peter Deutsch、Bill Wheelan发明的Archie。Archie是第一个自动索引因特网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。
2.6、网络资源目录是由人工发现、抓取、辨别网上信息、依靠编目、标引人员的知识、建立主题树分层目录,将采集、筛选后的信息分门别类地放入各大类或子类下面。 2.7、搜索引擎:Robot的搜索引擎它利用一个称为Robot的程序自动访问Web站点,提取站点上的网页,并根据网页中的链接进一步提取其他网页,或转移到其他站点上。Robot搜集的网页被加入到搜索引擎的数据库中,供用户检索使用。然后在用户录入关键字后进行检索,检索结果中一并附以摘2.8、因为搜索引擎无法索引出这类站点内部的信息,因些站内检索工具成为用户获取这些站点信息资源的惟一手段。 2.9、因特网信息检索工具的工作原理:
、建立索引:人们已经发明了许多索引
较,然后将对象归入特征最接近的一类,并赋予相应的分类号。实际上,手工分类一般根据历史的经验先定了类,于是一般分类的问题就转化成了归类的问题。自动聚类方面,Vivisimo是目前世界上把自动聚类技术应用得最好的一个元搜索,它已经成功进入了商业运营模式。
2.13、(论述)因特网检索工具的性能评价:
1.5、因特网信息资源的利用价值(优越性):写。
的进步,以及普遍应用RSS供稿机制的缘故,按照图书分类、学科分类或期货分类依据,
序,这种软件可以自由读取RSS格式的文档,要。
(内容的标准):(1)准确性(2)权威性(3)、自动分类方法又可以分为归类和聚类(7)图形和多媒体设计(8)信息的展示与设计(9)可操作性(10)费用(11)评论 2.1、因特网信息资源检索的特点:(1)检索范围大(2)检索效率高(3)检索工具强大(4)信息冗余大
2.2、基于关键词的检索工具中最代表性的2.3、基于关键词检索的特点:1、使用关键词检索网络信息资源的优点是:(1)检索
录后,可以访问、共享的远程系统中的资源 新颖性(4)独特性(5)可靠性(6)链接
作,但它也有着速度快捷、功能完善等优点,就是搜索引擎,如现在最流行的Google。
(1)收录范围。(2)检索功能。检索功能直接影响信息检索的检全率、检准率、检索的灵活性、方便性及检索速度,是评价与选择因特网信息检索工具的核心指标。(检索功能评价指标可进一步细分为以下多个指标:检索技术:所使用的检索技术是否先进、多样。C、检索限定:对所查信息是否有选择与限定的自由。)(3)检索效率。检全率(recall):对于一项检索,实际检出的真正相关的文件数目(r)与所有应该被除检出的文件数目(R)的比率,r/R即为检全率。检准率(precision):对于一项检索,如果检出的文件数量n,其中与本次检索真正相关的文件是r,那么检率就是r/n。(4)检索结果的处理和展示(5)用户界面设计 3.1、Google数据库中的文档可分成4种类其他类型文档(4)日常性再索引网页。 3.2、Google检索功能:1、基本检索。(1)布尔检索:Google支持不完全的布尔逻辑。(2)词组检索:在检索词组上加标“”,表示将该检索词组视为一个完整的检索单元,中间不允许插入到别的词(3)禁用词检索(4)截词检索(5)同义词检索:英文单词前加“~”(不空格),Google将搜索该单词的单复数形式或者该词在意义上相近的词。该操作符只用于英文网而搜索。(6)Google不区分大不写。2、网页特色搜索。(1)目前,Google已经能检索微软的Office文档,如.xls、.ppt、.doc、.rtf、WordPerfect文档,Adobe的.pdf文档,ShockWare的.swf文档等。(2)字段搜索。3、网页目录。 3.3、Ask Jeeves在1998-1999年间因采用“自然语言搜索”而一举成名。
3.4、搜索提供商:(1)Inktomi (2)Open Directory (3)Look Smart (4)Overture 目前大受欢迎的“Pay-For-Performance”网站登录服务,是所谓“竞价排名”的始作俑者。
3.5、国内搜索引擎:1、百度,www.baidu.com。(1)编制者:1999年底李彦宏和徐勇于美国硅谷创建了百度。(2)数据库规模和范围:全球最大中文搜索引擎之一,百度以超2亿的中文网页,全球独有“超链分析”技术,快捷的反应速度,庞大的服务器群,接受来自全球各个国家的中文搜索
也就是说输入的关键词在中间没加空格的情况下会被当作一个词组,执行严格的匹配操作,不需要额外再加引号表示词组。Intitle 在HTML的title标签中查找关键词,Knurl 在主机的URL中查找关键频道,或某域名内的网页。C、检索方法:在检索框中输入字段前缀:关键词;示例:intitle:搜索引擎。另外,高级检索界面也提供字段检索功能。2、中国搜索,www.zhongsou.com
3
、
3721,http://www.3721.com 4、天网,http://e.pku.edu.cn ,http://www.hk-skynet.org/(香港)。
4.1、因特网上的目录型检索工具一般称为网络资源目录,又称分类站点目录、站点导航系统、专题目录或主题指南等。它是由网系进行组织加工整理,并和检索法集成的一种可供分类浏览和检索的等级结构式目录。 4.2、网络资源数不胜数,任何目录都不可能包罗所有的网站,所有网络资源目录都包括下列典型号的一级类目,如商业贸易、计遇到交叉的主题,网络资源目录会有相关的类目下显示不同的路径。
4.3网络资源目录使用的分类法:(1)主题分类法。其特征是一个主题充当一个类目,类目像主题词表一样按字顺排列,而不是以逻辑顺序排列(2)学科分类法。学科分类法是以知识分类为基础,按照学科性质及从属、层次关系来组织网络资源,类目排序以字顺为标准(3)图书分类法。为了提高分类方案的容量,对网络资源进行大规模地组织和整理。大型的图书分类法-------体系分类法引起了网络资源目录建设者的注意。便用图书分类法有几大优势:其一是图书分类法以科学体系为基础,体系庞大,在容量上占优势;其二是各层次的网络用户对图书分类法都有了解或熟知;其三是图书分类法版本更新及时,基本上能满足动态的网络信息分类;其四是图书分类法有机读版本,网络资源目录可直接套用。(4)分面组配法 4.4、国外的网络资源目录:(1)Yahoo!,http://yahoo.com(2)Galaxy www.galaxy,com(3)The
www
Libray(VL),www.vlib.org.------
,
Virtual
用于(1)用户进行较宽泛的主题浏览和检索。(2)当用户尚未形成很精确的检索概念时。2、网络资源目录和搜索引擎的比较:(1)网络资源目录强调的是浏览功能,在将信息系统地分门归类后提供的分类浏览方式更直观、清晰,适合多数网络用户和新手,用户可以在某一大类目下较为集中地获取重要的相关信息。网络资源的局限性是:受人工标引的限制,网络资源目录的搜索范围较搜索引擎要小许多;要保证目录结构的清晰性;每一类目下的条目也不宜过多,因些大大地限制了网络资源目录的容量。(2)搜索引擎的主要优点:是查询全面而充分,方便快捷。搜索引擎基本上都采用基于关键词匹配的全文检索技术。搜索引擎的局限主要在于:A、由于信息采集、组织标引、匹配检索等过程缺乏概念语义控制而导致的虚假匹配较多见、检索噪声太大,也就降低了检索效率的准确性。B、使用搜索引擎的用户首先需要有明确的检索词;其次要具备一定的检索知识,了解逻辑组配语法;C、最后还要了解每个搜索引擎的语法特点和检索符号的不同。
是一种基于搜索引擎的网络检索工具,它不同于前文所介绍的Yahoo!、Google、百度等网络检索工具,它将多个搜索引擎集成在一起,通过一个统一的检索界面接收处理用户的查询提问,在进行检索时调用一个或者多个搜索引擎的数据库,检索结果是来自独立搜索引擎的检索结果或者是来自多个搜索引擎结果集合的综合,呈现给用户的检索结果既可以是引用原始的独立搜索引擎的页面,也可以是由元搜索引擎重新定制后的形式。既提高了检索效率,同时也起到了对检索工具的推荐和指南的作用。
5.2、元搜索引擎的分类:按运行方式的差异可分为桌面搜索引擎和在线搜索引擎,其中前者的代表是各类搜索软件,而后者按照功能又可以划分为并行检索式元搜索引擎和All-in-One式元搜索引擎。
5.3、并行检索式元搜索引擎优点:省是。不用就同一提问一次次地访问所选定的搜索引擎,每一次均要输入检索词等;用户可以使用同一指令语言检索不同的搜索引擎的索引数据库;检索的是多个数据库,检索的结合性、完整性也有所提高;检索结果经过了预处理,格式统一,检索噪声较小。 5.4、(简答)元搜索引擎的技术原理:并行检索式元搜索引擎是真正意义上的元搜索
A、检索方式:检索方式单一还是多样。B、词,Site 限制只搜索某个具体网站、网站
型:(1)被索引的网页(2)未被索引的网页(3)络开发者将网络资源收集后,以某种分类体
算机和网络、时事、娱乐和休闲、体育等等,5.1、(简答)元搜索引擎概念:元搜索引擎
请求。(4)百度检索功能:基本检索:A、4.5、网易,中国最大的开放式引擎。 布尔检索:百度运行不完全的布尔逻辑。B、4.6、网络资源目录与搜索引擎的比较:1、词组检索:对于中文,默认即为词组检索,
适用不同的检索需求。网络资源目录主要适
引擎,它通常由3部分组成,即:检索请求提交机制、检索接口代理机制、检索结果显示机制、检索结果显示机制。“请求提交”负责实现用户个性化的检索设臵要求,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。“接口代理”负责将用户的检索请求“翻译”成满足不同搜索引擎本地化要求的格式。“结果显示”负责所有目标搜索引擎检索结果的去重、合并、输出处理等。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。
5.5、(论述)元搜索引擎与普通搜索引擎的区别:(1)普通搜索引擎拥有独立的网络资源采集标引机制和相应的数据库,而元搜索引擎一般没有自己独立王国的数据库,却更多的是提供统一连接界面(或进一步地提供统一检索方式和结果整理),形成一个由多个分布的、具有独立功能的搜索引擎构成的虚拟整体,用户通过元搜索引擎的功能实现对这个虚拟整体中各独立搜索引擎数据库的查询显示等一切操作。(2)元搜索引擎明显的缺点是:检索功能简单。(3)元搜索引擎检索的准确性也要相对差一些,且检索速度较慢,给出的检索结果描述可能也不够详细。
5.6、常用的并发式元搜索引擎:(1)Dogpile,www.dogpile.com DOGPILE算是老资格的元搜索引擎之一。(2)Vivisimo,www.Vivisimo.com (3)MetaCrawler,www.metacrawler.com (4)ProFusion,www.profusion.com (5)搜星
,www.soseen.com
(6)meraFisher,www,hsfz.net.cn/fish 6.1、基于文本的图像检索技术(TBIR):利用文本方式描述图像的特征,如绘画作品的作者、年代、流派、尺寸等。从图像名称、图像尺寸、压缩类型、作者、年代等方面标引图像。基于内容的图像检索(CBIR):如图像的颜色、纹理、布局、等进行分析和检索的图像检索技术。
6.2、基于内容的图像搜索引擎:(1)QBIC,www.qbic.almaden.ibm.com/(2)VisualSEEK
:8008(3)IIDR,www.unn.ac.uk/iidr 6.3、对声音进行数字化处理得到的结果称为音频,音频信息检索是数字化信息检索的迫切需要。
的
WebSEEK,http://Persia.ee.columbia.edu
7.1、CNKI平台由中国学术期刊(光盘版电子杂志社)、清华同方光盘股份有限公司创建。
7.2、各学科学术信息资源的获取: 7.3、SOSIG(社会科学信息网关)
7.4、教育信息检索工具:ERIC----美国教育资源信息中心,1966年创建。其资源核心ERIC数据库是世界上最大、使用最广泛的教育文献资源数据库。ERIC Web Site------ERICwww.eric.ed.gov
7.5、美国心理学协会(APA)、美国心理学会(APS)、英国心理学会(BPS) 7.6、心理学信息检索工具:APA(美国心理学协会,ww.apa.org)是一个提供美国心理学状态的科学的、专业的组织。
7.7、经济学信息检索工具:EconWPA(经济学
工
作
论
文
档
案
,
http://econwpa.wustl.edu)
7.8、法律信息检索工具:LexisNexis,www.lexis.com
7.9、工程技术信息检索工具:(1)Ei Village2,www.ei.org (2)中国工程技术信息网(CETIN),www.cetin.net.cn 7.10、医学信息检索工具:Medline Plus,http://medlineplus.gov
7.11、生物学信息检索工具:EBI,www.ebi.ac.uk 是欧洲生物信息科学研究所创建的,是一个非营利的学术机构。 8.1、世界各地图书馆的公共检索目录(OPAC 联机图书馆公共可检索目录):即一个基于网络的书目检索系统,除提供本馆书目信息的,检索服务外,网络用户可通过自己的网络终端检索世界各地图书馆的OPAC,使用每个目录时只需要知道所要访问、检索的图书馆主而的URL,然后采用相应的网络工具,如:远程登录(Telnet)、Gopher或直接的Web浏览器就可进行访问、查询。 8.2、网上书店:(1)Amazon.com (亚马逊网上书店 www.amazon.com) (2)当当网上书店,www.dangdang.com(3)卓越,www.joyo.com.cn(4)
8.3、电子图书的检索和使用:(1)超星数字www.21media.com (3)北大方正Apabi数字图书馆,www.chinesebook.com.cn (4)书同方,http://uniban.com.cn (5)其他电子图书网站:A:亦凡公益图书馆,www.shuku.net B:榕树下,www.rongshuxia.com C:中国表少新世纪
数
字
图
书
馆
读书网,www.cnread.net D:幻剑书盟,http://.hjsm.net E:百万书库,http://www.millionbook.com
8.4、期刊内容信息的检索:1、中国期刊检索系统:(1)中国期刊网。中国期刊网是中国知识基础设施工程(简称CNKI)的一个重要组成部分。(2)万方数据资源系统之数字化期刊子系统。万方数据资源系统是一个以科技信息为主,集经济、金融、社会、人文信息为一体的网络化信息服务系统。(3)《中文科技期刊数据库》。由重庆维普资讯公司制作并提供服务。2、国外的期刊内容信息检索系统:(1)UnCover,www.ingenta.com。UnCover是1988年美国CARL公司建立的世界上规模最大、更新速为度最快的,期刊检索系统。其数据库收录世界范围各个领域的学术期刊论文,收录的内容涉及科技、医学、农业、人文科学、艺术、社会科学、法律、商业等。其中科技、医学、农林约占51%,社会科学、政法商业约占40%,其余为艺术和人文科学。
8.3、标准信息的网上检索:(1)国际标准化组织ISO Online,www.iso.org (2)美国国家标准学会ANSI,http://web.ansi.org 9.1、参考信息检索的概念:参考信息即指人名、地名、机构、事件、统计数据等一类数据,事实信息,是人们在工作研究的日常生活中经常驻机构要查考、引用的信息。 9.2、网上参考信息源的主要类型(通常按其功用划分):(1)百科知识检索网站(2)人物信息检索网站(3)地理信息检索网站(4)时事、新闻信息检索服务(5)机构信息检索网站(6)语词信息检索网站(7)统计信息检索网站
9.3、人物信息的检索需求一般有两种:一种是检索著名人物的生平事迹,而另一种是检索朋友或工作伙伴的个人信息。这两种不同的检索需求需要查找不同类型的信息源,一是传记资料,一是白页信息服务。 9.3、白页信息服务:网上白页是专用于查找因特网用户个人信息的特殊工具,这些个人信息包括电话号码、e-mail地址、邮政编码甚至家庭住址等。在国外人们对网络白页9.4、白页信息查询:(1)Yahoo! People search,http://people.yahoo.com/。Yahoo! People search是网络上最好的白页查询工具之一,包含两个数据:电话号码数据库和E-mail
数据库。(2)LOOK4U,
www.look4u.com。LOOK4U是第一个专为全球
图书馆,www.ssreader.com (2)书生之家,的使用是很频繁的。
华人量身订做的互寻网站,号称全球最大的华人网站通信录。
9.5、地图的网上检索:Mapblast,www.mapblast.com。Mapblast主要提供两种地图查询服务:Map和Drive,两科查询服务的检索界面相似。Map:查询地图信息。Drive:提供美国、英国、法国、澳大利亚等17个国家的行车路线指南。
9.6、旅游信息检索:可以利用Google和Yahoo等网站提供的local search功能查询当地的地图和商业网点等。
9.7、时事、新闻等和网上查询:网络已经成为第四大媒体。年鉴是系统地汇集一年内人、事、物各方面发展变化新情况和统计资料,按年度连续出版的资料性参考具。 9.8、年鉴:是指“每年出版的统计数据和事实的汇编,兼有现期性和回溯性内容。” 9.9、黄页:是国际通用按企业性质和产品类别编排的工商电话号码簿,相当于一个城市或地区的工商企业的户口本,国际惯例用黄色纸张印制,故称黄页。
9.10、2002年Google在假日购物高峰来临之期适时推出Froogle(测试版) 10.1、网络信息检索技巧,关键词------检索的灵魂:(1)足够多的关键词是快速定位目标信息的关键(2)停用词和常用词。检索时应当避免使用停用词和单独使用过于常用的词,这是本节的第二个检索技巧。(3)关键词的分类和对象关键词。第三个检索技巧是:在检索提问中避免使用行为关键词,谨慎使用修饰关键词。之所以对修饰关键词的限制不那么严格是因为修饰词有时能帮助我们更精确的定义对象,比如“古典 手机铃声”就比“手机铃声”来得精确。(4)截词检索和通配符。截词检索对于中文意义不大,但是当我们需要使用英文或者别的西方文字进行检索时,截词检索就很重要了,Google就不支持截词检索。(5)选定合适的关键词级别。上位词,指概念上外延更广的关键词,或者可以说每一个关键词所覆盖的信息范围都是它的上位词所覆盖信息范围的子集。下位词则是指概念上内涵更窄的关键词。(6)同义词。所以,第六个技巧是使用一定数量的同义词参加检索,以覆盖目标信息的范围。一般情况下个人的常识足以提供若干同义词,如果对目标信息主题很不熟悉,则可能需要先参考一定的资料或咨询他人。(7)词组检索。第7个技巧是尽量使用词组检索。前面说过关键词是检索的灵魂,
对象词是关键词的重点和核心,而检索时最强有力的关键词则是词组,词组检索强制结果必须与词组的形式完全一致,这样对检索结果限制得更严,标准率也更高。(8)使用英文专业术语检索。
10.2什么词适合使用截词检索呢?首先这些词的词干应该比较长;而它们的复数形式是比较简单的-s或-es的形式,而不是-ies这样的形式;它们的词干不能也是其他很常见词的词干。
10.3布尔检索概述:布尔检索是利用布尔表达式将要检索的范围明确地加以缩小或扩大,使查询出来的结果更加准确。 10.4、常见的布尔逻辑操作符和句法解释:(1)AND操作符:用AND操作符连接的两个关键词都必须出现在检索结果中,某些检索或“与”的意思。在两个关键词之间加上AND,可以缩小检索范围,得到较精确。注意AND操作符并不限制两个关键词在文档中的距离;也不管关键词之间的次序;也可以连接两个以上的关键词。(2)OR操作符:用OR操作符连接的两个关键词必须有一个出现在两个关键词中加上OR,可以扩大检索范围,得到较多、较广泛的结果。(3)AND NOT操作符:AND NOT操作符从结果中去除包含特定关键词(词组)的文档。例如:“湖南AND NOT长沙”,会找到除长沙以外的有关湖南的资料。
10.5、(简答)利用网页快照:(1)网页快照中存储了搜索引擎的spider访问到该网页时复制的一个备份,虽然后来源站点的文档被删除或改名了,但在搜索引擎的数据库中该备份还会被留一段时间。因些通过网页快照往往能找到一些已经不存在的网页。(2)对于已经搜索到的网页。如果无法打开,八成是该网页已经被见风使舵了。而更让人难以接受的是,通过搜索引擎对该页简要介绍,发现该页上正是自己苦苦找寻的结果,这时更应该求助于网页快照,要知道搜索引擎,用我的们检索提问执行搜索时访问的就是这些快照而不是真正的外部网站。所以快照中的内容不得反而是最匹配检索提问的。(3)使用网页快照也有许多好处。因为,快照页面的首部都有一个与关键词相关的页内链接,直接指向该页中你所关心的更要内容。同时,网页内的所有关键词都被用不同的颜色进行了区分,比直接打开网页后自己用眼睛在该页上查找要方便得多,尤其
是内容多的网页,要找到关键词躲在哪里并不是件容易的事。
10.6、利用检索工具的特殊功能:比如说Google就是一个极为强大的搜索语法:“filetype:”。也就是说,Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc、.rtf,WordPerfect文档,Lotus-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。 10.7、站内检索:部分搜索引擎如Google是支持site:操作符的,即:只需要在检索时输入“关键词site:网址或域名”格式的索。
10.8、(论述)检索策略:(1)确定自己的问题是否适合Internet检索。在使用搜索引擎搜索之前,应该先花几秒钟想一下:我要找的东西网上可能有吗?如果有,可能在哪里,是什么样子的?网页上会含有哪些关键词?(2)了解Internet信息检索的特殊性。在检索之前需要弄清楚万维网是不可能的,我们用自己的计算机能做的是连接一个或多个网络检索工具,我们检索的是检索工具提供的数据库或目录集,这只是整个Web文档的一个很小的子集。网络检索工具提供了超文本链接来帮助我们转到特定服务器上的Web文档,通过点击这些链接,我们可以连接到世界上不同地方的Web服务器,获得自己想要的文档、图像等资源。(3)了解可用的检索工具。目前通用的网络检索工具大致可分为4种类型:搜索引擎、元搜索引擎、网络资源目录、专门数据库。(4)仔细分析自己的信息需求并选择合适的工具(5)根据检索结果调整检索策略。(6)检索必须找对地方。(7)选择合适的提问方式。
11.1、搜索引擎的“瓶颈”:(1)搜索引擎索引更新慢。(2)检索结果的排序仍然不能令人满意。(3)搜索引擎不能查找动态生成的网页。
11.2、网络信息检索中的法律问题:(1)侵犯隐私的风险。(2)搜索技术本身的争议和“安全港”规定。(3)网页缓存功能的争议。(4)搜索引擎营销中的法律纠纷 11.3、网络信息检索技术方面:(1)智能检索。(2)语义检索。(3)P2P检索(点
工具规定用符号“+”代替AND。AND是“且”检索提问就可以实现特定的网站的站内检
9.11、eBay是世界最大最著名的拍卖网站。 在检索结果中。OR,是“或”的意思。所以
对点,意为对等网络)。(4)信息检索可视化。