网络信息检索技术
第8章 Internet信息检索
Internet上蕴藏着非常丰富的信息资源,可谓包罗万象。网上信息服务大致可分为两类:一类为信息交流服务,如E-mail、新闻组与讨论组、公告板等;另一类为信息检索服务,如WWW、Gopher、Archie、WAIS等。与传统信息服务相比,Internet上的信息服务在资源访问方式、资源存储格式等方面都具有独特之处。本章将主要介绍Internet的基本知识、网络检索工具及网络信息资源检索方法。
8.1 Internet概述
Internet是计算机交互网络的简称,又称网间网或互联网。是利用通信设备和线路将全世界成千上万处于不同地理位置、功能相对独立的计算机系统互联起来,以功能完善的网络软件(网络通信协议、网络操作系统等)实现网络资源共享和信息交换的数据通信网。
Internet最早起源于美国国防部高级研究计划署(Advanced Research Projects Agency, 简称ARPA)的ARPAnet,该网于1969年投入使用。由此,ARPAnet成为现代计算机网络诞生的标志。ARPAnet在技术上的一个重大贡献是TCP/IP协议簇的开发和利用,作为Internet的早期骨干网,ARPAnet奠定了Internet存在和发展的基础,较好地解决了异种机网络互联的一系列理论和技术问题。
1983年,局域网和广域网的产生和蓬勃发展对Internet的进一步发展起了重要作用,其中最引人注目的是美国国家科学基金会(National Science Foundation,简称NSF)建立的NSFnet,NSF在全美国建立了按地区划分的计算机广域网并将这些地区网络和超级计算机中心互联起来。NSFnet于1990年6月彻底取代ARPAnet成为Internet的主干网,它对Internet的最大贡献是使Internet向全社会开放,而不像ARPAnet那样仅供计算机研究人员和政府机构使用。
1990年9月,由Merit、IBM和MCI公司联合建立了一个非盈利性的组织——先进网络科学公司(Advanced Network & Science Inc.,简称ANS)。ANS建立了一个全美范围的T3级主干网,它能以45兆比特/秒的速率传送数据。到1991年底,NSFnet的全部主干网都与ANS提供的T3级主干网相联通。随后,商业机构进入Internet这一陌生世界,很快发现了它在通信、资料检索、客户服务等方面的巨大潜力,于是世界各地的无数企业纷纷涌入Internet,带来了Internet发展史上一个新的飞跃。
今天,Internet已经从各个方面逐渐改变了人们的工作和生活方式。人们可以随时从网上了解当天最新的天气信息、新闻动态和旅游信息,可看到当天的报纸和最新期刊,可以足不出户在家里炒股、进行网上购物、收发电子邮件、享受远程医疗和远程教育等。Internet提供了一种全新的全球性的信息基础设施,随着当今世界逐步向知识经济时代迈进,信息产业已经发展成为世界各国新的支柱产业并广泛渗透到各个领域,构成了全球信息高速公
·184· 现代信息检索
路的雏形和未来信息社会的蓝图,成为推动世界经济高速发展的新的原动力和知识经济时代的一个重要标志。
8.1.1 Internet基本概念
1. 通信协议(TCP/IP协议)
TCP是传输控制协议(Transmission Control Protocol)的缩写,IP是互联网协议(Internet Protocol)的缩写。世界上有各种不同类型的计算机,也有不同的操作系统,要想使这些装有不同操作系统、不同类型的计算机互相通信,就必须有统一的标准。TCP/IP是Internet使用的一组协议,是为跨越局域网和广域网环境的大规模网络互联而设计的,是目前被遵从的网际互联网标准。TCP/IP所做的就是将许多小网联成一个大网,并在这个大网也就是Internet上提供应用程序所需要的相互通信的服务。
实际上,TCP/IP是一个包括邮局协议3(Post Office Protocol 3,简称POP3)、简单邮件传输协议(Simple Message Transfer Protocol,简称SMTP)、文件传输协议(File Transfer Protocol,FTP)等l00多个协议在内的协议簇,而其中最重要的就是TCP和IP。IP协议保证数据的传输,即信息的实际传送;TCP协议保证数据传输的质量,即保证所传送的信息是正确的。IP和TCP协议的功能不尽相同,也可以分开单独使用,但它们是在同一时期作为一个协议来设计的,并且在功能上也是互补的,只有两者结合,才能保证 Internet 在复杂的环境下正常运行。凡是要连接到 Internet 的计算机,都必须同时安装和使用这两个协议,因此在实际中常把这两个协议统称为TCP/IP协议。
2. IP地址
为了使连入Internet的众多电脑主机在遵照IP协议通信时能够相互识别,Internet中的每一台主机都分配有一个唯一的32位地址,该地址称为IP地址。根据TCP/IP协议规定,IP地址由32位二进制数组成,而且在Internet范围内是唯一的。例如,某台连在因特网上的计算机的IP地址为:11010010 01001001 10001100 00000010。
很明显,这些数字对于人来说不太好记忆。为了方便记忆,人们就将组成计算机IP地址的32位二进制数分成4段,每段8位,中间用小数点隔开,然后将每8位二进制数转换成一个十进制数(可取值0-255),各数之间用一个点“.”分开,这样上述计算机的IP地址就变成了:210.73.140.2。
IP地址的4个段可划分为2个部分,一部分用以标明具体的网络段,即网络标识;另一部分用以标明具体的节点,即主机标识。例如,可以把IP地址210.73.140.2分成网络标识和主机标识两部分,写成:
网络标识: 210.73.140.0
主机标识: 2
合起来为: 210.73.140.2
3. 域名系统
用十进制数表示的IP地址仍然不好记忆,人们记忆有意义的文字比记忆纯粹的数字更加方便,为了解决IP地址难记忆的问题,Internet采用了域名系统(Domain Name System,·184 ·
第8章 Internet信息检索 ·185·
DNS)。
Internet上每台计算机的域名结构如下:
计算机主机名.所属机构名.计算机网络名.最高层域名
如中国农业大学的域名为:www.cau.edu.cn,其结构如下:WWW服务器.学校名.教育网.中国。通常域名与IP地址是对等的,在使用过程中域名服务器会自动完成从计算机域名到IP地址的转换。
域名是分层次管理和命名的,在Internet的域名系统中,最高层域名有三类。
第一类是由两个字母组成的国家与地区域名,如中国为“.cn”,日本为“. jp”等。 第二类是国际域名,现在只有一个“.int”代表国际组织,供国际联盟和国际组织注册使用。
第三类是通用域名,目前用到的有13个:
.com 商业机构
.edu 教育机构
.net 网络服务机构
.org 非盈利组织
.mil 军事部门
.gov 政府部门
.firm 公司企业
.store 销售部门
.web web服务机构
.arts 文化部门
.rec 娱乐机构
.info 信息机构
.nom 个人
我国的域名注册由国务院信息化工作小组办公室授权中国互联网络信息中心办理,而且我国的域名都是在“.cn”之下的二级域名。
4. 子网和子网掩码
为了提高IP地址的使用效率,引入了子网的概念。将一个网络划分为子网,采用借位的方式,从主机位最高位开始借位变为新的子网位,剩余的部分则仍为主机位。这使得IP地址的结构分为三级地址结构:网络位、子网位和主机位,这种层次结构便于IP地址的分配和管理。使用关键在于选择合适的层次结构,即从何处分隔子网号和主机号既能适应各种现实的物理网络规模,又可以充分利用IP地址空间。
在TCP/IP中,子网掩码也是一个由32位二进制数组成的地址,其表示方式为凡是IP地址的网络和子网标识部分,用二进制数1表示;凡是IP地址的主机标识部分,用二进制数0表示。子网掩码拓宽了IP地址的网络标识部分的表示范围,主要用于屏蔽IP地址的一部分,以区分网络标识和主机标识,并说明IP地址是在本地局域网上还是在远程网上。IP地址根据网络号和主机号的数量可分为A、B、C三类,各类地址的默认子网掩码表示如下:
·185·
·186· 现代信息检索
A类(大型网络):255.0.0.0,最多可以连接16 777 214台主机。
B类(中等网络):255.255.0.0,最多可以连接65 534台主机。
C类(小型网络):255.255.255.0,最多可以连接254台主机。
如果一个网络的规模不超过254台电脑,采用“255.255.255.0”作为子网掩码就可以了,现在大多数局域网都不会超过这个数字,因此“255.255.255.0”是最常用的IP地址子网掩码。
5. 统一资源定位符
在万维网(World Wide Web,WWW)上,每一信息资源都有统一且在网上唯一的地址,该地址就叫统一资源定位符(Uniform Resource Locator,URL),它是万维网的统一资源定位标志。
URL由三部分组成:资源类型、存放资源的主机域名和资源文件名。例如,http://www.pku.edu.cn/news1/index.htm,其中http是超文本传输协议(Hyper Text Transfer Protocol)的缩写,表示该资源类型是超文本信息,www.pku.edu.cn是北京大学的主机域名,news1为资源存放目录,index.htm为资源文件名。
6. 局域网
局域网(Local Area Network,LAN)是在一个局部的地理范围(如一个学校、公司或机关)内,将各种计算机、外部设备和数据库等互相连接起来组成的计算机通信网。局域网常被用于连接公司办公室或学校里的个人计算机和工作站,以便共享资源(如打印机)和交换信息。局域网有以下特点:
(1) 覆盖范围一般在几公里以内。
(2) 采用专用的传输媒介来构成网络,传输速率在1兆比特/秒到100兆比特/秒之间或更高。
(3) 多台(一般在数十台到数百台之间)设备共享一个传输媒介。
(4) 网络的布局比较规则,在单个LAN内部一般不存在交换节点与路由选择问题。
(5) 拓扑结构主要为总线型和环型。
7. 广域网
广域网(Wide Area Network,WAN)是一种跨地区的数据通信网络,通常覆盖一个国家或一个洲。广域网通常由两个或多个局域网组成,Internet是目前最大的广域网,由全球成千上万个LAN和WAN组成。在实际应用中,LAN可与WAN互联,或通过WAN与位于其他地点的WAN互联,这时LAN就成为WAN上的一个端系统。
8.1.2 Internet基本原理
1. Internet的信息传递
Internet使用TCP/IP协议作为标准的通信协议,所采用的通信方式是分组交换技术,即数据在传输时分成若干段,每个数据段称为一个数据包,所以TCP/IP协议的基本传输单位是数据包。
在数据传输过程中,首先由TCP协议给每个数据包写上序号,以便接收端把数据还原·186 ·
第8章 Internet信息检索 ·187·
成原来的格式,再加上一些特定的信息(类似运输货物的装箱单),以便接收方的机器可以判断传输是正确无误的;IP协议给每个数据包写上发送主机和接收主机的地址,即源地址和目的地址,数据包就可以在网上传送了。这些数据包可以通过不同的传输途径(路由)进行传输。
路由器是一个专门的机器,位于网络的交叉点上,决定数据包的最佳传输途径,以便有效地分散Internet的各种业务量载荷,避免系统某一部分因过于繁忙而发生“堵塞”。但是由于数据包的传输路径不同,加上其他的原因,很可能出现顺序颠倒、数据丢失、数据失真甚至重复的现象,这些问题都由TCP协议来处理。当数据包到达目的地后,计算机将去掉IP协议的地址标志,利用TCP协议的“装箱单”检查数据在传输过程中是否有损失,在此基础上将各数据包重新组合成原发送方数据。如果接收端发现有损坏的数据包,则要求发送端重新发送被损坏的数据包,因此TCP协议具有检查和处理错误的功能。
分组交换技术的目的是保证连接在Internet上的每台计算机能够平等地使用网络资源,发送方将信息分组后通过Internet传送,接收方在接收到信息的各分组(数据包)后,重新组装成原来完整的信息。在Internet上,同一时刻流动着来自各个方向的多台计算机的分组信息。Internet信息传
递路径见图8.1。
图8.1 Internet信息传递路径
图8.1表示主机A传到主机B的一个信息分组a,b,c;主机C传到主机B的一个信息分组1,2,3,4;主机F传到主机E的一个信息分组x,y,z。这些数据包可能经过不同的路由器和网络最终到达目的主机。
2. Internet的服务器
Internet上浩如烟海的信息资源存放在Internet服务器上。Internet服务器不仅仅存放文件、数据等,还有数据库、数据列表以及提供各种Internet服务的信息。在Internet上有许
·187·
第8章 Internet信息检索 ·187·
成原来的格式,再加上一些特定的信息(类似运输货物的装箱单),以便接收方的机器可以判断传输是正确无误的;IP协议给每个数据包写上发送主机和接收主机的地址,即源地址和目的地址,数据包就可以在网上传送了。这些数据包可以通过不同的传输途径(路由)进行传输。
路由器是一个专门的机器,位于网络的交叉点上,决定数据包的最佳传输途径,以便有效地分散Internet的各种业务量载荷,避免系统某一部分因过于繁忙而发生“堵塞”。但是由于数据包的传输路径不同,加上其他的原因,很可能出现顺序颠倒、数据丢失、数据失真甚至重复的现象,这些问题都由TCP协议来处理。当数据包到达目的地后,计算机将去掉IP协议的地址标志,利用TCP协议的“装箱单”检查数据在传输过程中是否有损失,在此基础上将各数据包重新组合成原发送方数据。如果接收端发现有损坏的数据包,则要求发送端重新发送被损坏的数据包,因此TCP协议具有检查和处理错误的功能。
分组交换技术的目的是保证连接在Internet上的每台计算机能够平等地使用网络资源,发送方将信息分组后通过Internet传送,接收方在接收到信息的各分组(数据包)后,重新组装成原来完整的信息。在Internet上,同一时刻流动着来自各个方向的多台计算机的分组信息。Internet信息传
递路径见图8.1。
图8.1 Internet信息传递路径
图8.1表示主机A传到主机B的一个信息分组a,b,c;主机C传到主机B的一个信息分组1,2,3,4;主机F传到主机E的一个信息分组x,y,z。这些数据包可能经过不同的路由器和网络最终到达目的主机。
2. Internet的服务器
Internet上浩如烟海的信息资源存放在Internet服务器上。Internet服务器不仅仅存放文件、数据等,还有数据库、数据列表以及提供各种Internet服务的信息。在Internet上有许
·187·
·188· 现代信息检索
多服务器,或者叫做主机,其中有负责域名与IP地址转换的DNS服务器,有提供用户登录或匿名访问的FTP服务器,有存放电子邮件的E-mail服务器,有文件查询工具Archie的服务器,有分布式文本检索系统WAIS的服务器,有提供菜单选择功能的Gopher服务器,有集文本、图形、声音、视频等于一体的WWW服务器等。
8.1.3 Internet提供的服务形式
1. 万维网
万维网又称全球网(World Wide Web,即WWW)是指在因特网上以超文本为基础形成的信息网,是Internet上近年才发展起来的多媒体信息查询服务工具。WWW结合了文字、图像(包括活动影像)和声音等各种形式,具有使用简单、信息量大、图文并茂等特点。它为用户提供了一个图形化页面,通过WWW可以查阅Internet上的各种信息资源。WWW的出现提高了人们从Internet上查找信息的能力,它目前已经成为Internet中最重要的服务之一。
WWW 中的信息资源由作为基本元素的一篇篇Web文档(又称Web页)构成,这些Web页均采用超文本标记语言(Hype Text Markup Language,即HTML)编写,即其中可以含有指向其他Web页或本身内部特定位置的超级链接(简称链接)。链接可理解为是指向其他Web页或Web页上特定位置的“指针”。链接使得Web 页交织为网状,Internet上的Web页面和链接非常多,构成了一个巨大的信息网络。
1) WWW浏览器
WWW服务是通过客户端程序访问的,这种客户端程序被称为浏览器(Browser)。浏览器实际上是用来浏览Web页的一个软件程序,用于与WWW建立联结,并与之进行通信。浏览器可以在WWW系统中根据链接确定信息资源的位置,并将用户感兴趣的信息资源取回来,对HTML文件进行解释,然后将文字图像显示出来,或者将多媒体信息还原出来。最常用的浏览器为美国微软公司(Microsoft)的Internet Explorer(简称IE)和网景公司(Netscape)的Netscape Communicator。
使用IE 6.0访问WWW的技巧如下:
(1) 自定义设置IE工具栏 需要改变IE工具栏的形式时,单击【查看】菜单,选择【工具栏】菜单,单击【自定义】菜单,弹出【自定义工具栏】对话框,即可添加或删除IE工具栏中的可用按钮,也可对工具栏的【文字选项】或【图标选项】选项进行设置。
(2) 突破网页文字无法复制的难题 在有些网页上按住鼠标左键拖动却无法选中需要的文字,这时的解决办法之一是按【Ctrl+A】键将网页内容全部选中,复制后粘贴到记事本或word文档中,然后从中选取需要的文字;办法之二是单击IE的【工具/Internet选项】菜单,进入【安全】标签页,单击【自定义级别】标签弹出【安全设置】对话框,将所有脚本全部禁用,然后按【F5】键刷新网页,即可以任意选取文字。
(3) 巧用【历史】按钮和菜单 需要重新打开先前浏览过的网页时,可以单击【历史】按钮查看近期浏览过那些网页列表,找到需要的网页单击即可打开。单击【历史记录】栏里的【查看】菜单,可选择【按日期】、【按站点】、【按浏览次数】或【按今天的访问顺序】选项对浏览过的网页进行排列,这样不仅能查到刚刚浏览过的网页,还可以查到前几天、前一周或前几周浏览过的网页。
·188 ·
第8章 Internet信息检索 ·189·
(4) 备份收藏夹保存有用网址 计算机重装系统时,收藏夹中保存的有用网址可能会丢失,因此在重装系统之前应该备份收藏夹。对于Win98操作系统而言,收藏夹信息全部保存在“C:\Windows\Favorites”文件夹下(非默认用户保存在“C:\Windows\Profiles\用户名\Favorites”文件夹下);对于Win2000或WinXP而言,收藏夹信息则保存在“C:\Documents and Settings\用户名\Favorites”文件夹下。将相应的文件夹备份下来,重装系统后再将备份文件夹中的网址信息导回相应的文件夹,即可恢复收藏夹中的网址信息。
2) 万维网的发展前景
万维网是互联网最重要和最广泛的应用之一,利用万维网可以浏览互联网上丰富的信息资源。但是,万维网存在两个明显的不足:(1) 计算机不能理解网页内容的语义;(2) 网上的有用信息不易找到,即使借助功能强大的搜索引擎,查准率也比较低,它在帮助用户得到成批相关网页的同时,也夹杂了许多不需要的垃圾信息。
存在这些问题的根本原因在于现在的万维网采用的是HTML,网页上的内容设计成专供人类阅读或浏览,而非供计算机理解和处理,因此无法为用户提供自动处理网上数据的功能。此外,万维网是按“网页的地址”而非“网页内容的语义”来定位信息资源,网上所有的信息都由不同的网站发布,相同主题的信息则分散在全球众多不同的服务器上,同时又缺少有效的工具将不同来源的相关信息综合起来,因此形成了一个个信息孤岛,用户查找所需的信息就像大海捞针一样困难。
为了使人们能够按内容的语义表达需求,迅速准确地从成千上万的网页中过滤出自己感兴趣的内容,同时使计算机能够理解网页内容,帮助人们处理许多烦琐的日常事务,1998年,万维网之父英国科学家蒂姆·伯纳斯·李教授,在发明万维网10年之后,提出了下一代万维网语义网(The Semantic Web)的理念。
语义网是对万维网本质的变革,它的主要开发任务是使数据更加便于计算机处理和查找。其最终目标是使这些资源达到几乎无所不知的程度,计算机可以在因特网上的海量资源中找到用户所需要的信息,从而将万维网中一个个现存的信息孤岛发展成一个巨大的数据库。
语义网将是一个能够理解人类语言的智能网络,可识别信息的意义,并对信息自动进行解释、交换和处理。一台同语义网连接的计算机可筛选出用户所需要的信息,并自动将这些信息传送到不同的装置和设备中去。例如,用户想报名参加一个研讨会,语义网通过计算机就可自动地将联系方式和研讨会日程安排传送到他的电子日历软件或手机上。
2. 电子邮件
电子邮件(Electronic mail,简写为E-mail)是一种通过网络实现相互传送和接收信息的现代化通信方式,它与邮局收发的普通信件一样,也是一种信息载体。但电子邮件与普通信件相比具有以下优点:
(1) 快速 发送电子邮件后,只需几秒钟就可通过网络传送到邮件接收人的电子邮箱中。
(2) 方便 书写、收发电子邮件都通过电脑自动完成,双方接收邮件都无时间和地点的限制。
(3) 廉价 发送一封电子邮件平均只需几分钱甚至完全免费。
·189·
·190· 现代信息检索
(4) 可靠 每个电子邮箱地址都是全球唯一的,确保邮件按发件人输入的地址准确无误地发送到收件人的邮箱中。
(5) 内容丰富 电子邮件不仅可以传送文本,还可以传送声音、视频等多种类型的文件。
1) 电子邮箱的申请
进行电子邮件收发之前必须先申请一个电子邮箱。提供电子邮件服务的网站很多,如果用户需要申请一个收费邮箱,只需登录相应的网站,单击提供邮箱的超级链接,根据提示填写好资料即可注册申请一个收费电子邮箱。免费邮箱是目前使用较为广泛的一种网上通信手段,其申请方法与收费邮箱相同。
每一个申请电子邮箱账号的用户都会有一个电子邮件地址,它是一个类似于家庭门牌号码的邮箱地址,或者更准确地说,相当于用户在邮局租用了一个邮政信箱。但传统的信件是由邮递员送到各家门口,而电子邮件则需要用户自己去邮件服务器查看信箱。
电子邮件地址可以分为两部分:邮箱账号和邮件服务器名,中间用“@”符号隔开。比如一个电子地址:“[email protected]”,邮箱账号是“bluesea”,邮件服务器是“china.com”;当邮件发过来时,是发到“china.com”服务器中的“bluesea”账号所对应的邮箱。
2) 电子邮件软件的使用
电子邮箱申请成功后,先登录邮箱所在的网站(即申请邮箱时的网站),然后单击【邮件中心】或【邮件】超级链接,在【用户名】文本框中输入用户的邮箱账号,在【密码】文本框中输入密码,单击【登录】按钮即可进入邮箱。通过网站进入邮箱后,单击相应的超级链接即可进行收发邮件的操作。
电子邮件的收发还可以通过邮件收发软件来实现,目前常用的邮件收发软件是Outlook和Foxmail,两者的使用方法类似。Outlook是Windows操作系统自带的电子邮件客户端软件,只要安装Windows操作系统就可使用;Foxmail是免费软件,可以通过Internet下载、安装后使用。
3) 多媒体电子邮件
多媒体电子邮件是指采用多用途互联网邮件扩展协议(Multipurpose Internet Mail Extentions,MIME)作为邮件数据格式标准的电子邮件。MIME不是邮件传输协议,而是对作为传输内容的消息、附件及其他内容的格式进行定义的一个标准。多媒体电子邮件或者说MIME邮件,就是符合MIME规范的电子邮件,它可以传送多媒体文件,在一封电子邮件中附加二进制文件、声音、动画等各种格式的文件。
3. 电子公告板
电子公告板(Bulletin Board System,BBS)是Internet上的一种电子信息服务系统,是一个完全开放的电子形式的公告板系统。用户利用远程登录方式进入BBS站点,阅读其中的文章,也可以把自己的观点或看法张贴在BBS上,供其他用户传阅。通过BBS系统可随时取得国际最新的软件及信息,也可以和别人讨论计算机软硬件、多媒体、航模制作、生活常识以及历史疑案等各种有趣的话题,还可以利用BBS刊登一些诸如“征友”、“廉价转让”或“招聘职位”等启事。
·190 ·
第8章 Internet信息检索 ·191·
早期的BBS由教育机构或研究机构管理,现在多数网站都建立了自己的BBS系统。目前国内的BBS大致可以分为5类:
(1) 校园BBS 清华大学、北京大学等都建立了自己的BBS系统,大多数校园BBS是由各校的网络中心建立的。
(2) 商业BBS 商业BBS主要进行有关商业宣传、产品推荐等活动,目前手机、电脑、房地产的商业站比比皆是。
(3) 专业BBS 专业BBS是指公司的BBS,主要用于建立地域性的文件传输和信息发布系统。
(4) 情感BBS 情感BBS主要用于交流情感,是许多娱乐网站的首选。
(5) 个人BBS 个人主页的制作者在自己的个人主页上建立的BBS。
4. 远程登录
远程登录(Telnet)既是进行远程登录的标准协议,又是进行远程登录的主要方式,为用户提供了在本地计算机上完成远程主机工作的能力。远程登录是Internet最早提供的基本服务之一,是指用户使用Telnet命令使自己的计算机暂时成为远程主机的一个仿真终端的过程。仿真终端等效于一个非智能的机器,负责把用户输入的每个字符传递给主机,再将主机反馈的每个信息回显在用户的计算机屏幕上。Telnet远程登录的使用主要有两种情况:第一种是用户在远程主机上有自己的账号(Account),即用户拥有注册的用户名和口令;第二种是许多Internet主机为用户提供了某种形式的公共Telnet信息资源,这种资源对于每一个Telnet用户都是开放的。
在Unix系统中,要建立一个到远程主机的对话,只需在系统提示符下输入命令:Telnet 远程主机名,用户就会看到远程主机的欢迎信息或登录标志。在Windows系统中,用户将以具有图形页面的Telnet客户端程序与远程主机建立Telnet连接。
5. 网络新闻
网络新闻(Usenet)就是Users’ Network,即用户的网络,简言之,它是一群有共同爱好的Internet用户为了相互传递、交换信息而组成的一种用户交流网,这些信息实际上就是网络使用者相互交换的新闻,所以Usenet常被称为Netnews(网络新闻)。相当多的新闻信息选择Usenet作为其传播方式,如由Usenet读取即时期货成交价、各报社新闻、各地气象等。Usenet可以说是一个动态新闻宝库,也是最丰富的信息交流及储存媒介之一,同时还是最佳技术支援或交流的媒体之一。通俗地说,Usenet就是一个遍布世界范围的BBS电子公告板系统,使用者们可在公告板上发送和读取信息,包括向别人求助或给别人指导。
Usenet是由多个讨论组组成的一个大集合,包括了全世界数以百万计的用户。每个讨论组都围绕某一特定主题,诸如笑话、配方、数学、哲学、计算机、生物、科幻小说等。总而言之,任何能够想到的主题都可以作为该组的主题。Usenet按照不同的专题分类组织,每一类为一个专题组,通常称为新闻组(Newsgroup),其内部又分为若干子专题。
在阅读Usenet文章时,用户必须使用一种名叫新闻阅读器(Newsreader)的程序。新闻阅读器作为用户的连接入口,当被告知想要阅读的某个指定的新闻组时,就会呈现有关文章,一次一篇。目前流行的新闻阅读器主要有与微软的IE捆绑在一起的Outlook Express和网景的Netscape Communication所附带的News阅读附件,另外还有如AGENT等专用
·191·
·192· 现代信息检索
阅读软件。随着WWW的普及,新闻组的用户在逐渐地减少,新闻组服务器的数量也在下降。但还有一部分新闻组是相当活跃的,时常有人发新的文章参与讨论,继续履行着早先的功能。
6. 文件传输
文件传输协议(File Transfer Protocol,FTP)的主要作用是让用户连接上一个远程计算机(这些计算机上运行着FTP服务器程序),查看上面有哪些文件,然后把文件从远程计算机复制到本地计算机,或把本地计算机的文件传送到远程计算机上去。
与大多数Internet服务一样,FTP也是一个客户机/服务器系统。用户通过一个支持FTP协议的客户机程序,连接到在远程主机上的FTP服务器程序。用户通过客户机程序向服务器程序发出命令,服务器程序执行用户所发出的命令,并将执行的结果返回到客户机。比如说,用户启动FTP从远程计算机复制文件时,事实上启动了两个程序:一个是本地机上的FTP客户机程序,它向FTP服务器提出复制文件的请求;另一个是远程主机上的FTP服务器程序,它响应用户请求把指定的文件传送到用户的计算机中。
在FTP的使用当中,经常遇到两个概念:“下载(Download)”和“上载(Upload)”。“下载”文件就是从远程主机复制文件至自己的计算机上;“上载”文件就是将文件从自己的计算机中复制至远程主机上。用Internet语言来说,用户可通过客户机程序向(从)远程主机上载(或下载)文件。
7. 博客
博客(Blog或Weblog)一词来源于网络日志(Web Log),是指一种特殊的网络个人出版形式,其内容按照时间顺序排列并不断更新,是一种十分简易的傻瓜化个人信息发布方式。它让任何个人都能像免费电子邮件的注册、撰写和发送一样,轻易完成个人网页的创建、发布和更新。如果把BBS比喻为开放的广场,那么Blog就是开放的私人房间。
一个Blog就是一个网页,通常由简短且经常更新的Post(指张贴的文章)所构成,这些张贴的文章按照时间排列。Blog好比是个人对网络播放的实时信息,撰写这些Blog的人就叫做Blogger或Blog writer。由于沟通方式比电子邮件、讨论群组更简单和容易,Blog已成为家庭、公司、部门和团队之间越来越盛行的沟通工具。
8. Internet其他服务
1) 查询及目录服务
(1) Archie文件查询服务 Archie是一种专门针对FTP文件服务器的网络文件搜索系统,为了帮助用户在遍及全世界的FTP服务器中寻找所要的文件,Internet上的一些计算机提供一种文件查询服务,称为文件查询服务器(Archie Server)。用户只要给出希望查找的文件类型及文件名,文件查询服务器就会指出哪些FTP服务器上存放着这样的文件;除了接受联机查询外,许多文件查询服务器还受理用户通过电子邮件发来的查询。实际上,Archie服务器的核心部分就是保存有上千个FTP信息库的一个数据库。Archie服务器上有一个特殊的信息资源搜寻软件,每天晚上都会到各地的FTP文件服务器上去搜寻,把各个FTP文件服务器的目录及文件名(不包括文件内容)取回来,以更新数据库。Archie服务器保存的数据库,就是那些从各个FTP文件服务器取回来的目录和文件名的条目。
·192 ·
第8章 Internet信息检索 ·193·
(2) Gopher信息查询服务 Gopher是基于菜单驱动的Internet信息查询工具,它将网上的信息组成在线菜单系统,在一级一级菜单的导引下,用户通过选取自己感兴趣的信息资源,就可对Internet上的远程联机信息系统进行实时访问,这对于不熟悉网络资源、网络地址和网络查询命令的用户是十分方便的。Gopher可以访问FTP服务器、检索学校图书馆馆藏目录以及进行任何基于远程登录(Telnet)的信息查询服务。其实,Gopher可以说是WWW的前身,但它和WWW最大的不同是Gopher只提供纯文字的页面,因此一般的使用者会觉得比较单调。对于真正想在网络上查询资料的人来说,Gopher的反应速度比WWW快,并且可以节省很多网络资源,这正是Gopher的优势所在;另外,在一些没有图形页面的操作系统中,Gopher是唯一的选择。
(3) WAIS关键词查询服务 广域信息服务器(Wide Area Information System,WAIS)是基于关键词的Internet查询工具,是供用户查询分布在Internet上的各类文本文件和专业数据库的一个通用检索软件。通过对网络上的信息进行标引,任何文件或数据只要建立了WAIS可以处理的索引,便可以使用这个工具进行查询。它从用户指定的WAIS服务器和给出的特定单词或词组,找出同它们相匹配的文件或文件集合。WAIS是一种可以迅速、全面检索大量信息的工具,能检索数百个信息资源中的任何一个资源,这些资源涉及大量的各种各样的主题。
(4) 网上目录服务 网上目录服务是用于在全球范围内查找用户和商业伙伴的强大搜索工具,其通信簿支持轻量级目录访问协议(Lightweight Directory Access Protocol,LDAP)访问目录服务,而且其内置功能可以访问最流行的几种目录服务,用户也可以从Internet服务供应商那里添加附加的目录服务。Internet网络、局域网络里海量存储的资料往往让人迷失,不知所措,再加上这些存放的资料未加整理,想找到需要的信息并非易事。而经过适当的规划,事先有系统地去整理这些资料,就可以在需要时方便快速地找到所要的对象。目录服务包括共享目录、共享打印机、应用程序、网络服务器、用户账号、计算机账号、域、安全规则等各种目录,并让管理者、用户及应用程序都能利用目录中的资料。
2) 新型Internet服务
(1) 网络传真 网络传真是一种以Internet为基础的IP通信增值服务,用户只要能够上网就可以登录Web发送端,方便、快捷地将电子文档在不需要打印的前提下,发送到全球任何一台传真机上,这种把同一份文档发送到一台或多台传真机上的特殊功能,是一种安全、简便、廉价的现代化网络通信服务。网络传真与普通传真相比具有清晰度高、可一投多递、能自动重发、操作简单方便、价格低廉甚至免费等优势。
(2) 网络电话 网络电话(Voice Over Internet Protocol,VoIP)是基于Internet的电话,是将模拟的语音信号压缩成数据资料封包后,以IP分组交换网络为传输平台,进行点对点即时传送的语音服务,也就是通过开放性的网际网络传送语音的电信应用服务。VoIP可连接至世界各地,让使用者不通过传统的公用电话网络就可进行远距离电话交谈。传统的通信方式基于电路交换方式,需要网络运营商投入很大的基础网络成本。IP技术出现后,基于包交换的技术使得多对连接在同一网络上共享带宽资源成为可能,因而大大降低了基础网络资源的闲置与浪费,使得通信成本大幅度减少,所以VoIP最大的优势就是资费低廉。
(3) 音频和视频点播 音频和视频点播(Audio/Video On Demand,A/VOD)是一种可以按用户需要点播节目的交互式音/视频系统。A/VOD是当代计算机技术、多媒体技术和网
·193·
·194· 现代信息检索
络技术发展的产物,是一项崭新的信息服务技术。A/VOD是利用高速计算机网络,采用视频数据压缩和流控技术进行视频、声音、数据等信号的传输,并通过专用的视频处理软件进行管理,在客户端的多媒体计算机进行播放的现代化计算机多媒体系统,它可以同时向多个用户提供音/视频信息的点播服务。在现行的广播电视节目中,收看者完全是被动的,没有选择节目和播放时间的主动权。通过A/VOD系统,人们能够按照自己的意愿自由地点播节目,随心所欲地控制节目进行暂停、重放、快放、慢放等操作,就像个人独享一样。
3) 电子商务
电子商务,简单地说就是在Internet上进行商务活动。主要功能包括网上广告、订单、洽谈、支付、货物递交和客户服务等销售、售前和售后服务,以及市场调查分析、财务核计、生产安排等多项利用Internet开展的商务活动。电子商务有广义和狭义之分,狭义的电子商务又称作电子交易(E-commerce),主要是指利用Web提供的通信手段在网上进行交易;而广义的电子商务是包括电子交易在内的利用Web进行的全部商业活动,如市场分析、客户联系、物资调配等,又称作电子商业(E-business)。
电子商务不仅仅是买卖,也不仅仅是软硬件的信息,而是在国际互联网(Internet)、企业内联网(Intranet)和企业外联网(Extranet)上将买家与卖家、厂商和合作伙伴紧密结合在一起,因而消除了时间与空间带来的障碍。2l世纪,电子商务将是企业的一种生存方式,在企业与企业之间,通过企业内联网(Intranet)与计算机国际互联网(Internet)相连,使企业能在跨地区、跨国之间方便地收集市场信息,宣传自己的产品和企业形象,进行购销洽谈,采用电子数据交换替代传统的纸介贸易方式,并通过电子网络进行资金的支付、划拨和结算。电子商务大大地减少了商务旅行,以及时间、空间带来的诸多限制,营造出面向全国、全球的网上商贸环境,它不仅是商品流通市场的一次巨大的技术变革,同时也使全球经济网络化。
8.1.4 计算机网络安全
1. 网络信息安全
随着Internet的迅速发展,人们现在可以通过互联网进行网上购物、银行转账等许多商业活动。新世纪,随着电子商务的不断发展,全球电子交易一体化将成为可能。但是,开放的信息系统必然存在着众多潜在的安全隐患,利用网络安全的脆弱性,黑客在网上的攻击活动正以每年10倍的速度在增长。形形色色的黑客攻击者是一个各怀动机的复杂群体,他们把网络的任何漏洞和缺陷作为靶子,无孔不入,如:修改网页进行恶作剧,非法进入主机破坏程序,进入银行网络转移资金,窃取网上信息,阻塞用户和窃取密码等,政府、军事和金融网络更是黑客攻击的主要目标。黑客和反黑客、破坏和反破坏的斗争方兴未艾,在这样的斗争中,以防火墙技术和密码技术为主的安全技术作为一个独特的领域越来越受到人们的关注。
2. 防火墙技术
当一个网络接入Internet后,出于系统安全的考虑要防止非法用户的入侵,而目前防范的措施主要依靠防火墙(Firewall)技术来完成。所谓防火墙,是指一种将内部网和公众网(Internet)分开的方法,它实际上是一种隔离技术。防火墙是在两个网络通信时执行的一种·194 ·
第8章 Internet信息检索 ·195·
访问控制尺度,它允许经过认证的人或数据进入内部网络,同时将未经允许的人或数据拒之门外,最大限度地阻止外界网络中的黑客来访问内部网络,防止他们更改、复制、毁坏内部网络的重要信息。防火墙的基本原理很简单,好比是一对开关,一个开关用来阻止传输,另一个开关用来允许传输。如果某个网络决定设定防火墙,那么首先需要由网络决策人员及网络专家共同决定本网络的安全策略(Security policy),即确定哪些类型的信息允许通过防火墙,哪些类型的信息不允许通过防火墙。防火墙就是根据本单位的安全策略,对外部网络与内部网络交流的数据进行检查,符合的予以放行,不符合的加以拒绝。
防火墙从实现方式上可分为硬件防火墙和软件防火墙两类。通常意义上讲的硬防火墙即硬件防火墙,它是通过硬件和软件的结合来达到隔离内、外部网络的目的,效果较好,一般小型企业和个人很难实现,但价格较贵。软件防火墙是通过纯软件的方式来实现,这类防火墙只能通过一定的规则来达到限制一些非法用户访问内部网的目的,隔离效果不太理想,但价格便宜。现在的软件防火墙主要有天网防火墙个人及企业版、Norton的个人及企业版软件防火墙,有一些病毒软件的开发商也开发了软件防火墙,如KV系列、金山系列等。
3. 密码技术
密码技术是与防火墙配合使用的安全技术,是为提高信息系统及数据的安全性和保密性,防止秘密数据被外部窃取、侦听或破坏所采用的主要技术手段之一。利用密码技术对信息进行加密传输、加密存储、数据完整性鉴别、用户身份鉴别等,比传统意义上简单的存取控制和授权技术更可靠。密码技术是安全体系的基础,一种密码技术是否科学、是否有缺陷将直接关系到运用这种技术的系统的安全性。
一个加密系统所采用的基本工作方式称为密码体制,密码体制一般由密码算法和密钥两个基本要素构成。现代密码学总是假定密码算法是公开的,真正需保密的只是密钥。所以现代密码学中,密钥管理是极为重要的一方面。密码体制的分类很多,常用的是按照密码算法所使用的加密密钥与解密密钥是否相同,能否由加密过程推导出解密过程(或由解密过程推导出加密过程)而将密码体制分为对称密码体制和非对称密码体制。
在对称密码体制中,加密密钥和解密密钥是相同的,即使二者不同,也能够由其中的一个很容易地推导出另一个。在这种密码体制中,有加密能力就意味着有解密能力。一般而言,采用对称密码体制可以达到很高的保密强度,但由于其加密密钥与解密密钥相同,故它的密钥必须极为安全地传递和保护,从而使密钥管理成为影响系统安全的关键性因素,因而难以适应当今计算机系统的开放性要求。
在非对称密码体制中,一个加密系统的加密和解密能力是分开的,加密和解密分别通过两个不同的密钥实现,并且不可能由其中的一个密钥推导出另一个密钥。采用非对称密码体制的每个用户都有一对选定的密钥,其中一个可以公开,称为公钥,另一个由用户自己秘密保存,称为私钥。非对称密码体制的提出是现代密码学研究的一次重大突破,它与传统的密码体制相比具有如下特点:
(1) 由于加密和解密密钥不同,而且不能从加密密钥推导出解密密钥,因而加密密钥可以公开分发,使密钥分发变得简单。
(2) 由于公钥可以公开发布,所以只需秘密保护私钥即可,所以秘密保存的密钥数量 ·195·
·196· 现代信息检索
减少。
(3) 公钥的出现使得非对称密码体制可以更好地适应开放的使用环境。
(4) 利用非对称密钥体制,可以在任何人之间建立安全的通信通道,较方便地解决数字签名的难题,所以在电子商务中具有非常广泛的用途。
8.2 搜索引擎及其使用技巧
随着互联网的迅猛发展,网络上的信息量呈几何级数的增长。如何在浩如烟海的互联网中找到所需要的信息非常关键,而搜索引擎则是利用互联网资源最有效的工具之一。
8.2.1 搜索引擎类型与特点
搜索引擎是一种用于帮助互联网用户查询信息的搜索工具,它以一定的策略在互联网中搜集、发现信息,并对信息进行理解、提取、组织和处理,为用户提供检索服务,从而起到信息导航的作用。概括地说,搜索引擎就是WWW网络环境中的一套信息检索系统,其表现形式也就是一个网站,只不过该网站专门提供信息“检索”服务。
搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务,因此搜索引擎也被美誉为“网络门户”。
1. 搜索引擎的产生
Internet最早的搜索引擎是1990年由蒙特利尔的麦吉尔大学学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie。当时World Wide Web还未出现,Archie是第一个自动搜索互联网上FTP网站文件的程序。
随着Internet的发展,出现了专门用于检索信息的Robot程序,这种程序能自动地不断重复地在网络上检索信息,这种行为很像一只蜘蛛在Internet上爬来爬去,所以又称为spider程序。世界上第一个Spider程序,是Matthew Gray的World Wide Web Wander程序,用于追踪互联网的发展规模,后来发展为能够捕获网址(URL)。
1994年7月,Michael Mauldin将John Leavittr的Spider程序引入其索引程序中,创建了Lycos。同年4月,斯坦福大学的两名博士生,David Filo和美籍华人杨致远共同创办了目录索引Yahoo!,并成功地使搜索引擎的概念深入人心,从此搜索引擎进入了高速发展的时期。目前互联网上的搜索引擎大大小小的已达数百家,其检索的信息量也非同日而语,比如Google,其索引数据库中存放的网页已达80亿。
2. 搜索引擎的组成及工作原理
搜索引擎的目的就是在大量的Web信息站点中寻找相关性最高的网页。尽管各种搜索引擎功能、技术各有特色,但工作原理基本都是一致的。通过派出Spider程序,发现并搜集网络信息,然后对收集到的信息分类整理,建立索引数据库,最后,为互联网用户提供一个良好的查询页面。用户只需输入检索词,就可找到相关的网络链接。
一个搜索引擎由搜索器、索引器、检索器和用户接口组成。
·196 ·
第8章 Internet信息检索 ·197·
1) 搜索器
搜索器,也就是Spider程序或Robot程序,其功能是在互联网上漫游,发现和搜集信息。由于搜索器是一个计算机程序,因此可以日夜不停地运行,尽可能多、尽可能快地搜集各种类型的信息。Spider程序搜索信息的策略一般是从一个起始的网站开始,从中找到相关的信息,然后再从该页面的所有链接出发,继续寻找相关的信息,以此类推,直至穷尽。
2) 索引器
索引器的功能是把Spider程序搜集的信息进行分类整理,从中抽取出索引项,建立索引数据库。不同检索软件的数据库存放的网页内容不同,有的记录网页全文,有的记录网页地址、篇名、特定段落和重要词汇。
数据库的大小是搜索引擎的重要技术指标。数据库越大,所存的结果就越多,查全率和查准率就越高。不同的检索工具,其索引数据库的规模不同,如Google存储了80亿个网页,百度存储了6亿个网页。使用搜索引擎搜索网络信息实际上查询的是搜索服务供应商的索引数据库。
3) 检索器
检索器的功能是负责接收用户提出的检索请求,然后在索引数据库中进行检索,并将检索结果返回给用户。在检索过程中,检索器还会对检索到的文件与用户需求的相关性进行评价,并对结果按相关性进行排序。
4) 用户接口
用户接口的作用是用户查询、显示查询结果、提供用户相关性反馈机制,主要目的是方便用户使用搜索引擎。
3. 搜索引擎的类型
搜索引擎按其工作方式可以分为三种:全文搜索引擎、目录式搜索引擎和元搜索引擎。
1) 全文搜索引擎
全文搜索引擎又称机器人搜索引擎,是利用Spider程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的网络信息建立索引数据库,检索器根据用户的输入从索引数据库中查询匹配的相关记录,然后按一定的排列顺序将结果返回给用户。简单而言,这是一种由程序自动抓取网上信息的自动搜索引擎。
全文搜索引擎的索引数据库中存储的信息有网站名、地址和网页的文本信息,其服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大,更新及时,查询全面而且充分;缺点是返回信息量过多,有很多无关信息,用户必须从中进行筛选。
国外具有代表性的有:Google、Lycos、AltaVista等;国内具代表性的有:百度、天网、中国搜索等。
2) 目录式搜索引擎
目录式搜索引擎是一种目录型检索工具,又称为网络目录(Web Directory)、目录索引类搜索引擎、站点导航等。是以人工或半自动的方式搜集信息,由编辑人员查看信息以后,人工形成信息摘要,并将信息置于事先确定的分类框架中。
目录式搜索引擎的检索数据库中存储的是互联网上各网站站名、网址和内容提要。用 ·197·
·198· 现代信息检索
户页面基本上都是分级结构。首页提供了最基本的几个大类的入口,用户可以一级一级地向下访问,直至找到符合要求的类别。这类搜索引擎往往还伴有网站查询的功能,又称之为网站检索,即提供一个文字输入框,用户输入要查找的字词或短语,搜索引擎便会查找出相关的站名、网址和内容提要,并把结果显示出来。其服务方式大多面向网站,提供目录浏览服务和直接检索服务。
目录式搜索引擎的优点是搜索的范围比全文搜索引擎小,查询效率高,不需要太多的专业知识;缺点是容易遗漏某些信息,查全率低。国外具有代表性的为Yahoo!,国内为搜狐。
3) 元搜索引擎
元搜索引擎是一种调用其他独立搜索引擎的引擎,它本身并没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行去重、重新排序等,作为自己的结果返回给用户。
元搜索引擎的服务方式是面向网页的全文检索。优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是InfoSpace、Dogpile。
4. 搜索引擎的基本检索技术
搜索引擎提供的搜索(检索)方式一般包括简单搜索、目录搜索、高级搜索3种。
(1) 简单搜索 是指直接在检索框中输入一个或两个检索词,单击搜索按钮即可。简单搜索是最基本的搜索方式,并且大多数搜索引擎都支持把词组或短语放在引号“”内,以提高查准率。
(2) 目录搜索 是指按搜索引擎提供的分类目录逐级查询,用户一般不需要输入检索词,而是按照查询系统所提供的分类,选择类别进行搜索,因而又称分类搜索。这种搜索方式主要体现在目录式搜索引擎当中,如Yahoo!。
(3) 高级搜索 是指用布尔逻辑组配方式查询,又称定制搜索。即用逻辑“与”、逻辑“或”和逻辑“非”来组配检索词。逻辑“与”可以用“AND”、“+”或“&”来表示,缩小搜索范围。若使用检索式“大学 AND中国”进行检索,将使搜索范围缩小到既有词“大学”又含有词“中国”的网页。逻辑“或”,可以用“OR”表示,扩大搜索范围。例如,使用检索式“大学 OR 计算机”进行检索,将使搜索范围扩大到含有词“大学”或者含有词“计算机”的网页。逻辑“非”,用“NOT”或“-”来表示。它所连接的两个检索词中应从第1个概念中排除第2个概念。例如检索式“大学NOT 计算机”就要求检索结果中包含“大学”而不能包含“计算机”。
以上3种技术可以和搜索引擎提供的其他检索技术配合使用。在本书中把各搜索引擎提供的其他检索技术也放在高级搜索里讲。
注意:在后面的讲述中如没有特别提到,搜索引擎均不区分英文字母大小写。
8.2.2 中文搜索引擎
1. 百度
百度(http://www.baidu.com)公司于1999年底成立于美国硅谷,创建者是资深的信息检·198 ·
第8章 Internet信息检索 ·199·
索技术专家、超链分析专利的唯一持有人李彦宏及其好友徐勇博士,于2000年回国发展。百度搜索引擎使用高性能的Spider程序自动在互联网中搜索信息,使其能在极短的时间内收集到大量的互联网信息。百度在中国和美国均设有服务器,搜索范围涵盖了中国内地、香港、台湾、澳门这些中国地区和华语国家新加坡以及北美、欧洲的部分站点。百度搜索引擎现拥有目前世界上最大的中文信息库,存储的网页总量现达到6亿。
目前,百度已经扩充成了集新闻搜索、网站搜索、网页搜索、MP3搜索、图片搜索、Flash搜索、信息快速传递为一身的综合搜索引擎。这些功能可以由用户单击搜索框上的按钮来
选择,见图8.2。
图8.2 百度主页
1) 简单搜索
在百度主页上的搜索框中输入关键词,并单击【百度搜索】的按钮或直接按回车键,百度就会自动找出相关的网站和资料。
2) 高级搜索
(1) 布尔逻辑检索
① 逻辑“与” 在百度搜索中逻辑“与”用空格表示。例如要搜索同时包含“北京”和“暂住证”的网页信息,则直接在搜索框中输入“北京 暂住证”,“北京”和“暂住证”之间用一个空格隔开。
② 逻辑“非” 在百度搜索中逻辑“非”用“-”来表示。语法是“A-B”。
·199·
·200· 现代信息检索
注意:减号之前必须留一个空格。例如,要搜寻关于“武侠小说”,但不含“古龙”的
相关信息,检索式:“武侠小说 -古龙”。
③ 逻辑“或” 在百度搜索中逻辑“或”用“|”来表示,语法是“A | B”。例如:要查询“图片”或“写真”的相关信息,无须分两次查询,只要输入“图片 | 写真”即可。
(2) 在标题中搜索 在检索词的前面加上“intitle:”可以限制只搜索网页标题中含有这些检索词的网页。例如:“intitle:百度 互联网”表示搜索标题中含有检索词“百度”和“互联网”的网页。
(3) 在URL中搜索 在检索词前面加上“inurl:”,可以限制只搜索URL中含有这些文字的网页。例如,[inurl:mp3] 表示搜索url中含有“mp3”的网页。
(4) 在指定网站内搜索 在一个网址前加“site:”,可以限制只搜索某个具体网站或某域名内的网页。例如:[电话 site:www.baidu.com] 表示在www.baidu.com网站内搜索和“电话”有关的资料。
注意:搜索关键词在前,site:及网址在后;关键词与site:之间须留一个空格隔开;site后
的冒号“:”可以是半角“:”也可以是全角“:”,百度搜索引擎会自动辨认。“site:”后不能有“http://”前缀或“/”后缀。
(5) 精确匹配 使用双引号和书名号,把检索词用双引号括起来,可以精确匹配检索词进行搜索。例如,搜索中国农业大学 ,如果不加双引号,搜索词可能被拆分,加上双引号后,“中国农业大学”就不会被拆分了。
把检索词用书名号括起来,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号括起来的内容,不会被拆分。书名号在某些情况下特别有效,例如,查名字很通俗和常用的那些电影或者小说。比如,检索电影“手机”,如果不加书名号,检索结果的大部分是通信工具——手机,而加上书名号后,检索结果则是电影——《手机》的相关信息。
(6) 专业文档搜索 网络上有许多资料并不是普通的网页,而是以Word、PowerPoint、PDF等格式存在的文档。百度支持对这些文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档和Txt文档进行全文搜索。要搜索这类文档,只需在普通的检索词后面,加一个“filetype:”文档类型限定。“filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、TXT、RTF、ALL。其中,ALL表示搜索上述所有文件类型。例如要搜索“搜索引擎”的Powerpoint文档,在搜索框中输入“搜索引擎 filetype:ppt”即可。
3) 百度特色功能
(1) 相关搜索 百度的“相关搜索”,就是在搜索结果页的下方列出的与当前检索词相关的检索词,按搜索热门度排序。下面是检索词“小说”的相关搜索,单击这些词,可以直接获得它们的搜索结果,见图
8.3。
图8.3 百度提供相关检索
(2) 百度快照 “百度快照”是百度服务器的索引数据库存储的所收录网页的一个纯文本的备份。在百度搜索结果页中的每条数据都会有一个“百度快照”的超链接,通过单·200 ·
第8章 Internet信息检索 ·201·
击这个超链接可以查看百度服务器存储的该网页的内容,见图8.4。不过,百度只保留文本内容,因此无法显示那些图片
、音乐等非文本信息。
图8.4 百度快照
(3) 拼音提示 在搜索框里输入检索词的汉语拼音,百度能把最符合要求的对应汉字提示出来。例如,输入“zhanghua”,提示如下:“您要找的是不是:张华、彰化、章华”
,如图8.5所示。
图8.5 百度的拼音提示
(4) 错别字提示 百度搜索中能够识别一些常见的错别字,并在搜索结果上方显示提示。如果输入“唐醋排骨”,提示如下:“您要找的是不是:糖醋排骨”。
(5) 计算器和度量衡转换 百度提供了计算器的功能,在搜索框里输入计算式,按回车即可。另外,在百度的搜索框中,还可以进行度量衡转换。其转换格式为:换算数量换算前单位=?换算后单位,例如:-5摄氏度=?华氏
度,见图8.6。
图8.6 百度度量转换功能
(6) 高级搜索、地区搜索和个性设置 在百度的高级搜索页面(http://www.baidu.com/ gaoji/ advanced. html),可以方便地实现各种搜索查询。
在高级搜索页面中,进入地区搜索,选中希望查询的地区,可以进行地区搜索。还可以在高级搜索页面中进行个性设置,比如设置每页搜索结果数量、搜索结果的页面打开方式等。
·201·
·202· 现代信息检索
4) 其他搜索
(1) MP3搜索 百度MP3搜索提供歌词、mp3、rm、wma、铃声等内容下载。在搜索框中输入歌曲名、歌手姓名或者歌词的一部分,选择搜索mp3、rm、wma或者全部音乐,然后单击【百度搜索】按钮。比如搜索“水木年华”的歌曲(见图
8.7)。
图8.7 百度mp3搜索框
在返回的检索结果页面中单击歌曲名链接后开始下载歌曲或者下载歌词,见图
8.8。
图8.8 百度mp3结果
(2) 图片搜索 百度图片搜索使用很简单,与mp3搜索类似。只需在【图片搜索框】框中输入检索词(例如:林心如),再单击【百度搜索】按钮,即可搜索出相关的全部图片。
(3) 新闻搜索 百度新闻搜索包括新闻全文搜索和新闻标题,提供对网站新闻的搜索。新闻搜索的使用与图片搜索和mp3搜索相同。
(4) Flash搜索 百度Flash搜索(http://flash.baidu.com),可搜索约5万个Flash,只需输入关键词,就可以搜到各种版本的相关Flash。
(5) 百度搜霸 百度搜霸工具条可以安装于IE浏览器的工具栏上。提供的功能有:站内搜索、新闻搜索、flash搜索、页面找词、自动屏蔽弹出窗口等,见图
8.9。
图8.9 百度搜索工具条
2. 中国搜索
中国搜索(http://www.zhongsou.com)于2003年12月3日正式成立,拥有全球领先的中文搜索引擎技术,目前已被新浪、搜狐、网易、TOM四大门户以及1 400多家联盟成员网站所采用。每天有数千万次的搜索服务是通过中国搜索技术实现的,被认为是第三代智能搜索引擎的代表,见图8.10。
1) 简单搜索
在搜索框中输入关键词,并单击【搜索】按钮或直接按回车键即可实现简单搜索。
2) 高级搜索
(1) 布尔逻辑检索 中国搜索的搜索框中,用“+”或一个空格表示逻辑“与”、用“/”表示逻辑“或”、用“-”表示逻辑“非”。也可以利用中国搜索提供高级搜索页面,实现·202 ·
第8章 Internet信息检索 ·203·
布尔逻辑检索(http://www.zhongsou.com/advanced_search.htm)。将检索词分别填在【包含以下全部关键词】、【或者包含以下字词】、【但是不包含以下字词】三个文本框中。例如:要得到同仁堂最新的股票行情,但不希望结果中包含一些专家的推荐
股,见图8.11。
图8.10 中国搜索的主页
图8.11 中国搜索高级搜索输入框
(2) 站点搜索 在一个网址前加“site:”,可以限制只搜索某个具体网站、网站频道或某域名内的网页,这与百度搜索类
似,见图8.12。
图8.12 中国搜索检索范围搜索
·203·
·204· 现代信息检索
(3) 相关网页搜索 中国搜索提供相关网页搜索,在高级搜索页面相关网页搜索的搜索框里输入一个网址,单击【搜索】按钮,中国搜索会返回与该页面内容类似,具有更多外延信息的页面。
(4) 拼音搜索 中国搜索支持全拼和简拼搜索。如想查找“刘德华”,可以输入“liudehua”、“liudh”、“ldh”等多种形式,为了缩小范围,最好输入完整的拼音。另外,中国搜索还做了南方音转换,在个人设置中可以设置是否支持南方音。如:z=zh;s=sh;c=ch;k=g;f=h;l=n;an=ang;en=eng;in=ing;ian=iang;uan=uang。这样即使只输入关键词的拼音搜索,也能提示出最符合的中文关键词。
3. 北大天网
北大天网(http://e.pku.edu.cn)文件搜索引擎是北京大学网络实验室为方便广大用户而开发的一个项目。于1997年10月29日正式在Cernet上向广大Internet用户提供Web信息导航服务(见图8.13)。天网的特点是能找到其他搜索网站很少能找到的
教育网的信息。
图8.13 天网搜索主页
天网搜索提供“网页”、“文件”、“千帆文件”、“信息博物馆”、“主题”和“天网Maze悟空”多种搜索方式。(1)“网页”搜索属于全文搜索引擎,主要针对网页信息的搜索;(2)“文件”和“千帆文件”搜索都是针对FTP的搜索引擎;(3)“信息博物馆”是北京大学网络实验室开发建设的中国网页历史信息存储与展示系统;(4)“主题”搜索提供北大校内搜索、西安交大校内搜索、新闻搜索、美国1 000所大学搜索和Unix相关资源搜索;
(5)“天网Maze悟空”是针对P2P共享文件资源的搜索。
·204 ·
第8章 Internet信息检索
8.2.3 英文搜索引擎 ·205·
对于一些大型的搜索工具而言,很难严格地区分是中文搜索引擎还是英文搜索引擎。像百度和中国搜索可以说是纯粹意义上的中文搜索引擎,它们的特点和优势就是对中文网络信息的搜索。但是像Google和Yahoo!这样的大型的搜索引擎提供的是全球网络信息的搜索,其中当然也包括中文信息的搜索,但在这里放在英文搜索引擎里讲。
1. Google
1999年,Google(http://www.google.com)由两个斯坦福大学博士生Larry Page与Sergey Brin创办。2000年7月,Google替代Inktomi成为Yahoo公司的搜索引擎,同年9月,Google成为中国网易公司的搜索引擎。目前Google每天处理请求达2亿次,其索引数据库中存储了80亿个Web文件。
Google首页列出五大功能模块:网站、图像、新闻、网上论坛和网页目录。在搜索框下面还可以选择检索所有网页、所有简繁体中文网页和所有简体中文网页,这些功能可以由用户单击搜索框上面的按钮来
选择(见图8.14)。
图8.14 Google主页
1) 简单搜索
与百度一样,Google搜索中只需输入检索词并按回车键或单击【Google 搜索】按钮即可实现相关的搜索。
·205·
·206· 现代信息检索
2) 高级搜索
(1) 布尔逻辑检索 Google搜索中的逻辑“与”、逻辑“非”与百度搜索引擎相同,而逻辑“或”用大写的“OR”表示。
(2) 通配符 Google对通配符支持有限。目前只可以用“*”来替代单个字符,而且包含“*”必须用引号引起来。比如,“以*治国”,表示搜索第一个为“以”,末两个为“治国”的四字短语,中间的“*”可以为任何字符。
(3) 搜索整个短语或者句子 Google的关键词可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语做关键字,必须加英文引号,否则空格会被当作逻辑“与”运算符。比如要搜索关于第一次世界大战的英文信息。输入:“world war I”。
(4) 搜索所有链接到某个URL地址的网页 Google提供搜索链接到某个URL网页的功能,语法是“link:”加网址。比如:搜索所有含指向中国农业大学“www.cau.edu.cn”链接的网页。输入“link:www.cau.edu.cn”结果(见图
8.15):
图8.15 搜索所有链接到中国农业大学的网页结果
另外,在Google中同样支持在网页标题中搜索(intitle语法)、在URL中搜索(inurl语法)、在指定网站内搜索(site语法)以及搜索指定文件(filetype语法),其语法与百度一致。
3) Google的特色功能
Google特色功能中的网页快照和相关搜索功能与百度类似,在此略去。
(1) 类似网页 单击搜索结果页面中网络链接后面的【类似网页】超链接,Google便可返回与这一网页相关的网页。
(2) 手气不错 在搜索框里输入检索词,按下【手气不错】按钮将自动进入 Google 查询到的第一个网页。例如,在搜索字段中输入“新浪”,然后单击【手气不错】按钮。Google 将直接进入新浪网的官方主页http://www.sina.com(见图
8.16)。
图8.16 Google的手气不错功能
(3) 错别字改正 Google 的错别字改正软件系统会对输入的检索词进行自动扫描, 检查有没有错别字。例如,搜索“互连网”,Google 会自动提示 “您是不是要找:互联网”。这时单击 “互联网”,Google 将以“互联网”作为关键词进行搜索。
(4) 中英文词典 在搜索框中输入一个检索词(“翻译”,“fy”或“FY” 任选其一)和要查的中(英)文单词,Google会直接返回要查单词的英文(或中文)翻译。例如,要查找 ·206 ·
第8章 Internet信息检索
apple (或 苹果)的中(英)文翻
译(见图8.17)。 ·207·
图8.17 Google的中英文词典
(5) 天气查询 用Google 查询中国城市的天气和天气预报,只需输入一个关键词(“天气”,“tq” 或“TQ”任选其一)和城市名称即可。Google返回的网站链接会显示当地天气状况和天气预报。例如,要查找上海地区的天气
状况(见图8.18)。
图8.18 Google的天气查询功能
(6) 手机号码 用Google 查询手机电话号码归属地,只需直接输入要查的号码即可(不需要任何关键词)。Google 能自动识别以13开头的11位数字为手机号码而返回相关的网站链接。例如,要查找手机号[1**********]的归属地,可输入[1**********],单击【Google搜索】按钮即可。
Google还有股票查询、邮政编码、计算器以及搜索结果过滤等功能。另外Google提供图片搜索、新闻搜索和目录搜索等,可以参照Google大全了解相关信息(http://www.google.com/intl/zh-CN/about.html)。
2. Yahoo!
Yahoo!(http://www.yahoo.com)是WWW上最早最著名的网络目录导航系统,属于目录式的搜索引擎,由斯坦福大学的两位博士研究生David Filo和Jerry Yang(杨致远)于1994年创建。其网页目录数据库主要由人工输入。除此之外,Yahoo!也提供全文搜索,开始利用的是AltaVista的搜索引擎,后来转用Google。Google强大后,雅虎意识到“商业化搜索”的重要性,先后兼并了Inkomi和Overture,于2004年2月弃用Google,转而采用自己的搜索品牌,雅虎中文的搜索品牌是一搜(http://www.yisou.com/)。目前,雅虎提供分类浏览和关键词查询两种搜索方式。
1) 分类浏览查询
Yahoo!包括14个网络目录:艺术与人文学科(Arts & Humanities)、商业和经济(Business & Economy)、计算机和Internet(Computer & Internet)、教育(Education)、政府(Government)、娱乐(Entertainment)、健康(Health)、新闻与媒体(News & Media)等(见图8.19)。用户可以选择分类浏览来检索有关信息,每个大类下都给出若干个子类,通过某个子类目进一步链向更加细化的下一级类目,最后得到一个与特定主题相关的实际网页列表。类目名称旁边的数字表示该目录下有多少个实际网页与此相连。尽管用户需经过多层的深入才能得到一个网页列表,但结果集的相关性百分比常常高于其他大型搜索引擎。
·207·
·208· 现代信息检索
图8.19 Yahoo!搜索主页
2) 关键词查询
在Yahoo!网络目录主页上方的检索词输入框中,可以输入一个或多个以空格分隔的关键词,同时还可以选择搜索网页目录数据库和搜索网页(全文搜索)。
Yahoo!支持布尔逻辑检索,也可用“*”进行右截词检索,如“jor*”则检索以jor开始的任何词。另外,还可以限制检索字段,方法是在检索词前加t:(表示限制在title中)或u:(表示检索对象是URL),例如t:education表示的是在网页标题字段查找包含education的记录。
在Yahoo!高级检索中,可以选择检索范围、检索方式等。
8.3 网上信息检索
8.3.1 概况
网络信息资源是指以数字化形式记录的以多种媒体形式表达的分布式存储在Internet不同主机上并通过计算机网络通信方式进行传递的信息资源的集合。
1. 网络信息资源的特点
网络信息资源在数量、结构、分布、传播范围、类型、载体形态、传播方式等方面,都与传统的信息资源有着明显的不同,其特点包括:数字化存储和传递;数量大,增长迅·
208 ·
第8章 Internet信息检索 ·209·
速;内容丰富,形式多样;稳定性差,变化频繁;结构复杂,分布广泛;信息组织的局部有序性与整体无序性;信息新颖,定期更新;免费资源丰富;信息质量参差不齐,价值不同等。
2. 网络信息资源的种类
网上的信息多种多样,其分类方式不同。一般按类型可分为书目信息、电子期刊、电子图书、电子报纸等;按媒体性质可分为文本信息、图形、声音、软件等。
3. 网络信息资源的检索方法
网络信息检索是运用网络相关功能和不同的检索工具进行信息检索的方法。网络检索工具的检索方法一般可分为三种:即浏览、利用网络资源指南和利用网络检索工具。
1) 浏览
浏览是借助于浏览器【漫游】来发现信息的一种方法,是网络信息检索最初级的方法。用户通过文件里的链接追踪信息,从一个网页跨越到另一个网页,从一个信息点到另一个信息点。在浏览的过程中,用户可以借助于浏览器的一些功能,如【收藏夹】和【发送】等选项功能将自己感兴趣的网站或网页保存起来。但是,这种方法盲目性较大,用户往往随着链接点的增加而失去检索目标,从而达不到检索目的,同时也浪费时间。
2) 利用网络资源指南
利用网络资源指南是指通过阅读有关参考书、指南及有关报刊杂志等获得有用的网站信息,并在了解其大概内容和资源情况后,直接访问某个网站或网页的一种方法。这种方法有一定的针对性和目的性。在利用各种参考工具书,资源指南和相关手册时,应注意使用最新版本,因为,Internet的变化很快,每天都有许多新的网站产生,也有一些网站消失。如果使用的参考资源比较陈旧将会影响用户的检索效果。
3) 利用网络检索工具
网络检索工具是执行信息检索的一种计算机程序,其作用是帮助用户在信息检索中确定检索目标和检索途径,缩短检索时间,减少盲目性,提高检索效率。利用网络检索工具进行信息检索与数据库检索有相同之处,也有不同之处。相同之处是在检索的过程中都可以使用关键词和布尔逻辑式,不同之处是网上资源检索的目标是获得与检索要求相关的网站或网页,通过浏览网站或网页的名称、内容简介等,确定是否进一步浏览该网站或网页的详细信息。数据库检索的目标是获得与检索要求相关的具体文献信息,包括题名、作者、出处等,有时可以直接获得全文。网上资源检索主要依靠不同的检索工具来完成。
4. 网络信息资源的检索特点
网络信息资源检索基于WWW服务方式,具有以下特点:
1) 超链接
网络信息资源具备网状的复杂信息链接结构,系统能够按照不同查询条件链接结点信息,以供浏览、查询,具有较强的索引功能。
2) 多媒体
网络信息丰富,结点媒体多样化,每个结点都能集成文本、图像、图形、动画、声音、视频等多种媒体,并能用多窗口、图形页面予以表现。
·209·
·210· 现代信息检索
3) 导航能力强
网络信息检索均具有良好的导航能力,可引导读者在复杂的网络信息中漫游而不致迷失方向。用户可以利用导航机制,了解其所在网络中的位置。
4) 编辑功能好
网络信息具有良好的编辑功能,包括修改、增加、删除结点的能力,对结点内的信息也具有良好的编辑能力,可同时进行多窗口编辑。
5) 网络共享
通过网络共享数据库,可使多个用户同时使用库内信息。
8.3.2 书目信息检索
网上书目信息检索的目的是查找所需书刊的收藏单位,使用的检索工具是图书馆的馆藏书目数据库或联合目录。
1. 基本概念
1) 机读目录
机读目录(Machine-readable Catalogeue,MARC) 是“机器可读目录”的简称,是以代码形式和特定结构记录在电子计算机存储载体上的目录。
2) 联机公共书目查询系统
联机公共书目查询系统(Online Public Access Catalogue,OPAC)是一种计算机辅助的文献数据库,可供读者通过终端直接、有效地检索一个或若干个图书情报机构收藏的文献。OPAC支持布尔逻辑检索,并提供多种检索限定;具有用户页面友好、检索方法简单等特点。检索结果一般采用由简到繁,逐步展开的格式显示,并以多种形式输出,如打印、存盘、用E-mail发送等。数据库包含的字段一般有:文献题名(书名或刊名)、责任者、ISBN/ISSN、主题词、分类号、索取号、馆藏地点等。按收录的文献类型,OPAC可分为图书目录、期刊目录;按反映入藏单位的多少,OPAC分为馆藏目录查询系统和联合目录查询系统。
3) 联合目录
联合目录(Union Catalogue,Joint Catalogue)是反映若干个图书情报机构的全部或部分馆藏的目录,其特点是目录的每条款目均标明馆藏,即参加单位的名称代号或简称。
联合目录是共享书目资源的基础。从联合目录的发展历史看,联合目录有两种:一种是传统的集中式联合目录,也就是将多个图书馆的数据汇集在一个数据库中,如CALIS联合目录(http://opac.calis.edu.cn/)、全国期刊联合目录(http://union.csdl.ac.cn/Union/index.jsp)、国家科技图书文献中心联机公共目录查询系统(http://www.nstl.gov.cn/tscx.htm)、OCLC的World Cat(http://firstsearch.global.oclc.org/)等;另一种是模拟式虚拟联合目录,虚拟联合目录是指每一个书目数据库均是相对独立的,只是在用户检索时将它们视为一个整体,通过一个通用的页面同步检索多个书目数据库,然后将检索结果返回。
2. 馆藏书目查询系统
馆藏目录只反映某个特定图书馆的文献收藏情况。用户检索某馆的OPAC,只需登录到该图书馆的主页,进入【馆藏资源】或【馆藏目录】栏目即可查询。如国家图书馆联机·210 ·
第8章 Internet信息检索 ·211·
公共目录查询系统(http://210.82.118.4:8080/F/-?func=file&file_name=find-m)、中国科学院文献信息中心联机公共目录查询系统(http://159.226.100.4/search*chx/)、中国农业大学图书馆联机公共目录查询系统(http://202.112.175.5/cgi-bin/EnterIlasweb)、江西中医学院图书馆联机公共目录查询系统(http://218.87.68.169:8080/opac/search.php)等。下面以国家图书馆为例介绍联机公共目录查询系统的检索方法。登录国家图书馆(http://www.nlc.gov.cn/)主页,选择
【馆藏资源】选项,即可进入【国家图书馆联机公共目录查询系统】页面,选择【匿名登录】选项即可进入【多库检索】页
面(见图8.20)。
图8.20 国家图书馆联机公共目录查询系统多库检索页面
国家图书馆联机公共目录查询系统按文种划分为外文文献数据总库和中文及特藏数据库。外文文献数据总库包括外文联合国资料库、外文工具书、外文文献库等。中文及特藏数据库包括学位论文总库、中文普通图书库、中文报纸库、中文期刊库、善本古籍文献总库等。默认检索数据范围是馆藏全部中文数据和外文数据,可以在数据库名称前的复选框中选择和取消选择,检索时系统将会分别给出选中数据库的命中数量。
系统提供简单检索、多字段检索、高级检索、通用命令语言(CCL)等检索方法。可限定的检索字段包括题名、著者、主题、出版年、出版地、出版者、中文出版者编号、论文专业、论文研究方向、论文授予单位、文献类型、中文丛书、中图分类号、LC分类号、ISSN号、ISBN号、系统号等。
例:检索“栽培植物”的文献,默认检索数据范围是馆藏全部中文数据和外文数据,选择检索字段为题名,检索结果(见图8.21)。在检索结果列表中,单击数据库名称,则显示检索结果的详细信息,包括题名、著者、出版者及馆藏地点等(见图8.22),对检索结果可进行标记、保存或输出。
·211·
·212· 现代信息检索
图
8.21 检索结果列表页面
图8.22 检索结果详细信息页面
3. 联合目录检索
联合目录在联合编目、馆际互借与文献传递、资源共享等方面具有十分重要的作用。此处重点介绍CALIS联合目录和全国期刊联合目录。
1)CALIS联合目录
中国高等教育文献保障系统(China Academic Library & Information System,CALIS)是经国务院批准的我国高等教育“211工程”、“九五”、“十五”总体规划中三个公共服务体系之一。CALIS的宗旨是在教育部的领导下,把国家投资、现代图书馆理念、先进技术手段、高校丰富的文献资源和人力资源整合起来,建设以中国高等教育数字图书馆为核心的教育文献联合保障体系,实现信息资源共建、共知、共享,以发挥最大的社会效益和经济效益,为中国的高等教育服务。CALIS管理中心设在北京大学,下设了文理、工程、农学、医学四个全国文献信息服务中心,华东北、华东南、华中、华南、西北、西南、东 ·
212 ·
第8章 Internet信息检索 ·213·
北七个地区文献信息服务中心和一个东北地区国防文献信息服务中心。CALIS联机合作编目中心是中国高等教育文献保障体系的两大服务中心之一,其秉承“实现信息资源共建、共知、共享,发挥最大的社会效益和经济效益,为中国的高等教育服务”的宗旨,致力于CALIS联合目录数据库建设,并提供相关服务。CALIS联合目录数据库(http://opac.calis.edu.cn/)建设始于1997年,涵盖印刷型图书和连续出版物、电子期刊和古籍等多种文献类型。CALIS联合目录数据库按文种分为联合目录(中文)、联合目录(英文)和联合目录(日文)(见图8.23)。另外,通过CALIS公共目录检索系统还可以检索中文现刊目次、西文期刊目次(CCC)、学位论文库及会议论文库,但检索时只能选择其中一个数据
库进行检索,不可多选。
图8.23 CALIS公共目录检索系统首页
联合目录提供简单查询、高级查询和浏览三种检索方式,其检索限定字段见表8-1。
表8-1 检索方式及限定字段 检索方式
简单查询
高级查询
浏 览 限 定 字 段 著者、题名、主题、ISBN、ISSN、全面检索 著者、著者(团体名称)、著者(会议名称)、著者(个人名称)、题名、从编题名、主题、订购号、ISBN、ISSN、最后修改日期、LC记录控制号、CODEN标识、全面检索 著者、著者(团体名称)、著者(会议名称)、著者(个人名称)、题名、从编题名、主题 高级查询、简单查询方式对检索词提供了“开头为”、“结尾为”、“严格等于”、“模糊匹配”等四种方式的限定。例:查询图书《中国高等教育史》,选择联合目录(中文),选择检索字段“题名”,限定方式“开头为”,在检索框中输入检索词“中国高等教育史”,单击【查询】按钮,检索结果见图8.24和图8.25。在检索结果中,选择要查询的文献题名,可以查看详细的书目信息及馆藏信息,根据馆藏信息可选择方便的图书馆通过馆际互借来获取所需的文献(见图8.26)。
·213·
·214· 现代信息检索
图
8.24 高级检索页面及检索方法
图
8.25 检索结果页面
图8.26 详细书目和馆藏信息页面
·
214 ·
第8章 Internet信息检索 ·215·
2) 全国期刊联合目录
全国期刊联合目录(http://union.csdl.ac.cn/Union/index.jsp)是由中国科学院文献情报中心牵头编制的全国中外文期刊联合目录,截止2005年6月7日,全国有477家图书情报机构是联合目录的成员馆。收录文献类型包括期刊、各种连续出版的会议录、年鉴、报告、指南、学会会志、备忘录等;涉及的文种包括中文、英文、日文和俄文。联合目录旧系统网址为:http://159.226.100.50/catalog。
下面以新系统为例介绍全国期刊联合目录检索方法。输入新系统的网址(http://union.csdl.ac.cn/Union/index.jsp)即可进入【联合编目服务系统】首页(见图8.27),然后单击【全国期刊联合目录】选项进入高级检索页
面(见图8.28)。
图8.27 联合编目服务系统首页
图8.28 全国期刊联合目录检索页面
·215·
·216· 现代信息检索
全国期刊联合目录的检索方式为高级检索,检索平台为读者网上服务系统。检索时可以选择检索字段、匹配方式(检索词有三种匹配方式)和布尔逻辑算符,同时可以通过选择资料类型来限定检索结果。
匹配方式定义了检索词的命中范围,包括模糊匹配(即检索结果包含检索词)、前向匹配(即检索结果处于命中结果前端)、精确匹配(即检索结果与检索词完全一致)三种方式。
布尔逻辑算符定义了词或词组之间的关系,有AND(检索出的记录包括由and分开的所有词)和OR(检索出的记录包括由or分开的任意一个词)两个。
检索字段包括题名、标准号、出版年、出版者、分类号、主题词、责任者、副题名、订购号、首字母缩写、罗马字拼音、拉丁拼音。其中检索字段的“首字母缩写”是指外文期刊刊名的实义词首字母缩写,此检索字段在只知道部分刊名或只知道刊名缩写的情况下是非常有用的检索字段。例:检索期刊“J agric food chem.”(刊名全称为Journal of Agricultural and Food Chemistry),可用刊名实义词首字母缩写“JAFC”(忽略大小写)进行检索(见图8.29)
。
图8.29 检索结果页面
检索结果不仅显示一般书目信息,还提供该刊与其他刊的沿革关系、MARC信息、电子资源链接及成员馆的馆藏信息,单击【查看详细馆藏信息】选项,可了解该刊的收藏单位以及该单位详细的收藏信息(见图8.30);单击收藏单位,可了解该单位的相关信息,包括单位简介、联系方式、单位网址等(见图8.31)。
单击【电子资源链接】栏目所提供的网址即可链接到该刊的主页上,查看该刊的详细信息(见图8.32)。
·216 ·
第8章 Internet信息检索 ·
217·
图8.30 馆藏信息页面
图8.31 成员馆信息页面
8.3.3 电子期刊检索
随着计算机、网络和多媒体技术的进步与发展,一种新型的文献信息载体—电子期刊应运而生并得到了迅速发展。网络电子期刊资源种类繁多,本节主要介绍电子期刊的检索。
1. 电子期刊的概念
电子期刊(Electronic Journal),又称电子杂志(Electronic Magazine)或数字化期刊(Digitized Periodical)。目前,电子期刊还没有公认的定义,综合多种定义,可将电子期刊定义为:具有连续出版物的一般特征,以数字化形式存在,并且通过电子媒介得到的连续出版物。经过近30多年的发展,电子期刊已从最初的软盘期刊、第二代的CD-ROM期刊、联机期刊,发展到现在第三代的网络电子期刊。
·217·
·218· 现代信息检索
图8.32 期刊的主页
2. 电子期刊的类型
电子期刊划分标准有多种,按电子期刊内容性质划分为学术性电子学报和电子快报;从对文献的加工程度, 可分为一次文献电子期刊和二次文献电子期刊;从出版发行的方式分为印刷型期刊的电子版(印刷型、电子版同时出版)和网络电子期刊(只有电子版)。
印刷型期刊的电子版:这是目前电子期刊出版发行中被越来越多采用的一种出刊方式。出版商依然维持纸本期刊的出版,但为了顺应读者需求,出版商在编辑出版纸本期刊的同时出版相应的电子版,以附属产品的方式免费或适当增加费用提供给订户。以印刷型期刊为主,以电子版为附的期刊,如世界著名的《Science》、《Nature》、《Time》等都有网络电子版。
网络电子期刊,是指从投稿、编辑出版、发行、订购、阅读乃至读者意见反馈的全过程都是在网络环境中进行的,任何环节都不需要用到纸。网络电子期刊可以说是完全的电子期刊,仅发行于网络上,仅以电子格式提供资料,网上阅读是订阅者唯一的选择。这种方式决定了它的最大优点,即出版周期短、信息报道及时,最快的从投稿到发表24小时即可完成。如神州学人(http://www.chisa.edu.cn)等。
3. 网上电子期刊的查找方法
目前,网上电子期刊发展非常迅速,下面就列举几种查找网上电子期刊的方法:
1) 专门提供网上电子期刊清单的网站
(1) ARL Directory of E-Journals,Newletters & Academic Lists (http://www.arl.org/scomm/edir/) 由ARL(The Association of Research Libraries)建立,搜集了大量网上电子期刊、通报和有关学术方面的网站,数据每年更新一版,现已更新到第八版。
(2) BUBL Information Services:Electronic Journals and Texts (http://bubl.ac.uk)
·
218 ·
第8章 Internet信息检索 ·219·
BUBL(Bulletin Board for Libraries)由英国JISC( Joint Information Systems Committee)设立的一个信息系统,收集了一些电子期刊的网址和相关信息。
(3) The Electronic Newsstand Home Page(http://www.enews.com)
这是目前Internet网上规模较大的一个专门搜集商业期刊的网站,提供了近2 000多种电子期刊的链接。
(4) NCBI (http://www.ncbi.nlm.nih.gov)
NCBI(美国国立生物技术信息中心)建立和维护的Genbank中的PudMed,提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。
2) 期刊主办或出版机构的网址
电于期刊的出版商主要有商业出版机构、学术团体、大学出版社和独立出版者四类。它们通常在主页上提供了自己出版期刊的题录和部分论文的免费检索和浏览。所以查找期刊信息时,如果知道期刊的出版商,直接访问出版商主页是一个比较可靠的方式。
(1) Academic Press (http://www.academic.com) Academic Press是美国一家著名的出版公司,出版医学和生物科学的图书和期刊。
(2) Blackwell (http://www.blackwell.com) Blackwell出版公司(英国)是世界上最大的期刊出版商之一,出版总数达650余种在物理学、医学、社会科学以及人文科学等学科领域享有盛誉的学术期刊。
(3) Elsevier(http://www.elsevier.com) 荷兰Elsevier出版集团出版的期刊是世界上公认的高质量学术期刊。涉及数、理、化、天文、医学、生命科学、商业及经济管理、计算机科学、工程技术、能源科学、环境科学、材料科学、社会科学等多个学科。
(4) LWW(http://www.lww.com) LWW(Lippincott Williams & Wilkins)于1792年创建,是世界享有盛誉的医学文献出版商,现为全球第二大出版社。该公司出版的期刊大多为医学核心期刊,大部分期刊被著名的MEDLINE数据库和SCI数据库所收录,且影响因子(Impact factor)较高,以临床医学及护理学方面的期刊尤为突出。
(5) Humana Press(http://humanapress.com) Humana Press是医学、生物学科学出版商,以印刷版和电子版形式出版发行医学和生物学领域的科技图书、科技期刊。
(6) John Wiley & Sons(http://www.wiley.com) 约翰·威利父子出版公司(John Wiley & Sons)是全球性的出版集团,主要出版教育、职业培训、科技、医药类和实用类图书、期刊和电子产品,并提供订阅服务。目前该集团的在版图书大约有22 700种,在版期刊400种,每年出版2 000种新书与电子出版物。
(7) Karger(http://www.karger.com) 卡尔格公司(Karger)是瑞士一家世界著名医学和科技出版公司,该公司年出版期刊76种,新书60多种,主要是英文版。
(8) Marcel Dekker(http://www.dekker.com) 马塞尔· 德克尔(Marcel Dekker)是美国一个富有实力的数字化科技出版公司,主要出版科学技术领域的科技图书和科技期刊,以医学方面的期刊尤为突出。
(9) McGraw-Hill(http://www.McGraw-Hill.com) 麦格罗、希尔(McGraw Hill Professional)是全球久负盛名的出版商之一,有超过100年的出版历史。
(10) Springer(www.springer.de) 施普林格出版集团(Springer Group)是德国第三大出版公司,该集团是以出版学术性出版物而世界著名的科技出版集团,通过Springer LINK系统
·219·
·220· 现代信息检索
提供学术期刊及电子图书的在线服务。出版医学、理学和工学各专业图书。
另外,还有期刊集成商提供期刊数据库及其他数据库检索。网络期刊集成商本身不出版电子期刊,而是将出版商的网络期刊集成,建立统一的检索页面,提供检索服务,这类数据库收集的期刊涉及的学科范围广。
3) 图书馆网
许多图书馆建立了自己的电子期刊群,并提供网上查询服务。图书馆网的电子期刊来源,一般是与期刊出版者协商,以较低的价格购买或免费得到的。OCLC和ARL(美国研究图书馆协会)是此类的代表。OCLC有一个ECO项目,可以在一个集成的Web环境下,向会员图书馆提供来自不同出版机构的大量电子期刊,它的First Search Electronic Collection Online (http://www.oclc.org/oclc/menu/eco.htm) 中包括大量电子期刊。美国研究图书馆协会(ARL) (http://web3.arl.org/scomm/edir/),主要分成两部分,一部分是电子期刊和时事通信,另一部分是Internet上的讨论组、学术团体和学术会议。
4. 网络搜索引擎
搜索引擎也是查找电子期刊的重要检索工具,如Google(http://www.google.com); Yahoo!(http://www.yahoo.com),百度(http://www.baidu.com/),搜狐(http://www.sohu.com),Scirus科学专业搜索引擎(http://www.scirus.com)等。
8.3.4 电子图书检索
随着网上免费电子图书文献信息资源的日益增多,深入了解、充分挖掘和开发利用网上免费电子图书(简称ebook)资源,不仅是充分利用网络信息资源的一个重要方面,也是提高文献信息利用能力的重要表现。相对而言,网上文学类电子图书较多,而科学技术类(简称科技类)电子图书较少。
1. 电子图书的概念
电子图书有别于纸介质的传统图书,以数字代码形式将图、文、声、像等信息存储在磁、光、电介质上,通过计算机或电子设备使用并可复制发行的大众传播体。最早的电子书出现在1971年,美国伊利诺大学实行古腾堡计划,将莎士比亚等无版权问题的经典名著放到网络上免费供网民阅读,这可以算是开始了图书出版业的新纪元。1995年10月,美国发明了一种可以阅读和存储任何形式文本的袖珍装置“软书”(Softbook)。1999年美国的诺瓦梅亚公司推出世界上首批手持电子书阅读器“火箭书”(RocketBook)。这两种电子产品的出现标志着电子图书的诞生。到目前为止,电子图书技术发展迅速,形成了一个集eBook 网站、出版、发行、购买、阅读于一体的网络化电子图书系统。
2. 电子图书的特点
1) 电子图书属多元媒体
电子图书能将书籍、声音、影像及图片等资料以数字化的形式储存在计算机、光盘、硬盘、磁带等装置中,实现多种媒体并行。电子图书的动态、语音效果,使阅读更加灵活和生动,且传播速度快、范围广。
·220 ·
第8章 Internet信息检索 ·221·
2) 易于检索和利用
电子图书以数字化的形式储存,容量大,数据库检索系统使读者更方便、快捷、准确的搜索、查询及阅读,方式也多样化。
3) 使用方便有互动功能,改变了传统的阅读习惯
当阅读电子图书时,能够利用即时词典的功能方便地查找字、词。
4) 新书上市与读者见面时间快
电子图书在出版、改版、再版及运输等速度方面,有着绝对的时效优势,电子图书可通过网络即时将书籍内容传送到读者眼前。
5) 成本降低
电子图书能使出版和保存成本降低,容量大,占用空间小。
6) 节省资源,减少环境污染
电子图书有利于生态环境保护,网络出版将是一种真正意义上的绿色产业。
7) 个性化
电子图书能把传统图书达不到的潜在读者挖掘出来,有效地扩大了出版市场,并且使个性化的图书、期刊和报纸成为可能。
3. 电子图书的类型
1) 按载体划分
电子图书按载体形态划分为光盘、网络和便携式三种形式。光盘电子图书只能在计算机上单机阅读;网络电子图书,包括免费网络电子图书、网络图书馆(电子图书服务系统,如NetLibrary、超星等),可以通过互联网访问阅读;便携式电子图书特指一种存储了电子图书内容的电子阅读器,又称Pocket eBook。
2) 按内容划分
就其内容而言,电子图书涉及各个学科,如数学、物理、化学、生物、经济、管理、文学、历史等。但总体而言,涉及最多的应该是工具书(辞典、百科全书)、文学艺术类图书、计算机类图书等。
3) 按存储的文件格式划分
按电子图书存储的文件格式划分为三类,即图像格式、文本超文本格式、便携文档格式。
(1) 图像格式类 是指把已有的传统印刷型图书扫描到计算机中,以图像格式存储。国内的中文电子图书多以图像格式制作和存储,如超星电子图书、书生之家的电子图书和中国数字图书馆的电子图书等。
(2) 文本超文本格式 通常将书的内容作为文本存储, 并有相应的应用程序。应用程序会提供华丽的页面,具有基于内容或主题的检索方式、方便的跳转、书签功能、语音信息、在线词典等各项功能。
(3) 便携文档格式(Portable Document Format,PDF) 该格式的电子图书无论在何种机器、何种操作系统上都能以制作者所希望的形式显示和打印出来,表现出跨平台的一致性。PDF格式中可包含文本、图形、声音等多媒体信息。
·221·
·222· 现代信息检索
4. 网上免费电子图书的检索
1) 网站上的电子图书目录或链接
网站上的电子图书目录或链接可快捷地提供电子图书信息。如“全景中文图书/小说大全”(http:/www.cnovel.com)就提供了很多中文电子图书目录。许多大学图书馆等单位也提供大量的网络电子图书。
2) 网上免费电子图书网站
(1) 国内免费电子图书的网站主要有:
① 榕树下(http:∥www.rongshu.com/) 榕树下是最为成功的国内一家以中文原创作品为主要内容的人文艺术网站,以“生活、感受、随想”为宗旨,尽心致力于网络原创文学园地的开拓与发展。该网站以其可靠的信誉和版权保证吸引了大批网络文学作者,它是发表和阅读网络文学的最佳去处。
② E书时空 (http:∥www.eshunet.com) E书时空以提供免费的电子图书下载为主要服务。内容以畅销书和经典著作为主。其电子书籍格式均为EXE 可执行文件, 而且经过多重压缩,文件体积非常小,阅读者下载后无需任何繁琐的安装,只要机器中安装有IE 浏览器,即可直接运行阅读,而且阅读方便、易于操作,有较高的收藏价值。
③ 黄金书屋(http://wenxue.lycos.com.cn) 黄金书屋是一个文学电子图书网站。此网站的电子图书检索途径共有3种,除了主要提供分类检索外,还提供按“作品”、“作家”两种途径检索的“作品搜索”。黄金书屋栏目是利用电子图书的主要栏目。进入该栏目后,在其“书籍分类”页面下,可看到其电子图书共分为24个一级类目, 100个二级类目。
④ 书海(http://www.booksea.com) 书海是一个文学电子图书网站。内容包括网友原创、古典文学、现代文学、武侠小说、科幻小说、 军事天地、纪实文学、外国文学、侦探小说、政治经济、哲学宗教、电脑书籍、历史作品、英文经典、科普、名家风采、儿童文学、幽默漫画等。电子图书检索途径主要为分类途径,另外还提供了可按“文章标题”、“文章内容”、“文章作者”检索的“文章搜索”三种检索途径。可直接进入l8个一级类目,100个二级类目。收录电子图书5 298部,另外47类多达586人的作品。
⑤ Skyhits娱乐门户(http://www.skyhits.com) Skyhits娱乐门户是一个以文学类为主的电子图书网站。主要集中于该网站的“书库”(又称为“在线书库”)栏目,其检索途径只有分类途径。进入“书库”栏目后,可看到设有9个一级类目,26个二级类目,收录电子图书846部,另加391人的作品。
⑥ 益凡公益图书馆(http://www.shuku.net) 益凡公益图书馆是一个以文学类为主的电子图书网站。检索途径有4种,除了主要提供分类检索途径外,还提供按“书名”、“作者”、“全文检索”3种途径检索的“书籍搜索”。“进图书馆”栏目是利用电子图书的主要栏目,进入该栏目后,在其“图书总目录”选项下,可看到其电子图书共分为22个一级类目,160个二级类目。
⑦ 北极星书库(http://www.ebook007.com) 北极星书库收录网上流传的许多电子书籍,内容包括中华古籍、各类文学作品、科普作品、宗教哲学历史和学术名著、经济贸易、传记和英文原著。
⑧ 书香门第图书馆(http://www.bookhome.net) 书香门第图书馆是一个创办较早的网·222 ·
第8章 Internet信息检索 ·223·
络图书馆,主要收录文学、经济、哲学、历史以及英文原版图书等。
(2) 国外免费电子图书的网站主要有:
① NAP免费电子图书(http://www.nap.edu/) NAP(The National Academies Press)是美国国家科学院下属的学术出版机构,主要出版美国国家科学院、国家工程院、医学研究所和国家研究委员会的报告。目前通过其主站点可以免费在线浏览2 500多种电子图书。图书内容覆盖环境科学、生物学、医学、计算机科学、地球科学、数学和统计学、物理、化学、教育等诸多领域。电子图书采用PDF文档格式。可以按学科分类浏览,也可以输入检索词,在书名或全文中检索。在每一本书中可以像阅读印刷本图书一样按目次和章节阅读,也可输入检索词进行全文检索,然后直接单击进入有关的章节或页面。
② Hoover Books Online(http://www-hoover.stanford.edu/publications/books/) Hoover Books Online是美国斯坦福大学胡佛研究所免费电子图书,采用PDF文档格式,并提供人文与社会科学电子图书的网上免费浏览。
③ 加州大学出版社eScholarship Editions(http://texts.cdlib.org/escholarship/ titles_public. html) 加州大学出版社eScholarship Editions提供400种人文与社会科学文献的免费图书。
④ 免费色谱书籍网站(http://www.chromatography-online.org/) 免费色谱书籍网站是由The library4science公司计划资助的免费色谱书籍网站,目的是促进科学技术的发展。
⑤ CPL Press Bookshop(http://www.cplpress.com/glossary/G558.htm) CPL Press Bookshop由CPL科学出版服务有限公司构建,提供化学类图书、电子图书信息。
⑥ 美国科学院、工程院等出版的图书、报告(http://www.nationalacademies.org/ publications/) 由美国科学院建立,可以免费阅读下载1 500份科技报告和科技图书。
⑦ 美国陶瓷学会在线图书目录(http://www.acers.org/publications/books/mainmenu.asp) 由美国陶瓷学会建立,提供与陶瓷相关的2 000多种图书。
⑧ 免费医学图书(http://www.freebooks4doctors.com/) 是Flying出版商的网站,可以在线免费获得许多重要的教科书和32 620多种医学著作。
⑨ AMS 图书在线(http://www.ams.org/online_bks/) 该网站由美国数学学会建立,可以免费下载美国数学学会出版的学术著作。
⑩ 黑面罩在线(http://www.blackmask.com/cgi-bin/newlinks/page.cgi?d=1) 可以在线免费阅读
、下载文学艺术图书的网站。
儿童读物、教育、
免费在线图书指南(http://www.free-book.co.uk/) 包括商业和贸易、
历史、政治、宗教和哲学、旅游、计算机等。
专门收集免 免费电子图书网(http://www.free-ebooks.net/) 由eBooks N' Bytes建立,
费小说
、大学辅导教材、市场、商业等图书的专业网站。
免费电子图书馆(http://etext.lib.virginia.edu/ebooks/) 由弗吉尼亚大学图书馆
电教中心建立的免费电子图书馆,收藏850万种免费电子图书。
图书在线(http://digital.library.upenn.edu/books/) 该网站由John Mark Ockerbloom建立,截止2005年5月6日,该网站已经收藏20 000种免费图书。
另外,本书在附录中列出了其他科技图书的网站。
3) 利用搜索引擎检索
电子图书是网上比较热门的免费电子资源之一,搜索引擎也是检索电子图书的很好工具。只 ·223·
·224· 现代信息检索
要任意的键入一些与图书有关的词汇,如电子图书、网络小说、畅销书、经典名著等,便可得到较多相关信息。比较好的图书搜索引擎有搜书网 (http://www.esoushu.com/xiangyu/index/index.htm)。另外,读秀图书搜索(http://www.duxiu.com/)收录190万种中文图书,是目前全世界最完整的中文图书数据库,提供书目搜索、目录搜索、全文搜索、全文试读及供应商链接等服务。
5. 超星数字图书网
超星数字图书网(http://www.ssreader.com/)是国家“863”计划中国数字图书馆示范工程项目,由北京世纪超星信息技术发展有限责任公司投资兴建。包括数10万册电子图书,300万篇论文,全文总量4亿余页,数据总量30 000GB,并且仍在不断地增加与更新,是目前世界最大的中文在线数字图书馆(见图
8.33)。
图8.33 超星数字图书网主页
1) 数字图书分类
超星数字图书涉及自然科学与社会科学的各个分支学科,包括:经典理论、哲学/宗教、社科总论、法律/政治、军事、经济学、信息传播、语言文字、文学、艺术、历史地理、自然科学总论、数理化、天文地球、生物科学、医学、农业科学、工业技术、交通运输、航空航天、环境保护、辞典等。收录的文献类型为图书全文。
2) 超星阅读器
阅读超星数字图书网图书(pdg)需要下载并安装专用阅读工具——超星阅读器(ssreader),进入ssreader Web Site(http://www.ssreader.com/download/)下载超星阅读器。
·224 ·
第8章 Internet信息检索 ·225·
3) 数字图书检索
超星数字图书支持布尔逻辑检索,*或空格表示和(包含第一个和第二个关键字);%表示通配符,表示一个或多个字;+表示或(包含第一个或第二个关键字)。
(1) 关键字词检索 超星读书卡会员用户登录后,可以对超星网站上提供给超星读书卡会员使用的图书书名进行关键字词检索。
(2) 论文文献检索 提供超星期刊论文按照题名和作者进行关键字词检索,直接定位到具体篇章进行阅读。
(3) 文本图书检索 提供文本图书的阅读者和制作者查询已经加工并提供阅读的文本图书和正在制作中的文本图书。
(4) 读书社区检索 提供超星读书社区中所有帖子标题的检索。
(5) 目次检索 提供超星会员图书目录信息检索,检索结果直接定位到关键词所在的页。
8.3.5 电子报纸检索
随着信息高速公路的发展和互联网的普及,信息的储存和传递方式发生了革命性的变化。与印刷型报纸相比,网络报纸少了许多传递环节,它的“即时传送”更能体现“快”的特色,读者要了解当天的新闻信息变得更加容易。在网站上还可以非常方便地检索到数日、数月、乃至数年的报纸。最早出现在网上的电子报纸是美国的《纽约时报》、英国的《每日电讯报》、《泰晤士报》等几种报纸。到目前为止中文电子报纸多达700多种。
1. 电子报纸的概念
电子报纸是多媒体技术、网络技术和通信技术的产物,电子报纸是指将电子技术应用到报刊出版、发行、利用的全过程。包括报纸电子化、出版电子化、发行电子化和阅读电子化四方面:
1) 报纸电子化
报纸电子化即报纸的内容、形式、载体及存储方式电子化,把欲刊登的内容输进计算机,形成电子信息,其内容可以是文字、表格、彩色图像,甚至可以带有声音、动画等多媒体信息。
2) 出版电子化
出版电子化包括电子投稿、排版、编辑,利用电子传输和计算机信息处理技术将电子化的信息编辑、排版制作成完整的电子报纸。
3) 发行电子化
发行电子化是利用计算机网络传送电子报纸,速度快、节省时间和经费。读者可在任一时刻和地点实时接收电子报纸。
4) 阅读电子化
阅读电子化是读者直接利用计算机在线实时阅读、编辑、存储、检索,可选择报纸、栏目和文章,查阅背景材料,还可以利用媒体技术看到图文并茂的彩色动画或带有声音的报纸或参加读者评报和讨论。
2. 电子报纸的特点
1) 高度的快速实时性
时效性强,出版周期短,这是电子报纸最重要的特点,很多报纸是在线实时更新的, ·225·
·226· 现代信息检索
充分体现了电子化、网络化载体的快速性和及时性。
2) 传播范围广
对使用者和发行者而言电子报纸不受发行地域、政策、能力及时间等的限制,可在网上跨国界传播。
3) 经济性强
对出版发行者而言可节省印刷及发行成本等,因而费用低廉;对阅读者而言,他阅读电子报纸通常是免费的,所以也很经济实用。
4) 使用检索更加方便快捷
电子报纸的加工处理方便,表现形式丰富,读者可以方便地阅读、打印和复制;对过期电子报纸的获取和保存也较为容易。同时,电子报纸的交互性较强,可提供方便、灵活的信息检索,而且能接受读者信息反馈并与读者进行交流。
5) 信息容量大
一份印刷版报纸的版面总是有限的,而网络上的电子报纸就不存在“版面”不够的问题。网络报纸每天发布的信息量远远多于印刷版。
6) 个性化服务
电子报纸利用网络特点进行个性化信息服务,比如开设专门的论坛,提供强大的搜索引擎功能,帮助读者搜索自己感兴趣的站点,获取相关的“最新”信息等,这些都是电子报纸的特点。
3. 电子报纸的类型
1) 按报纸的内容划分
(1) 综合性报纸 北京日报、上海日报、光明日报等都是综合的地方性报纸。
(2) 专业性报纸 如计算机类、文学类、经济类、体育类、休闲类。
2) 按网络版与印刷版一致性划分
(1) 在因特网上有独立的网站,把纸质报刊的内容原封不动搬上网络,不提供其他的新闻和信息服务。最具代表性的是美国《纽约时报》网络版。
(2) 在因特网上有独立的网站,上网报纸在提供原有内容的同时,提供相关的新闻、信息和其他一些服务。在提供报纸网络版的内容时,也不是原样照搬,而是经过二次筛选、编辑,挑选精品文章上网,典型的如美国的《华尔街日报》、国内的《光明日报》、《中国青年报》、《科技日报》等。
(3) 在因特网上有独立的网站,报纸印刷版的内容在该网站中只是一个小小的组成部分,所占空间比例不高。更多的是提供包罗万象的信息服务,目标在于建成综合性的信息平台,如美国的《华盛顿邮报》、《波士顿环球报》,我国的《人民日报》、《电脑报》、《华声报》和台湾地区的《中时电子报》等。
(4) 众多报纸联合经营一个大型的新闻网站,但各报内容相对独立。典型代表是美国的“新世纪网络”(New Century Network)。它由美国9大传媒集团与其下属报刊、200多家出版社在1997年6月建立,曾经是美国最大的网上报纸枢纽站。再如我国的“中国体育信息网”、“四川省新闻信息中心”、“福建新闻中心”等都属于这种模式。
(5) 报纸独自或数家联合或与其他网络服务商联合经营专业性的信息服务网站。
·226 ·
第8章 Internet信息检索 ·227·
3) 按载体形式划分
(1) 网络版电子报纸 网络报大多是免费的,可供人们自由下载、阅览、传递。由于它具有即时传送功能,因而能保证信息最新、传递最快,并能供多人同时使用。
(2) 以光盘或硬盘等载体存储和发行的报纸 这类载体的报纸数据库多以某种或某类报纸的回溯数据为主,如《人民日报》光盘数据库(包括《人民日报》自1946年创刊以来的全部数据),《参考消息》数据库等。
(3) 便携式电子报纸 便携式电子报纸是一种全新的电子报纸,融合了报纸、计算机和网络的特点,表面上看与普通报纸没有两样,但它有一个微电脑在报纸的夹板内。
4. 电子报纸的发展趋势
近几年来,网络的发展使报业界的竞争越演越烈。各报社为提高自身的信息竞争能力,已纷纷建立自己的网络站点。每一种报纸的网络版,无论在信息的广泛性还是灵活性方面均远远超越了印刷版报纸。一些实力雄厚的报社还成立了网上报业集团,一个集团下不仅有自己的主报,还有若干种系列报。如人民日报社主办的《人民网》(http://www.people.com.cn )拥有:人民日报、海外版、华东新闻、华南新闻、京华时报、市场报、环球时报、环球时报·生命周刊、证券时报、健康时报、江南时报、国际金融报、中国汽车报、讽刺与幽默14种网络报。
目前,美国的传播学者正在与报界和企业界合作开发电子平板报纸。电子平板报纸的主要特点是:高清晰度、液晶显示的平板终端;与普通杂志的大小相当,便于携带;版面设计与传统报纸一致;在光笔或手指的控制下对报纸进行浏览、阅读、查阅等;用多媒体超链接形式组织和编排内容,阅读时可在文本、图像、声音和视频间进行自由切换。可通过类似于信用卡大小的记忆卡插入ATM机或已联网的电脑上,几秒钟内就可将当天某一家或某几家报纸的全部内容录入,同时买报的款项也自动支付。阅读时,只要将“记忆卡”插入平板报纸,一份全新的多媒体日报就会显示在屏幕上。
5. 网上报纸的检索
网上报纸是—种虚拟的资源,其检索途径有以下3种:
1) 利用网上报纸的索引及电子报纸目录或链接
利用国内权威的新闻网站的报刊导航。例如人民日报、光明日报网络版等。这些新闻站点均设有“报刊导航”栏目,较全面地汇集了国内已经上网的报刊名录。
2) 利用网上免费电子报纸网站
网上免费电子报纸网站有许多,重点介绍以下几种:
(1) 纽约时报 《纽约时报》(The New York Time)是美国最有影响的报纸之一,创办于1851年,至今已有150余年历史,内容包括全世界政治、经济、教育文化、军事、体育娱乐、科技文化等方面最新消息和相关的评论。“纽约时报”在线版的网址为http://www.nytimes.com。
(2) 华盛顿邮报 《华盛顿邮报》(The Washington Post)是美国最有影响的大报之一,和《纽约时报》一起并称为美国新闻类报纸的两大高峰,创办于1877年,网址为http://www.washingtonpost.com。
(3) 泰晤士报 《泰晤士报》(The TIMES)是英国最有影响的媒体之一,也是世界最著 ·227·
·228· 现代信息检索
名的报纸之一,其电子版的栏目设置和报纸完全一致,包括国内国际政治新闻、经济报道、评论、专题等,网址为http://www.thetimes.co.uk。
(4) 人民日报 《人民日报》电子版有多个版本,比较著名的是由北京大学图书馆与香港毅士达公司合作制作的“人民日报索引/全文图文检索系统”(1946-1995)和由新北成集团制作的“人民日报全文检索系统”(1946-2001),二者均收录了《人民日报》自创办以来的报纸全文。前一个版本制作得较早,其索引系统是基于Windows 3.1开发的,检索功能较为简单;其全文以图像扫描的方式完成,只能供阅读及打印,总体来说使用不很便利。后一个版本是基于文本制作的,可实现全文检索,可任意地复制、打印和下载等,使用很方便,但其在网络服务方面还存在一定的问题,所以并未形成广泛的影响。《人民日报》(网络版),网址为http://www.people.com.cn/GB/paper464。
其他中外文电子报纸的网站见附录。
3) 利用搜索引擎
常用搜索电子报纸的搜索引擎有:中文雅虎、搜狐、新浪、Goog1e等。
8.3.6 专利信息检索
随着Internet的发展,可通过Internet检索的专利数据库以及与专利有关的各种信息越来越丰富。本节着重介绍目前可以利用的免费专利资源。
1. 免费查询国外专利
1) 美国专利商标局的Web专利数据库
美国专利商标局 (The US Patent and Trademark Office,USPTO,http://patents.uspto.gov/)数据库包括授权专利数据库和申请专利数据库两部分。授权专利数据库收录了1790年7月31日至今的美国专利,提供1790年至今的全文图像说明书以及1976年至今的全文文本说明书,每周更新一次。数据库提供三种检索方法:两词布尔逻辑检索(quick search)、高级布尔逻辑检索(advanced search)、号码检索(number search),但1790—1976年的专利只能从专利号、美国专利分类号进行检索。美国专利全文数据库拥有31个检索字段,包括标题、文摘、分类号、专利号、申请人、发明人名称、申请日、公开日、专利代理人、专利审查员等字段,各字段之间均可进行逻辑运算检索。
2) 欧洲专利局esp@cenet网络数据库
欧洲专利局esp@cenet网络数据库(http://www.european-patent-office.org/espacenet/ info/access.htm)是欧洲专利局在1998年夏季与欧洲专利组织(European Patent Organization)以及欧洲委员会(European Commission)的成员国一起在Internet上推出的面向公众的免费专利服务,不仅提供欧洲专利的免费检索,而且可以检索世界上其他一些国家的专利信息。
esp@cenet网络数据库包括欧洲专利局数据库、世界知识产权组织数据库、欧洲成员国、日本专利英文文摘、世界范围专利文献。突出特点是可以通过优先权号检索同族专利。其中,欧洲专利局数据库提供最近24个月公布的欧洲专利申请公开说明书;欧洲专利组织各成员国数据库提供该国最近24个月公布的专利说明书;世界知识产权局数据库提供最近24个月公布的PCT专利申请公开说明书;世界范围专利数据库(worldwide)用英文文摘报道50个国家和地区的专利文献,并且可浏览20多个国家专利全文说明书;日本专利英文文·228 ·
第8章 Internet信息检索 ·229·
摘报道1976年10月以来的日本公开专利,以及自1980年以来公开专利的扉页。
esp@cent可以检索的字段包括专利(出版)号(Publication Number)、申请号(Application Number)、优先申请号(Priority Number)、出版日期(Publication Date)、申请人(Applicant)、发明人(Inventor)、国际专利分类号(IPC Classification)、标题(Title)、标题或摘要(Title or Abstract)。
3) 加拿大专利数据库
加拿大专利数据库(The Canadian Patent Database,http://patents1.ic.gc.ca/intro-e.html)由加拿大知识产权局 (The Canadian Intellectual Property Office,CIPO)创建。收录1920年以来的加拿大专利,包括专利的著录项目数据、专利的文本信息、专利的扫描图像。
4) 日本特许厅网站专利数据库
日本特许厅网站专利数据库(http://www.jpo.go.jp/)提供了自1993年以来日本专利的英文文摘,每两周更新一次,内容包括题录、图形和法律状态。
5) 世界知识产权组织网站数据库
世界知识产权组织网站(http://www.wipo.int/)由世界知识产权局提供,包括PCT电子公报、马德里申请商标数据库、JOPAL科学技术期刊数据库。其中,PCT电子公报可以检索1997年1月1日至今公布的PCT专利申请,JOPALl可以检索1981年至今的在世界范围内具有重要影响的科技期刊。
2. 中国专利数据库
中国在1980年成立国家专利局(现为国家知识产权局),1985年4月1日实施专利法,开始受理专利申请,同年9月开始出版我国的专利文献。近20年来,大量的专利文献已经汇成中国科技信息的资源宝库。
1) 国家知识产权局专利检索系统
国家知识产权局专利检索系统(http://www.sipo.gov.cn/sipo/zljs/default.htm)收录自1985年以来我国所有的专利文献。包括中国发明、实用新型、外观设计三种专利。时间范围包括自中国专利局接受专利申请的1985年4月1日起至今的所有专利公报、专利申请全文说明书、权利要求书及附图等,每周三更新数据。支持逻辑算符、通配符、截词检索等。检索功能强大,可通过分类号、申请(专利)号、公开(告)日、公开(告)号、申请(专利权)人、发明(设计)人、地址、名称、摘要、主分类号、申请日、颁证日、专利代理机构、代理人、优先权、国际公布等进行检索。1996年以后公开的专利,可再单击【显示全文图形】功能选项免费下载专利说明书全文。
国家知识产权局专利检索系统还带有国际专利分类表(IPC),可以利用该表进行快速检索,同时分类号和关键词还可互相对照进行查找,对于不熟悉IPC分类的用户来说是一个非常实用的工具。
2) 中国知识产权网专利检索
中国知识产权网专利检索系统(http://www.cnipr.com/)由知识产权出版社创建,专利检索系统收录1985年以来的全部专利文献(发明专利、实用新型专利、外观设计专利),包括专利说明书全文。数据每周更新一次。分表格检索和逻辑检索及IPC分类检索三种类型。表格检索设有分类号、申请(专利)号、公开(告)日、公开(告)号、申请(专利权)人、发明(设
·229·
·230· 现代信息检索
计)人、地址、名称、摘要、分类号、申请日、专利代理机构、代理人、全文检索、范畴分类、优先权、主权项17个检索选项,可以进行单字段检索、二次检索、过滤检索、同义词检索,也可以进行多个字段间组合检索。
3) 中国专利信息网
中国专利信息网(http://www.patent.com.cn)收集了1985年以来所有的发明专利和实用新型专利。可以进行简单检索、逻辑组配检索和菜单检索。检索结果可显示著录项、文摘,并可浏览专利全文。检索字段包括:申请号、申请日、公告日、国际专利分类号(IPC分类号)、优先权、国家代码、发明人、申请人、地址、发明名称(标题词,篇名词)、文摘、权利要求等。
4) “易信”中国专利文献数据库
“易信”专利数据库(http://www.exin.net/patent/search.jsp)检索系统包括全部专利文摘数据库和失效专利文摘数据库,用户每次可任选一个进行检索。全部专利文摘数据库和失效专利文摘数据库按国际专利分类法分成八个分部,用户可选择检索整个数据库或只在某一分部内进行检索。检索字段包括发明名称、文摘、申请人、发明人等,也可进行分类检索。
8.3.7 其他信息检索
在网上,还可以检索其他很多的信息,这里主要介绍标准信息和会议信息的检索方法。
1. 标准信息检索
INTERNET上有许多站点可检索标准信息。中国标准服务网(http://www.cssn.net.cn/index.jsp)可免费检索中国国家标准(GB)和国际标准化组织(ISO)数据库。机械工业标准服务网(http://www.jb.ac.cn)行业标准目录可免费检索中国国家标准目录(GB)和机械行业标准目录。美国国家标准协会网站(http://www.ansi.org/)可免费检索美国国家标准目录。
2. 会议信息检索
学术会议信息网(http://www.meeting.org.cn/index.asp)有国际会议、国内会议、会议报告、会议预报等栏目,按学科报道国内、国际学术会议的情况。
数字图书馆搜索引擎(http://219.137.192.229:8080/sp/public.jsp)可以检索会议论文。 另外,网上还有许多免费获取的资源,如教育培训类信息、软件与娱乐游戏类等。 复习思考题
1. 什么是Internet?
2. 什么是TCP/IP协议?
3. IP地址和DNS之间是一种什么关系?
4. 叙述WWW中URL的组成并举例说明。
5. 什么是语义网,有什么特点?
6. 电子邮件与普通信件相比具有哪些优点?
7. 主要用于文件信息查询和搜索的Internet服务有哪些?
8. BBS、Usenet和Blog各有什么特点?
9. 什么是电子商务?
·230 ·
第8章 Internet信息检索
10. 防火墙有哪些实现方式,各有什么优缺点?
11. 非对称密码体制有哪些优点?
12. 常见的搜索引擎有哪几类?它们主要的区别是什么?
13. 介绍一种搜索引擎的特点和用法。
14. 什么是OPAC?什么是联合目录?
15. 什么是网络电子期刊?如何检索Internet上免费电子期刊?
16. 简单介绍Internet上免费电子图书的检索方法。
17. 举例说明Internet上免费电子报刊的检索方法。 18. Internet上国内外常用免费专利数据库有哪些? ·231·
·231·