三代搜索引擎的历史.现状和发展趋势研究
三代搜索引擎的历史、现状和发展趋势研究
新华云科
内容摘要 搜索引擎自上个世纪九十年代初问世以来,一直在不断地更新发展,本文以实现技术替代为依据,把搜索引擎的发展历史分为三代,分别对其历史、现状和发展趋势进行了阐述和研究,为搜索引擎应用的深度研发提供了切实的思路和目标。
关键词 搜索引擎 第一代搜索引擎 第二代搜索引擎 第三代搜索引擎
第一代搜索引擎
历史概述
1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(WWW)还没有问世,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为第一代搜索引擎的鼻祖
1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo!。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。Yahoo以后陆续有 Altavista、Inktomi、Google提供搜索引擎服务。Yahoo!几乎成为20世纪90年代的因特网的代名词。1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。
基本特征
第一代搜索引擎的特征是基于人工分类目录搜索。目录式搜索是以人工方式或半自动方式建立起来的目录导航,目录的用户界面是分级结构,首页提供了几个分类入口,把信息放在目录下,逐级向下查询,用它可以找到需要的信息。因为是手工输入,所以算不上是真正的搜索引擎,只是按目录分类链接而已。
应用缺陷
随着互联网的发展,人工编辑的分类目录已经不适应。其显著缺陷是完全依靠手工操作,需要人工按照分类一层一层填写,逐层进入才能找到,搜索速度非常慢,使用比较复杂。尽管现在仍有使用,但可以确定的是,依靠目录式搜索这种原始方式就将走到尽头,使用搜索引擎的时代已经到来。
发展趋势
信息分类是目录式搜索的发展趋势,它让互联网变的更普及更贴近、更方便人们的生活。人们日常在互联网上所看到的信息,往往是不管你愿不愿意,接受不接受它都会强加给你,人们称这类信息为被动信息;而人们主动去查询招聘、租房、旅游等方面的信息称它为主动信息。在信息社会逐步发展的今天,被动信息越来越引起人们的反感,而主动信息却受到人们的广泛青睐。几乎每个网站都少不了分类信息的身影,而且办得越好的网站,分类信息的篇幅往往越大。
第二代搜索引擎
历史概述
1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。
1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。
1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。
1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。
基本特征
第二代搜索引擎的主要特征是运用“符号计算”,基于关键(字)词搜索,以及以关键词组合为基础的全文搜索和模糊搜索。与第一代搜索引擎相比,基于关键词搜索的优势是使用方便,搜索速度快,直接搜索内容,是第一代搜索引擎无法比拟的。
应用缺陷
第二代搜索引擎的显著应用缺陷是返回的信息太多,信息过载。从理论上说,只要输入关键词就能够把与关键词匹配信息搜索出来,但是这又导致了它的缺陷:执行搜索以后返回的信息过多,相关和无关信息混杂在一起,必须从中逐一进行筛选,没有人能够筛选得完。你要一点水,它给你一条河甚至一片海,让人耗费的时间无法忍受。要减少信息过载,就需要输入多个关键词组合渐进式查询,让人感到使用不方便。
发展趋势
基于第二代搜索引擎存在的应用缺陷,用户无不期盼更快、更准、更方便的新一代搜索引擎的问世。这正是第二代搜索引擎技术研发的方向、目标和发展趋势,很多公司正在进行尝试。据腾讯科技2012年3月15日消息,谷歌拟采用语义搜索技术升级搜索引擎。谷歌的搜索结果网页将不再只显示一个链接列表,还将提供用户所输入的搜索关键字的直接答案。
尽管这是从理论上描述的,其应用价值还有待用户体验评判,还没有形成“关键词搜索”的替代技术,但可以确定的是,运用“语言计算”技术,基于自然语言搜索,智能返回搜索结果,是第二代搜索引擎发展的新趋势。
第三代搜索引擎
历史概述
1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND、 OR、 NOT等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。
基本特征
人们在日常工作和生活中的交流是使用自然语言而非关键词,因为关键词表达的意思和意图不完整不准确,反映在关键词搜索结果上的缺陷更是淋漓尽致。这就赋予第三代搜索引擎的主要特征是基于自然语言智能搜索,即从基于关键词层面搜索提升到基于自然语言和
人工智能的知识层面搜索,使搜索过程由原来的关键词匹配提升为内容概念相互关联的匹配,从而解决仅表达形式匹配所带来的种种缺陷,实现基于自然语言的智能搜索。
基本功能。
第三代搜索引擎的搜索方式是基于自然语言搜索,用户想要什么信息,它就快速准确搜出什么信息,用户不必再拘泥于关键词、标题、作者、时间、分类等传统搜索方法。
发展趋势
基于自然语言搜索的趋势。人们的日常交流是使用自然语言而非关键词,因为关键词表达的意思和意图不完整不准确,反映在关键词搜索结果上的缺陷是返回信息过多。基于自然语言搜索,符合人们的语言习惯,像人与人之间的交流一样轻松、直接、方便,不必再拘泥于分类、关键词等传统搜索方法,这无疑给用户提供了巨大的便利。
智能化返回搜索结果的趋势。第二代搜索引擎是基于关键词符号匹配信息,并不能处理关键词本身的语义,这就是基于关键词搜索存在一系列缺陷的原因。从这个层面上讲,第三代搜索引擎的发展趋势是,把搜索引擎技术和人工智能融合,让计算机返回的结果富有针对性,将准确信息显示在前两三项的搜索结果之中。让计算机具有人的智能和逻辑分析能力,能够理解自然语言表达的语义,使搜索结果与用户需求实现更精准的匹配,以解决问题的形式把结果返回给用户。