试论搜索引擎的发展趋势
●邓顺国
(华南师范大学经济与管理学院,广东 广州 510631)
试论搜索引擎的发展趋势
[关键词]互联网;搜索引擎;发展趋势 [摘 要]随着互联网的快速发展,搜索引
擎呈商业化、垄断化、集成化、智能化的发展趋势。同时也存在误检率高、检索词不规范等问题。 [中图分类号]G252.7;G354 [文献标识码]A
[文章编号]1005-8214(2003)05-0051-02 搜索引擎(searchengines)据需要提供信息,必经之路。,加,为了适应这种变化,搜索引擎形成了如下发展趋势:1 商业化1.1 搜索引擎商业化的必然性
目前各种各样的中西文搜索引擎有几十种或更多,比较著名的搜索引擎有Yahoo!、Excite、Infoseek、Lycos、Al2tavista、Sohu、Sina等。每个搜索引擎都有自己的特点,有的以查询速度快见长,有的以数据库容量大占优。
当前WWW搜索引擎之间的竞争愈演愈烈,要生存、要发展,就必须增强实力,开拓新的服务领域,提供个性化、全方位服务,这是WWW搜索引擎的一个发展目标。天网侧重于学术信息;中文雅虎资料丰富全面,可提供信息浏览、中文检索等服务;中经网信息导航(中经搜索)是一个在经济、法规等方面较完整系统的搜索引擎。为了吸引用户,增强生存能力,各种搜索引擎一直在向缩短响应时间、提高检准率、易用性等方向发展。但最重要的发展动向是商业化。一直以来,搜索引擎都是提供免费服务,随着互联网泡沫的出现,纳斯达克指数的狂跌,免费服务已不适应形势发展的需要。按照经济学原理,投入是为了获得利润。但是,人们在建立网站和提供服务时,忽略了这个基本原理,使得网站成了烧钱机器,网络服务成了烧钱游戏。于是,导致了2001年网络经济的危机,迫使人们不得不考虑经济效益问题。我国不少网站宣布不再提供免费EMAIL服务,取消免费电子邮箱。作为提供网络信息服务的搜索引擎,也不得不考虑经济效益问题。开发大型搜索引擎需要大量的人力、物力和财力,不是一般机构所能做到的,为了维持搜索引擎的经营就必须获得一定的经济效益。此外,为了提高检索效率,须提供更加个别化的服务,如桌面元搜索引擎,其特点就是结合客户端环境,为用户提供个性化的服务。但维持这样的搜索引擎就必须收费,否则,这样的服务将难以为继。百度搜索引擎在商业化方面开创了一条新路。1.2 收费服务项目
1.2.1 快速检索服务
如检索“劳动社会学”一词,百度搜索引擎的响应时间仅为0.168秒,提供了110个查询结果。查找“职业选择”找到相关网页约6,980篇,用时0.0011.,人们越来,如分数查询服务、录取名单。根据百度公司(www.baidu.com)的统计,列在前三位的关键词全都是分数查询。
现在许多大学都实行网上招生,学生及家长可通过网上查询录取名单,这种服务项目是非常受欢迎的。另外,彩票中奖查询、体育比赛竞猜等都深受广大用户欢迎,也非常容易实行有偿服务方式。1.2.3 竞价排名服务
这是由客户为自己的网页购买关键字排名,按点击计费的一种服务。您可以通过调整每次点击付费价格,控制自己在特定关键字搜索结果中的排名,还可以通过调整您的关键词捕捉到各类不同的目标访问者。
第10次中国互联网络发展状况调查统计报告显示,搜索引擎是用户得知新网站的最主要途径。
51.3%的中国互联网用户经常使用搜索引擎。
57.5%的中国互联网用户得知新网站的主要途径是使用搜索引擎。新网站建立后,并没有多少用户知道,因为互联网上的网站成千上万,而且每时每刻都不断有新网站问世。为了让用户了解网站就必须做广告,做广告既费钱效果也不一定好,而搜索引擎是推广网站的重要工具之一。
由于互联网上的检索一般总是检全率高于检准率,搜索引擎在多数情况下输出的结果都是成百上千的网页或网站,如果不是排在前面,就极有可能被漏检。所以,网站的排名必须在前20位,而且越靠前越好。
用户总是希望自己的网站或产品能在检出结果中排名靠前,于是,这里就蕴含了商机。百度公司敏锐地把握机会推出了竞价排名服务,目前,已有来自于不同领域的数千家企业和个人主页参与了竞价排名。1.2.4 网际专递(WEBExpress)服务
随着Internet的迅猛发展,网页数量快速增长,每个上网用户都希望提高网速,缩短响应时间。为此,我们一直在耗费巨资增加带宽和硬件投入,但收效甚微。百度WE网络缓存软件通过Web缓存实现了网络内容的本地存储,只需极少的一次性投资,无须增加任何带宽和专门硬件,即可将您的网络速度提高3倍以上,彻底解决WorldWideWait问题,极大地降低通信费用。同时,由于使用了百度WE网络缓存软件可减少网站所需服务器数量,极
・51・
大地降低主要带宽的占用,从而使所需费用大大降低。
使用百度WE网络缓存软件,将使访问响应时间大大缩短,即使在访问量达到峰值时也保持高速稳定的响应,因而会极大地提高了访问用户的满意度、信任度和依赖度,从而使用户迅速增加。1.2.5 收录审查费
对于有意在搜索引擎登录的网站,搜索引擎要进行严格的审查,审查收费是搜索引擎收费的一个项目。如雅虎对加入其目录的商业性网站只收200—300美元,以后就不再收费,而这些商业性的网站通过加入搜索引擎目录获得了巨大的访问量。
百度搜索引擎对登录的网站也进行审查,但不收费。无论是不收费还是少收费对搜索引擎来说都是不合理并且是不利于其发展的。应该采用年审制,每年审查一次,收费自然也是每年一次。而且,收费额应根据上一年的访问量来确定。1.2.6 访问点击收费
LookSmart从2002年5,改用点击收费法30000美元不等,[1]
付金形式实现的,100元以上的预付金,然后按照用户给每个关键字指定的价格,网民每点击一次您的网站链接,就从预付金中扣除一次费用,用完为止,预付金无上限。每次点击付费价格最低从人民币10分起,允许以分为单位加价,无上限,如果同一个关键字有多位用户竞价,则多条关键字查询信息按出价高低,由高到低排序。
除了百度搜索引擎外,Overture、LookSmart都高举收费大旗,发展搜索引擎营销市场。据估计,2002年的搜索引擎营销市场将达到10亿美元。2 垄断化
在经过了群雄纷争的“战国时代”后,中文搜索引擎逐渐趋向垄断化。
由于百度的产品及服务是针对不同企业及各机构网络化的基本需求而度身订做的,因而很受用户的欢迎。它的产品主要分为三类:一、基于全球互联网的中文网页检索。这条产品线主要服务于门户网站,客户包括Sina、Sohu、Tom.com、263在线、21CN、上海热线、广州视窗等;第二类产品是企业级的信息检索解决方案,即网事通系列软件,它包括网页检索、实时信息监控系统及数据库检索。目前百度网事通正服务于各个不同领域,包括电信企业,如广东电信、河北电信;金融企业,如中国人民银行、中国银行;传媒领域,如中央电视台、香港TVB、光明日报网;教育领域,如清华大学等;第三类产品是利用遍布在全国庞大的CDN网络提供的信息传递技术(即网站加速及网络缓存技术),它的使用者包括深圳商报、四川新闻网、中国基础教育网等。最近,人民日报网站也开始使用百度搜索引擎。目前,只剩下悠游还为少数中文网站如雅虎中文、网易等服务。百度搜索引擎成为了中国大陆中文网站服务的最主要的搜索引擎,其在中文搜索引擎中的霸主地位已呼之欲出。3 集成化・52・
随着互联网的飞速发展,网络信息资源呈爆炸性增
长。面对数以亿计的网页,任何一个搜索引擎都不可能100%地检索到所需的网上信息。为了提高检全率和检准率,就需要同时调用多个搜索引擎,于是就出现了元搜索引擎。
元搜索引擎(MetaSearchEngine)是一种基于搜索引擎的搜索引擎,当用户提出检索要求后,元搜索引擎负责转换处理后提交给多个独立的搜索引擎,并将所有的查询结果集中起来处理,然后按一定的格式输出。元搜索引擎的出现是方便用户,用户只需要提出一次检索要求,就可以获得多个独立搜索引擎的服务。国外已出现了多个知名的搜索引擎,如Mamma,Profusion就是老牌的搜索引擎。Yahoo、Google,以提
高检索效率,,。4.1 智能化的必要性
由于绝大多数用户都没有经过网上检索专业训练,他们提出的检索要求基本上是用的自然语言,而且不大注意关键词之间的逻辑关系,因而检索的结果往往难以令用户满意。所以,搜索引擎应提高智能化的程度,以提高检索效率。4.2 智能化的现状
现在,国内外多家研究公司都在积极地研制智能型搜索引擎。
据报道,由世纪讯联数码科技有限公司开发的互联网智能搜索引擎日前在京正式推出。据介绍,这种互联网搜索引擎运用了世界先进的基于自然语言处理技术,人们可以用自然语言提问。
大连尤利卡电子商务公司也推出了中文智能搜索引擎。在“尤里卡”网站(www.ulika.com),用户可以用最口语化的方式随便问关心的问题,而不必担心它“听”不懂而给一些不需要的答案。用户给出“中秋节”一词,智能型搜索引擎就能自动输出月饼资讯网和月饼公司等相关信息。用户给出孙中山一词,搜索引擎除了提供“孙中山先生”的文献外,还会提供“宋庆龄”的有关信息。搜索引擎在互联网领域是除了电子邮件以外,被上网者最为广泛使用的工具。
中文搜索引擎相对于英文技术难度更大,它的词间无间距,一些虚词也能组成实词。如“上”可以组成“上级”、“上午”等词,“上上下下”既可以表示方位也可以表示“全体成员”,这就使得建停用词表以帮助自动抽词的工作困难重重。智能型搜索引擎与传统的以关键字检索为基础的一般搜索引擎相比,它可以充分理解搜索者的意图,搜索结果更具有准确性、相关性和实用性,大大节省了搜索时间。同时,这一新的搜索引擎还具有学习功能,其技术可以跟踪并充分分析搜索者提过的所有问题,使以后同类问题得到更好的回答。4.3 存在的问题
(1)误检率高。如goyoyo的智能化检索,输入“我要查职业选择”,返回200个检索结果,其(下转第65页)
图书馆理论与实践图书馆・信息服务业与西部大开发2003(5)
●王舒玲
(固原图书馆,宁夏 固原 756000)
西部公共图书馆发展保障机制两题
[关键词]西部大开发;西部图书馆;公共
图书馆;发展保障;保障机制;图书馆政策;图书馆法;图书馆建筑与设备;图书馆经费 [摘 要]“保障机制”是当前制约我国西
部公共图书馆发展的“瓶颈”。打破这一“瓶颈”应注重从改善基础设施保障条件、建立“公共财政”主导框架下的经费来源机制两个主要方面入手。
[中图分类号]G259.274 [文献标识码]A
[]-8214)05-- 法》已进入送全国人大审定程序。这部图书馆的根本大法的送审稿开宗明义便阐述了制定图书馆法的根本精神和准则之一就是“保障和促进图书馆事业的发展”、“维护图书
[1]
馆和读者的合法权益”。在当前正酝酿展开的全国文化事业单位管理体制改革中,公共图书馆作为“公益性文化事业”的性质将得到进一步的明确,其发展的保障机制问题也将成为改革的重中之重。凡此,都深刻地昭示着“保障机制”这个长期制约西部公共图书馆发展的“瓶颈”有可能被打破。本文拟结合西部大开发的实际,从“硬件”保障的两个主导方面谈谈对建立西部公共图书馆发展保障机制的一些粗浅认识。
一、建筑与设备是目前西部公共图书馆发展保障机制的重
(上接第52页)中大多数是不符合检索要求的。最典型的检索例子是检索“孙中山先生”的有关文献。在输入“孙中山”一词后得出的检索结果有些是符合要求的,———介绍陈炯明的生平、著作,与孙中山、蒋介石的争论(这一检索结果提供的是相关信息)。而有些则是误检,———介绍广东省中山市文化动态,历史文化。还有一些是漏检,如用孙中山先生的别名如孙文、孙逸仙冠名的资料就没有提供。
(2)汉语语义的复杂性尚难解决。如一些贬义句通过中性句表现出来,智能化搜索引擎就无法判别,尤其语句中隐含的贬义更是智能化搜索引擎难以判断的。一些多义性的句子搜索引擎也难以判别。
(3)不完全支持布尔逻辑检索。如检索非广州的广告公司,输入检索式:广告公司—广告,结果在检出“北京天际广告公司”、“哈尔滨日月广告公司”等信息的同时,还输出了“广州市广告公司”、“广州铁路集团文化广告公司”等用户不需要的信息。
中之重,西部公共图书馆应抓住大开发中的政策倾斜,积极致力改善基础设施的保障条件
我国图书馆学家刘国钧先生在其著名的“图书馆要素说”中曾将“[2]
之一。,。
,由于西部社会经济,加之长期以来政府与社会对公共图书馆事,致使建筑与设备一直占据着制约西部公共图书馆事业健康、快速发展的“瓶颈”位置。如何尽快打破这一“瓶颈”,是目前摆在西部公共图书馆人面前的无可回避的突出的问题。
从一般的意义上讲,公共图书馆作为一种公共性、公益性文化事业,其投资的主体主要是国家和各级地方政府。而在这方面,由于长期以来图书馆尤其是公共图书馆的投入缺乏一个强有力的法治环境,人治因素较重,以致图书馆人常感到无能为力。但是,随着西部大开发向纵深发展,这种情形正在发生深刻的变化,它使我们有理由相信,打破这一“瓶颈”的有利时机(社会大环境)已经来临:
———早在西部大开发战略正式启动之前,中国的信息化战略已开始实施。其中,区域信息化就被确立为中国信息化建设的重要突破口。西部大开发战略启动、实施以来,无论是中央政府还是西部各地方政府都把信息化战略作为西部大开发战略的重中之重予以优先考虑。图书馆
(4)检索词没有规范化。如使用“互联网”一词与使用“因特网”一词进行检索,检索结果的相同率仅为5%。由此可见,如用户使用某一关键词进行检索而没使用同义词检索的话,漏检率之高是不言而喻的。所以,搜索引擎应建立电子对应词表,对自然语言进行自动处理,以提高检索效率。
[参考文献]
[1]搜索引擎开始高举收费大旗[N].广州日报,2002-05-21.
[2]李广建,黄 .元搜索引擎及主要技术[J].情报科
学,2002,(2):175-179.[作者简介]邓顺国(1956-),男,1996年获武汉大学情报学博士学位,现任华南师范大学经济与管理学院电子商务系系主任,副教授、硕士生导师,著有《2001年中国信息产业发展报告》等书,发文数十篇。
[收稿日期]2003-04-02 [责任编辑]于建文
・65・