垂直搜索引擎发展概述
68
图书馆学研究2006.12
垂直搜索引擎发展概述
罗丽姗
【摘要】本文分析了垂直搜索引擎的产生,与水平搜索引擎的区别所在,数据来源,盈利模式以及发展方向。
垂直搜索
互联网
theformofverticalengines,their
search
engines,thedifferencebetweenvertical
methods
of
thei
r
【关键词】搜索引擎
Abstract:Thepaperanalysesengines
and
traditional
sea
searchtheir
rchdata
resources,the
payoff,and
developmentinfuture.Keywords:searchengine
verticalsearch
Internet
11.1
垂直搜索引擎的产生搜索引擎的现状
2006年7月,中国互联网络信息中心(CNNIC)
确,第三是信息量大”。但“搜索速度慢,死链接太多、重复信息或不相关信息较多”是目前网民对搜索引擎最不满意的地方l3|。
传统的搜索引擎多属于横向的水平型搜索,在现有的技术水平基础上,它在满足搜索信息量大的同时却难以兼顾搜索的准确度与相关度的质量。通用搜索引擎的价值在于做大量的信息导航,对于信息需求相对集中、分类更加详细的用户缺乏导向。
1.2
在北京发布《第十八次中国互联网络发展状况统计报
告》,调查结果显示,浏览新闻、搜索引擎、收发邮件
是网民经常使用的三大网络服务,三者的选择比例分别为浏览新闻66.3%,搜索引擎66.3%,收发邮件64.2%,这三大网络服务的选择比例领先其后的第二阵营20个百分点以上…。该中心2006年9月份发布了2006年中国搜索引擎市场调查报告,报告显示搜索引擎用户对搜索引擎的依赖性很高,每次上网都要用到多次搜索的比例达44.2%,接近一半心J。
搜索引擎服务能成为最受欢迎的服务是因为它解决了用户在浩瀚的互联网海量信息中快速定位信息的瓶颈问题。但是,互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页。数量增加带来的是搜索服务的火热。另一方面,也使传统的综合性搜索,如百度和Google的品质下降,搜索引擎在搜集网络信息上远赶不上网络信息的增长速度,同时查询的结果集是海量的,经常是几十万笔的资料,看上去很好,想找到合适的结果,却比较难,搜索结果里存在大量的重复信息和垃圾信息,用户很难在短时间内准确地筛选出需要的内容。
垂直搜索引擎的定义
垂直搜索引擎的产生正是有效地解决了以上通用
搜索引擎无法满足的市场需求,它们为用户提供的并不是上百甚至上千万相关网页,而是范围极为缩小、极具针对性的具体信息。
赛迪网的报告显示,面向某一领域的垂直类搜索引擎因其信息收录齐全与更新及时已得到六成左右网民的认可,他们认为该类搜索引擎对其非常或比较重要L引。
对垂直搜索引擎定义的表述有以下几种:(1)垂直搜索引擎,即专业化搜索引擎,就是专为查询某一学科或主题的信息而产生的查询工具,对解决实际查询问题要比搜索引擎门户有效得多_4j。(2)垂直搜索是针对某一个行业的,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。(3)相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是
国内领先的IT服务集成商——赛迪网(ccidnet.
corn),曾就搜索引擎使用习惯及JT搜索引擎市场前景进行了调查,其分析显示:网民在使用搜索引擎时,考虑的主要因素是“搜索速度快,其次是搜索信息准
万方数据
RESEARCHESINLIBRARYSCIENCE
69
“专、精、深”,且具有行业色彩,相比较通用搜索引特定行业用语进行提取,才能进一步提供更有价值的’
擎的海量信息无序化,垂直搜索引擎则显得更加专注、搜索服务。
具体和深入MJ。(4)垂直搜索,就是针对专业特定的2.3
精、准、全的全文索弓l和联合检索技术
领域或行业的内容进行专业和深入的分析挖掘,精细水平搜索引擎并不能提供精确和完整的检索结果,
分类,过滤筛选,信息定位更精准的专业搜索L6J。只是给出预估的数量和排在前面部分的结果信息,但(5)所谓专业搜索引擎就是以构筑某一专题或学科领响应速度是水平搜索引擎所追求的最重要因素;在文域的Internet网络信息资源库为目标,智能地在互联本索引方面,它也仅对部分网页中特定位置的文本而网上搜集符合这一专题或领域需要的信息资源,能够不是精确的网页正文全文进行索引,因而其最终检索为包括学科信息门户、专业信息机构、特定行业领域、结果是不完全的。
公司信息中心、行业专家等等在内的信息用户,提供垂直搜索由于在信息的专业性和使用价值方面有整套的网络信息资源开发方案L7j。
更高的要求,因此能够支持全文检索和精确检索,并2垂直搜索引擎与水平搜索引擎的区别【8儿9J
按需提供多种结果排序方式,比如按内容相关度排序国内最大的搜索引擎技术提供商,TRS公司(北(与水平检索的PageRank不同)或按时间、来源排京拓尔思信息技术有限公司)在公司网站上专题介绍序。另外,一些垂直搜索引擎还要求按需支持结构化了垂直搜索引擎,该公司认为由于垂直搜索引擎服务和非结构化数据联合检索,比如结合作者、内容、分具有其自身的特性,因此其技术要求特点上与一般互类进行组合检索等。
联网搜索引擎(水平搜索)有很多不同之处,通过和2.4
高度智能化的文本挖掘技术
水平搜索的比较,列举出了垂直搜索引擎的四大关键垂直搜索与水平搜索的最大区别是它对网页信息
技术。
进行了结构化信息抽取加工,也就是将网页的非结构
2.1
聚焦、实时和可管理的网页采集技术
化数据抽取成特定的结构化信息数据,好比网页搜索
一般互联网搜索面向全网信息,采集的范围广、是以网页为最小单位,基于视觉的网页块分析是以网数量大,但往往由于更新周期的要求,采集的深度或页块为最小单位,而垂直搜索是以结构化数据为最小说层级比较浅,采集动态网页优先级比较低,因而被单位。基于结构化数据和全文数据的结合,垂直搜索称为水平搜索,水平搜索以被动方式为主,搜索引擎才能为用户提供更加到位、更有价值的服务。整个结和被采集的网页没有约定的、标准的格式。而垂直搜构化信息提取贯穿从网页解析到网页加工处理的过程。索带有专业性或行业性的需求和目标,所以只对局部同时面对上述要求,垂直搜索还能够按需提供智能化来源的网页进行采集,采集的网页数量适中。但其要处理功能,比如自动分类、自动聚类、自动标引、自求采集的网页全面,必须达到更深的层级,采集动态动排重、文本挖掘等等。这部分是垂直搜索乃至信息网页的优先级也相对较高。在实际应用中,垂直搜索处理的前沿技术,虽然尚不够成熟,但有很大的发展的网页采集技术能够按需控制采集目标和范围、按需潜力和空间,并且目前在一些海量信息处理的场合已支持深度采集及按需支持复杂的动态网页采集,即采经能够起到很好的应用效果。
集技术要能达到更加聚焦、纵深和可管控的需求,并二者的区别也可用下表表示:
且网页信息更新周期也更短,获取信息更及时。垂直搜索采用被动和主动相结合的方式,通过主动方式,有效采集网页中标引的元数据,整合上下游网页资源或者商业数据库,提供更加准确的搜索服务。
2.2
从非结构化内容到结构化数据的网页解析技术水平搜索引擎仅能对网页的标题和正文进行解析
和提取,但不提供其时间、来源、作者及其他元数据的解析和提取。由于垂直搜索引擎服务的特殊性,往3垂直搜索引擎的数据来源和盈利模式往要求按需提供时间、来源、作者及其他元数据解析,3.1
垂直搜索的数据来源
包括对网页中特定内容的提取。比如:在论坛搜索、其一,来源于所处行业的相关站点,比如,找酒
生活服务、订票服务、求职服务、风险信用、竞争情店、旅游信息的搜索引擎“去哪儿”(WWW.qun—
报、行业供需、产品比较等特定垂直搜索服务中,要ar.com),他的数据主要来源于携程旅行网
求对于作者、主题、地区、机构名称、产品名称以及
(WWW.ctrip.oom)、e龙旅行网(VVVVW.el—
万
方数据
70
图
书馆学研究2006.12
ong.corn)和24一Hotel百洋酒店预订网(WVVVV.24一hotel.corn)等站点。可以是以开放接口方式让行业用户提供的资源,也可以是自行抓取行业用户的资源。
其二,来源于自身平台。可能很多人认为来源于自身平台的搜索只能称为站内搜索不应该定义成垂直搜索。事实上,当某一平台上的信息达到足够量大的时候如eBay、taobao,他们的搜索也成了垂直搜索,垂直搜索本身就是从行业站点提取出数据的【10J。
其三,传统媒体录入,如报纸、杂志、广播等。其四,普通用户发布的资源,例如注册用户登陆后发布的资源L】1j。3.2垂直搜索的盈利模式
(1)通过向个人提供免费搜索服务积聚人气和流量,从而间接向广告主提供媒体购买服务【12J。例如以即时的生活信息为检索对象的专业搜索引擎酷讯,其基于广告和竞价排名收费的方式与通用搜索完全相同。这类搜索服务面向的最终用户无直接付费需求,通过巨大访问流量衍生商业价值,具有媒体属性。比如博客搜索、工作搜索等等。
(2)返佣或与商家分成。例如万里旅行搜索网Gol0000这样的垂直搜索引擎,某一个客户通过
Gol0000搜索而在携程或者e龙等网站订了机票或者酒店,携程或e龙网站会将自己从酒店或者航空公司获得的一些佣金返给Gol0000,这就是返佣,返佣的比例往往带有竞价的性质。同等条件下,在用户搜索的结果中,返佣比例高的就会被排在前面。图书搜索、旅游搜索、购物搜索等可以和相关的产品提供商分成。国外的垂直搜索引擎已经实现了向行业门户收费,以旅行网站Expedia为例,当有旅行者通过Expedia搜索向美国航空公司(UA)订票的时候,依照二者的合作协议,前者将向后者收取一定的服务费,从几美元到几十美元不等。这项收入已经成为Expedia收入的重要部分。同样,一些图书类搜索引擎也与美国在线图书销售巨头合作,从亚马逊的图书销售中分成。由于这些专业图书搜索引擎能搜索具体到作者、书号、出版社、版次等更为精确的信息,因此将比Google更有优势。
(3)直接面向企业用户收取会员费的聚焦和封闭型盈利模式。例如全球著名商业信息服务商OneSource,整合了2500多个信息源,提供320万上市和私有公司的信息和数百个行业信息,为总资产2600亿美元的美国著名银行BankOne提供金融预警体系的垂直搜索服务。以往信用分析员需要花费数十小时,从数十个网站收集零散的信息分析,现在可能只
万
方数据需要几十分钟¨2|。国内的北京讯达恒通信息科技有限公司,为金融行业提供的一项千里眼经济情报预警系统也属此列。这类搜索服务的最终用户即客户,有具体的商业模式和清晰的价值链,通过应用或者服务直接产生盈利。
4垂直搜索引擎的发展方向4.1智能化
目前,从垂直搜索的应用情况看,大部分垂直搜索的结构化信息提取都是依靠手工、半手工的方式来完成的,面对互联网的海量信息,很难保证信息的实时性和有效性,对智能化的结构化信息提取技术的需求非常迫切。目前国内非结构化信息的智能提取技术取得了重大进展,在一些领域得到了有效应用,因此智能化成为了垂直搜索引擎的发展趋势l8|。
4.2
目录再分类
与早期的网址分类搜索引擎相似,但垂直搜索引
擎只选定了某一特定行业或某一主题进行目录的细化分类,结合机器抓取行业相关站点的信息提供专业化的搜索服务。这种专业化的分类目录(或称主题指南、列表浏览),很容易让用户迅速知道自己要找的是什么,并且按目录点击就能找到。
4.3
向深度挖掘型搜索发展
深度挖掘型垂直搜索引擎通过对元数据信息进行
深度NT,为用户提供网页搜索引擎无法做到的专业性、功能性、关联性,有的加入了用户信息管理以及信息发布互动功能,能很好地满足用户对专业性、准确性、功能性、个性化的需求。专业的元数据属性构造背后需要一个强大专业人士组成的团队。这些专业人士对该领域的元数据模型进行专业的分析、关联整合,再通过搜索技术按这些元数据模型把这些信息组织呈现给用户。
4.4
向搜索交易平台发展
垂直搜索引擎由于自身对行业的专注,使得它可
以提供行业信息深度和广度的整合以及更加细致周到的服务。对消费领域可以推出针对某一行业的搜索交易平台,比如美容搜索、餐饮搜索、购物搜索、机票旅游搜索。这种交易平台针对需要通过开展电子商务来获得更多顾客的商家。搜索交易平台让行业内商家和顾客直接沟通、咨询,不再需要转到第三方平台再进行交易。搜索交易平台有可能发展成ebay,taobao那样的购物平台110J。
可以预见,垂直搜索今后将会更加流行,同时对人们网络生活的方方面面也将产生更为深刻的影响。
(下转第55页)
RESEARCHESINLIBRARYSCIENCE
55
馆应当在了解和前期合作的基础上选取若干信誉好、业绩优良、服务优质的书商建立相对固定的长期合作关系,这有助于提升双方的信用度,牢固双方合作的基石。
5非零和合作博弈关系的启示
“一般情况下,集体利益最大化本身不是博弈的根本目标,人们在博弈中的行为准则是个体理性而不是集体理性”L_7|,但在非零和合作博弈中,个体利益和集体利益往往是重合的,个体理性和集体理性通常方向一致。因此,作为非零和合作博弈的双方,图书馆和书商应当同心同德,加强合作,互惠互利,采取适当的策略,巩固双方的非零和合作博弈关系。图书馆应树立起“培养书商”的理念,并将之与具体工作结合起来,而书商应当充分研究图书馆的需求,深入挖掘合作内容,开拓增值服务,实现双赢目标。
5.1
5.2深入挖掘合作内容,开拓增值服务,实现双赢
增值服务是书商向用户提供的专业服务,其内容不是一成不变的,很多增值服务后来往往发展成常规服务。比如书商提供采访数据、编目数据这一服务就由曾经的增值服务发展为现在的常规服务。图书馆和书商必须在持续不断的非零和博弈中探索新的合作方式和服务内容,开拓增值服务。比如杭州图书馆最近就在与书商的合作中开辟出一条新路:书商以最快速度将图书现货提供给图书馆,图书馆采编人员看样订购,马上进行编目加工,再将编目数据以一定的价格反馈给书商。这一方面提高了图书馆的购书速度,保证了订到率;另一方面也调动了图书馆采编人员的积极性,使图书能够尽快上架流通;同时又降低了书商的数据制作成本,保证了数据提供的及时性,实现了双赢目标。总之,图书馆与书商应当开动脑筋,总结经验,不断探索,将非零和关系中的潜能开发出来,创造出更多的“正面总和”。【8j
图书馆“培养书商”的理念
所谓“培养书商”,就是图书馆选取一些信誉好、
业绩优良、服务优质的书商,与之建立相对固定的长期合作关系,在合作中以较高的专业标准和要求培训、规范、约束对方,提升书商的专业水准和服务能力,进而为我所用,获得个性化的专业服务。具体而言,
注释
[1]白君礼,李志俊.文献信息资源共享的博弈分析.图书情报
工作,2003(8):35—38
就是图书馆与书商加强沟通,使书商熟悉图书馆的馆
藏要求(包括文献的选择和收藏标准;各类文献复本收藏原则;各专业、学科文献收藏比例),提高书目信息和采访数据的针对性和完备性;在编目数据的规范性、图书订到率和到货速度上充分发挥监督、指导的作用;通过培训、协调等方式,反复磨合,提升书商个性化服务的能力,而书商的个性化服务包括贴条码、盖馆藏章、规范化的图书分编、典藏、贴书标、上磁条等,几乎可以涵盖图书上架前的所有环节。近年来,图书馆“培养书商”的理念日益深入人心,成为众多图书馆采访人员的共识。
[2]孙励.反竞争情报的博弈论分析.情报理论与实践,2003
(5):435—437
[3](美)罗伯特・赖特.非零年代:人类命运的逻辑.上海:上
海人民出版社。2003:378—380
[4]蒋丽艳,蒋丽红.图书馆联盟有效实施的博弈分析.图书情
报知识,2004(3):80一82
[5]吴蜀红.图书发行市场的变化对图书馆的影响.图书馆学研
究,2005(1):63—65
[6]邢春艳.关于图书馆合作采购的博弈分析图书馆学刊,
2004(2):44—45
彭飞陆聆金陵图书馆。
(上接第70页)
注释
[1]http://www.cnniccnluploadfileslpdf/2006/7/19/1036—51.pdf,
2006—10一01
州:浙江大学计算机科学与技术学院,2005
[8]http://www.trs.com.cn/zhuanti/verticalsearch/t20060828
—5392.htm,2006一lO—Ol
[9]http://www.trs.com.cn/zhuanti/verticalsearch/t20060828
—5391.htm.2006—10一01
[2]http://www.cnniccn/download/2006/hotdatapdf,3006~10—ol[3]垂直搜索引擎市场看好.中国旅游报,2000—10—25(D03)[4]赵志荣.垂直网站与垂直搜索.中国信息导报,2000(11):
18—19
[10]张晓宁走近垂直搜索.电子商务世界,2006(2):102—
103
[11]http://vvww.360doc.com/showWeb/0/0/8866.aspx,2006—
10—Ol
[5]http://www.fullsearcher.corn/n20051112144420735.asp,2006
一10—0l
[12]李永胜垂直搜索:Google们漏掉的空挡?
报,2006—06—12(A2,2)
中国计算机
[6]垂直搜索:专业公司夹缝中求生存.经济参考报,2005—11
—21(020)
[7]孝周翔.专业搜索引擎的研究与设计:[硕士学位论文].杭
罗丽婀集美大学图书馆。
万方数据
垂直搜索引擎发展概述
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
罗丽姗, Luo Lishan集美大学图书馆
图书馆学研究
RESEARCHES IN LIBRARY SCIENCE2006(12)11次
参考文献(12条)1.查看详情 20062.查看详情 2006
3.垂直搜索引擎市场看好 2000
4.赵志荣 垂直网站与垂直搜索[期刊论文]-中国信息导报 2000(11)5.查看详情 2006
6.垂直搜索:专业公司夹缝中求生存 2005
7.寿周翔 专业搜索引擎的研究与设计[学位论文] 20058.查看详情 20069.查看详情 2006
10.张晓宁 走近垂直搜索[期刊论文]-电子商务世界 2006(02)11.查看详情 2006
12.李永胜 垂直搜索:Google们漏掉的空挡? 2006
本文读者也读过(3条)
1. 陈新颜 垂直搜索引擎辨析[期刊论文]-现代情报2004,24(9)2. 肖冬梅 垂直搜索引擎研究[期刊论文]-图书馆学研究2003(2)3. 程秀权.赵刚 互联网垂直搜索技术与发展趋势[会议论文]-2007
引证文献(12条)
1.牟思 基于垂直搜索引擎的学校网站的研究与建设[期刊论文]-中国教育技术装备 2011(21)2.方加沛.黄战 基于单类别文档分类的主题爬虫[期刊论文]-计算机工程与应用 2010(16)3.寇燕歌.江水.张巍巍 改进的对象级排序算法[期刊论文]-计算机工程 2009(17)
4.吴柏林.宋泽锋.杨炳儒 一种基于本体的垂直搜索引擎系统模型[期刊论文]-计算机工程与科学 2008(10)5.肖婷 垂直搜索引擎与旅游行业探讨[期刊论文]-农业网络信息 2009(11)
6.李航.叶飞跃.边利亚.于志安 校园网垂直搜索引擎方法研究与实现[期刊论文]-微计算机信息 2010(30)7.张美芳.张迎春 浅议垂直搜索引擎服务市场的商业模式[期刊论文]-现代商业 2010(6)8.郑凯明 垂直搜索引擎应用研究[期刊论文]-赤峰学院学报(自然科学版) 2011(2)9.孔祥春.李义杰.郑凯明 垂直搜索引擎应用研究[期刊论文]-计算机系统应用 2009(7)10.周彩兰.王鹏 基于空间向量模型的用户建模算法改进[期刊论文]-计算机与数字工程 2010(2)11.潘月姣.孟小军 财经信息专业搜索引擎的设计与实现[期刊论文]-情报探索 2008(12)
12.许鑫.黄仲清 垂直搜索引擎应用中的若干策略探讨——以12580餐饮垂直搜索为例[期刊论文]-现代图书情报技术 2009(2)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_tsgxyj200612020.aspx