专业文献检索实验报告
浙江工商大学计算机与信息工程学院
学期 上机实验报告 课程名称:专业文献检索 姓 名: 薛晶晶 学 号: 1012200205 指导教师:施寒潇 班 级: 商务1002 日 期: 2011-09-20
【一】实验内容及要求
实验名称:搜索引擎
实验目的:
熟悉不同搜索引擎,总结它们的功能差异。由于不同的搜索引擎面向的用户可能不同,有通用型、也有垂直型。通过分析不同类型的搜索引擎,了解它们的不同设计原理
实验内容:
1、 了解google.com, baidu.com等通用性搜索引擎的各功能模块,总结两者的优缺点(最好能结合其设计原理,如排名算法进行展开阐述)。
2、 了解不同的垂直搜索引擎的使用现状,特别面向商务应用的,列举两个进行阐述(如taobao.com,qunar.com等),主要总结它们的应用特色,以及功能设计上的特殊性和相
关关键技术。
【二】完成报告
1、答:
(1)百度搜索引擎(www.baidu.com)拥有目前世界上最大的中文搜索引擎,总量超过3亿页以上,并且还在保持快速的增长。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点,能够帮助广大网民快速的在浩如烟海的互联网信息中找到自己需要的信息,因此深受网民的喜爱。如,百度的图片检索可以找到各种各样的图片,可以说只要是中文互联网上存在的图片格式的信息,都可以搜到。百度还提供搜索flash的功能,在搜索框里输入
百度的基本功能模块:
网页搜索、图片搜索、音乐搜索、知道、百科、贴吧、新闻、词典、地图…… 特色:
——依靠海量的信息和全面的功能服务,百度目前已经成为访问量很大的中文搜索门户。
——如果无法打开某个搜索结果,或者打开速度特别慢,
——提供高级搜索语法搜索功能。
——提供错别字提醒、英汉互译词典、计算器和度量衡转换、拼音提示、股票与列车时刻表和飞机航班查询等功能。
百度的优点:
——对于中国人的阅读和浏览更为熟悉,服务更加本土化;
——提供RSS新闻订阅服务;
——提供历史和各省市新闻查阅。
百度的缺点:
——页面布局不合理 页面没有充分利用;
——更新时间迅速的优势没有充分发挥;
——商业味太重,你搜索的关键字的首页基本都价排名出价高的企业占据了,很难找到你需要的真正自然搜索的结果,百度的搜索排名技术不够权威;
——搜索结果中广告、垃圾网站和死链比较多。
关于百度的站点排名算法规则,则有以下相关问题:
——页面或者站点首页充斥了大量JS代码的站点内容予以适量降权;
——站点弹窗广告,对于这类站点做了适当的降权;
——参与了联属计划(广告联盟)站点进行了降权(注意:如果原创性内容丰富的页面不计算在内;
——加强了双向链接站点(友情链接)降权,这里主要包括3部分
A、牵连降权问题严重
B、双向链接过多(超过10-20以外的)予以降权
C、导出单向链接过多予以降权
(以上3点都是百度排名算法规则为了防止最近链接交易站点。请注意,对于行业门户和老站点问题不严重。)
——对各行业高度信用站点予以排名权重维持。大家会发现最近有一个问题,就是各行业的一些大牌站点,时间较老的大站点权重并未下降。处于维持状态,相对来说提升了;
——限制了新站的关键词排名,这一策略导致大量1-3个月的新站关键词排名浮动较大。
(2)Google(www.google.com) 的使命是整合全球范围的信息,使人人皆可访问并从中受益。完成该使命的第一步就是 Google 的创始人 Larry Page 和 Sergey Brin共同开发的全新的在线搜索引擎。Google 目前被公认为全球最大的搜索引擎,它提供了简单易用的免费服务,用户可以在瞬间返回相关的搜索结果。Google还有网页级别版本的开放目录,除了普通的搜索结果外,还可以显示来自自己新闻标题数据库、股票报价、计算器/货币兑换器和电话号码数据库。除此之外,它还提供几个专门的子搜索工具:面向.gov和.mil站点的政府数据库;大学搜索、Linux搜索和Apple/Macintosh搜索以及微软搜索。
Google的基本功能模块:
网页搜索、图片搜索、音乐搜索、地图、生活、翻译……
特色:
Google是最先提供以下这项功能的常规搜索引擎---网页被编入索引时就可以访问它们,它们被指定为
Google的优点:
——容量大和范围广:其数据库如今是最大的,包括了PDF、DOC、PS及其他许多文件类型;
——易用性较强;
——根据站点的链接数和权威性进行相关性排序;
——网页缓存归档,浏览过的网页被编入索引。
Google的缺点:
——搜索特性有限,没有嵌套搜索,没有截词搜索,不支持全部的布尔逻辑检索; ——链接搜索必须准确,而且不完整;
——只能把网页的前101KB和PDF的大约前120KB编入索引。 可能会在不告诉你的情况下,检索复数/单数、同义词和语法变体;
——死链率比较高,中文网站检索的更新频率不够高,不能及时淘汰过时的链接。
百度是中文搜索引擎的老大,谷歌则全球搜索引擎的龙头。所以看哪个搜索引擎的抓取关键字排名更重要些的话,就要看针对的区域来说。如果是国内市场,首选是百度;如果是全球市场,首选则是谷歌。