网络爬虫的设计

03-30

网络爬虫的设计与实现

王　娟，吴金鹏

（）贵州民族学院计算机与信息工程学院，贵州贵阳５５００２５

摘　要：搜索引擎技术随着互联网的日益壮大而飞速发展。作为搜索引擎不可或缺的组成部分，网络爬虫的作用显

它的性能直接决定了在庞大的互联网上进行网页信息采集的质量。设计并实现了通用爬虫和限定爬得尤为重要，虫。

关键词：网络爬虫；通用爬虫；限定爬虫

（）中图分类号：ＴＰ３９３　　　　　文献标识码：Ａ　　　　　文章编号：１６７２７８００２０１２００４０１３６０２－－－

先爬虫就是从一系列的种子节点开始，把这些网页中的

０　引言

网络爬虫也称网络蜘蛛，它为搜索引擎从万维网上下载网页，并沿着网页的相关链接在Ｗ是一ｅｂ中采集资源，

也是搜索引擎的重要组个功能很强的网页自动抓取程序，

成部分，爬虫设计的好坏直接决定着整个搜索引擎的性能及扩展能力。

网络爬虫按照系统结构和实现技术，大致可以分为：通用网络爬虫、主题网络爬虫、增量式网络爬虫、深层网络爬虫。实际应用中通常是将几种爬虫技术相结合。

“子节点”提取出来，放到队列中依次进行抓取。被访问过过程如图２所示

。

的节点放入到另一张表中，

图１　通用爬虫工作流程　　　　图２　宽度优先爬虫过程　　　

１．３　爬虫队列设计

爬虫队列设计是网络爬虫的关键。因为爬虫队列要

１　通用爬虫的设计与实现

１．１　工作原理

所以依靠本地链表或者队列肯定是不存储大量的ＵＲＬ，够的，应当寻找一个性价比高的数据库来存放ＵＲＬ队列，ＢｅｒｋｅｌｅＤＢ是目前一种比较流行的内存数据库。根据爬ｙ　

虫的特点，Ｈａｓｈ表成为了一种比较好的选择。但是在使用Ｈａｓｈ存储ＵＲＬ字符串的时候常用ＭＤ５算法来对ＵＲＬ进行压缩。在实现了爬虫队列之后就要继续实现Ｖｉｓｉｔｅｄ表了。如何在大量的ＵＲ哪些是被访问过Ｌ中辨别哪些是新的、）。的呢？通常使用的技术就是布隆过滤器（ＢｌｏｏｍＦｉｌｔｅｒ　利用布隆过滤器判断一个元素是否在集合中是目前比较高效实用的方法。１．４　设计爬虫架构

通用网络爬虫根据预先设定的一个或若干初始种子以此获得初始网页上的ＵＲ在爬行过ＵＲＬ开始，Ｌ列表，

程中不断从ＵＲ进而访问并下Ｌ队列中获一个个的ＵＲＬ，载该页面。页面下载后页面解析器去掉页面上的ＨＴＭＬ标记后得到页面内容，将摘要、ＵＲＬ等信息保存到Ｗｅｂ数据库中，同时抽取当前页面上新的ＵＲ保存到ＵＲＬ，Ｌ队列，直到满足系统停止条件。其原理如图１所示。１．２　爬行策略

为提高工作效率，通用网络爬虫会采取一定的爬行策略优先爬取重要的网页。常用的有深度优先和宽度优先策略。宽度优先算法的设计和实现相对简单，可以覆盖尽可能多的网页，是使用最广泛的一种爬行策略。

一个爬虫如何利用宽度优先遍历来抓取网页呢？在爬虫中，每个链接对应一个ＨＴＭＬ页面或者其它文件，通

。整个宽度优常将ＨＴＭＬ页面上的超链接称为“子节点”

爬虫框架结构如图３所示

。

图３　爬虫结构

，，作者简介：王娟（女，湖南邵东人，硕士，贵州民族学院讲师，研究方向为数据挖掘、网络安全；吴金鹏（男，山西晋中１９８３－）１９８９－）

人，贵州民族学院本科生，研究方向为计算机科学与技术。

第４期　　　　　　　　　　　　　　　王　娟，吴金鹏：网络爬虫的设计与实现·１３７·

其中：ＬＦｒｏｎｔｉｅｒ含有爬虫当前准备抓取的①ＵＲ　根据给定的ＵＲＵＲＬ；ＮＳ解析模块用来解析域名（Ｌ②Ｄ

；决定从哪个Ｗｅｂ获取网页）③解析模块提取文本和网页的链接集合；④重复消除模块决定一个解析出来的链接是否已经在ＵＲＬＦｒｏｎｉｅｒ或者是否最近下载过。　

下面通过实验来比较一下我们设计的爬虫抓取网页见图４、图５

。

与原网页的对比，

ＩＰ地址：２１０．４０．１３２．８

贵州大学：

主机域名：ｗｗｗ．ｚｕ．ｅｄｕ．ｃｎｇ

２１０．４０．０．５８ＩＰ地址：根据ＵＲ就要根据ＩＬ得到ＩＰ地址之后，Ｐ地址对某一地区的ＩＰ作出限制。但是需要有一个ＩＰ与地区对应网上很多这样的数据库都是收费的，在此我们的数据库，

使用的是腾讯公司推出的一款免费数据库“ＱＱＷｒ．ｙ”，只要输入ＩＰ地址就可以查到对应ＩＰ地址所在的区ｄａｔ域。

　　图４　原网页　　　　　　　　图５　抓取网页

输入：２１０．４０．０．５８输出：

贵州省贵阳市：贵州大学输入：２１０．４０．１３２．８输出：

贵州省贵阳市：贵州民族学院

根据Ｉ将限制地区的ＩＰ地址制作一张列表，Ｐ地址写爬虫如果检测到要抓取的Ｉ就入列表，Ｐ地址属于该列表，放弃抓取，这样一个限定爬虫就完成了。

通过比较可以发现，由于原网页有动画等多媒体元素，虽然爬虫无法抓取下来全部内容，但基本上是一个完整的爬虫。

２　限定爬虫的设计与实现

限定爬虫就是对爬虫所爬取的主机的范围作一些限制。通常限定爬虫包含以下内容：①限定域名的爬虫；②限定爬取层数的爬虫；Ｐ的抓取；③限定Ｉ④限定语言的抓取。

限定域名的抓取，是一种最简单的限定抓取，只需要根据当前ＵＲＬ字符串的值来作出限定即可。

限定爬虫爬取的层次要比限定域名更复杂。限定ＩＰ是限定抓取中最难的一部分。通常分为限定特定ＩＰ和限定某一地区的Ｉ只要通过Ｐ。限定特定ＩＰ抓取较为容易，如果主机ＩＵＲＬ就可以获得主机ＩＰ地址，Ｐ在被限制的

列表中就不抓取。否则正常工作。

想要限定Ｉ首先要根据主机字符串获得ＩＰ抓取，Ｐ地址。下面我们通过实验来得到ＩＰ地址：

贵州民族学院：

主机域名：ｗｗｗ．ｚｎｃ．ｅｄｕ．ｃｎｇ

３　结束语

本文介绍了爬虫的工作原理，重点介绍了通用爬虫和并通过实验证明本文设计的爬虫限定爬虫的设计及实现，可以达到预期效果。

参考文献：

［］］何国辉，吴礼发．网络爬虫技术的研究［电脑知识与技１Ｊ．　孙立伟，

（）术，２０１０１５．

［］］于洪波．网络爬虫技术研究［东莞理工学院学报，２Ｊ．２０１１　于成龙，

（）３．

［］自己动手写搜索引擎［北京：电子工业出版社，３Ｍ］．２００９．　罗刚．［］］（）网络爬虫的设计与实现［电脑知识与技术，４Ｊ．２００９１１．　唐波．［］搜索引擎中网络爬虫的研究［武汉：武汉理工大学，５Ｄ］．２０１０．　龚勇．

（责任编辑：杜能钢）

ＴｈｅＤｅｓｉｎａｎｄＩｍｌｅｍｅｎｔａｔｉｏｎｏｆＷｅｂＣｒａｗｌｅｒ　　　　　　ｇｐ

：，ＡｂｓｔｒａｃｔＷｉｔｈｔｈｅｒｏｗｉｎｏｆＩｎｔｅｒｎｅｔｓｅａｒｃｈｅｎｉｎｅｔｅｃｈｎｏｌｏｄｅｖｅｌｏｓｒａｉｄｌ．Ａｓａｎｉｎｄｉｓｅｎｓａｂｌｅａｒｔｏｆｓｅａｒｃｈｅｎ　　　　　　　　　　　　－ｇｇｇｇｙｐｐｙｐｐ　　

，，ｉｎｅｗｅｂｃｒａｗｌｅｒｉｓａｒｔｉｃｕｌａｒｌｉｍｏｒｔａｎｔｉｔｓｅｒｆｏｒｍａｎｃｅｄｉｒｅｃｔｌｄｅｔｅｒｍｉｎｅｓｔｈｅｕａｌｉｔｏｆａｔｈｅｒｉｎｗｅｂａｅｉｎｆｏｒｍａ　　　　　　　　　－ｇｐｙｐｐｙｑｙｇｇｐｇ　　　　ｔｉｏｎｉｎｌａｒｅＩｎｔｅｒｎｅｔ．Ｔｈｉｓａｅｒｄｅｓｉｎｓａｎｄｉｍｌｅｍｅｎｔｓｅｎｅｒａｌｃｒａｗｌｅｒａｎｄｌｉｍｉｔａｔｉｖｅｃｒａｗｌｅｒ．　　　　　　　　　　　　ｇｐｐｇｐｇ

：Ｗ；；ＫｅＷｏｒｄｓｅｂＣｒａｗｌｅｒＧｅｎｅｒａｌＣｒａｗｌｅｒＬｉｍｉｔａｔｉｖｅＣｒａｗｌｅｒ　　　ｙ　

与《网络爬虫的设计》相关的范文

08-25 盐务局汇报交流材料

盐务局汇报交流材料抓盐政保障主营业务增长挖大案保持高压监管态势 xx市局在省局（总公司）的正确领导下，以全省盐政工作的总体思路为指导，紧密围绕省局盐政处工作部署，始终保持市场监管和盐政执法的高压态势，协同公安、工商、质检、药监等部门“联合作战”成绩可喜，全力以赴加强大要案的查处“破网追源”战果丰硕，假冒小包装案件主要嫌疑人被“擒拿刑拘”锁定追责，“白+黑”“5+2”密集检查市场占有率得以巩固守 ...

12-19 小区物业管理的总结

小区物业管理的总结 200x年，在***公司和***公司xxxxxx的正确领导下，我处认真对照年初签定的目标责任书，结合小区实际，扎实工作，勤奋敬业，协调各方，周到服务，完成了年度各项工作和既定目标，具体情况如下：一、自身建设质量提高一年来，我处强化了内部管理，从基本制度建设、员工队伍建设和服务质量建设入手，从严要求，正规管理，在提高自身建设质量上狠下功夫。（一）规范行为。管理处员工统一着装、 ...

03-20 第七章高考试题类编正确使用词语(成语)

［第七章高考试题类编］1990－20XX年 ·正确使用词语（成语） 1、（1992年）下列句子中成语使用不恰当的一句是 A、翘首西望，海面托着的就是披着银发的苍山。苍山如屏，洱海如镜，真是巧夺天工。 B、虽然没有名角亲自传授指点，但他长年在戏园子里做事，耳濡目染，各种戏路子都熟悉了。 c、每当夜幕降临，饭店里灯红酒绿，热闹非常。 D、高县长说：“全县就你一个人当上了全国劳模，无论怎么说也是凤毛麟角 ...

02-19 有关毕业设计工作要求

一、毕业设计的目的 ·总结：对在学期间所学知识的检验与总结 ·培养：培养和提高独立分析问题和解决问题的能力 ·训练：使学生受到科学研究、工程设计和撰写技术报告的基本训练二、毕业设计的选题要求 ·究结合生产、科研及技术设备的革新、改造等 ·先进性 ·实用性三、题目类型及基本要求 ·论证性题目论文意义论点论据具体论证结论及应用 ·设计性题目设计内容设计依据具体设计方案及设计步骤设 ...

07-07 网站策划及网站设计白皮书

　　网络的发展与成熟使网络与其使用者之间的互动、互利关系日趋明朗，这使其对界面设计的需求也不断深入化、专业化。目前，国内大多数网站的设计水准仍然停留在为网站做一张好看的“皮”上面，这种观念已经不能适应网络与使用者之间频繁接触带给用户的心理感知，而elong拥有一支中国一流的设计团队，超前的设计意识和良好的服务精神，使其在用户和客户间拥有了较高的满意度。　　一、网站页面风格策划　　网站的页面呈现 ...

07-14 网络工程师职业规划

网络工程师职业规划　　a.路由器、交换机方向网络工程师　　第一阶段第二阶段第三阶段第四阶段　　万丈高楼平地起，基础知识还是蛮重要的本基的路由交换知识的了解以及配置方法　　时间久了，免不了出故障，排除故障也很重要发展到cTo级别就要考虑网络的整体部署了　　?TcP/IP协议专题　?子网掩码教程?路由协议专题　?路由器技术指南　?交换机典型配置　?访问控制列表介绍·路由故障处理手册·交换机故 ...

05-14 计算机维护工程师优秀党员事迹

计算机维护工程师优秀党员事迹有这样一群可爱的人，他们习惯于被人称为80后、90后，他们怀揣着对社会的责任感，坚守在平凡的工作岗位上，一年365天，他们毫无怨言，他们无疑是新时期最可爱的人，今天，我们要认识的，正是他们中杰出的一员-方xx。方xx是x市建筑设计院的一名计算机维护工程师，也是设计院最年轻的职工，20XX年毕业于x市x理工大学的他，拥有着80后的沉着稳重和90后的豪情壮志，参加工作一 ...

10-17 浙江传媒学院文史.理工类招生计划

二、文史、理工类专业录取办法我校文史类、理工类专业录取按国家有关文史类、理工类专业录取的规定办理。具体细则： 1、学校调档比例一般按1：1.1。进档考生以高考总分为主要依据，综合考查德智体状况和相关单科成绩进行录取。 2、按照考生报考学校志愿先后录取。即先录取院校第一志愿的考生，若第一志愿不满时，再录取院校第二志愿考生；实行平行志愿投档的省份按各省考试院的相关规定执行。 3、学校录取专业时设一定 ...

02-01 猜灯谜项目规划书

猜灯谜项目规划书目录一、猜灯谜网站项目实施可行性报告-------2 1、电子商务与相关行业市场分析 2、竞争对手网站分析 3、公司自身条件分析二、猜灯谜网站建设定位及目标 -------5 1、猜灯谜网站建设定位 2、猜灯谜网站建设目标三、猜灯谜网站内容总策划书 -------6 1、网站内容规划 2、网站设计与测试规范 3、网站建设日程表四、猜灯谜网站技术解决方案 ...

02-09 百博迎亚运活动方案

百博迎亚运 -网络探究学习科技实践活动方案广州市黄埔区沧联小学博客俱乐部一、实践活动内容分析网络为学生提供了取之不尽、用之不竭的信息资源。然而，由于小学生受到自身的年龄特征、知识基础、生活经验等认知能力的限制，对信息资源缺乏分析判断能力，教师无法掌握与调控学生的网络学习以及忽略了学生实践体验和思考探究的过程，网络虚拟环境无法满足师生情感的交流，网络学习的评价机制不够健全。为此，本科技实践活 ...

随机推荐

猜你喜欢

网络爬虫的设计

·2014年度医院医务科工作总结暨2014年工作思路

·县财政局廉政谈话制度

·幼儿园六一幼儿才艺大赛主持稿

·水利系统职工篮球赛开幕词

·销售人员求职时的干练自我评价

·信用社员工爱岗敬业演讲稿

·几种糖的不同疗效

·收入证明-银行

·甘油配白醋美白法

·营改增纳税申报指引(二十五):人力资源外包

·三万活动第一阶段工作小结

·客检实习总结

·2009小学德育工作总结

·一年级上册认识立体图形

·水泥楼地面施工工艺

·学生乘车安全责任书(1)

·经皮冠状动脉介入治疗操作规范

·中国水果市场消费需求现状及未来第三代水果行业发展潜力

·倡导契约精神,需要弘扬什么?

·这是场战争,关于乔布斯到底是谁的

网络爬虫的设计

与《网络爬虫的设计》相关的范文

·2014年度医院医务科工作总结暨2014年工作思路

·县财政局廉政谈话制度

·幼儿园六一幼儿才艺大赛主持稿

·水利系统职工篮球赛开幕词

·销售人员求职时的干练自我评价

·信用社员工爱岗敬业演讲稿

·几种糖的不同疗效

·收入证明-银行

·甘油配白醋美白法

·营改增纳税申报指引(二十五):人力资源外包

·三万活动第一阶段工作小结

·客检实习总结

·2009小学德育工作总结

·一年级上册 认识立体图形

·水泥楼地面施工工艺

·学生乘车安全责任书(1)

·经皮冠状动脉介入治疗操作规范

·中国水果市场消费需求现状及未来第三代水果行业发展潜力

·倡导契约精神,需要弘扬什么?

·这是场战争,关于乔布斯到底是谁的

·一年级上册认识立体图形