网络小爬虫(启示)

07-27

网络小爬虫（启示）

使用PHP 的内置函数下载文件：

PHP 有两个简单的内置函数，——fopen()和fgets(),用于从网络上下载文件。fopen()函数做两件事情：首先，它创建一个网络套接字，代表网络机器人和待检索的网络资源之间的一条连接，其次，它实现了HTTP 协议，这个协议定义了数据是如何传输的。这两个任务完成之后，fgets()利用计算机操作系统的网络能力从互联网上提取文件。

用fopen()和fgets()从网上下载文件：

Shell 中运行：

浏览器中运行的结果：

浏览器缓存是另一个在浏览器上运行网络机器人时会遇到的麻烦。在浏览网页的时候缓存是有用的，因为它让浏览器有能力等到收集到足够多的网页数据时才开始渲染并展示。然而，浏览器缓存对网络机器人来说是个麻烦，因为它通常会导致花更多的时间——比下载一个典型的网页要长得多。在延长的网络机器人的运行时间里，它所写的状态消息在浏览器进行缓存的时候可能不会显示出来。

用file()函数下载文件

fopen()和fgets()之外的另一个选择是file()函数，这个函数下载格式化的文件，并将内容放入一个数组。它与fopen()的差异包含两个重要方面：一个方面是，与fopen()不同，它不要求创建文件句柄，因为它做了所有的网络准备工作。另一个方面是，它以一个数组作为下载结果返回，下载文件中的每一行都是数组的一个元素。

使用LIB_http

LIB_http库提供了一个包装函数集，来简化复杂的PHP/CURL接口，其中的每一个接口都调用一个公共函数http()，此函数根据包装接口传递给它的值执行具体的任务，LIB_http中的所有函数都有一个共同的格式：传入一个目标URL 和一个上链URL ，返回一个数组，里面包含目标文件的内容、传输状态和错误信息

执行后输出，以包含网页标头、错误信息和状态信息的数组形式。

返回在$array[‘STATUS ’]里的信息对于了解抓取过程是如何进行的特别有用。包含在这个数组里的信息有下载速度、访问时间和文件大小，这对于编写诊断型的网络机器人来监控网站的性能都具有价值。

当一个内容类型行出现在HTTP 标头里面的时候，它定义了MIME ，也就是要从服务器上传输的文件内容的类型。该MIME 类型告诉网络代理如何处理这个文件。

from:Aaron

date:2014/4/17

To be continued

与《网络小爬虫(启示)》相关的范文

08-25 盐务局汇报交流材料

盐务局汇报交流材料抓盐政保障主营业务增长挖大案保持高压监管态势 xx市局在省局（总公司）的正确领导下，以全省盐政工作的总体思路为指导，紧密围绕省局盐政处工作部署，始终保持市场监管和盐政执法的高压态势，协同公安、工商、质检、药监等部门“联合作战”成绩可喜，全力以赴加强大要案的查处“破网追源”战果丰硕，假冒小包装案件主要嫌疑人被“擒拿刑拘”锁定追责，“白+黑”“5+2”密集检查市场占有率得以巩固守 ...

08-17 "国培计划"引领我专业成长

“国培计划”引领我专业成长 20XX年10月18日，随着“国培计划-山西省20XX年农村骨干教师教育技术与学科应用远程培训”的初中语文开班典礼，我的“国培计划”学习之旅开始了。在这50多天来紧张而丰富的学习中，我由最初对网络培训的笨拙到现在的熟练发帖上传作业，其间收获多多，启示多多。收获一：学习目标清晰明了的事先植入，让参培教师明确学习内容和进度，从而做好学习准备，做到心中有数。培训从学员实际 ...

10-14 关于建设社会主义新农村的几点启示

　　党的十六届五中全会提出了建设社会主义新农村的宏伟目标，这是在党的十六大提出统筹城乡经济社会发展原则和方略后，为实现全面建设小康社会目标做出的又一个重大决策。这对解决“三农”问题，推进现代化建设，构建和谐社会，实现全体人民的富裕安康，具有重大的战略意义和深远的历史意义。　　建设社会主义新农村的基本内涵是“五个建设”，即：新农村的经济、政治、文化、社会和以党为核心的基层组织建设；目标要求是：生产 ...

02-22 远程培训学习笔记:课程与教学理论发展的轨迹与启示

远程培训学习笔记：课程与教学理论发展的轨迹与启示科学化课程开发理论发展的里程碑（1-3-2）美国著名教育学家、课程理论专家、评价理论专家泰勒对科学化课程开发理论起里程碑作用。他所提出的泰勒原理被当作课程研究的范式。由于泰勒对教育评价理论、课程理论的卓越贡献，被誉为“现代评价理论之父”“现代课程理论之父”。 1934年，泰勒出版了《成绩测验的编制》，确立其评价原理；1949年，又出版了《课程与教 ...

01-29 课程总结

这门课是研一开设的与教育技术学理论最近的课程，也是本人认为最轻松活泼的一门理论课。关于课程总结本人从四个方面展开：系统反思、学习情况总结、论文情况总结、教师教学评价。由于个人行文水平有限，不当之处请海涵。一、系统反思：又到岁末，课程都陆陆续续结束，无外乎焦老师的《教育技术学基础理论研究》，经过一个学期的学习，老师可谓是煞费苦心地为我们传递新知识新事物，为我们介绍了不少的书籍，也在一开始就给我们 ...

07-31 参观华西村新农村建设学习体会

学习华西经验建设新型农村　　按照县委安排，4月6日至13日，以学习社会主义新农村建设经验为目的，我们带领全县县、乡新农村建设示范村的17名党支部书记到江苏省华西村进行了参观考察和学习培训。期间，实地参观了华西村高度发达的工业园区，集设施农业、高效农业、生态农业、观光农业于一体的农业园艺中心，设计精心、配套齐全、洋气十足的农民别墅，广纳世界各国微缩建筑的世界公园，外观别致、高高耸立的塔群；在可容纳 ...

08-13 县创办农村党员科技培训学校的实践与启示

加强农村党员科技培训建设一支保持先进性的农村党员队伍－－XX县创办农村党员科技培训学校的实践与启示　　全面建设小康社会，基础在农村，重点难点也在农村。在新的形势下，如何建设一支保持先进性的农村党员队伍，为实现全面建设小康社会提供强有力的组织保证，是农村基层组织建设的一个历史课题。从20XX年开始，广西XX县以创办农村党员科技培训学校为切入点，实施了农村党员“素质工程”,在建设一支保持先进性的 ...

03-06 企业中层管理干部军训感想

　　*日下午，我们第*期中层管理人员为期一周的军训生活由此拉开了序幕。“军训”二字对于我来讲并不陌生，但这次军训却与以往不同，意义深远。一周的时间很快过去，却留给我许多思绪和感慨。　　感慨一：从野外拓展训练得以启示。　　军训第一天，我们来到百花湖拓展训练基地。从“有轨电车”“巨人梯”“过电网”“信任背摔”“胜利墙”这些具体训练项目中，给了我很多的启示。所谓“有轨电车”，要求5个人一组，人的两只 ...

12-14 四年级语文下册第一单元计划

四年级语文下册第一单元计划一、单元简析　本组课文以“走遍千山万水”为主题。它虽然是选取有关山水景物的文章来组织单元，但实际上暗含着围绕学习描写景物的方法来编排，比如按照一定的顺序描写景物的方法。除此以外，还要了解排比句式并学习运用，体会优美语句表情达意的作用。这一组课文语言优美，易于朗读背诵，在诵读中体会山水景物之美。《古诗词三首》，《独坐敬亭山》、《望洞庭》、以及《忆江南》都是名家写大好河 ...

02-22 四年级语文下册第一单元计划

随机推荐

猜你喜欢

网络小爬虫(启示)

·春季学期少先队工作总结

·县长计划生育工作会议讲话

·2013年-2014年学年第一学期四年级美术教学工作总结

·暑期社会实践报告-人力资源

·最伤感句子

·韩语就业前景解析

·[案例分析]劳务损害赔偿纠纷

·结婚对联精选

·什么是体育技能

·周围神经损伤

·2014年大学生暑期"三下乡"实践心得

·美术阶段性小结

·2010-2011年第二学期二年级品德与生活教学计划

·学生比赛演讲稿:祖国在我心中

·民族团结进步心得

·信号平稳性检验新方法

·关于品格的英文

·学校铁路护路联防安全工作总结总结20110320

·死刑复核程序被告人应享有律师辩护权

·2016年礼宾部全年培训计划