浅谈网络信息资源采集技术_朱华

01-14

国家图书馆学刊2004年第2期(总第48期)

浅谈网络信息资源采集技术

朱华

摘要介绍和探讨网络信息采集技术, 展望网络信息采集系统应用前景。图1。参考文献5。关键词网络信息收集网页采集网络数据挖掘网络信息采集系统分类号 TP393

随着计算机和互联网技术的迅猛发展, 使得图书馆文献资源建设的模式发生了巨大的变化。每天各种各样的多媒体数字化信息资源都在大量发布和使用, 与传统的印刷型文献相比, 数字化信息资源所占的比例正在不断增大, 收集各种数字化信息资源构成的虚拟馆藏将是现代图书馆提供信息服务的基础。

在各种数字化信息资源中, 由于网络信息资源具有信息量大、传播范围广、增速快、寿命短、格式及表达方式多样、来源广泛、内容庞杂且质量不一的特点, 因此难以收集完整。据统计, 目前全球共有近40亿公开网页, 中文信息资源的规模和数量也在日益增大, 全国现有网页总数已达1157亿个, 其中政府、新闻出版、大学等机构的网络信息资源相对较易收集, 但企业和个人等非官方的网络信息资源则难以收集。

网络信息的保存寿命通常只有几十天, 随着时间的推移, 大量的网络信息资源正在被湮没。应该看到中文网络信息资源也是中华文明的成果, 是中华数字文化遗产的一部分, 理应得到妥善保存和保护。为此, 国家图书馆积极开展了网络信息收集相关技术和标准的研究, 2003年初, 成立了网络信息资源整合科研小组, 其中针对表层网页信息开展了/网络信息资源收集和保存试验项目(Web

0, 试验项目是按照网站单元和网页单元对网络信息资源进行收集、整合和保存。本文仅对WICP 试验项目中涉及到的有关网络信息资源的采集技术进行初步探讨。1 网络信息资源收集和保存概述

网络信息资源是指通过计算机网络发布、传递和存储的各种文献信息资源的综合, 也称网络文献。

收集网络信息的最终目标是给广大读者提供网络信息资源服务, 整个过程经过网络信息收集、整合、保存和服务四个步骤, 其流程如图所示。

流程图

网络信息收集是基于网络信息采集系统自动完成的。网络信息采集系统首先按照用户指定的信息或主题, 调用各种搜索引擎进行网页搜索和数据挖掘, 将采集的信息经过滤等处理过程剔除无关信息, 从而完成网络收集0;

朱华:浅谈网络信息资源采集技术

重等处理过程剔除重复信息, 再根据不同类别或主题自动进行信息的分类, 从而完成网络信息的/整合0; 分类整合后的网络信息采用元数据方案进行编目, 并采用数据压缩、解压及数据传输技术实现本地化的海量数据存储, 从而完成网络信息的/保存0; 经过编目组织的网络信息正式发布后, 即可通过检索对读者实现网络信息资源的/服务0。

2 网络信息收集技术

网络信息采集系统是一个汇集了各种网络信息收集技术的计算机程序集成系统, 其中主要采用了网页采集、网络信息挖掘和网络信息过滤等技术。211 网页采集技术

网络信息的采集通常是借助各种搜索引擎来完成的, 一个普通商用搜索引擎由搜索器、索引器、检索器和用户接口等四部分构成。一般来说, 搜索器就是一个称为Robot 计算机程序的网络机器人, 它从某一初始页面或站点的URL 开始遍历互联网自动地发现网页信息, 当进入某个超文本页面时, 它利用HTML 语言的标记结构来搜索信息和获取指向其他超文本的URL 链接, 通过一定的算法选择下一个要访问的站点继而转向另一个站点继续搜集信息。索引器的功能是理解搜索器所搜索的数据信息, 从中抽取出索引项, 建立用于表示数据文档以及生成数据库的索引库。检索器的功能是根据用户的查询在索引库中快速检出数据文档, 依据相关度评价对检出的结果进行排序。用户接口的功能是输入用户的查询并显示检索器检出的查询结果。

从技术层面上来看, 网页采集技术与搜索引擎采用的技术有着很多相似之处。但是从服务目的和方式来看, 普通搜索引擎是面向所有互联网用户的, 它力图满足所有用户对各种网络信息的搜索需要。当用户在使用, 词, 然后搜索引擎在其索引数据库中检出相应内容并返回给用户所需内容的链接。而网页采集则是面向主题的, 它是为用户在一个领域内查找和积累信息并最终形成知识而建立的。网页采集系统是一个实时搜索系统, 在得到用户提出的主题和词表之后, 直接到互联网上进行搜索, 并将网上的信息资源抓取后全部返回给用户而不仅仅是链接。212 网络信息挖掘技术

互联网络上的信息极其庞大繁杂, 为满足用户快速、准确、全面获取信息的需求, 需要网络机器人Robot 将大量的采集信息按照不同的标准来进行分类和打包处理。由于人工智能(AI) 的研究尚未达到实用化水平, 机器人目前还无法实现网络信息的准确分类, 从而会造成检索结果的精度和有效性不足。

网络信息挖掘(Web Mining) 技术是数据挖掘技术在网络信息处理中的应用。它综合运用了人工智能、模式识别、神经网络等领域的各种技术, 通过用户个性化的信息需求, 根据目标特征信息在网络上或者信息库中进行有目的的信息搜寻, 并在大量训练样本的基础上, 得到数据对象间的内在特征, 以此为依据进行有目的的信息提取。根据挖掘的对象不同, 网络信息挖掘可以分为网络内容挖掘、网络结构挖掘和网络访问模式挖掘。

此外, 由于Robot 网络机器人只能采集Web 上的静态信息, 对于动态信息往往无能为力。而采用了网络信息挖掘技术的网页采集系统则具有采集动态网页的功能。它可以自动判别网页内容, 通过网站提供的查询接口对网络数据库中的信息进行遍历和分析整理, 提取相关信息导入信息库。213 网络信息过滤技术

评价网络信息采集系统性能的重要指标是采集率和精度。其中, 采集率反映的是网页查全率, 精度反映的是网页查准率。由于任何一个网络信息采集系统都不可能采全所, ,

系统的追求目标。

国家图书馆学刊2004年第2期(总第48期)

系统可以根据企业自己的需求, 自动地为企业收集相关情报, 并提出预警分析等。如此, 企业就可以对政府有关的政策导向和对手的动向了如指掌, 从而制定正确的企业运行战略, 并最终在竞争中取胜。

(3) 知识信息积累:对于任何提供信息服务的部门而言, 如何获取大量的信息都是一个相当棘手的问题。网络信息采集系统可以自动地进行网络信息资料的收集, 并对信息进行分类处理, 最终形成知识信息的积累。

(4)个性化信息采集:某些专业用户(如某个领域的科技人员等) 对信息的需求是非常特殊和专业的, 网络信息采集系统可以根据他们的个人兴趣为他们进行个性化专题的自动收集, 为他们提供其所在领域的最新信息。

总之, 网络信息采集系统作为网络信息收集工具有着很好的应用前景。

基于智能代理的网络信息过滤技术可以使用自动获得的领域模型和用户模型等知识进行信息搜集、索引及过滤等处理, 其中包括用户兴趣过滤和不良信息过滤等, 并自动地将用户感兴趣的、对用户有用的信息提供给用户。智能代理还具有不断学习、适应信息和用户兴趣动态变化的能力, 从而提供个性化的服务。

采用了基于智能代理网络信息过滤技术的网页采集系统应具备学习能力, 能够根据用户的使用情况更改系统设置以提高下一次搜索的精度。目前这种网页采集系统的使用还是一个较长期的过程, 它可以通过学习在长时间内不停地自动为用户抓取所关心的内容, 以保证用户能够得到及时和准确的网页信息。

3 网络信息采集系统的应用前景

网络信息采集系统具有广阔的应用前景, 可以广泛地用于以下方面:

(1) 数字图书馆建设:建设现代化数字图书馆的一个核心问题就是网络信息资源的收集和保存问题。在当今这个信息爆炸的时代, 如果不能实现网络信息资源的自动收集和保存, 那么建设数字图书馆就是一句空言。网络信息采集系统可以自动地收集网络信息资源, 并将其分门别类地存入各个主题数据库, 从而可以为构建学科门户网站打下基础。

(2)企业情报采集:信息化时代, 一个企业若要在高竞争中立足并在行业中取得优势地位, 离不开对政府部门的相关政策以及对竞争对手行动的跟踪与调查。网络信息采集

参考文献

1 陈力, 郝守真, 王志庚. 网络信息资源的整合.

http:P P webarchive. nlc. gov. cn P article. htm

2 侯震宇. 主题型搜索引擎的研究与实现. 中国科

学院硕士论文

3 李盛韬, 余智华. web 信息采集研究进展. 计算

机科学, 2003(2)

4 浙江天宇信息技术有限公司http:P P www. cgrs.

com. cn P index. asp(最后访问日期2004年1月26日)

5 清华同方光盘股份有限公司http:P P tnc. cnki. net P

production P producti on03. htm (最后访问日期2004年1月26日)

(朱华国家图书馆报刊资料部)

与《浅谈网络信息资源采集技术_朱华》相关的范文

09-19 如何做好自我介绍

如何做好自我介绍朱华在我的课堂上有讲到如何做自我介绍，有很多朋友在私下和我沟通有没有比较系统的方法。根据课程内容，略作整理，分享如下：一、自私是人的天性，从人的本能来说，每个人最关心的可能都是自己。也就是说，对方不会关心你是谁，而是关心你可以为他来带什么帮助或者利益。人的构成一样，无非是水、碳水化合物、维生素和脂肪等。不一样的人的角色。介绍的时候，重点是角色的介绍。角色是有功能的，角色也会 ...

09-03 农业局加强农业信息化建设意见

各省、自治区、直辖市及计划单列市农业（农牧、农林）、农机、畜牧、兽医、农垦、乡镇企业、渔业厅（委、局），新疆生产建设兵团农业局：　　为深入贯彻落实党的*届五中、六中全会及《中共中央国务院关于推进社会主义新农村建设的若干意见》和《*-2020年国家信息化发展战略》有关精神，搞好面向“三农”的信息服务，现就农业部门“*”期间进一步加强农业信息化建设以下意见：　　一、深化认识，把加强农业信息化建设作 ...

10-19 信息系统建设意见

　**省企业信用信息系统（以下简称信用系统）建设自20**年启动以来，二期工程已基本完成。目前有26个省级部门陆续向系统提供数据，130多万条信息进入系统数据库，网站点击率达103万人次，全天候无偿为社会公众提供查询服务。信用系统的建设和开通在引导企业诚信、促进经济发展、营造良好环境、建设诚信**诸方面发挥了积极作用。当前，系统建设仍面临数据覆盖面小、质量不高、更新不及时等突出问题，直接影响系统数 ...

10-19 企业信息系统建设意见

10-08 市物联网产业十二五发展规划

市物联网产业十二五发展规划按照市委、市政府关于“加快新兴产业发展，培育新的经济增长点”战略部署，为加快培育和发展我市物联网产业，特制定本规划。一、发展现状（一）国内外物联网产业发展态势。随着现代通信技术、计算机信息技术和传感技术的广泛应用，物联网相关产业得到了快速发展。国际电信联盟在20XX年度的互联网报告中，首先提出“物联网”概念并预言“无所不在的物联网通信时代即将到来”。美国把“宽带网 ...

06-05 信息化工作例会主持词

信息化工作例会主持词各位领导、同志们：大家上午好！现在开会。今天我们在昌平区召开第三季度全市社会建设领域信息化工作例会。首先，非常感谢昌平区委社会工委、昌平区社会办为此次例会的召开所做出的精心安排、提供的良好环境和热情周到的服务。参加会议的人员有各区县委社会工委、社会办的主管领导和工作人员以及市社会建设信息中心的全体同志，借此机会，向大家介绍一下信息中心的新同志，最近，信息中心新进了3名新同志 ...

08-29 ××区2014年计划生育优质服务工作计划

　　计划生育优质服务工作在过去的一年工作实践中，探索出了一条适合我区实际的路子，取得了一定经验，为继续巩固落实以“三进五送八服务”为主线的优质服务系统工程，我区将继续坚持立党为公、执政为民的本质要求，坚持权为民用、情为民为系、利为民所谋，顺应时代发展的要求、反映人民的意愿，不断实现好、维护好、发展好最广大人民群众的根本利益。为完成实施方案的总目标，争创全国先进县（区），就计划生育优质服务主要抓紧抓 ...

04-10 打造"诚信政府"实施方案

　　为深入贯彻县委、县政府关于建设“诚信XX”工作的意见精神，全面促进XX经济发展，进一步规范政府部门行为，提高政府信誉度，决定开展创建“诚信政府”活动。特制定本实施方案。　　一、指导思想　　以“三个代表”重要思想和党的十六大精神为指导，按照县委、县人民政府的总体要求，以发展为第一要务，围绕建设经济强县、现代文明县的奋斗目标，发挥地域优势，以诚信为核心，以繁荣县域经济为目的，提高行政效率，全力 ...

02-22 推荐全省街道社区劳动保障工作平台工作经验材料

强化社区平台功能发挥社区平台作用切实做好就业服务工作铁力市劳动和社会保障局铁力市下辖7个乡镇，25个社区，辖区内有4个林业局和1个国营农场，全市总人口38.6万人,其中城镇人口20万人。是一个城镇人口、社会劳动力较多的县级市。多年来，由于境内政企管理体制上的原因，劳动保障工作特别是就业工作缺乏基层工作平台，触角一直难以延伸下去，工作上严重地存在断层断档、交叉重叠而又管理不到位的问题。全国、全 ...

03-10 新学期学校网络电教中心工作部署

我实习的班级-高二(10)班新学期学校网络电教中心工作部署围绕学校20XX年学校工作重点，坚持科学发展观，充分发挥学校网络电教中心的技术指导和管理职能，强化服务意识、责任意识、发展意识，巩固我校教育信息化成果，不断完善信息化建设水平，大力推进教育现代化进程，科学、规范、高效抓管理，求真、务实、优质育人才，办优质教育。一、工作指导思想: 以提高我校数字化校园建设水平为中心，围绕建设数字化校园总目 ...

随机推荐

猜你喜欢

浅谈网络信息资源采集技术_朱华

·2014~2014学期总结

·关于开展"全面对标.夺旗争星"活动的实施方案

·2014三八妇女节祝福语,让幸福更幸福

·酒吧文化节系列活动策划方案

·烛之武退秦师测试

·引导大学生养成健康消费心理和行为

·农村离婚纠纷中财产分割问题的探讨

·论盖茨比"美国梦"的破灭

·那一抹微笑作文600字

·陆海鹏:稳健是投资的第一原则

·设计调查问卷应避免的问题

·"校园放歌"活动方案

·创建安全文明校园的倡议书

·转变机关作风心得体会

·我国的司法会计师及其行业管理

·业务经营情况通报

·乙酰乙酸乙酯的制备

·企业账户年检通知

·忠诚大于能力(值得一看)

·[智慧背囊]天使的翅膀