浅谈网络信息资源采集技术_朱华
38
国家图书馆学刊2004年第2期(总第48期)
浅谈网络信息资源采集技术
朱 华
摘 要 介绍和探讨网络信息采集技术, 展望网络信息采集系统应用前景。图1。参考文献5。关键词 网络信息收集 网页采集 网络数据挖掘 网络信息采集系统分类号 TP393
随着计算机和互联网技术的迅猛发展, 使得图书馆文献资源建设的模式发生了巨大的变化。每天各种各样的多媒体数字化信息资源都在大量发布和使用, 与传统的印刷型文献相比, 数字化信息资源所占的比例正在不断增大, 收集各种数字化信息资源构成的虚拟馆藏将是现代图书馆提供信息服务的基础。
在各种数字化信息资源中, 由于网络信息资源具有信息量大、传播范围广、增速快、寿命短、格式及表达方式多样、来源广泛、内容庞杂且质量不一的特点, 因此难以收集完整。据统计, 目前全球共有近40亿公开网页, 中文信息资源的规模和数量也在日益增大, 全国现有网页总数已达1157亿个, 其中政府、新闻出版、大学等机构的网络信息资源相对较易收集, 但企业和个人等非官方的网络信息资源则难以收集。
网络信息的保存寿命通常只有几十天, 随着时间的推移, 大量的网络信息资源正在被湮没。应该看到中文网络信息资源也是中华文明的成果, 是中华数字文化遗产的一部分, 理应得到妥善保存和保护。为此, 国家图书馆积极开展了网络信息收集相关技术和标准的研究, 2003年初, 成立了网络信息资源整合科研小组, 其中针对表层网页信息开展了/网络信息资源收集和保存试验项目(Web
0, 试验项目是按照网站单元和网页单元对网络信息资源进行收集、整合和保存。本文仅对WICP 试验项目中涉及到的有关网络信息资源的采集技术进行初步探讨。1 网络信息资源收集和保存概述
网络信息资源是指通过计算机网络发布、传递和存储的各种文献信息资源的综合, 也称网络文献。
收集网络信息的最终目标是给广大读者提供网络信息资源服务, 整个过程经过网络信息收集、整合、保存和服务四个步骤, 其流程如图所示。
流程图
网络信息收集是基于网络信息采集系统自动完成的。网络信息采集系统首先按照用户指定的信息或主题, 调用各种搜索引擎进行网页搜索和数据挖掘, 将采集的信息经过滤等处理过程剔除无关信息, 从而完成网络收集0;
朱 华:浅谈网络信息资源采集技术
39
重等处理过程剔除重复信息, 再根据不同类别或主题自动进行信息的分类, 从而完成网络信息的/整合0; 分类整合后的网络信息采用元数据方案进行编目, 并采用数据压缩、解压及数据传输技术实现本地化的海量数据存储, 从而完成网络信息的/保存0; 经过编目组织的网络信息正式发布后, 即可通过检索对读者实现网络信息资源的/服务0。
2 网络信息收集技术
网络信息采集系统是一个汇集了各种网络信息收集技术的计算机程序集成系统, 其中主要采用了网页采集、网络信息挖掘和网络信息过滤等技术。211 网页采集技术
网络信息的采集通常是借助各种搜索引擎来完成的, 一个普通商用搜索引擎由搜索器、索引器、检索器和用户接口等四部分构成。一般来说, 搜索器就是一个称为Robot 计算机程序的网络机器人, 它从某一初始页面或站点的URL 开始遍历互联网自动地发现网页信息, 当进入某个超文本页面时, 它利用HTML 语言的标记结构来搜索信息和获取指向其他超文本的URL 链接, 通过一定的算法选择下一个要访问的站点继而转向另一个站点继续搜集信息。索引器的功能是理解搜索器所搜索的数据信息, 从中抽取出索引项, 建立用于表示数据文档以及生成数据库的索引库。检索器的功能是根据用户的查询在索引库中快速检出数据文档, 依据相关度评价对检出的结果进行排序。用户接口的功能是输入用户的查询并显示检索器检出的查询结果。
从技术层面上来看, 网页采集技术与搜索引擎采用的技术有着很多相似之处。但是从服务目的和方式来看, 普通搜索引擎是面向所有互联网用户的, 它力图满足所有用户对各种网络信息的搜索需要。当用户在使用, 词, 然后搜索引擎在其索引数据库中检出相应内容并返回给用户所需内容的链接。而网页采集则是面向主题的, 它是为用户在一个领域内查找和积累信息并最终形成知识而建立的。网页采集系统是一个实时搜索系统, 在得到用户提出的主题和词表之后, 直接到互联网上进行搜索, 并将网上的信息资源抓取后全部返回给用户而不仅仅是链接。212 网络信息挖掘技术
互联网络上的信息极其庞大繁杂, 为满足用户快速、准确、全面获取信息的需求, 需要网络机器人Robot 将大量的采集信息按照不同的标准来进行分类和打包处理。由于人工智能(AI) 的研究尚未达到实用化水平, 机器人目前还无法实现网络信息的准确分类, 从而会造成检索结果的精度和有效性不足。
网络信息挖掘(Web Mining) 技术是数据挖掘技术在网络信息处理中的应用。它综合运用了人工智能、模式识别、神经网络等领域的各种技术, 通过用户个性化的信息需求, 根据目标特征信息在网络上或者信息库中进行有目的的信息搜寻, 并在大量训练样本的基础上, 得到数据对象间的内在特征, 以此为依据进行有目的的信息提取。根据挖掘的对象不同, 网络信息挖掘可以分为网络内容挖掘、网络结构挖掘和网络访问模式挖掘。
此外, 由于Robot 网络机器人只能采集Web 上的静态信息, 对于动态信息往往无能为力。而采用了网络信息挖掘技术的网页采集系统则具有采集动态网页的功能。它可以自动判别网页内容, 通过网站提供的查询接口对网络数据库中的信息进行遍历和分析整理, 提取相关信息导入信息库。213 网络信息过滤技术
评价网络信息采集系统性能的重要指标是采集率和精度。其中, 采集率反映的是网页查全率, 精度反映的是网页查准率。由于任何一个网络信息采集系统都不可能采全所, ,
40
系统的追求目标。
国家图书馆学刊2004年第2期(总第48期)
系统可以根据企业自己的需求, 自动地为企业收集相关情报, 并提出预警分析等。如此, 企业就可以对政府有关的政策导向和对手的动向了如指掌, 从而制定正确的企业运行战略, 并最终在竞争中取胜。
(3) 知识信息积累:对于任何提供信息服务的部门而言, 如何获取大量的信息都是一个相当棘手的问题。网络信息采集系统可以自动地进行网络信息资料的收集, 并对信息进行分类处理, 最终形成知识信息的积累。
(4)个性化信息采集:某些专业用户(如某个领域的科技人员等) 对信息的需求是非常特殊和专业的, 网络信息采集系统可以根据他们的个人兴趣为他们进行个性化专题的自动收集, 为他们提供其所在领域的最新信息。
总之, 网络信息采集系统作为网络信息收集工具有着很好的应用前景。
基于智能代理的网络信息过滤技术可以使用自动获得的领域模型和用户模型等知识进行信息搜集、索引及过滤等处理, 其中包括用户兴趣过滤和不良信息过滤等, 并自动地将用户感兴趣的、对用户有用的信息提供给用户。智能代理还具有不断学习、适应信息和用户兴趣动态变化的能力, 从而提供个性化的服务。
采用了基于智能代理网络信息过滤技术的网页采集系统应具备学习能力, 能够根据用户的使用情况更改系统设置以提高下一次搜索的精度。目前这种网页采集系统的使用还是一个较长期的过程, 它可以通过学习在长时间内不停地自动为用户抓取所关心的内容, 以保证用户能够得到及时和准确的网页信息。
3 网络信息采集系统的应用前景
网络信息采集系统具有广阔的应用前景, 可以广泛地用于以下方面:
(1) 数字图书馆建设:建设现代化数字图书馆的一个核心问题就是网络信息资源的收集和保存问题。在当今这个信息爆炸的时代, 如果不能实现网络信息资源的自动收集和保存, 那么建设数字图书馆就是一句空言。网络信息采集系统可以自动地收集网络信息资源, 并将其分门别类地存入各个主题数据库, 从而可以为构建学科门户网站打下基础。
(2)企业情报采集:信息化时代, 一个企业若要在高竞争中立足并在行业中取得优势地位, 离不开对政府部门的相关政策以及对竞争对手行动的跟踪与调查。网络信息采集
参考文献
1 陈力, 郝守真, 王志庚. 网络信息资源的整合.
http:P P webarchive. nlc. gov. cn P article. htm
2 侯震宇. 主题型搜索引擎的研究与实现. 中国科
学院硕士论文
3 李盛韬, 余智华. web 信息采集研究进展. 计算
机科学, 2003(2)
4 浙江天宇信息技术有限公司http:P P www. cgrs.
com. cn P index. asp(最后访问日期2004年1月26日)
5 清华同方光盘股份有限公司http:P P tnc. cnki. net P
production P producti on03. htm (最后访问日期2004年1月26日)
(朱 华 国家图书馆报刊资料部)