网络内容安全过滤
信息安全综合实践设计报告
题 目:
姓 名:
班级学号:
指导教师:
完成日期: 网络内容安全过滤系统 01 02 05 22 27 2015年11月6日
一、设计任务与要求
任务:设计针对邮件、网页以及文件进行过滤的软件。
功能要求:
(1)对文本内容、url 、网址、ip 进行过滤;
(2)可以自动去一些网址下载黑名单;
(3)软件本身设置一定的安全保护措施,防止被篡改、非法访问等;
(4)可以根据需要增加其他的过滤和功能设置,比如限时上网、超时下线、黑屏警告一些非法行为等;
(5)增加一定的自学习功能,通过非法信息的特征来升级特征库。
二、可行性研究报告
1. 经济可行性
2. 技术可行性
3. 应用可行性
三、系统设计
Internet 是全球信息共享的基础设施,是一种开放和面向
所有用户的技术。它一方面要保证信息方便、快捷的共享;另
~方面要防止垃圾信息的传播。网络内容分析是~种管理信
息传播的重要手段。它是网络信息安全核心理论与关键技术
研究网络内容分析所涉及的新理论、新体系结构、新方法和新
技术,是未来几年内容安全研究的重要挑战。
根据CNNIC 在2007年1月的第19次中国互联网络发展
状况报告统计,中国网民总人数为13 700万人。这其中仅有
8.4%的网民对网络内容的健康性非常满意。也就是说有91.
6%的中国网民(12 550万人) 都或多或少地对网络内容的健
康性不满意¨j 。
网络内容传播以一种实时、连续的数据流(data streams)
方式进行口1。它不宜用持久稳定的方式建模,而适宜用实时
动态的方式建模。这类系统被称为数据流管理系统。数据流
管理技术具有非常广泛的应用领域,如网络内容安全、金融服
务、电信数据管理等。在这些应用中,数据通常以大量、快速、
持续的数据流形式到达。如何对这些数据进行有效处理将是
~个具有挑战性的问题。本文以互联网内容安全为背景,提出
一种互联网内容安全检测过滤系统。
1相关研究方法
STREAM 项目由美国NSF(国家自然科学基金) 提供支
持。其主要目标是研究一个通用的数据流管理系统,包括提供
一个通用和灵活的体系结构、相关的理论结果和算法、数据模
型、相关的语言和语义;探讨多个连续、快速、可变的数据流的
连续查询处理、优化和资源分配问题;希望最后提供一个通用
的数据流管理系统,使用户可以用类似于SQL 的语言来指定
查询。目前其在DSMS 的体系结构、数据模型和语义、语言、资
源分配和查询优化等方面取得了部分成果,但是系统还没有真
正完成。
NIAGARA 项目也是由美国国家自然科学基金支持的,主
要研究目标是在Intemet 环境下的XML 数据检索和过滤系统。
该系统从Interact 上采集和监管信息,然后包装为XML 数据流
供检索和过滤使用。这样利用XML 的语义信息可以提供更加
准确的数据流检索和过滤。目前其研究目标主要集中在可扩
展性和性能优化方面,主要技术是查询分组和增量维护。但是
收稿日期:2007—1I 一25;修回日期:2008—01—11 基金项目:国家信息产业部重点基金资助项目(2007一R-103)
作者简介:顾杨(1955·) ,女,北京人,工程师,主要研究方向为信息安全;李剑(1976.) ,男,陕西西安人,讲师,博士,主要研究方向为信息安全、
电子商务(1ijian@bupt.edu .ca) ;景博(1980一) ,女,四川绵阳人,工程师,主要研究方向为信息安全、软件测试;王励成(1972一) ,男,讲师,博士,主要
研究方向为密码学.
万方数据
第9期 顾杨,等:一种互联网内容安全检测过滤系统 ·2835·
在这个项目中,研究的数据仅仅限于XML 数据,而没有考虑互
联网上众多的其他信息,如HTML 、OWL 、语音图像内容等的过
滤。
Berkeley 的Telegraph 项目的研究目标是对网络监听器的
输出数据流和Web 数据流等提供自适应的查询。目前其特色
是数据流的自适应查询处理,包括自适应连接和自适应操作调
整。另外MIT 和Brown 大学的项目Aurora ,目标也是对各种各
样的嵌入式设备产生的数据流进行监管和查询。其研究的内
容都没有应用在互联网上,并且也没有对于音/视频等信息进
行检测。
四、系统实现
1. 概要设计
。整
个系统中过滤的信息全部来自互联网应用层的海量信息。该
系统可以分为以下四层:
a) 网络层。此层是互联网上通过的文本、音频以及图像
与视频信息等。这一层网络中的信息可以通过网络抓包器来
捕获网络数据包,并送给第二层信息识别层进行分类。
b) 信息识别层。在这一层主要是对从网络上来的信息进
行识别,分清楚它们是文本、音频还是图像与视频信息。
e) 信息流过滤层。这一层主要任务是对信息识别层传来
的信息进行多特征融合判定;对有用的信息进行过滤,对信息
的格式进行标准化等。
d) 内容检测层。这一层是整个系统的核心部分。其主要
功能是通过模式匹配口1,检测过滤层传输上来的信息中是否
含有特定的内容。
2. 详细设计
文本识别技术主要表现在文本实时过滤与文本深度处理
技术两方面。图2为文本识别与处理子系统。
良 平甲、 7。 国I
≮迪
懂南匝主 I币 固1
图1戛璧巴鬯窆曩全 图2文本识别与处理子系统
监测过滤系统 一 一„„„„„
2.2.1文本实时过滤技术
文本实时过滤最主要的技术就是字符串匹配¨o ,涉及以
下主要内容:
a) 复杂规则的匹配技术。由于过滤系统的功能不断增
强,基于关键词匹配的简单规则已经不能满足需求,系统需要
更复杂的规则支持更准确的判定和更快速的过滤¨1。复杂规
则匹配有近似、逻辑表达式和正则表达式等,它们的支持力度
不尽相同。在系统中,可以根据不同的应用场景采用不同的表
达式匹配方法一o 。
(a)近似匹配中大部分都是基于动态规划的。本系统中
采用最经典的Sellers 算法。Sellers 算法是Sellers 于1980年设
计的近似匹配算法。动态规划算法的时间复杂度为O(mn),
但稍经修改便能适用于很多复杂的距离模型。
(b)逻辑表达式匹配是介于精确串匹配和正则表达式匹
配之间的一种复杂规则匹配,它是在多个特征串之间增加
“与”“或”“非”的逻辑关系以达到更强功能的过滤。使用带
条件的逻辑表达式匹配还可以解决定序、窗口中的复杂匹配等
问题。
(e)正则表达式匹配的功能最强,相应的复杂度也最高。
在本系统中采用由Thompson 于1968年提出的正则表达式的
匹配技术,通过构建NFA 自动机来识别正则表达式。该算法
空间开销为O(/?L) ,扫描匹配时间复杂度为O(mn)。
b) 大规模串匹配技术。本系统采用的是L .SMmema 提出
的方法,它基于模式串在文本中出现的概率较低的前提,将多
个模式串合并为一个模式串,采用r 位并行的方法进行匹配。
算法仅在万级规模下表现良好,但当命中率高时,其性能下降
较快。
e) 模糊匹配技术。模糊匹配是为了实现一些在已有特征
串之上进行扩展的功能。这些扩展概括起来有字符组、限长空
位、可选字符和重复字符。使用扩展匹配可以实现很多功能,
如大小写不敏感匹配、中文特征串的各种变形(拼音、拆分等)
匹配、限定长度的通配符匹配等。扩展串匹配根据需求不同可
以分别选择逻辑表达式、正则表达式、近似串等技术来实现。
d) 硬件串匹配技术。本系统采用N .Tuck 的基于FPGA /
ASIC 的硬件串匹配技术,使用位图压缩和路径压缩两种方法
来节省存储空间。
3. 数据库设计
五、结果截图、编码清
六、设计心得体会
要求用手写
八、参考资料
[1]DAUGMAN J.High confidence cognition of person by rapid video analysis of iris texture[C]//Proe of European Convention on Security and Detection.Brighto .:INSPEC ,1995:244·251.
[2]DAUGMAN J G.Hish confidence visual recognition of persons by a test of statistical independence[J1.IEEE Trans on Pattern Analysis and Machine Intelligence,1993,15(11):1148—1161.
(3]DAUGMAN J .Recognizing persons by their iris patterns[R].1nformation Security Technical Report,1998:33-39.
[4]WILDES P.Iris recognition:an emerging biometric technology[J]. Proceeding for IEEE,1997,85(1):1347.1363.
[5]BOBLES W W.A human identification technique using image of the iris and wavelet transform[J].IEEE Trans on Signal Processing, 1998,46(2):1185.1188.
[6]应忍冬,徐国治.基于小波变换过零检测的虹膜识别技术[J].上 海交通大学学报。2002.36(3):355-358.
[7]黄惠芳,胡广书.一种新的基于小波变换的虹膜识别算法[J].清 华大学学报:自然科学版,2003,43(9):1200.1213.
[8]王蕴红,朱勇,谭铁牛.基于虹膜识别的身份鉴别[J].自动化学 报,2002,28(1):1—10.
[9]范科峰,王美华,莫玮.一种新颖的基于小波变换的虹膜识别算法
[J】.红外技术,2005,27(4):333—337.
[10 1 MALl.AT S.Zero —cressing of a wavelet transform[J].IEEE Trans on lnformation Theory.1991:37:1019.1033.
[11]王大凯,彭进业.小波分析及其在信号处理中的应用[M].北京: 电子工业出版社.2006:42-49.
九、教师评语