网络大数据挖掘云服务平台的构建
IT论坛
科技视界
科技·探索·争鸣
网络大数据挖掘云服务平台的构建
俞华锋1赵宁华2
(1.浙江经济职业技术学院,浙江杭州310018;2. 中国人民解放军第二炮兵96618部队,中国北京100085)
【摘要】本文主要探讨了网络大数据挖掘云服务平台的构建。首先介绍了大数据、云计算的基本概念,然后分析了MapReduce 分布式处理技术,最后探讨了网络大数据挖掘云服务平台的体系结构。
【关键词】大数据;数据挖掘;云计算;云服务平
台
0引言
随着新一代信息技术的飞速发展,网络中产生的数据规模越来越大,从MB 级发展到GB 甚至TB 级大数据。并且大数据来源的对象也变得越来越错综复杂,从不同类型的数据库到视频数据、多媒体数据、传感器网络、社会网络和大规模的电子商务等等。这种发展给现有的数据挖掘系统带来了巨大的挑战:处理这些大数据的难度很高, 现有系统的计算能力很难达到要求,现有的分布式计算技术也难以实现大规模的高性能计算。
新一代信息技术云计算是一种基于互联网的超级计算模式,在远程的数据服务中心里,将成千上万台计算机和服务器连接在一起,可以提供高性能的计算,用户可以通过计算机、笔记本、手机等方式接入数据中心,按自己的需求进行运算。因此,将云计算运用于传统的数据挖掘中将具有非常重要的实践意义,为复杂网络环境下面向大数据的挖掘服务带来了新的机遇,同时也为大数据挖掘研究提出了新的挑战性课题。
key 的value 合并在一起。map 和reduce 函数具有一定的关联性:map (k1,v1)->list(k2,v2);reduce (k2,list(v2))->list(v2),其中v1、v2数据可以是简单数据,也可以是比较复杂的数据。详细的执行过程如下:
(1)把用户要执行的大数据和程序复制到主服务器上和每一台分布式的节点服务器上。
(2)主服务器根据调度算法选择哪些节点服务器来执行映射程序,哪些节点服务器来执行化简程序。
(3)分配所有用户要执行的大数据和程序到执行映射程序的节点服务器上进行切割,形成小块数据,并将小块数据存入节点服务器上。
(4)执行汇总程序的节点服务器,远程读取每一份映射后的结果,进行汇总和排序,同时执行汇总程序,最终将结果输出给提交任务的程序或用户。
3网络大数据挖掘云服务平台的体系结构
1大数据
为了实现网络大数据挖掘云计算服务平台的服务架构,提出图1所示的体系结构,该结构主要包括以下几个层次:
所谓的大数据(bigdata) ,主要指的是所涉及的资料数量规模大到无法通过现有的主流软件工具,在较短时间内达到选取、处理、管理并整理成为对企业和个人用户有价值的信息。它主要有4个特点:
Volume 、Velocity 、Variety 、Veracity 。
1)所涉及的数据数量巨大,从TB 级别跃升到PB 级别;
2)数据类型繁多,产生数据的来源很多,包括网络日志、网页图片、网络视频、文本和文件信息等等;
3)有价值的数据比例低,以监控的视频媒体数据为例,在连续不断的断监控过程中,可能有价值的数据仅仅只有三四秒;
4)对处理的速度要求快,要求计算机系统能够提供大规模的高性能计算。
大数据需要新一代信息技术,在合适的时间内高效地处理海量的数据,主要包括云计算平台、大规模并行处理数据库、可扩展的存储系统、分布式文件系统、数据挖掘和计算机网络等等。
图1网络大数据挖掘云服务平台的体系结构
2云计算的概念及MapReduce 分布式处理技术
云计算是指计算机网络中所有设施(包括软件和硬件)的交付和使用模式,用户可以通过互联网根据自己的需求向服务提供商申请所需的各种计算资源。广义的云计算是指服务的使用和交付模式,用户可以通过互联网以按需、易扩展的方式获得自己想要的任何服务(可以是硬件、软件、计算机网络、互联网相关的,也可以是其他任意的服务)。
现有的Google 的云计算平台能利用大规模的MapReduce 分布式设计思想来实现高性能计算。MapReduce 分布式处理技术是云计算平台中的核心设计思想,适合用来处理大数据或海量的数据。它的思想是将要处理的数据或问题拆解成Map (映射)和Reduce (化简)的方式:先通过映射程序将大数据或海量数据切割成互不相关的部分,再将其分配给大量的计算机处理从而达到高性能的效果;然后将上述分布式运算的结果通过化简程序将结果汇总,输出给用户需要的结果。
MapReduce 分布式处理技术的实现是指定一个Map 函数,把原始的数值(key/value)映射成新的数值(key/value),形成一系列过渡形式的数值,再将过渡形式的数值传给Reduce 函数,把具有相同形式的
物理资源
该层位于云计算架构的底层,是云计算平台的基础。云计算服务提供商能提供的能支持计算机正常运行的一些硬件设备,可以是价格高昂的高端服务器,也可以是价格低廉的高密度低成本服务器、海量存储设备和高性能计算设备等硬件基础设施。该层担着云计算平台管理、资源调度、作业调度等高负载业务,是云计算核心业务的必然选择,是整个云计算体系的核心设备,主要用于提高云计算数据中心的数据处理能力。3.2虚拟化资源
虚拟化技术是云计算的技术基础。该层采用虚拟化技术将底层的物理资源(包括服务器、存储与网络设备)全面虚拟化,将云计算中的计算、存储、应用和服务都变成了资源,这些资源可以被动态扩展和配置,云计算最终才能在逻辑上以单一整体的形式呈现。3.3基础设施服务
基础设施服务层对应IaaS 基础设施即服务,它通过计算机网络向用户提供计算机(物理机和虚拟机)、存储空间、网络连接、负载均衡和防火墙等基本计算资源;用户在此基础上部署和运(下转第67页)
3.1
作者简介:俞华锋(1979.05—),男,浙江东阳人,硕士,浙江经济职业技术学院,副教授,研究方向为云计算和数据挖掘。赵宁华,男,无线电工程学士,中国人民解放军第二炮兵96618部队,高级工程师。
机械与电子
科技视界
科技·探索·争鸣
1)宽带设计,米波大功率场效应管可分别覆盖整个米波段。
2)高增益、高效、高线性数字功率放大器,同时可显示数字功率,发射数字电视无须更改。功率放大器采用独特的设计,利用对于不同频率射频的输出功率是功放管工作电压的函数关系,通过改变功放管工作电压,来调节输出功率,由此大大提高的功放管的效率和增大了输出功率。
3)每个功率放大器内有微处理器,监控功放的工作状态,具有过驱动、过温、反射过大、过流等自我保护功能,E-LINK 软件总线与中央控制单元通讯,同时在前面板的LCD 液晶显示屏上可显示功放的实时状态信息和历史报警信息;通过前面板按键选择可对放大器的电压,电流,温度,输出等参数进行检测并设置警告和报警阈值。
即使某一电源单元出现故障,功率放大器也能在相对降低一些功率的情况继续工作,这样整机的输出功率就不会受到根本性的影响。
7)每一个功率放大器都对应安装有独立的开关,方便在需要时或播出过程中关闭、热插拔功率放大器,以便于检测和维护,而不影响其它功放的正常工作。其框图如图3所示。
6带通滤波器
本发射机特别配备了高品质的6腔数字带通滤波器,能满足数字电视发射的要求,从而减少了从模拟电视升级到数字电视的费用。
7液冷却系统
图3
发射机配有独立的液体冷却单元,冷却单元包括液体泵、冷却液容器、过滤器和控制温度及流量的液冷控制单元及热交换器。热交换器配有两个冷却风扇。
本发射机采用全液体冷却方式,功率放大器、功放电源、功率合成器吸收负载等全部为液冷冷却方式,使得功放管和对应开关电源都处在较低的工作温度,大大地延长了功放管的寿命。与传统风冷方式相比,液冷发射机具有:效率高、体积小、噪声小、寿命长、运行费用低、故障率极低。
液冷系统采用全冷封闭式100%的冗余设计,采用乙二醇和软化水混合类型的冷却液。热交换器配有双散热风扇,和双循环水泵,可控制水泵同时或交替工作,当一台泵因故障停止工作,另一台将自动工作保证播出安全,同时冷却系统也可设定两个泵自主周期循环工作模式。
4)每一个功率放大器在前面板上都配有RS232检测接口用于检测工作参数和状态,无须配专用软件,可直接连接PC 机的操作系统自带的超级终端软件检测功率放大器所有运行参数,特别方便在线和离线检测放大器。
5)为减少在某一功率放大器遇故障时对发射机整机输出功率和工作状态的影响,以及整机输出功率能有充足的冗余量,每一个功率放大器设计均有超过30%的功率冗余量。
6)为避免当电源出现故障而导致此功率放大器不能工作,功率放大器的供电配有4组独立的开关电源,对应4个基本放大模块,这样
8结束语
意大利优康公司生产的全固态LDMOS-FET 数字电视/模拟电视双模式液冷发射机,其噪声小、寿命长、运行费用低、故障率极低、指标优良、智能化程度高和操作简单。它的运用后,充分发挥了它高性能的作用,为降低我台的停播率,
确保安全优质播出,减轻值班人员的劳动强度和工作压力,都起到了积极的作用。S
[责任编辑:杨扬]
(上接第41页)行各种软件,包括操作系统和应用程序。3.4平台服务
平台通常包括操作系统、编程语言的运行环境、数据库和Web 服务器,该层提供开发环境、服务器平台、硬件资源等服务给用户,也可以通过一组接口提供给用户,用户在此平台上部署和运行自己的应用。用户不能管理和控制底层的基础设施,只能控制自己部署的应用。3.5大数据挖掘云服务
大数据挖掘云服务层位于平台服务层和应用服务层之间,主要包括目录服务、大数据访问服务、大数据预处理服务、大数据挖掘算法和应用访问服务、流管理服务。具体介绍如下:3.5.1目录服务
各种服务的资源都可以以目录的方式展示给用户,用户查看目录中的资源便可以方便的选择。3.5.2大数据访问服务
用户根据自己的任务,需要查找、上传或下载所需要的数据,数据访问服务为用户提供了良好的接口让用户方便进行这些操作。3.5.3大数据预处理服务
由于网络中产生的大数据来源的对象很多,无法直接进行数据挖掘,或挖掘结果差强人意,所以为了提高数据挖掘的质量,必须进行数据预处理。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。3.5.4算法和应用访问服务
用户在编辑工作流的时候,需要查找满足需求的算法和应用(包括并行关联规则算法、并行分类算法和并行聚类算法等等),算法和应用服务提供了良好的接口让用户方便数据和应用的访问。3.5.5流管理服务
流管理服务包括工作流的编辑和执行,以及用户对流的执行过程的监控和控制,并且在执行过程中会生成相应的日志。3.6应用服务
该层主要接收用户的数据挖掘任务,并将其请求的参数传递给大数据挖掘云服务层,大数据挖掘云服务层再根据用户提交的请求参数,在数据挖掘的算法库中选择合适的算法,调用经过预处理的数据,再分配到云计算平台的MapReduce 平台上进行并行数据挖掘,运算以后的结果通过应用服务层反馈给用户。用户可以通过该层的可视化界面管理和监视数据挖掘任务的执行,并且可以很方便地看到云计算平台的任务执行结果。
4结束语
本文针对传统数据挖掘的问题提出了网络大数据挖掘云服务概念,介绍了大数据的特点和云计算的概念,分析了MapReduce 分布式处理技术的优势,探讨了网络大数据挖掘云服务平台的体系结构,希望能对同行提供一定的参考。当然本文只是提出了基本的框架,具体的实现有待进一步深入地研究。S
【参考文献】
[1]俞华锋. 基于云计算的物流信息平台的构建[J].科技信息,2010(01).
[2]贺瑶,王文庆,薛飞. 基于云计算的海量数据挖掘研究[J].计算机技术与发展,
2013(02).
[3]俞华锋. 基于云计算的三维虚拟学习环境的设计与应用[J].计算机仿真,2010(09).
[4]修晨. 云计算在高校机房中的应用研究[J].科技信息,2011(01). [5]Amazon. Amazon elastic compute cloud (AmazonEC2)[Z].2009.
[责任编辑:丁艳]