网络大数据挖掘云服务平台的构建

11-26

ＩＴ论坛

科技视界

科技·探索·争鸣

网络大数据挖掘云服务平台的构建

俞华锋1赵宁华2

(1.浙江经济职业技术学院，浙江杭州310018；2. 中国人民解放军第二炮兵96618部队，中国北京100085)

【摘要】本文主要探讨了网络大数据挖掘云服务平台的构建。首先介绍了大数据、云计算的基本概念，然后分析了MapReduce 分布式处理技术，最后探讨了网络大数据挖掘云服务平台的体系结构。

【关键词】大数据；数据挖掘；云计算；云服务平

台

0引言

随着新一代信息技术的飞速发展，网络中产生的数据规模越来越大，从MB 级发展到GB 甚至TB 级大数据。并且大数据来源的对象也变得越来越错综复杂，从不同类型的数据库到视频数据、多媒体数据、传感器网络、社会网络和大规模的电子商务等等。这种发展给现有的数据挖掘系统带来了巨大的挑战：处理这些大数据的难度很高, 现有系统的计算能力很难达到要求，现有的分布式计算技术也难以实现大规模的高性能计算。

新一代信息技术云计算是一种基于互联网的超级计算模式，在远程的数据服务中心里，将成千上万台计算机和服务器连接在一起，可以提供高性能的计算，用户可以通过计算机、笔记本、手机等方式接入数据中心，按自己的需求进行运算。因此，将云计算运用于传统的数据挖掘中将具有非常重要的实践意义，为复杂网络环境下面向大数据的挖掘服务带来了新的机遇，同时也为大数据挖掘研究提出了新的挑战性课题。

key 的value 合并在一起。map 和reduce 函数具有一定的关联性：map (k1,v1)->list(k2,v2)；reduce (k2,list(v2))->list(v2)，其中v1、v2数据可以是简单数据，也可以是比较复杂的数据。详细的执行过程如下：

（1）把用户要执行的大数据和程序复制到主服务器上和每一台分布式的节点服务器上。

（2）主服务器根据调度算法选择哪些节点服务器来执行映射程序，哪些节点服务器来执行化简程序。

（3）分配所有用户要执行的大数据和程序到执行映射程序的节点服务器上进行切割，形成小块数据，并将小块数据存入节点服务器上。

（4）执行汇总程序的节点服务器，远程读取每一份映射后的结果，进行汇总和排序，同时执行汇总程序，最终将结果输出给提交任务的程序或用户。

3网络大数据挖掘云服务平台的体系结构

1大数据

为了实现网络大数据挖掘云计算服务平台的服务架构，提出图1所示的体系结构，该结构主要包括以下几个层次：

所谓的大数据(bigdata) ，主要指的是所涉及的资料数量规模大到无法通过现有的主流软件工具，在较短时间内达到选取、处理、管理并整理成为对企业和个人用户有价值的信息。它主要有4个特点：

Volume 、Velocity 、Variety 、Veracity 。

1）所涉及的数据数量巨大，从TB 级别跃升到PB 级别；

2）数据类型繁多，产生数据的来源很多，包括网络日志、网页图片、网络视频、文本和文件信息等等；

3）有价值的数据比例低，以监控的视频媒体数据为例，在连续不断的断监控过程中，可能有价值的数据仅仅只有三四秒；

4）对处理的速度要求快，要求计算机系统能够提供大规模的高性能计算。

大数据需要新一代信息技术，在合适的时间内高效地处理海量的数据，主要包括云计算平台、大规模并行处理数据库、可扩展的存储系统、分布式文件系统、数据挖掘和计算机网络等等。

图1网络大数据挖掘云服务平台的体系结构

2云计算的概念及MapReduce 分布式处理技术

云计算是指计算机网络中所有设施（包括软件和硬件）的交付和使用模式，用户可以通过互联网根据自己的需求向服务提供商申请所需的各种计算资源。广义的云计算是指服务的使用和交付模式，用户可以通过互联网以按需、易扩展的方式获得自己想要的任何服务（可以是硬件、软件、计算机网络、互联网相关的，也可以是其他任意的服务）。

现有的Google 的云计算平台能利用大规模的MapReduce 分布式设计思想来实现高性能计算。MapReduce 分布式处理技术是云计算平台中的核心设计思想，适合用来处理大数据或海量的数据。它的思想是将要处理的数据或问题拆解成Map （映射）和Reduce （化简）的方式：先通过映射程序将大数据或海量数据切割成互不相关的部分，再将其分配给大量的计算机处理从而达到高性能的效果；然后将上述分布式运算的结果通过化简程序将结果汇总，输出给用户需要的结果。

MapReduce 分布式处理技术的实现是指定一个Map 函数，把原始的数值（key/value）映射成新的数值（key/value），形成一系列过渡形式的数值，再将过渡形式的数值传给Reduce 函数，把具有相同形式的

物理资源

该层位于云计算架构的底层，是云计算平台的基础。云计算服务提供商能提供的能支持计算机正常运行的一些硬件设备，可以是价格高昂的高端服务器，也可以是价格低廉的高密度低成本服务器、海量存储设备和高性能计算设备等硬件基础设施。该层担着云计算平台管理、资源调度、作业调度等高负载业务，是云计算核心业务的必然选择，是整个云计算体系的核心设备，主要用于提高云计算数据中心的数据处理能力。3．2虚拟化资源

虚拟化技术是云计算的技术基础。该层采用虚拟化技术将底层的物理资源（包括服务器、存储与网络设备）全面虚拟化，将云计算中的计算、存储、应用和服务都变成了资源，这些资源可以被动态扩展和配置，云计算最终才能在逻辑上以单一整体的形式呈现。3．3基础设施服务

基础设施服务层对应IaaS 基础设施即服务，它通过计算机网络向用户提供计算机（物理机和虚拟机）、存储空间、网络连接、负载均衡和防火墙等基本计算资源；用户在此基础上部署和运（下转第67页）

3．1

作者简介：俞华锋（1979.05—），男，浙江东阳人，硕士，浙江经济职业技术学院，副教授，研究方向为云计算和数据挖掘。赵宁华，男，无线电工程学士，中国人民解放军第二炮兵96618部队，高级工程师。

机械与电子

科技视界

科技·探索·争鸣

1）宽带设计，米波大功率场效应管可分别覆盖整个米波段。

2）高增益、高效、高线性数字功率放大器，同时可显示数字功率，发射数字电视无须更改。功率放大器采用独特的设计，利用对于不同频率射频的输出功率是功放管工作电压的函数关系，通过改变功放管工作电压，来调节输出功率，由此大大提高的功放管的效率和增大了输出功率。

3）每个功率放大器内有微处理器，监控功放的工作状态，具有过驱动、过温、反射过大、过流等自我保护功能，E-LINK 软件总线与中央控制单元通讯，同时在前面板的LCD 液晶显示屏上可显示功放的实时状态信息和历史报警信息；通过前面板按键选择可对放大器的电压，电流，温度，输出等参数进行检测并设置警告和报警阈值。

即使某一电源单元出现故障，功率放大器也能在相对降低一些功率的情况继续工作，这样整机的输出功率就不会受到根本性的影响。

7）每一个功率放大器都对应安装有独立的开关，方便在需要时或播出过程中关闭、热插拔功率放大器，以便于检测和维护，而不影响其它功放的正常工作。其框图如图3所示。

6带通滤波器

本发射机特别配备了高品质的6腔数字带通滤波器，能满足数字电视发射的要求，从而减少了从模拟电视升级到数字电视的费用。

7液冷却系统

图3

发射机配有独立的液体冷却单元，冷却单元包括液体泵、冷却液容器、过滤器和控制温度及流量的液冷控制单元及热交换器。热交换器配有两个冷却风扇。

本发射机采用全液体冷却方式，功率放大器、功放电源、功率合成器吸收负载等全部为液冷冷却方式，使得功放管和对应开关电源都处在较低的工作温度，大大地延长了功放管的寿命。与传统风冷方式相比，液冷发射机具有：效率高、体积小、噪声小、寿命长、运行费用低、故障率极低。

液冷系统采用全冷封闭式100%的冗余设计，采用乙二醇和软化水混合类型的冷却液。热交换器配有双散热风扇，和双循环水泵，可控制水泵同时或交替工作，当一台泵因故障停止工作，另一台将自动工作保证播出安全，同时冷却系统也可设定两个泵自主周期循环工作模式。

4）每一个功率放大器在前面板上都配有RS232检测接口用于检测工作参数和状态，无须配专用软件，可直接连接PC 机的操作系统自带的超级终端软件检测功率放大器所有运行参数，特别方便在线和离线检测放大器。

5）为减少在某一功率放大器遇故障时对发射机整机输出功率和工作状态的影响，以及整机输出功率能有充足的冗余量，每一个功率放大器设计均有超过30%的功率冗余量。

6）为避免当电源出现故障而导致此功率放大器不能工作，功率放大器的供电配有4组独立的开关电源，对应4个基本放大模块，这样

8结束语

意大利优康公司生产的全固态LDMOS-FET 数字电视/模拟电视双模式液冷发射机，其噪声小、寿命长、运行费用低、故障率极低、指标优良、智能化程度高和操作简单。它的运用后，充分发挥了它高性能的作用，为降低我台的停播率，

确保安全优质播出，减轻值班人员的劳动强度和工作压力，都起到了积极的作用。Ｓ

［责任编辑：杨扬］

（上接第41页）行各种软件，包括操作系统和应用程序。3．4平台服务

平台通常包括操作系统、编程语言的运行环境、数据库和Web 服务器，该层提供开发环境、服务器平台、硬件资源等服务给用户，也可以通过一组接口提供给用户，用户在此平台上部署和运行自己的应用。用户不能管理和控制底层的基础设施，只能控制自己部署的应用。3．5大数据挖掘云服务

大数据挖掘云服务层位于平台服务层和应用服务层之间，主要包括目录服务、大数据访问服务、大数据预处理服务、大数据挖掘算法和应用访问服务、流管理服务。具体介绍如下：3．5．1目录服务

各种服务的资源都可以以目录的方式展示给用户，用户查看目录中的资源便可以方便的选择。3．5．2大数据访问服务

用户根据自己的任务，需要查找、上传或下载所需要的数据，数据访问服务为用户提供了良好的接口让用户方便进行这些操作。3．5．3大数据预处理服务

由于网络中产生的大数据来源的对象很多，无法直接进行数据挖掘，或挖掘结果差强人意，所以为了提高数据挖掘的质量，必须进行数据预处理。数据预处理有多种方法：数据清理，数据集成，数据变换，数据归约等。这些数据处理技术在数据挖掘之前使用，大大提高了数据挖掘模式的质量，降低实际挖掘所需要的时间。3．5．4算法和应用访问服务

用户在编辑工作流的时候，需要查找满足需求的算法和应用（包括并行关联规则算法、并行分类算法和并行聚类算法等等），算法和应用服务提供了良好的接口让用户方便数据和应用的访问。3．5．5流管理服务

流管理服务包括工作流的编辑和执行，以及用户对流的执行过程的监控和控制，并且在执行过程中会生成相应的日志。3．6应用服务

该层主要接收用户的数据挖掘任务，并将其请求的参数传递给大数据挖掘云服务层，大数据挖掘云服务层再根据用户提交的请求参数，在数据挖掘的算法库中选择合适的算法，调用经过预处理的数据，再分配到云计算平台的MapReduce 平台上进行并行数据挖掘，运算以后的结果通过应用服务层反馈给用户。用户可以通过该层的可视化界面管理和监视数据挖掘任务的执行，并且可以很方便地看到云计算平台的任务执行结果。

4结束语

本文针对传统数据挖掘的问题提出了网络大数据挖掘云服务概念，介绍了大数据的特点和云计算的概念，分析了MapReduce 分布式处理技术的优势，探讨了网络大数据挖掘云服务平台的体系结构，希望能对同行提供一定的参考。当然本文只是提出了基本的框架，具体的实现有待进一步深入地研究。Ｓ

【参考文献】

［1］俞华锋. 基于云计算的物流信息平台的构建[J].科技信息，2010（01）．

［2］贺瑶，王文庆，薛飞. 基于云计算的海量数据挖掘研究[J].计算机技术与发展，

2013（02）.

［3］俞华锋. 基于云计算的三维虚拟学习环境的设计与应用[J].计算机仿真，2010（09）.

［4］修晨. 云计算在高校机房中的应用研究[J].科技信息，2011（01）. ［5］Amazon. Amazon elastic compute cloud (AmazonEC2)[Z].2009.

［责任编辑：丁艳］

与《网络大数据挖掘云服务平台的构建》相关的范文

09-03 农业局加强农业信息化建设意见

各省、自治区、直辖市及计划单列市农业（农牧、农林）、农机、畜牧、兽医、农垦、乡镇企业、渔业厅（委、局），新疆生产建设兵团农业局：　　为深入贯彻落实党的*届五中、六中全会及《中共中央国务院关于推进社会主义新农村建设的若干意见》和《*-2020年国家信息化发展战略》有关精神，搞好面向“三农”的信息服务，现就农业部门“*”期间进一步加强农业信息化建设以下意见：　　一、深化认识，把加强农业信息化建设作 ...

10-08 市物联网产业十二五发展规划

市物联网产业十二五发展规划按照市委、市政府关于“加快新兴产业发展，培育新的经济增长点”战略部署，为加快培育和发展我市物联网产业，特制定本规划。一、发展现状（一）国内外物联网产业发展态势。随着现代通信技术、计算机信息技术和传感技术的广泛应用，物联网相关产业得到了快速发展。国际电信联盟在20XX年度的互联网报告中，首先提出“物联网”概念并预言“无所不在的物联网通信时代即将到来”。美国把“宽带网 ...

03-28 XX局未来五年信息化建设规划

　　一、指导原则及发展目标　　按照市委市政府的统一部署，结合我局XX工作的具体特点，XX系统信息化建设的指导原则是：统一规划、分级建设，试点先行、分期实施，讲求实效，注重应用，面向社会、服务公众。　　(一)统一规划，分级建设。XX信息化建设是一项涉及面很广的系统工程，为确保系统发挥整体效益，将由政府统一规划，制定统一的规范和标准，各单位遵照这一规范和标准，分级负责，协同建设。　　(二)试点先 ...

01-07 思科数据中心3.0解决方案

思科数据中心3.0解决方案　数据中心一直是重要的企业资产，也是IT用以保护、优化和发展业务的战略性重点机构，但如果您的数据中心出现了服务器、存储资源使用率低下，能源和人员成本占数据中心总运行成本的25%-30%，在IT预算中，70%花费都在维护方面，而不是使企业更具竞争力，这是当前cIo最需要迫切解决的问题。　　数据中心转型的需要　　当今的许多企业都在努力解决数十年来无计划发展的遗留问题，面对大 ...

08-24 全力构建市区扶贫济困长效机制

　　近年来，我区按照市委、市政府关于扶贫济困工作的指示要求，结合区情实际，积极探索实践，在全市率先建立起市区扶贫济困长效机制，较好地解决了贫困居民的实际生活困难，为维护市区安定团结的良好局面作出了积极贡献。　　　　一、加强领导，完善扶贫济困组织网络　　　　我区作为主城区，扶贫济困工作涉及到的救助对象和参与部门较多，扶贫济困工作要求高、任务重、压力大。区委、区政府高度重视这一顺民意、得民心的 ...

01-31 义务教育均衡发展工作汇报

义务教育均衡发展工作汇报推进四大工程建设构建教育美好蓝图从“十一五”到“十二五”，xx教育实现由传统型向现代型、由粗放型向集约型、由规模型向精品型、由合格型向标准型之蝶变，其版本升级与经济社会发展相谐适，彰显行业魅力。众所周知，社会经济发展以教育为基础，教育水平之提高又促进经济进一步发展。因此，教育适度超前规划对经济社会发展有一定的帮衬促进作用。xx区区委、区政府依据区情，超前谋划，科学统筹 ...

07-28 地方税务局的工作计划

根据党的*大和全国、全区经济工作会议以及全国税务工作会议精神，结合我区地税工作实际，*年全区地税工作的总体要求是：高举中国特色社会主义伟大旗帜，以*理论和“*”重要思想为指导，全面贯彻党的*大和中央经济工作会议精神，深入贯彻落实科学发展观，坚持聚财为国、执法为民的工作宗旨，进一步加强依法治税能力建设，提高队伍素质，提升管理水平，优化税务服务，促进地税和谐，为全面建设小康社会作出新的贡献。按照这一 ...

06-25 学校2013年-2014年第二学期工作计划

学校20xx-20xx第二学期工作计划指导思想以《国家教育改革和发展中长期规划》思想为指导，深入贯彻落实科学发展观精神，以xx学校“单元整体问题导学”课堂模式构建为核心，优化教育教学常规管理机制，全面提升教师专业水平，努力完善学校课程结构，发展学生综合素质，实现学校品牌效应。主要工作任务一、优化学校管理，完善制度体系建设，保证长效创新机制。二、深化课堂建设，实现课堂效益二次提升，创建品牌 ...

10-23 通信服务保障交流发言材料

我公司主要承担着油田勘探开发建设、生产管理和职工生活的通信服务保障任务，同时为油田的信息、电视提供网络平台和服务。公司下设7个基层单位，5个机关科室,现有职工332人，平均年龄41岁。今年以来我们牢固树立油田通信为油服务的宗旨，紧紧围绕确保油田通信畅通这一中心，在明确发展目标的基础上，坚持思想引领、能力提升、网络优化和品牌创建，为油田增储上产、建设高原千万吨油气田提供有力的通信保障。　　一、突出 ...

06-01 县区劳动和社会保障局2014年工作计划

县区劳动和社会保障局20XX年工作计划 20XX年是“十一五”规划的开局之年，我们在区委、区政府的领导下，全面完成了签状指标和区委、区政府下达的各项工作任务。今年是“十二五”规划的起步之年，我局将继续深入贯彻落实科学发展观，按照区委区政府“打造浑河商务城和临空国际城”的战略构想，优化发展环境，为“一轴一线两带三区”服务。突出重点，统筹兼顾，扎实做好就业创业、社会保障、构建和谐劳动关系等劳动保障各 ...

随机推荐

猜你喜欢

网络大数据挖掘云服务平台的构建

·卫生局思想纪律作风大整顿征求意见情况报告

·"学习型社区学习动力研究"课题开题报告

·2012年家长会发言稿

·许愿沙主持词

·七年级下学期安全教育教学计划

·氯气投加系统

·收藏:印花税税目及备注

·教科研工作记录1

·IPO新规实施网下配售和发行将建立回拨机制

·争创"全国百强县"

·酒店优秀员工获奖感言

·2009年年终个人工作总结

·供电所党员先进性教育党性分析材料

·文明部室汇报材料

·赴美食品质量安全监管参观考察报告

·变色鸟礼鸟动物趣闻百科全书

·冬天在中国必吃饺子,团圆饭吃饺子过大年热闹,而到了国外美味变

·女性身体最易感染的2个部位

·学习银行董事长讲话精神心得体会发言稿

·坂茂:建筑师更应该帮助普通的人

网络大数据挖掘云服务平台的构建

与《网络大数据挖掘云服务平台的构建》相关的范文

·卫生局思想纪律作风大整顿征求意见情况报告

·"学习型社区学习动力研究"课题开题报告

·2012年家长会发言稿

·许愿沙主持词

·七年级下学期安全教育教学计划

·氯气投加系统

·收藏:印花税税目及备注

·教科研工作记录1

·IPO新规实施 网下配售和发行将建立回拨机制

·争创"全国百强县"

·酒店优秀员工获奖感言

·2009年年终个人工作总结

·供电所党员先进性教育党性分析材料

·文明部室汇报材料

·赴美食品质量安全监管参观考察报告

·变色鸟礼鸟动物趣闻百科全书

·冬天在中国必吃饺子,团圆饭吃饺子过大年热闹,而到了国外美味变

·女性身体最易感染的2个部位

·学习银行董事长讲话精神心得体会发言稿

·坂茂:建筑师更应该帮助普通的人

·IPO新规实施网下配售和发行将建立回拨机制