2大数据平台的建设

08-12

大数据平台建设

大数据平台建设硬件环境

服务器环境

一．数据采集系统运行环境

大数据平台需要接入政务数据、社会数据、以及其他数据。其接入方式主要包含系统对接与爬虫采集两种方式。系统对接方式运行需要依赖数据抽取前置机与中心接口服务器；爬虫采集方式需要部署分步式爬虫专用服务器。

1. 采集前置机：

解决前置数据抽取问题，并将数据从抽取处发向中心接口服务器。

2. 数据接口服务器：

为数据采集前置机提供数据接收服务器，解决数据集中化处理问题。

3. 分步式爬虫服务器：

用于部署分步式爬虫系统，解决采集互联网资源的问题。

二．数据清洗转换服务器

置于数据接口服务器与爬虫服务器之后，用于解决数据的清洗转换问题。

三．分步式存储服务器

四．并行分析服务器

对分步式存储系统的数据进行并行分析，解决大规模数据的分析，挖掘问题。

五．硬盘数据库服务器

用于部署分NoSQL 数据库，解决高并发在线数据服务问题。

六．内存数据库服务器

用于部署分步式内存数据库系统。

七．Web 服务器（展现、应用、共享、运营）

用于部署数据共享、应用、展现、运营、监控等系统。解决大数据平台对外服务问题。存储资源

数据存数主要包含结构化数据存储，半结构化数据存储，非结构化数据存储等方大类数据的存储，初期提供可存储800TB 数据的磁盘，后期根据业务的发展可考虑提供PB 级存储磁盘。

备份资源

初期提供100TB 备份磁盘，对大数据平台的关键数据进行备份，备份可考虑使用第三方数据服务机构的异地备份服务。

网络资源

1. 内部网络：

满足内部服务间交换数据，千兆或以上网络连接内部集群服务器。

2. 对外服务网络：

满足大数据平台对外服务需求，100MB 或以上网络Internet 网络。

3. 数据接口服务网络：

满足数据接口传输需求，100MB 或以上网络Internet 网络。

4. 爬虫专用网络：

满足爬虫采集互联网资源，100MB 或以上网络Internet 网络。

搭建大数据的几款开源软件

对于大数据开放源码工具，分为四个领域：数据商店、开发平台、开发工具和集成、分析和报告工具。

数据存储区

Apache Hadoop — — 云（VMware ）、 Hortonworks 、 Hadapt

NoSql 数据库 — — MongoDB ，卡桑德拉 Hbase

SQL 数据库 — — MySql （Oracle ），MariaDB ，PostgreSQL TokuDB

开发平台

在 Apache Hadoop — — 黑斑羚（大规模并行处理 (MPP) 查询引擎，可以在本地运行）；舌 (ANSI SQL) ；模式（分析）；级联（为数据分析和数据管理应用程序的 Java 开发人员的应用程序框架）

在 Apache Lucene 和 Solr — — 搜索从 LucidWorks 和 ElasticSearch

OpenStack （开源软件的构建私有云和公共云）。

Red Hat （Hadoop 服务器标准的 Linux 发行版本）

礁（微软的 Hadoop 开发平台）

风暴（与任何队列的系统和任何数据库系统集成）

开发工具

Apache Mahout (机器学习的编程语言）

Python 和 R （预测分析编程语言）

集成、分析和报告工具

Jaspersoft （报告和分析服务器）

Pentaho （数据集成和业务分析）

Splunk （IT 分析平台）

Talend （大数据集成、数据管理和应用程序集成）

整体而言，大数据平台从平台部署和数据分析过程可分为如下几步：

1、linux 系统安装

一般使用开源版的Redhat 系统--CentOS 作为底层平台。为了提供稳定的硬件基础，在给硬盘做RAID 和挂载数据存储节点的时，需要按情况配置。例如，可以选择给HDFS 的namenode 做RAID2以提高其稳定性，将数据存储与操作系统分别放置在不同硬盘上，以确保操作系统的正常运行。

2、分布式计算平台/组件安装

目前国内外的分布式系统的大多使用的是Hadoop 系列开源系统。Hadoop 的核心是HDFS ，一个分布式的文件系统。在其基础上常用的组件有Yarn 、Zookeeper 、Hive 、Hbase 、Sqoop 、Impala 、ElasticSearch 、Spark 等。

先说下使用开源组件的优点：

1）使用者众多，很多bug 可以在网上找的答案（这往往是开发中最耗时的地方）。

2）开源组件一般免费，学习和维护相对方便。

3）开源组件一般会持续更新，提供必要的更新服务当然还需要手动做更新操作。

4）因为代码开源，若出bug 可自由对源码作修改维护。

再简略讲讲各组件的功能。分布式集群的资源管理器一般用Yarn ，全名是Yet Another Resource Negotiator。常用的分布式数据数据仓库有Hive 、Hbase 。Hive 可以用SQL 查询但效率略低，Hbase 可以快速近实时读取行。外部数据库导入导出需要用Sqoop 。Sqoop 将数据从Oracle 、MySQL 等传统数据库导入Hive 或Hbase 。Zookeeper 是提供数据同步服务，Yarn 和Hbase 需要它的支持。Impala 是对hive 的一个补充，可以实现高效的SQL 查询。ElasticSearch 是一个分布式的搜索引擎。针对分析，目前最火的是Spark 此处忽略其他，如基础的MapReduce 和 Flink 。Spark 在core 上面有ML lib，Spark Streaming、Spark QL和GraphX 等库，可以满足几乎所有常见数据分析需求。

值得一提的是，上面提到的组件，如何将其有机结合起来，完成某个任务，不是一个简单的工作，可能会非常耗时。

3、数据导入

前面提到，数据导入的工具是Sqoop 。用它可以将数据从文件或者传统数据库导入到分布式平台一般主要导入到Hive ，也可将数据导入到Hbase 。

4、数据分析

数据分析一般包括两个阶段：数据预处理和数据建模分析。

数据预处理是为后面的建模分析做准备，主要工作时从海量数据中提取可用特征，建立大宽表。这个过程可能会用到Hive SQL，Spark QL和Impala 。

数据建模分析是针对预处理提取的特征/数据建模，得到想要的结果。如前面所提到的，这一块最好用的是Spark 。常用的机器学习算法，如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF 、协同过滤等，都已经在ML lib里面，调用比较方便。

5、结果可视化及输出API

可视化一般式对结果或部分原始数据做展示。一般有两种情况，行熟悉展示，和列查找展示。在这里，要基于大数据平台做展示，会需要用到ElasticSearch 和Hbase 。Hbase 提供快速ms 级别的行查找。ElasticSearch 可以实现列索引，提供快速列查找。

大数据平台目标架构及定位

（注：该图来源于ppt 截图，原ppt 在我手上）

与《2大数据平台的建设》相关的范文

10-08 市物联网产业十二五发展规划

市物联网产业十二五发展规划按照市委、市政府关于“加快新兴产业发展，培育新的经济增长点”战略部署，为加快培育和发展我市物联网产业，特制定本规划。一、发展现状（一）国内外物联网产业发展态势。随着现代通信技术、计算机信息技术和传感技术的广泛应用，物联网相关产业得到了快速发展。国际电信联盟在20XX年度的互联网报告中，首先提出“物联网”概念并预言“无所不在的物联网通信时代即将到来”。美国把“宽带网 ...

10-29 商务网站项目策划书

商务网站项目策划书 yIXININFoRmATIoNBUSINESSco,.LTD wIRAN No：210105w04 December18,20xx ★ PleaseProtectthecopy’scopyrightforAllReserve★ wESTRAGE.com商务网站项目策划书正文摘要从新经济背景、区域经济特点、网络经济与信息服务市场现状、模型分析等分析证明，实施本项目， ...

12-27 科技花开绽天树业务插上金翅膀-农行分行电子化促进业务发展纪实

　　农行甘肃陇南分行重视加强科技建设，到20XX年未全辖9个县支行43个基层营业网点全部与全国农行“新一代”业务系统对接联网，实现了业务办理电子化。甘肃陇南地处秦岭山脉以南，境内山大沟深，交通不便，还在上世纪之末，全行所有营业网点柜台办理业务仍然沿用传统的手工操作方式，客户排长队等候办业务的事屡见不鲜。面对日益发展的业务和不同客户的需求，为了加快业务发展步伐，自20XX年起，全行在省分行科技处和地 ...

10-19 信息系统建设意见

　**省企业信用信息系统（以下简称信用系统）建设自20**年启动以来，二期工程已基本完成。目前有26个省级部门陆续向系统提供数据，130多万条信息进入系统数据库，网站点击率达103万人次，全天候无偿为社会公众提供查询服务。信用系统的建设和开通在引导企业诚信、促进经济发展、营造良好环境、建设诚信**诸方面发挥了积极作用。当前，系统建设仍面临数据覆盖面小、质量不高、更新不及时等突出问题，直接影响系统数 ...

10-19 企业信息系统建设意见

02-22 推荐全省街道社区劳动保障工作平台工作经验材料

强化社区平台功能发挥社区平台作用切实做好就业服务工作铁力市劳动和社会保障局铁力市下辖7个乡镇，25个社区，辖区内有4个林业局和1个国营农场，全市总人口38.6万人,其中城镇人口20万人。是一个城镇人口、社会劳动力较多的县级市。多年来，由于境内政企管理体制上的原因，劳动保障工作特别是就业工作缺乏基层工作平台，触角一直难以延伸下去，工作上严重地存在断层断档、交叉重叠而又管理不到位的问题。全国、全 ...

06-05 信息化工作例会主持词

信息化工作例会主持词各位领导、同志们：大家上午好！现在开会。今天我们在昌平区召开第三季度全市社会建设领域信息化工作例会。首先，非常感谢昌平区委社会工委、昌平区社会办为此次例会的召开所做出的精心安排、提供的良好环境和热情周到的服务。参加会议的人员有各区县委社会工委、社会办的主管领导和工作人员以及市社会建设信息中心的全体同志，借此机会，向大家介绍一下信息中心的新同志，最近，信息中心新进了3名新同志 ...

11-29 国税局工作计划十七

20*年全市国税工作的总体要求是：以邓小平理论和“三个代表”重要思想为指导，全面贯彻落实科学发展观，以组织国税收入为中心，以建设和谐国税为主线，以优化税收服务为抓手，进一步推进依法治税，实施科学管理，加强队伍建设，全面落实和完成全年各项工作任务，为奋力开创我市国税事业科学发展新局面作出新的更大的贡献。主要工作如下：一、强化税源监控，提升收入质量（一）完善互动机制。坚持定期分析与日常分析相结合， ...

11-05 国税局2014年工作计划

国税局20XX年工作计划一、强化增收措施，积极组织税收收入 1、认真落实组织收入原则。继续坚持依法征税、应收尽收、坚决不收过头税、坚决防止和制止越权减免税的组织收入原则，坚决杜绝寅吃卯粮收过头税、转引税款等行为。大力清缴陈欠，严格控制新欠，坚决防止和制止以各种名义拖欠税款。科学分析税收政策调整对经济税收的影响，及时向地方党委政府汇报，充分发挥税收调控经济的职能作用。 2、加强税收经济分析。及时 ...

04-10 打造"诚信政府"实施方案

　　为深入贯彻县委、县政府关于建设“诚信XX”工作的意见精神，全面促进XX经济发展，进一步规范政府部门行为，提高政府信誉度，决定开展创建“诚信政府”活动。特制定本实施方案。　　一、指导思想　　以“三个代表”重要思想和党的十六大精神为指导，按照县委、县人民政府的总体要求，以发展为第一要务，围绕建设经济强县、现代文明县的奋斗目标，发挥地域优势，以诚信为核心，以繁荣县域经济为目的，提高行政效率，全力 ...

2大数据平台的建设

·托班教学总结

·三年级班主任班务工作总结

·在地方税务工作会议上的讲话

·节约能源的倡议

·工作总结及计划

·污水厂企业自行监测方案

·置业顾问专业知识及精彩问答

·生活中三角形

·[复变函数与积分变换]

·文化创意产业园有哪些特点?

·学校图书管理员工作总结

·企业筹建期间开办费的会计核算和税务处理

·国培心得体会(2)

·项目承包制

·初中英语语法-代词讲解

·相濡以沫的幸福

·淘宝美工年终个人工作总结范文

·遥望中秋月[散文欣赏]

·寻求诗意的古诗教学

·高中生评语