勤智 创新创业大数据平台解决方案
勤智
创新创业大数据平台
解决方案
成都勤智数码科技股份有限公司
2015年6月
目录
1
2
3 建设大数据平台的目的 . ............................................................................................................ 4 大数据平台带来的价值 . ............................................................................................................ 4 投资建设的内容 . ........................................................................................................................ 5
3.1 大数据支撑体系建设 . .................................................................................................... 6
3.1.1 大数据支撑平台 . ................................................................................................ 6
3.1.2 数据管理子系统 . .............................................................................................. 11
3.1.3 创新创业管理子系统 . ...................................................................................... 14
3.1.4 数据统一展示门户子系统 . .............................................................................. 15
3.1.5 用户及权限管理子系统 . .................................................................................. 18
3.2 大数据平台运营维护服务 . .......................................................................................... 20
3.2.1 平台内部资源的监控管理 . .............................................................................. 20
3.2.2 平台故障处理管理 . .......................................................................................... 21
3.2.3 日常平台管理任务自动化 . .............................................................................. 22
3.2.4 故障处理自动化 . .............................................................................................. 22
3.3 科研专家和数据资源 . .................................................................................................. 23
项目收费和收益模型 . .............................................................................................................. 23
4.1 平台运营服务 . .............................................................................................................. 23
4.2 数据运营服务收益 . ...................................................................................................... 24
4.3 大数据产业链发展促进收益 . ...................................................................................... 24
4.4 政府社会收益 . .............................................................................................................. 24 项目建设阶段目标 . .................................................................................................................. 25 4 5
1 建设大数据平台的目的
大数据正在改变信息社会,我们正从IT 时代走向DT 时代。大数据产业,作为国家战略新兴产业,受到各级政府的高度重视。大数据产业建设,通过“政府引导、市场主导”的模式建设一个数据驱动的创新创业生态环境,改变当下政务数据的分散、独立的现状,充分利用“大众创业、万众创新”的创新创业热潮,积极建设一个以数据驱动的运营体系、创新创业生态、大数据产业链、政务数据共享交换、智慧城市大数据支撑平台为核心目的的大数据全产业链的生态环境。
以“一点创新,全盘激活”为引导思路,“一平台,多应用”为框架设计思路,在人才培育体系建立、就业岗位增加、产业发展空间和产值提升等方面真切的做到为政府提供全方位的服务,从而为产业发展现状形成标杆性的发展格局,夯实大数据产业发展基础。
进一步推进“大众创业、万众创新”,让创业创新成为经济增长的“倍增器”、发展方式的“转换器”, 让“大众创业、万众创新”在全社会蔚然成风;支撑政府在更高的平台上实现经济可持续发展,为产业转型升级提供经验和启示。 2 大数据平台带来的价值
创新创业大数据平台可以带来巨大的产业发展空间、解决诸多历史问题、明确城市产业的发展方向以及带动相关产业的协同发展,具体表现在:
数据运营体系的建立:建立以数据为核心资产和驱动力的运营体系,全面利用智慧城市框架内各类垂直业务的运营数据、国信优易拥有的可访问的700T 国家部分部委的政务数据、区域政府的各委办局的政务数据等高价值的数据资产,并为之配套形成标杆性的规范与标准,对于大数据产业发展方向无疑会产生标志性的里程碑意义。依托国信优易的未来国家级大数据共享促进中心的发展定位,创新创业大数据平台作为区域内唯一的国信优易所拥有的国家部委重要数据资源的访问接口,在未来以数据驱动的运营体系中会处于非常有利的发展格局。
创新创业生态的孵化:以数据为基础的创新创业平台,不仅迎合了国家“大众创业、万众创新”的政策,可以为政府服务,产生很多就业机会,形成有效的汇聚人才、吸引投资的强大磁场。数据作为政府的核心资产,有数据就有机遇,就会有人才培养和孵化的润土。
大数据产业链的打造:结合大数据产业发展目标,充分利用创新创业大数据平台中拥有的高价值智慧城市运营数据、国信优易数据、政务数居等核心资源,打造以数据为核心的产业链:产业链上游为各类数据拥有者和数据制造者;产业链中游为各种数据加工、创新创业、数据使用者,让数据成为产业链的“石油”资源,驱动产业链的良性发展;产业链下游为政府或者社会企业对数据加工创新环节产生的各类落地的应用和商业模式进行投资和运营;通过大数据产业链的良性循环,为政府带来百亿级别的产业发展机遇和上亿的产值。
智慧城市数据互联支撑:智慧城市发展规划的顶层设计会涉及到很多的底层数据和上层应用,将各类垂直应用的运营数据接入到统一的智慧城市数据支撑平台中,可以为未来智慧城市建设产生的数据的互联互通提供基础支撑,为数据的运营体系提供充足的血液。
政务数据共享交换:通过对各个委办局数据孤岛中各类数据的分类、数据目录定义、数据挖局、数据分析、数据清理、数据脱敏、数据水印、权限管控、数据热度模型等各类数据的生产加工,为上层基于数据的共享创新等应用提供足够数据支撑;同时政府也可充分利用民生数据,脱敏利用后最大限度的做到服务于民。
成都勤智数码科技股份有限公司(以下简称“勤智数码”)成立于2005年,管理团队均来自世界五百强,具备丰富的资本运作、市场运营经验,依托与电子科技大学成立的“机器学习和数据智能”联合实验室,在大数据平台、数据分析和算法融合、应用开发等领域有丰富的项目经验和实力,成功承接过数十个政府大型项目的建设,运营和运维工作。勤智数码期望借助本地化企业的优势,承担创新创业大数据平台的项目建设及后期运营工作,组建最优秀的专家团队,在顶层设计、建设以及运营工作等方面高质量、按计划的完成。
3 投资建设的内容
创新创业大数据平台项目的投资建设,因为涉及的软硬件资源、咨询沟通、信息数据等内容繁多,勤智数码结合政府相关的项目经验,对初步建议的投资模式进行了如下的归纳总结。
创新创业大数据平台项目主要涉及到三个方面的投资建设内容,包括:
1)大数据支撑体系的建设
2)大数据平台运营维护服务
3)科研专家和数据资源服务投入
具体投资建设内容如下:
3.1 大数据支撑体系建设
为了实现政务数据的共享创新体系的建立,对政务数据需要有完备的分析处理体系,以支撑整个创新创业生态、大数据产业链的健康发展,而且国信优易拥有高质量的国家部委的各类数据,为了能有效的访问到经过国信优易授权的各类数据,建设内容已经充分考虑应用国内目前成熟和先进的技术,最大限度复用国信优易大数据平台的成熟稳定的技术架构和实现,结合特定需求的元数据管理、数据分类、数据审计、数据审核、数据评估、数据定级、数据发布、数据水印管理、数据开放接口管理、数据展示统一门户系统、身份权限管理、用户管理、平台门户系统、其他接口和应用平台等符合本地实际情况的定制开发等建设内容。
大数据支撑体系是整个创新创业大数据平台项目的核心支撑,也是投资建设难度最大的一个投资建设任务之一。包括:
3.1.1 大数据支撑平台
创新创业大数据平台承担了智慧城市底层支撑、政务数据共享交换、互联网数据存储、国信优易数据访问接口等多个核心业务需求,平台自身需要具备和采用先进的经过深度优化大数据技术、分布式存储计算和算法模型、高并发和快速响应的高速缓存架构等,建设一个基于SOA 框架的大数据能力核心平台,作为整个项目的数据智慧处理中心,需要支持多种数据源的汇集 (政务数据、互联网数据、行业数据等),支持不同的数据格式(结构化数据、非结构化数据以及流数据等)。在繁杂的数据接入要求的情况下,采用基于总线机制的数据接入系统,可以快速有效的完成数据接入的要求以及提供丰富和灵活的扩展性。
大数据支撑平台的建设计划采取复用国信优易成熟的大数据平台产品的思路,一是确保了与国信优易的数据接口访问互通的一致性、二是成熟的产品架构确保了运行的稳定性、技术的先进性。
平台的总体逻辑架构分为三层:基础设施层(IaaS 层)、大数据平台层(PaaS 层),以及大数据应用层(SaaS 层)。基础设施层依托于分布式存储架构,大数据平台层则提供了包括数据接入、分析、共享和平台管理在内的大数据分析处理功能,最后由大数据应用层提供的各种大数据应用来充分展示大数据平台的数据处理能力和共享能力。
图:创新创业大数据平台逻辑架构设计
3.1.1.1 基础设施支撑平台IaaS
政务大数据平台将充分利用区域政务中心(或信息中心)提供的基础设施资源,如:计算、存储、备份、网络和安全防护等,从而为政务大数据平台提供一个稳定可靠、高性能、扩展性强、易于管理的基础设施平台,
IaaS 层中基础的服务器和网络等资源计划尽量复用现有的硬件资源。
3.1.1.2 大数据分析处理平台PaaS
政务大数据平台利用数据接入服务,将在云计算中心部署的政务应用中存在的政务信息资源以及互联网数据进行统一的接入,经过对结构化和非结构化数据进行处理后,汇总形成总计21个一级类,133个二级类的政务大数据目录库,实
现资源的查询、检索以及共享利用。同时,构建高效的大数据分析系统,利用分布式数据处理、分析工具和展示工具,为上层应用服务提供大数据处理和分析能力。此外,利用大数据门户,为政府各委办局、社会公众、社会应用开发商提供资源查询、信息公开和数据服务。
3.1.1.3 大数据典型示范应用层SaaS
利用基础设施支撑平台和分析处理平台构建基础云端应用服务能力,建设数据创新创业促进系统、数据创新竞赛等提云端应用服务,在平台落地建设完毕时,即可提供具体应用提升人气,产生数据价值。
3.1.1.4 标准和先进的平台
大数据平台规划设计完全符合国家的宏观政策和各类标准,在标准规范层面,通过建立政务大数据平台的数据目录编制规范、数据权限管理规范、运行标准规范、平台安全与运维标准规范、数据交换接口规范,为平台的运行、维护与安全级权限控制管理等方面提供标准规范依据。
大数据平台的核心技术优势明显,以整体高可用性、灵活的可扩展性、技术先进性为原则,打造适合于政府的大数据产业发展的支撑平台:
❑ 双总线技术的SOA 框架: 平台层采用基于政务服务总线(GSB )及政务数
据总线(GDB )双总线架构的SOA 框架。GDB 主要负责数据的接入和交换,GSB 主要负责对内对外的提供统一的服务接口。
❑ 深度优化的分布式异构存储技术: 平台使用了经过深度优化的HDFS 、
HBase 与集群关系数据库相结合的异构存储方案,利用基于内存交换技术的高速缓存和高性能数据中间件实现了高并发的异构存储体系。
❑ 自主知识产权的高效算法和分布式计算框架:平台内部集成了几十种自
主知识产权的经过十多年技术沉淀的算法集合,利用MapReduce 和Spark 的高效分布式计算框架,实现各类复杂数据挖掘和分析需求。
图:创新创业大数据平台功能层次架构设计
3.1.1.5 互联网舆情信息模块
据不完全统计,中国网民规模达6.32亿,互联网普及率为46.9%,网络已经成为超越广播、报纸、电视的第一大信息传播媒介。42%的消费者拥有博客或个人空间。61.7%的网民在购买之前到网络社区(如垂直网站、论坛、博客或问答)寻求推荐和建议。34%的博主发表关于产品和品牌的意见。73%的消费者在网上交流观点。76%的网民将网络口碑作为了解产品和服务最可靠的信息源。78%的消费者相信朋友的推荐。在选择商品和服务时,人们更加关注他们在网络上的排行。不
到10%的网民发表着超过80%的原创言论,并吸引着超过90%的点击率。根据权威媒体统计,69%的政府和企业危机来自于互联网。
对互联网信息的接入将在信息资源的规模上对大数据提供更加丰富的数据资源。本项目将对互联网门户网站、网络社交论坛、微博舆论信息等相关信息资源进行接入。
❑ 互联网分布式爬虫
对互联网数据的获取主要依赖于网络爬虫技术实现。创新创业大数据平台采用先进的分布式网络爬虫框架,由框架完成爬虫的统一调度、管理和维护工作,以及被采集数据的统一存储工作。爬虫使用者只需要进行简单的配置或开发极少量脚本代码即可完成一个复杂页面甚至网站的爬取工作。
另外,平台在合法范围内适当利用反防爬虫技术,如验证码识别、动态IP 、动态用户等,从而保障互联网数据的有效获取,减少人工干预,节约成本。
平台提供部分互联网门户网站、网络社交论坛、微博等系统的爬虫,并采集相应数据以供平台使用。对于以后新增的应用,如果需要用到其他网站的数据,则可以基于爬虫框架,使用平台提供的SDK 套件开发相应的爬虫。
❑ 互联网门户网站信息获取接入
互联网门户网站信息获取接入是利用分布式网页爬取技术,以及基于行业领域字库的模式识别技术,实现对各类新闻门户网站、行业领域专业门户网站等相关B/S网页进行实时解析获取符合条件的数据。
互联网门户网站信息爬取的对象如下:
对新华网、人民网、中国新闻网、新浪网、搜狐网、腾讯网、网易网、凤
凰网、省级新闻网等各大综合类新闻网站的实时监控,获取符合条件的电子政务相关的信息。
对中国气象网、中国地震台网、交通网、减灾网等行业领域门户网站的实
时监控,获取气象、地震、交通、自然灾害信息。
其他政府期望及时获取的有价值互联网信息等。
❑ 网络社交论坛信息获取
与门户网站信息获取方式类似,网络社交论坛信息获取同样通过网页的爬取技术获取互联网中的社交论坛信息。主要提供以下相关内容的获取:
对天涯社区、猫扑社区、搜狐论坛、凤凰论坛、网易论坛、新浪论坛、凯
迪社区、强国论坛、中华网论坛、新华网论坛、环球网论坛、红网论坛等众多主流论坛的信息进行实时监控,获取符合条件的电子政务相关的信息。 对搜狗说吧、百度贴吧等公共交流平台中的信息进行监控,获取网民反映
电子政务相关的信息内容。
❑ 微博信息获取
微博信息获取主要通过调用爬虫对新浪微博的网页爬取方式,对微博用户发布的信息进行实时的爬取,微博信息可以进行基础的统计分析,为未来深层次利用做好准备。
3.1.2 数据管理子系统
3.1.2.1 元数据服务系统
❑ 元数据库管理
基于Web 浏览器端,向后台系统管理员提供根据数据平台内部的元数据标准(数据描述元数据、服务信息元数据),分别进行对应元数据库的创建与管理的功能。
❑ 元数据管理
基于Web 浏览器端,向后台系统管理员提供对元数据文件导入的功能。 基于单机版元数据编辑器,向后台系统管理员提供对数据描述元数据的创
建编辑保存功能。
提供基于元数据检索、元数据入库存储、元数据修改删除功能的元数据管
理WebService 服务。
❑ 元数据服务管理
基于Web 浏览器端,向后台系统管理员提供启停元数据服务的功能。
3.1.2.2 数据目录和接口标准管理系统
大数据资源目录体系梳理包括对政务信息资源核心元数据标准、分类标准、标识编码标准等方面进行梳理。参考国家对政务信息资源分类体系的制定标准,经过先期梳理,可将政务大数据资源目录梳理为 21个一级类,133个二级类。
在平台建设的同时结合符合国家标准的平台段数据目录的定义, 结合各个委办局的实际接口情况,明确各个委办局数据接口的接入标准,明确可汇聚共享交换的数据分类、数据格式、数据类型、数据接入方式等内容。通过明确的接口标准定义,指导各个委办局的数据接入,并提供必要的技术支持和指导。
数据目录的定义和管理要遵循国家现有政务电子信息化建设的相关标准,同时结合各个委办局数据的地域特殊性进行更细致的完善,确保数据目录在遵循国家标准的前提下,兼容支持本地政府的各类数据。
3.1.2.3 数据挖掘和分析系统
数据分析模块子系统作为创新创业大数据平台对外提供数据的深度挖掘和分析服务的核心系统,分布式数据处理子系统提供了对分布式存储数据进行处理的能力。数据分析系统利用多种分布式计算引擎,结合分布式数据存储模型对各类结构化及非结构化的信息资源进行快速的分布式分析处理,并将分析处理后的中间结果数据提供给上层示范性应用以及其他部门业务系统中进行二次利用;此外,模型管理子系统提供各类业务分析模型的新建、修改等管理功能。
创新创业大数据平台的数据分析系统可分为如下几个主要部分:
分布式计算引擎支撑系统
在分布式处理领域中,分布式并行技术是最为核心的领域之一。没有好的分布式处理程序的支持,分布式处理就不可能很好的工作,所谓超级计算、大数据分析也就更加无从谈起了。创新创业大数据平台通过提供MapReduce 、Spark 和Storm 三种分布式计算框架,为上层应用提供大数据分布式计算的支撑。这种架构既能够最大限度的满足各种业务模型的需求,同时也能够充分利用政务大数据
平台的软硬件资源,提供数据存储访问及分布式计算任务的调度、运行及结果通知等功能。
❑ 算法及模型支撑系统
数据分析不能一概而论,数据分析需要有基础算法的支撑。随着数据集规模和复杂度的持续上升,对算法要求也越来越高。创新创业大数据平台采用基于Hadoop 技术架构的处理技术,为数据分析师及开发者提供几十种具备自主知识产权的分布式算法。平台提供相应的SDK 开发工具套件及算法调用API ,从而让各种应用能够方便的使用平台数据及其算法。拥有基础算法的支持仅仅完成了数据分析和挖掘的第一步,对于每一个具体的基于数据的应用系统,都需要根据其自身特点建立相应的分析模型,才能够有效的支撑应用系统。简单的说,分析模型可以看作是由一个或多个基础算法组合而成,基础算法提供了大量的中间结果,而模型则将大量的中间结果处理为最终结果。
❑ 数据分析开发套件SDK
大数据平台提供的三种分布式计算框架为平台提供了强大的分布式计算能力,从而为各种基于数据的应用提供了基本的运行环境;同时,基础算法库中大量的分布式算法实现则为数据分析模型的建立提供了底层的工具支撑。为了让平台的计算能力和算法分析能力应用到实际业务之中,还需要通过研发人员开发出使用这些计算能力和算法库的分析程序。分布式计算开发套件SDK 则使平台具备了二次开发的能力,它可以让研发人员利用大数据平台中分布式并行计算的能力,通过基于数据分析的定制开发,实现对海量大数据进行分析处理,建立数据分析处理的结果性数据,为上层大数据业务应用提供数据支撑。
3.1.2.4 数据信息管理系统
❑ 数据审核
数据审核模块主要是接受供应商门户网站上传的流数据和块状数据,对这些数据进行审核,决定其是否能通过,并进入数据评估。
❑ 数据评估
数据评估模块主要是对已审核过的数据,针对各个指标项进行数值评估,最终保存其评估结果,供用户查询和数据定价时参考。
❑ 数据定价
数据定价模块主要是设置经过数据评估的数据,对应不同用户、不同使用环境进行数据定价。
❑ 数据发布管理
数据发布管理模块主要是发布经过定价或评估的数据,进行对外发布,设置
其发布范围和发布状态。
3.1.2.5 数据日志系统
❑ 数据日志存储
对外提供数据日志存储服务接口,供其他系统进行数据日志信息的存储。 ❑ 数据日志查询
基于Web 浏览器端,向后台系统管理员提供数据日志查询功能。
3.1.2.6 数据审计系统
❑ 数据服务使用情况审计
基于web 浏览器端,向后台系统管理员提供对登陆和使用平台进行数据服务使用情况的用户行为进行跟踪记录和统计,并形成分析报告的功能。
❑ 服务状态监视
基于web 端,向后台系统管理员提供对所有已注册并发布的开放数据API 和数据下载服务的服务状态信息进行监视记录,并形成分析报告的功能。
3.1.2.7 数据使用权标记系统
❑ 块状数据水印服务
向数据平台提供webservice 形式的块数据水印服务接口。
❑ 流数据水印服务
向API 管理系统和创新工场API 系统提供webservice 形式的流数据水印服务接口。
❑ 水印管理服务
基于web 浏览器端,向后台系统管理员提供对水印的管理和验证功能。
3.1.3 创新创业管理子系统
3.1.3.1 创新创业应用管理系统
❑ 创新应用APP 测试
创新工场APP 测试:当APP 上架之前需要经过后台管理人员的测试,创新工场开发者用户应当提供给数据平台测试账号,布置测试环境,提供测试数据,以及对应APP 的一些基本信息。后台管理员会根据提供的信息对该APP 进行测试。 ❑ 创新应用APP 发布
APP 发布:对于测试通过的APP 应用,后台管理员会进行发布,添加新的APP 应用,输入APP 有关的基本信息“名称、开发者、访问方式、说明描述、使用说明及演示地址等”。
3.1.3.2 开放数据API 管理系统
❑ API 发布
开放数据API 发布:API 数据系统主要提供给用户使用API 的方式,进行数据下载。是通过接口形式,实时获取最新数据。后台管理员上架API ,填写API 的详细信息包括:API 数据的描述(api 的收费情况描述、接口作用信息、接口的参数对照信息、返回字典等信息),接口信息(调用地址、返回格式),API 调用的文档,以及API 调用的地址。之后会经过后台管理人员审核确认API 通过审核,才会发布到数据平台。
❑ API 测试
API 发布之前必须经过测试,确保API 的可用性、正确性、以及数据的完整性,对一些法律规定不允许公布的数据将不予以发布。
3.1.4 数据统一展示门户子系统
3.1.4.1 数据统一展示门户
数据统一展示门户主要为普通用户提供浏览、确定数据范围的功能,数据是由平台或者数据供应商提供的,用户可以通过分类、查找、过滤等方式找到自己关注的数据,然后查看数据的详细信息,数据自身都是经过脱敏和加密,符合对外展示的具体要求的,成为数据驱动的运营体系的统一对外展示接口。
数据统一展示门户系统功能包括,数据展示,数据的过滤功能,数据的查找功能,数据列表,数据的详细信息。
❑ 数据展示
数据展示功能主要是将数据种类、描述、样例、历史访问量等信息展示给客户,以方便用户的分析使用。具体包括以下内容:
数据的分类显示
数据的分类会出现页面的头部导航栏,当用户把鼠标放到某一大分类出,弹出当前大分类下的所有子分类,用户点击子分类进入当前子分类有关数据的详细列表页面。
数据的过滤功能
提供标签过滤功能,用户点击其中某个标签,会按照此标签 以及之前的过滤标签重新过滤目标数据。目标数据的将以标签匹配的数据标题的关键字查找出来,以列表的形式展示出来,以供用户选择。
数据的查找功能
提供查找功能,用户通过页面的搜索查找有关输入关键字所匹配的数据,搜索框前可以选择搜索数据的标题还是搜索详情,默认的是标题的关键字,输入数据的关键字,根据程序的处理搜索有关数据的关键字匹配,以列表的形式展示出来以供用选择。
数据列表
数据列表会展示当前用户选择的或者默认的分类下的所有的数据,会以列表分页的形式展示,按照时间默认排序。当前列表会展示数据的一些基本信息“数据的标题、数据质量的评分、数据的图片、数据的访问量以及数据的简单描述”;如果当前登录的用户为创新工场的用户,创新工厂用户进入API 列表,api 标题后会多出金银铜等级,只有符合当前等级的用户才可以调用当前的API 数据。
数据详细信息
数据的详细信息,点击数据的标题进入当前数据的详细信息页面。会显示当前数据的详细信息,包括“数据的图片、数据的标题、数据的价值、数据来源、数据上架的时间、数据的大小、当前数据的下载量、数据的简短描述、当前数据的完整性(八个指标)、收藏、推荐有关当前数据的相关数据、数据的详细信息、访问过的用户对当前数据的评论信息”。
❑ 数据检索
数据的检索包括,标签的筛选,数据的关键字及详细信息的搜索。用户点击
其中某个标签,会按照此标签 以及之前的过滤标签重新过滤目标数据。目标数据的将以标签匹配的数据标题的关键字查找出来。搜索框前可以选择搜索数据的标题还是详细信息,默认的是标题的关键字,输入数据的关键字,根据程序的处理搜索有关数据的关键字匹配,以列表的形式展示出来以供用选择。
❑ 用户管理
当前平台用户管理分为三类:普通用户管理、创新工厂用户管理、供应商用户管理。普通用户管理:普通用户可以在前台的个人中心里管理自己的基本信息,查看自己的账户信息,修改密码等操作。还可以通过我的订单查询当前所有的订单,及订单最新的状态,查看并管理当前的API 的信息。查看当前的系统消息。创新工厂用户管理:创新工厂用户可以在个人中心管理自己的基本信息,查看自己当前的等级,查看并管理自己的账户余额,查看并管理当前的API 的信息,更新自己所购买的API 版本等,发布自己的应用,查看并且管理自己当前已发布的应用。查看当前的系统消息。供应商用户管理:供应商用户可以在前台的个人中心里管理自己的基本信息,查看并且管理自己的数据状态,修改密码等操作。发布数据,查看自己发布的数据的情况。查看当前的系统消息。
3.1.4.2 数据共享交换系统
❑ 数据汇集配置管理
基于web 端,向后台系统管理员提供对数据平台主节点与分节点/独立数据终端系统之间的数据汇集操作配置管理功能。
❑ 数据在线汇集
基于web 端,向后台系统管理员提供进行数据在线汇集传输的操作管理功能。 ❑ 数据离线汇集
基于web 端,向后台系统管理员提供进行数据离线汇集传输的操作管理功能,包括数据离线汇集包的导出及导入功能。
❑ 数据共享交换日志管理
基于web 端,向后台系统管理员提供数据共享交换业务操作的日志记录检索浏览功能。
3.1.4.3 数据访问规则系统
❑ 访问规则管理
基于web 浏览器端,向后台系统管理员提供基于内置数据访问业务规则,对特定用户或特定数据服务进行访问规则设置管理的功能。
❑ 数据访问服务
向平台提供基于webservice 形式的API 数据访问服务接口。
❑ 访问信息服务
向平台提供基于webservice 形式的API 数据访问历史记录信息检索服务接口。 ❑ 访问规则管理
对数据访问相关的各类规则进行统一管理和配置。
3.1.5 用户及权限管理子系统
3.1.5.1 用户信息管理系统
❑ 数据平台注册用户管理
平台注册用户管理,系统管理员可以在后台进行平台注册用户的管理。通过用户管理,可以查看用户的订单,以及发现不合法用户后,对用户的冻结功能。
❑ 创新工场用户管理
创新工场用户管理,系统管理员可以在后台对平台所有的创新工场用户进行操作。可以在后台的用户管理中的创新工场用户管理中设置。可以进行查看当前所有的创新工场用户列表及详细信息“ 创新工场用户名称、所发布的API 、发布时间、账户信息、用户等级等。”管理员还可以对新申请的创新工场用户进行审核,对不符合创新工场用户条件的申请进行驳回。对已经通过审核的创新工场用户的账户进行冻结,叫停该用户在应用市场所发布的应用。
❑ 数据供应商管理
数据供应商管理,系统管理员可以在后台对平台所有的数据供应商进行操作。可以在后台的用户管理中的数据供应商管理中设置。可以进行查看当前所有的供应商列表及详细信息“供应商名称、所提供的数据、时间等。”管理员还可以对新申请的数据供应商进行审核,对不符合数据供应商的申请进行驳回。对已经通过审核的数据供应商进行冻结,叫停所发布的数据等操作。
❑ 系统管理员管理
系统管理员管理,超级管理员账号可以在后台配置有关系统管理员的权限,设立不同的管理权限从而实现不同角色管理员的划分,例如订单管理员,只能进行订单的操作,无法操作其他菜单。超级管理员可以在后台用户管理中配置有关的系统管理员的权限。
3.1.5.2 授权管理系统
❑ 数据服务分组管理与授权
基于Web 浏览器端,向后台系统管理员提供对数据服务进行分组定义和
分组管理设置的功能。
基于Web 浏览器端,向后台系统管理员提供将数据服务分组与用户分组
进行对应关系设置和管理,按照对应关系对用户组进行数据服务授权的功能。
❑ 数据服务分级管理与授权
基于Web 浏览器端,向后台系统管理员提供对数据服务进行分级定义和
分组管理设置的功能。
基于Web 浏览器端,向后台系统管理员提供将数据服务分级与用户分级
进行对应关系设置和管理,按照对应关系对用户级别进行数据服务授权的功能。
❑ 数据服务单独授权
基于Web 浏览器端,向后台系统管理员提供为特定用户对特定数据服务
的访问授权进行管理控制的功能。
提供针对特定用户访问特定数据服务授权的WebService 服务接口。 ❑ 数据访问权限管理
数据访问权限管理:普通用户及其供应商用户只可以访问普通的块数据,及API 。创新工厂的用户除了可以查看普通的块数据,及API ,还可以调用创新工厂中的对应着自己账户等级的API 。
3.1.5.3 身份认证与访问控制系统
❑ 用户身份认证
提供WebService 形式的用户身份合法性认证服务,根据用户名和口令进行用户身份的比对认证。
❑ 数据服务动态Token 授权服务
向用户提供获取数据服务(开放数据API 服务和块数据下载服务)访问授权动态Token 的Web 服务API ,通过用户身份认证和数据服务访问权限认证后,向用户返回最新的数据服务调用授权动态Token 。
❑ 数据服务访问控制
对用户向数据平台发送的数据服务调用请求进行有效性验证和访问控制。
3.2 大数据平台运营维护服务
创新创业大数据平台项目涉及的软硬件系统范围较广,且承载了重要核心的数据资产,其稳定运行的保障十分重要,勤智数码依托自身十多年的IT 运维经验,建立一套基于ISO/IEC20000和ITIL v3理论,遵循ITSS 、GB/T 28827-2012系列运行维护服务国家标准的运营维护体系,对平台中各子系统以及各功能模块提供统一的监控维护服务,包括服务的提供状态监控、服务的使用状态监控、系统的运行状态监控等。
包括如下的平台运维服务:
3.2.1 平台内部资源的监控管理
对平台所涉及的所有硬件资源、软件资源和数据资源进行实时不间断的7x24小时的监控和管理,合理设定资源状态的预警阈值的设定,确保任何资源状态异常的及时通报和展示,通过声光报警、短信、邮件的及时通知,确保管理人员及时的发现和处理问题。
同时借助大数据平台的优势,实现平台内部软件、硬件资源运行状态的趋势预测,不同资源告警阈值的智能化管理和自动设定,做到平台内部运行状态的稳定和持续。
❑ 硬件资源监控
大数据平台的硬件资源较多,所有硬件资源包含:路由器、交换机、防火墙、主机(window 、linux 、Solaris 、HP-Unix 、AIX 等)、虚拟服务器、无线设备AC/AP、存储设备、光交换、其他安全设备等的监控,监控方式支持snmp v1/2/3、
ssh/telnet、TCP 、syslog 、trap 、脚本、WMI 、netflow/cflow/sflow/netstream协议等。
支持对大数据平台涉及的各种设备状态的实时监控(如:通断、资源使用
情况、端口状态、流量峰值、流量变化量等其他关键指标等)
支持网络设备的流量的应用层协议分析和监控.
借助类似曲线图表现大数据平台内部最近一个小时,最近一天,最近一周,
最近一月,最近一年的服务器或者集群的cpu 负载, 内存, 网络, 硬盘等指标
支持各类监控指标的告警阈值的人工和自动调整
支持告警信息的短信、邮件通知以及声光报警通知
支持网络拓扑和机房的视图可视化管理
支持网络资源的配置自动备份
❑ 软件资源监控
大数据平台内部的软件资源复杂,需要支持统一化的一体监控模式,支持对Hadoop 架构体系内所有软件模块和系统(HBase 、HDFS 等)、关系型数据库(MySQL 集群、Oracle 、SQLServer 等)、中间件系统、前端应用、软件TCP 端口等软件资源的监控和管理,支持SNMP 、SSH/telnet、JMX 、JDBC 等监控方式和协议,实现:
支持大数据平台内部的各种传统关系型数据库和数据库集群、Hadoop 架
构中HDFS/HBase等的状态、内存数据库状态、各类中间件资源状态、平台内部和前端应用状态、各类内外部的接口状态的实时监控
支持各类监控资源的告警阈值的人工和自动调整
支持告警信息的短信、邮件通知以及声光报警通知
软件信息变动和资源使用异常等关键指标的监控
基于软件关联关系的监控,实现基于多个软件和硬件的业务级别的监控
3.2.2 平台故障处理管理
大数据平台涉及的软硬件信息和数据量较大,平台上线运行后会面临海量的故障信息,故障信息分析是运维工程师面临的难题,而云计算、虚拟化等新技术的广泛采用进一步加剧了运维管理的复杂度。需要对运维流程进行梳理,将技术人员从繁重的运维工作中解脱出来,实现运维作业的标准化、自动化,缩短业务
响应时间,提高服务质量。平台的各类故障和告警处理的管理主要针对平台运行期间所有异常事件的统一管理,确保所有异常事件都被处理的管理功能。借助国家标准和ITIL 的SLA 模型,需要建立一套完备的故障事件、问题、变更和发布等的标准化故障处理流程,规范故障处理的过程,做到故障的及时处理、追踪、统计,确保每一个问题和故障都能被及时的处理。提供页面/邮件/短信/声音/光/消息客户端/WebService接口及时通过责任人进行告警处理。
3.2.3 日常平台管理任务自动化
日常平台管理工作中有很多是标准化的工作,如巡检、值班等工作。这些工作会占用大量的时间,将人工的操作、管理转变为系统自动化的操作和管理,可以节省时间,将精力投入到更紧急、更重要的工作中。
❑ 自动巡检功能
平台的监控管理系统自动将需要巡检的设备状态发送到系统中,自动进行设备运行状态和重要指标性能数据的收集汇总形成自动巡检结果,同时巡检过程全程记录,通过巡检工单,能够跟踪巡检的执行情况。
❑ 人工巡检功能
针对非监控资源的巡检,可通过系统内提供的人工巡检功能完成巡检结果的记录,为巡检任务执行的计划、监督和结果的电子化管理提供了有效的手段。
❑ 值班管理
系统提供值班管理功能实现管理人员的排班、值班、交接班等信息的电子化管理,系统自动排班。
3.2.4 故障处理自动化
❑ 告警的处理过程通过基于ITIL 的事件、问题、变更等标准化的流程进行管理
❑ 系统自动进行告警过滤、压缩,避免海量告警。
❑ 自动将关键告警通过消息发送给责任人。
❑ 系统自动运行预定义的脚本恢复故障。
❑ 对于需要技术人员处理的故障,系统自动创建工单,派发给管理人员处理。
❑ 系统自动关联知识库,协助技术人员处理工单。
❑ 技术人员处理结束后处理方案一键转知识,知识不断累积。
❑ 平台内部管理的移动化
支持移动终端的平台状态监控和故障事件的处理,实现管理人员不在现场时的实时平台状态的监管,实现平台状态监控管理的移动化办公。移动终端可以通过政府内网的无线网络系统直接接入、也可以通过互联网经过加密的专用VPN 通道访问政务内网的特定资源。
3.3 科研专家和数据资源
以勤智数码与成都电子科技大学联合成立的“机器学习与数据智能联合实验室”进行挂牌,为大数据平台发展提供优质的科研专家资源。
以国信优易分中心的形式挂牌,平台提供与国信优易数据访问的接口支持,创新创业大数据平台成为整个地区访问国信优易拥有的国家部委重要数据资源的唯一入口。依托国信优易的未来国家级大数据共享促进中心的发展定位,将在未来基于数据驱动的运营体系中会处于非常有利的发展格局。
4 项目收费和收益模型
政府委托勤智数码作为创新创业大数据平台的建设和运营方,建议由政府指定的全资公司与各个委办局签订数据共享和使用协议, 该全资公司与勤智数码签订服务框架协议,由政府向勤智数码以购买服务的方式来支撑大数据平台的正常运营,收费模型保证项目的投资收益。目前规划的收费和收益模型总结如下:
4.1 平台运营服务
政府每年向平台支付平台运营服务费,平台为政府提供如下服务内容:
勤智数码为政府建设一套创新创业大数据平台,为实现政务数据的共享交
换能力,为政府内部的数据共享、分析和挖掘提供必要的服务。
基于勤智数码为政府建设的大数据平台,为智慧城市建设历程中所有垂直
行业应用提供底层的统一数据平台支撑能力,为政府实现城市级的数据沉淀提供必要的服务。
勤智数码为创新创业大数据平台提供专业的运营维护服务,确保平台的持
续稳定运行。
平台提供国信优易数据的访问接口服务,作为区域内唯一的访问接口对外
提供服务。
4.2 数据运营服务收益
政府委托勤智数码对平台内的数据和上层应用进行全面的运营,借助平台中基于数据驱动的运营体系直接收益。计划按照目前已规划的政务数据、国信优易的数据、智慧城市运营产生的数据等,数据价值巨大,初步预估超过数十亿元。政府全资公司可以获得数据运营直接收益的30%。
结合平台建设投资的计划,预计数据驱动的运营服务起始阶段属于无收益投资阶段,随着平台运营收益程逐年增长,预估整体最终在2~3年左右后开始收益。
4.3 大数据产业链发展促进收益
通过对创新创业项目的孵化,产生落地的创新项目,直接促进更多的社会就业岗位,提升就业率。如年孵化10个投资千万的大数据创新项目,可间接产生超过5亿元的地方产值增长,大数据产业可间接获得近100亿的发展空间。通过对大数据产业链的整体促进作用,从上游的数据拥有和制造环节,到中游的数据加工和使用环节,再到下游的基于数据创业的投资收益环节,都有直接的影响。
政府在产业链上游属于数据的拥有者,收益最大;同时政府也属于产业链中游的数据使用者,对政府内部的管理促进收益也很明显;最终通过产业链下游的投资环节的蓬勃发展,直接促进整体GDP 规模的提升。
4.4 政府社会收益
政务数据共享交换机制的建立,解决各委办局数据孤立的历史难题,借助数据共享体系建立创新出多个内部或对外惠民应用,让老百姓直接感受到政府提供的免费服务,间接大幅提升民生服务满意度,提高政府领导的执政效果,提升政府大数据产业建设推广的标杆性社会综合影响力。
通过打造创新创业的投资环境,直接提升了区域的整体品牌形象,吸引外来人才,培育了本土技术、商业、投资等各类人才的发展,社会整体对外的城市形
象提升效果会非常明显。
5 项目建设阶段目标
创新创业大数据平台,初步规划在项目正式启动后一年内实现数据共享交换平台基础支撑体系能力的建成、创新创业云端平台建成、大数据特色竞赛平台建成、统一门户建成。
使得大数据产业在年底初步可以开始吸引大数据创新创业人才入驻,初步具备创新创业项目孵化能力,大数据创新创业的形象的推广启动等。