大数据-基本功能
电信业大数据经分系统基本功能
Document #:2013-00105
Date :2013年7月21日
大数据是一个非常新的市场,市面上大部分的大数据产品都基于开源项目Hadoop 。虽然Hadoop 是一个较为成熟的产品,但属于第一代大数据产品,利用Hadoop 开发的大数据产品无法保障系统的可靠性、不支持快速实时查询、数据库不能修改、数据库一旦发生问题不能回复等等。
大数据系统对提升企业竞争力,实现精细化管理、精准化营销、提升企业管理和运营能力上都将发挥着决定性作用。在项目的选型上至关重要。
我们注意到那些基于Hadoop 开发的大数据产品,其报价相对来说比较低。价格是项目选型的一个至关重要的指标,但更重要的是价有所值。我们知道某省移动花了¥200左右引进了一个基于Hadoop 的大数据产品,该系统只能处理2个月的数据,系统没有转为电信系统开发的应用,只是对话单做了一些简单处理和不多的一些统计。因为在Hadoop 之上开发应用极为困难,导致系统验收已经近一年,目前还无法上线。即使有一天上线,也不可能成为该公司今后大数据的平台。这意味着公司还必须继续投资,不仅浪费了资金,更重要的是由此带来的商业成本的损失。
根据我们多年对电信业经分系统的经验和结合大数据技术、大数据市场的特点,下面是大数据经分系统应该有的一些性能、功能指标,仅供我们的客户参考。
系统功能
下面5个系统功能是整个系统实时性和可靠性的根本保障。不具备这些功能的大数据系统都无法保障系统的可靠性和实时性。这5个功能是电信级大数据的必须功能。所有基于Hadoop 的大数据系统都不支持这些功能。功能
01数据库可修改性重要性必须描述所有基于Hadoop 的大数据产品其数据库都无
法修改。即使一些产品在应用层面上实现了数
据库的修改,但这将严重影响系统的性能。而
从根本上解决Hadoop 的可修改性现在即使在
国外也没用解决。
Hadoop 通过数据备份保障数据的可靠性,这
给人们一假象,认为这样的系统是可靠的。但
数据备份只能保障数据的可靠性,不能保障数
据修改过程的可靠性。一旦数据修改过程出问
题,无论有多少数据备份都无法恢复系统,严
重时导致系统崩溃。因此没有大数据
Transaction (事务)的大数据产品无法保障系
统的可靠性。
所有基于Hadoop 的大数据产品都不支持快
照。没有快照的数据系统无法恢复系统。一旦
系统出现问题,系统将因无法恢复而崩溃。因
此没有快照的大数据系统都是不可靠的系统。
没有增量处理的大数据系统无法保障系统的实
时性。所有基于Hadoop 的大数据产品都不支
持增量处理,都无法保障系统的实时性。
所有基于Hadoop 的大数据产品都不支持快速
实时查询。虽然有一些技术,例如Impala 、
Singer 、Drill 在某种意义上实现了快速实时查
询,但这些技术仍然沿用的是“逐条全表查
询”,需要耗费少则几百台设备、多则上千台
设备。02大数据Transaction (事务)必须03大数据快照必须04增量处理必须05快速实时查询必须
业务功能
下面是我们根据大数据技术专门为电信业开发的功能。这些功能都已经实现并在一些运营商中使用。所有功能都支持不少于3年的数据,并且查询速度极快(都不大于10秒钟,一般3秒之内完成)。06话单全数据查询重要支持至少3年全数据话单查询,并支
持任意多条件话单全数据查询,包括
按电话号码、通话时间、通话时长、
电信个数、上网流量、业务类型、基
站、地市县等等。必须支持实时查
询,每个查询一个不大于10秒钟。
提供多维度话务分析,包括时间维
度、业务类型、通话时长、通话次
数、短信个数、上网流量、每日时
段、地市县等等。所实现的各种统计
分析都可以在10秒钟内完成,且所
有统计都支持不少于3年数据。
以基站为单位,提供多维度话务分
析,包括时间、业务类型、通话时
长、通话次数、短信个数、上网流
量、每日时段、所属网格等等。所实
现的各种统计分析都可以在10秒钟
内完成,且所有统计都支持不少于3
年数据。
了解每个竞争对手(既其他运营商)
每天新发展了多少客户、每天流失了
多少客户、每天客户数统计。并按所
设计的数学模型,将竞争对手的新
增、流失细化到每个地市县,对指导
公司运营极为重要。
为公司领导层专门设计,提供每日经
营指标分析,包括:(1)通话时长
(2)通话次数
(3)短信个数
(4)上网流量
(5)新增竞争对手客户
(6)流失竞争对手客户07全数据话务分析重要08基站分析重要09竞争对手分析重要10宏观趋势分析重要
(7)话费收入
(8)套餐客户话费
(9)套餐客户话务量
(10)套餐客户通话次数
(11)套餐客户短信个数
(12)套餐客户上网
所有这些宏观数据按每日统计,并按
全省、各市,并支持不少于3年数
据。
11运营异常分析重要系统对以下话务指标按每日统计做异
常分析,既每日数据与前六天的平均
值相比。该值被称为“波动值”。每
日波动值大于一个值得值的称为“异
常”。系统自动检测每日运营异常,
并按全省、各市统计:(1)通话时
长
(2)通话次数
(3)短信个数
(4)上网流量
(5)新增竞争对手客户
(6)流失竞争对手客户
(7)话费收入
(8)套餐客户话费
(9)套餐客户话务量
(10)套餐客户通话次数
(11)套餐客户短信个数
(12)套餐客户上网
所有这些宏观数据按每日统计,并按
全省、各市,并支持不少于3年数
据。
12按业务类型话务重要
分析以业务类型为中心,对以下话务数据按时间轴、全省或各市、套餐客户、
基站做分析:
(1)通话时长
(2)通话次数
(3)短信个数
(4)上网流量
(5)新增竞争对手客户
(6)流失竞争对手客户
(7)话费收入
(8)套餐客户话费
(9)套餐客户话务量
(10)套餐客户通话次数
(11)套餐客户短信个数
(12)套餐客户上网
所有这些宏观数据按每日统计,并按
全省、各市,并支持不少于3年数
据。
13收费分析重要以收费为中心,对以下话务数据按时
间轴、全省或各市、套餐客户、基站
做分析:
(1)通话时长、
(2)通话次数
(3)短信个数
(4)上网流量(上行)
(5)上网流量(下行)
(6)上网流量(总和)
所有统计支持不少于3年数据,获得
每个统计值时间不大于10秒。
14分级管理重要按省、地市、县、网格支持四级分级
管理。每一级的用户只能看到自己的
数据。上级主管部门可以看到下属单
位的数据。
各种统计数据、运营数据、分析数
据、数据报表等等都可以包装为数据
服务,放在“数据超市”里。数据的
使用受授权控制。被授权的用户可以
非常方便地查看这些数据。
查询结果可以按照现有保存并可以授
权他人使用。15数据超市重要16查询结果保存重要