[技术分享]大众点评数据平台架构变迁
1.3 数据应用:
1. 报表数据以邮件的形式发送给用户
2. 用户可以使用自定义sql 的web 查询工具主动查询数据
2.0(2013.04)
2.1 数据:
1. 有了明确的模型分层:
ODS:存放从原系统采集来的原始数据
DW:保存经过清洗,转换和重新组织的历史数据,数据将保留较长时间, 满足系统最细粒度的查询需要
DM: 数据集市。基于部门或某一特定分析主题需要
RPT:直接面向用户的报表
2. 形成了流量、团购、信息三大基础模型及构建于三大基础模型之上的数据集市
3. 基于volocity 开发了canaan 计算框架。
4. 开发了一些自定义的UDF
2.2 架构:
1. 存储和计算都基于HIVE
2. GREENPLUM作为HIVE 的“cache”存在,供用户做一些小数据的快查询,报表存储。
3. 调度:和
canaan 框架进行整合,支持用户快速新增任务,并自动导入任务依赖。
4. 主数据:保存了数据仓库元数据信息,供用户查询和系统内部各个模块交互。
5. ACL:构建了数据仓库数据访问权限控制,包括用户权限申请、审批者审批、数据赋权等。
6. 传输:
参考阿里DataX 的设计,实现了点评的异构数据离线传输工具wormhole
可视化界面,用户通过界面操作,方便的将数据导入导出数据
和调度、主数据等系统打通
7. 监控:由于任务数量增长较快(2000+),运维已经是个问题此外,因此,我们花了较大精力做了可视化的工作:
2.3 数据应用
1. 运营工具:用户自定义
SQL ,存储基于HIVE
2. 指标(KPI):用户自定义SQL ,计算基于HIVE ,结果放到GREENPLUM 中,用户可以根据指标通过时间拼接成报表
3. HIVE WEB:非常便捷的HIVE WEB工具,可用性可以甩hive 原生的web 界面HWI 几条街了3.0(2013.12)
3.1 数据:
1. 有了明确的上层数据集市,各层数据集市打通,例如团购数据和流量数据打通
2. 形成了用户集市、商户集市两大主题
3. 和算法团队合作建设推荐系统
4. 提供框架和工具支持,引入外部数据开发者
3.2 架构:
1. 引入mysql 、hbase ,支持线上服务
2. 数据访问接口支持:API 、Query Engine、RPC Service
3. 引入shark 支持临时查询,出于稳定性考虑,牺牲性能,shark/spark集群和hadoop/hive集群物理隔离
4. 数据质量:用户指定以条件,对计算结果做检查
3.3 数据产品:
支持DashBoard
4.0(2014.12)
4.1 数据:
1. 持续扩充/完善数据模型
2. 数据规范化,主要包括:APP 日志、渠道
3. 完善数据开发平台,其他部门数据开发者100+
4.2 架构:
1. 建设Redis Cluster,支持实时推荐、用户画像等服务
2. Hadoop升级到YARN
3. 引入Storm 支持实时计算
4. 推出类Kafka 的分布式消息系统,结合日志框架,支持日志数据的快速/低成本接入
5.
建设元数据中心