数据仓库维度模型知识点记录

05-07

1. 生命周期

a) 业务需求定义

i. 收集需求

ii. 分析业务

iii. 数据仓库建立总线矩阵

iv. 项目规划

b) 维度建模、

i. 建模过程

1. 标识需要建模的业务过程

2. 声明粒度

3. 标识和选择维度

4. 标识和选择事实

ii. 维度表

1. 代理键

a) 日期维度可以使用20140101这样的智能键，智能键可以用来分区

2. 渐变维度

a) SCD1 直接更新

b) SCD2 标记维度的时间作用域，插入新数据，增加新行

c) SCD3 不同的列记录不同时间域的值，增加新列

d) 将经常变化属性集合为小维度表

3. 退化维度

a) 没有对应维度表的非事实属性：类似于订单ID

4. 支架维度/引用维度

a) 比较类似于雪花模型，例如顾客的生日属性可以链接到日期维度表。

日期维度表就是顾客维度的支架维度

5. 多值维度

a) 使用桥接表实现

b) 事实与维度的多值关系

i. 例如订单的为多商户分成，可以通过一个商户分组链接表实现，

订单事实中记录商户分组的ID ，分组链接表中分行记录不同商

户的账号ID 及其分成

c) 维度与维度的多值关系

i. 例如用户帐户维度与消费自然人客户维度有多对多关系。因此在

帐户维度表与自然人维度表中加入一个“帐户与客户关系”桥接

表。记录

d) 可变层次展示

i. 例如职员与职员间隶属关系：可以使用桥接表记录每个职员与其

所有下属之间的隶属距离和其下属的直接上司，就可以层次化的

表示出职员之间关系

6. 角色扮演维

a) 例如下单日期维度和退款日期维度都是通过视图链接到日期维度表，

这两个维度都是角色扮演维。

7. 杂项维度

a) 慎用杂项维度

b) 将小维度合并组成杂项维度。

iii. 事实表

1. 事务型事实

2. 周期快照事实

3. 累计快照事实

4. 没有事实的事实

a) 例如用户登录行为事实，其只有维度没有度量，那么添加一个值永远

为1的login_cnt字段为度量，方便sum

5. 面向状态的事实表

a) 例如帐户余额其实对应了一个具体的自然人，在自然人的地理位置变

化后，该自然人维度会有SCD 2的转换，可能代理键从1 – 2.帐户余

额需要做一个SCD 2的转换，将自然人维度引用该为2. 其实是为了查

询任意时间点，某个地理位置的帐户余额总和

c) 物理设计和ETL 开发

i. 源数据探查

1. 出具数据剖析表来记录字段的类型，数据分布等

ii. 子系统

1. 提取

a) 数据剖析：KETTLE 有插件datacleaner 实现

i. NULL 值判断

ii. 字符串匹配

iii. 数值分布报表

iv. 正则表达式匹配等

b) 更改数据捕获系统：KETTLE

c) 提取系统：KETTLE 的INPUT 节点的功能

2. 清理和一致化：KETTLE 已经实现

a) 数据清洗

i. 转换数据类型

ii. 重命令列等

b) 数据检验

i. Kettle 提供了流读取功能来验证数据是否错误

1. 取值范围是否合规

2. 关系完整性是否存在

3. 是否符合状态机规则（例如没有支付日期时就不应该有支付

状态）

4. 一般依赖约束：例如派生列和其父列是否满足约束

c) 错误事件模式：KETTLE 的错误流节点

i. 过程错误：trans step等出错

ii. 数据校验错误

iii. 过滤器错误

iv. 一般步骤错误

v. ETL 工具箱中描述的错误事件数据分析表能够起作用

d) 审核维度汇编器：KETTLE 通过统计节点实现

i. 审计事实细节：数据从哪里来，什么时候加载，在那个服务器上

加载

ii. 数据质量指标：读取了多少记录，过滤了多少记录

iii. ETL 工具箱中提供了审计维度的模型

e) 重复数据删除：KETTLE 的删除节点

f) 一致化系统：KETTLE 的 LookUp 映射节点实现

3. 装载和发布

a) 渐变维度处理

b) 代理键生成

c) 层次结构管理

d) 事实表的管理

e) 都可由KETTLE 现有节点或者组合不同节点实现

4. 管理

a) 任务调度系统：KETTLE 有简单实现

b) 备份系统：没有

c) 版本控制系统：没有

d) 排序系统：KETTLE 有

e) 谱系和依赖关系分析：KETTLE 可以通过插件实现。

f) 监控系统：KETTLE 有简单的免费功能版监控

d) 主数据管理

i. 模型资源管理

1. 类似于UML 的模型管理

2. 增加了各实体及属性的版本控制

3. 实现

a) 实体表：用来保存各个实体

b) 属性表：用来保存各实体的属性及其各版本对应信息，更改时间等

c) 关系表：用来保存各实体间关系

4. 用于解决类似于表扩散的问题

e) 元数据管理

i. 过程元数据

1. ETL 系统的开始、结束时间，CPU 使用率，内存使用，处理数据行数等统

计数据

2. 筛选和审计结果

3. 数据库或者表使用信息

4. 报表查看次数、系统调用次数等

ii. 技术源数据

1. 源数据系统描述：例如连接方式，账号、密码等

2. ETL 调度依赖关系等

3. 数据库中元素描述：例如mysql 中的元数据

4. OLAP 聚集的定义

5. 报表的定义

iii. 业务元数据

1. 数据筛选说明

2. 数据字典

3. ETL MAPPING

4. 业务规则描述：例如SCD 类型、空值处理策略等

iv. 扩展

1. 影响分析、血缘分析等其实是根据业务元数据中的ETL MAPPING，将各属

性及其派生属性生成类似于Storm 中的业务树类似的有向无环图，从而查询出其血缘及影响。

f) 数据质量

i. 属性取值范围约束

ii. 关系完整性

iii. 状态依赖规则（是否满足状态机模型约束，比如订单支付中状态只能对应支付

表中正在处理状态）

iv. 一般性依赖状态：例如派生列依赖于其他列取值

v. 数据质量保证的想法

1. 通过数据剖析来控制源头数据

2. 通过数据检验和错误处理保证处理过程的正确

3. 通过审计维度保证处理结果的正确

g) 调度系统

i. 调度跟踪

ii. 资源分配

与《数据仓库维度模型知识点记录》相关的范文

04-15 仓储盘点基本要素

仓储盘点基本要素仓库盘点有三大目的：一，让仓管部、采购部和财务部等相关人员对库存的物料有最精确的数据；二，让相关的部门对反馈的物料数据在质量、数量上寻找不良的情况并及时纠正；三，为本司对材料的损益程度、仓管的效率及企业的效益在月、季中能精确的得到反映： 1，本司规定对仓库都要进行月（季）盘点，或“季盘点月抽检”工作。通常在每月月尾进行。如有例外情况则延至下月初。 2，为了不影响生产的运作和 ...

02-16 超市管理工作计划

超市管理工作计划　　　很多超市从业人员都认为只要打好春节战役，年后就可以好好休整一下了，这其实是个不小的误区。殊不知，一年之季在于春，年后可以说是一年中至关重要的一段时期，它既是总结去年得失的最佳时机，又是修正和执行新一年计划的开始，是“龙抬头”的时期，新的一年能不能做好，春天就定了调子。　　　　年后需要关注哪些重要的工作呢？我个人认为以下几个方面是重中之重。总结过去一年和春节战役的得与失 ...

01-21 系统管理作业流程及岗位责任管理制度

系统管理作业流程及岗位责任管理制度　　第一章总则　　第一条为规范公司企业资源规划（以下简称k/3ERP）系统的管理，特制定本制度。　　第二条k/3ERP系统各岗位人员的职责管理除有公司有特殊规定外，皆按本制度执行。　　第三条k/3ERP系统各岗位的考核将以本制度为依据，纳入公司kPI目标考核体系。　　我司ERP系统分为系统设置管理、销售管理、采购管理、仓存管理、车间生产管理、计划管理、财 ...

01-23 眼镜店管理制度

管理制度（本制度适用于本店的所有员工）本店组织机构图总店长医学、技术部营业部服务部营业员学生市场员员工的工作技能要求：营业、验光、定配、售后 (服务) 员工的职业道德要求：敬业、负责、诚实、守信凡入店员工，学习期（七天）满即必须与本店签定劳动合同书员工的形象本店员工必须统一挂牌上岗，上岗牌（押金5元）为本店所有，谁用谁保管谁负责，在使用过程中的损失、损害、丢失由使用者负 ...

06-05 商品部管理制度

商品部管理制度为了更好地发挥仓库对商品的调配功能，规范公司仓库的管理，促进仓库的各项工作科学、安全、高效、有序、合理地运作，确保公司资产不流失和各专卖店所需商品的型号、规格以及质量符合要求，保证仓库出货的进度，较准确做好各店的配送工作。特制定本管理制度。一、适用范围本规定适用于公司鞋类仓库、服装类仓库、配件仓库和残次品仓库的管理。二、职责 1、商品部是仓库的主管部门； 2、仓库管理人员根据 ...

06-19 质量奖惩制度

质量奖惩制度 1．范围：适应于公司内从事管理、生产的所有人员。 2．目的： 2-1．为了调动全体员工的积极性和创造性，维护正常的生产和工作秩序，提高工作效率，强化团体纪律，促使本公司管理工作畅通，特制定本制度。 2-2．质量是企业的生命。产品质量的优劣直接关系到企业的生存与发展。由此，质量管理成效如何尤为重要，上至高层领导，下到普通工人，人人都要重质量、抓质量、坚持出精品，减少直至杜绝不合格品、 ...

09-03 中专生的实习报告

记得在学校老师常教导：三分理论，七分实践。所以到企业要体验其处境，为企业分析问题，解决问题。这期间我的工作是负责带运煤炭来的货车去过磅处过磅。而且我对该企业的流程，设施选址，设施布置和库存管理进行了观察和分析：一、企业简介：该企业规不大，目前销售无烟煤，焦碳，煤粉。主要给模具制造厂。二、运作流程分析：首先根据本地客户的要求进货，货物运到对其进行检察，并运进仓库记录，客户如不满意可对其投诉或老板 ...

12-22 高一地理第二学期教学工作计划

一.指导思想 1.以学校教学工作计划为指引,以提高课堂教学质量和培养学生综合能力为目标,抓好常规教学,转变教学理念: 2.在总结实施高中地理(必修1部分)新课程教学经验的基础上,不断优化课堂教学的方法和手段,以培养学生自主学习和合作学习的能力以及创新思维能力作为教学教研工作的中心任务. 3.具体教学过程中,以普通高中地理课程标准为指导,根据地理学科和教学的特点,全面发挥地理教育的功能: 4.通过对

07-14 物流公司实习周记

物流公司实习周记周记我所在的公司叫广州城市之星物流运输有限公司，该公司有三百多个网点，我分配到的网点是江苏常州。公司从事的是物流运输服务。而我在的常州分公司是主要服务珠三角的往返运输。在公司里我从事物流操作员工作，这工作的任务主要是按照公司操作的标准流程来进行一系列与物流运输服务有关的工作。完成公司的业务量标准。具体工作如为客户发货开单，到货核单，提货开单，与客户协商，货物的跟踪，提供咨询服 ...

05-28 材料仓库管理工作会议记录

材料仓会议记录其实这个会议早就有计划的，为什么今天忽然召集大家来开会呢？是因为不允许一些小问题再扩大，影响到整个团体。我们要注意细节性的地方。 1、重申一下三个仓库(包装仓、五金仓、隔热木纹仓)的工作安排。现在包装仓、五金仓、隔热木纹仓已经取消了晚班，您们几个仓管要把日常工作做好。为什么时间没有减少呢？虽然我们是取消了夜班，但生产车间是两班制的，交接班的时候最有可能来领料。这个时段您们一定要坚守 ...

随机推荐

猜你喜欢

数据仓库维度模型知识点记录

·专利申请权技术转让合同

·2005级新生军训动员大会讲话(中学)

·供用热力合同

·出函件注意事项

·大学职业生涯规划书[会计专业]

·省"三下乡"支教团队社会实践总结报告

·学校食堂食品安全检查整改报告

·2012年雅思考试阅读模拟试题3(含答案)

·工作推荐信

·其实世界上不只有七大洲, 地理学家已证实还有隐藏版的第八大洲!

·小故事(小通讯)

·财政局机关招商引资考核奖惩办法

·有经历的"深度"男人

·行政事业单位预算管理的探讨

·维持量地高辛中毒原因探讨

·绝美诗词佳句

·初三上学期数学教学反思

·同心小学除四害工作实施方案

·食品微生物学检验标准汇总

·假如我是蒲公英