DMBOK 数据质量管理
DMBOK :元数据管理
2011-12-26 21:43:30
标签:DMBOK
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://zhoujg.blog.51cto.com/1281471/751610
BI的成功运用深度依赖于有效的元数据管理,通常被称作" 关于数据的数据" 。元数据为所有BI 系统的数据充当路标,从而能够对这些数据迚行高效地管理、控 制发更和分发。全面的元数据管理保证了BI 系统具有高质量的信息,并提供充分的扩展性,能满足新的信息需求和数据源增加。元数据实施也是信息集成中的一部 分,最重要的工作是将存储在各种工具中的元数据进行整合。元数据管理是数据管理框架的第九个数据管理功能,本篇将介绍一下这个功能。
1 DMBOK 的元数据管理
2 什么是元数据?
元数据通帯被称作" 关于数据的数据" ,即用于描述其它数据的数据。对于数据可以通过多种方式进行解释,例如
当我们说元数据是" 关于数据的数据" 时,我们需要确保所讨论的是数据的背景,而不是有关数据的详细细节或相关数据。元数据描述的是数据的背景、内容、数据结构及其生命周期管理。简而言之,元数据是" 数据的背景" 。
元数据管理全景包括三个部分内容:1. 元数据模型 2.元数据拓扑结构 3.元数据管理方法论 3 元数据模型
元数据是BI 架构中的一个重要组件。在BI 环境中,元数据管理最主要是能方便地集成不同数据库、数据模型、OLAP 和ETL 工具所包含的各式各样的元数据。元数据包括业务规则、数据源、汇总级别、数据别名、数据转换规则、技术配置、数据访问权限、数据用途等。设计良好的元数据模型能够提高管理、变更控制和分发元数据的效率,实现无缝的、端到端的跟踪回溯能力。
下面举个例子,如果"102250Richard King" 是数据,下面则是元数据:
∙ 员工代码类型为 Number(6)——这告诉我们该数据中首 6 位字符是数字类型,代表
员工代码;
∙ 员工姓名类型为 Varchar(30)——这告诉我们后面的 30 位字符是发长字符类型,
表示员工姓名。
这些元数据可以迚一步抽象为元-元数据(Meta-Metadata ),表示元数据的背景。
4 企业数据模型
5 BI 元数据模型
在 BI 层面, IT/技术元数据被分为两类,被称为:BI 技术元数据、数据源元数据
∙ 顶层 (领域或概念层)
在最顶层,业务的主题域可以直接运用于BI 技术元数据的报表和分析,继而被映射到数据源元数据反映的源系统中。
∙ 中层 (实体层)
业务实体连接到技术实体,如数据表,立方体和报表等,它们从可用的源表或数据表单直接获取信息。
∙ 底层 (元素层)
最细节的元数据存在于数据元素层。业务元数据中的业务术语映射到技术元数据的对应层,包括数据表、报表及多维立方体的维度/度量。业务用户广泛使用这层元数据。
6 BI 技术元数据
BI 技术元数据包含了 BI 环境中丌同层级的所有元数据,迚一步可以细分为三个类型:
∙
∙
∙ 信息整合 – ETL(数据抽取,转换和装载) 元数据 信息存储 – 数据仓库元数据 信息发布 – 报表元数据
7 BIDS 元数据管理方法论
一个定义良好的元数据管理产品应该保证信息的高质量,同时能够灵活地扩展BI 系统新的数据需求和数据源。BIDS 作为元数据管理的解决方案之一,提 供了一套方法论Business Intelligence for Decision Support (BIDS) ,该方法论由6个模块组成,如下图:
8 元数据框架定义
元数据管理主要目的在于基于灵活、健壮的架构实现元数据的标准化、集中化。框架定义涉及分析元数据的当前状态、处理过程,并为元数据管理系统提供一个开发蓝图,主要从长远目标、具体目的和高层需求三个方面来描述:
1. 长远目标|
元数据管理系统的总体目标如下:
o 标准化的元数据和数据处理
o 元数据管理的集中化
o 元数据信息去重
o 适应变化的元数据架构
2. 具体目的
元数据管理系统的目的如下:
o 制定元数据及数据标准化
o 集中化 BI 系统的管理和应用
o 通过非冗余、非重复的元数据信息提高数据完整性、准确性
o 减少BI 系统组件开发、实现、完善及维护的代价
o 建立灵活的元数据架构,使BI 架构顺应变化
3. 高层需求
元数据创建及管理的高层需求可以通过下表中的内容来加以理解。
此外,还有必要从产品和项目两个层面创建元数据管理团队,包括元数据管理员、协调员、数据分析员及DBA 等角色。一旦该团队组建完成,通过跟业务和技术受益者的认识,就确立了高层元数据需求。 9 规格描述
框架定义阶段完成后,下一步就是描述元数据规格,主要包括以下活动和子活动:
∙ 元数据现状清单:建立元数据清单,包括:功能性信息需求、数据模型、进程模型、数据字
典、业务术语字典、已有元数据环境、系统文档等
∙ 元数据需求
o 遵循的行业标准
o 元数据模型需求:命名规范、结构、元素及关联关系
o 元数据接口需求:元数据资料库及其内容,桥接器、所有者、系统访问、元数
据血缘关系
o 元数据系统需求
o 元数据报表需求
o 安全需求
o 变更管理需求
o 培训需求
o 治理需求
10 详细设计
设计阶段包括确定以下内容:
∙ 元数据标准
o 开发数据元标准
o 数据元标准的技术性及跨功能性复查 o 建立数据元设计规则及命名规范 ∙ 接入接口机制
o 元数据获取API 及桥接器 ∙ DW 元数据模式
o 元数据分类维度
o 使用元数据维度设计元数据模型 o 数据元定义过程
o 配置管理
∙ 协同(元数据发布)机制
o 文件交换
o 资料库API
o 元数据服务
∙ 元数据同步机制
o 联合度
o 复制控制和更新传播
o 共享资料库下的复制控制
11 元数据管理成熟度发展阶段