天天看点

DAMA-DMBOK 2 第十一章总结--数据仓库和商务智能

一.引言

1.数据仓库技术将组织中不同来源的数据整合到公共的数据模型中去。整合后的数据能为业务运营提供洞察,为决策支持和创造价值开辟新的可能性。

2.企业数据仓库,提供了一种减少数据冗余、提高信息一致性,让企业能够利用数据做出更优决策的方法。

3.相关技术起源于上世纪90年代,数据仓库被认为是数据管理的核心,虽然有悠久的历史,但是技术仍然在不断发展,新的概念不断涌现。

二.业务驱动因素

1.运营支持

2.合规需求

3.商务智能活动

三.目标

1.支持商务智能活动

2.赋能商业分析与智能决策

3.基于数据洞察寻找创新方法

四.原则

1.聚焦业务目标

确保数据仓库用于组织最优先级的业务并解决业务问题

2.以终为始

让业务优先级和最终交付的数据范围驱动数据仓库内容的创建

3.全局性的思考和设计,局部性行动和建设

4.总结并持续优化

5.提升透明度和自助服务

6.与数据仓库一起建立元数据

7.协同(DG,DQ,Metadata)

8.不要千篇一律

五.概念

1.商务智能BI

1.商务智能指的是一种理解组织诉求和寻找机会的数据分析活动
2.商务智能指的是支持这类数据分析活动的数据集合

2.数据仓库

1.两个组成部分:一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储 操作来自各种外部源数据的软件程序。
2.企业级数据仓库(EDW):集中化的数据仓库,为整个组织的商务智能需求服务。EDW的建设遵循企业级数据模型,以确保整个企业内部决策支持活动的一致性。
3.广义上来说,数据仓库包括为任何支持商务智能目标实现提供数据的数据存储或提取操作。

3.数据仓库建设

1.数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。数据仓库建设还包括与元数据资料库交互的流程
2.传统上数仓主要关注结构化数据,现在大数据时代也包括半结构化数据和非结构化数据

4.数据仓库建设方法

1.Inmon“面向主题的、整合的、随时间变化的、相对稳定的支持管理决策的数据集合”---用规范化的关系模型来存储和管理数据
2.Kimball“为查询和分析定制的交易数据副本”,它不是以规范化的实体关系模型来存储和管理数据,又称为多维模型
3.核心理念

1.数据仓库存储的数据来自其他系统

2.存储行为包括以提升数据价值的方式整合

3.便于数据被访问和分析使用

4.需要让授权的利益相关方访问到可靠的、集成的数据

5.建设目的涵盖工作流支持、运营管理和预测分析

5.企业信息工厂(CIF) Inmon

1.概念

“面向主题的、整合的、随时间变化的、包含汇总和明细的、相对稳定的历史数据集合”

2.与业务系统的区别

1.面向主题的

2.整合的

3.随时间变化的

4.稳定的

5.聚合数据和明细数据

6.历史的

3.组成部分

1.应用程序

2.数据暂存区

3.集成和转换

4.操作型数据存储

5.数据集市

6.操作型数据集市

7.数据仓库

8.运营报告

9.参考数据、主数据和外部数据

4.数仓数据与 APP 的数据差异

1.数据的组织形式是按主题域而不是按功能效率需要

2.数据是整合的数据,而不是"孤立"的烟囱数据

3.数据是随时间变化的系列数据,而非仅当前时间的值

4.数据在数据仓库中的延迟比在应用程序中高

5.数据仓库中提供的历史数据比应用程序中提供的多

6.多维数据仓库 Kimball

“为查询和分析定制的交易数据副本”,又称为多维模型,多维模型通常称为星型模型,由事实表和维度表组成

2.事实表&维度表

1.事实表包含有关业务流程的定量数据,比如销售数据,数据仓库90%以上的数据。

2.维度表存储与事实表数据相关的描述性属性,为数据消费者解答关于事实表的问题

3.组件

1.业务源系统

3.数据展示区

4.数据访问工具

7.数据仓库架构组件

1.源系统
2.数据集成
3.数据存储区域

1.暂存区

2.参考数据和主数据一致性维度

3.中央数据仓库

4.操作型数据存储 ODS
6.数据立方体

8.加载处理方式

1.历史数据加载

1.Bill Inmon:Inmon类型的数据仓库建议所有数据存储在单个数据仓库层中。这一层中存储己清洗过的、标准化的和受管控的原子级数据

2.Kimball:Kimball类型的数据仓库中建议,数据仓库由包含己清洗过的、标准化的和受管控数据的部门级数据集市合并而成

3.Data Vault:作为数据暂存处理的一部分,同样进行数据清洗和标准化。历史数据以规范化的原子结构存储,每个维度定义代理键、主键、备用键

2.批量变更数据捕获 CDC

1.时间戳增量加载

  • 复杂度低,表加载快

2.日志表增量加载

3.数据库交易日志

4.消息增量

  • 复杂度极高

5.全量加载

  • 复杂度极低,表加载最慢
3.准实时和实时数据加载

1.涓流式加载(源端积累)

2.消息传送(总线积累)

3.流式传送(目标端积累)

4.总结:数仓建设涉及两种数据集成处理类型

1.历史存量数据加载

2.持续不断的数据更新

六.活动

1.理解需求

1.发展的眼光

数据的使用方式会随着时间的推移、用户分析和探索数据的需求发展而发展。在初始设计阶段花些时间来思考与数据功能和数据来源相关的问题,实际使用数据源进行分析时,就能体会到初始阶段所花的构思可以降低返工成本

2.对齐业务战略

要考虑业务目标和业务战略,确定业务领域并框定范围;然后,确定并与相关的业务人员进行访谈,了解他们想做些什么和这么做的原因,记录他们当下关心的具体问题和想要询问的数据,以及他们如何区分和分类重要信息

3.做有价值的需求

把需求分类并排出优先级,跟生产上线相关的排在前面,将数据仓库相关的和那些可以等的排在后面。寻找那些简单且有价值的项目,快速启动它们以便在项目初始发布阶段就能获得产出。

2.定义和维护数据仓库/商务智能架构

定义和维护架构,不仅仅是技术工作,也涉及管理流程的配套。

描述数据从哪里来、到哪去、什么时候去、为什么要去,以及用什么样的方式流入数据仓库

2.技术架构

概念模型架构是一个起点。要将非功能需求和业务需求很好的结合起来。做好原型设计可以快速证明或驳斥某些需求的实现,避免对某些技术或架构做出昂贵的投入。

3.管理流程

理想情况下,数据仓库项目团队应将部署的数据产品的每一次更新作为一个提供附加功能的软件版本来管理

4.两个确定

1.确定数据仓库/商务智能技术架构

2.确定数据仓库/商务智能管理流程

3.开发数据仓库和数据集市

1.三条构建轨迹

1.数据

2.技术

3.商务智能工具

2.数据处理

1.将源映射到目标

  • 1.建立各个源系统到目标系统的实体和数据元素之间的转换规则。
  • 2.记录了商务智能环境中每个数据元素和他们各自来源系统的血缘关系。
  • 3.映射工作最困难的部分是确定多个系统中数据元素之间的链接有效性或等效性。

2.修正和转换数据

  • 1.对于涉及重要历史数据的初始加载过程中,数据修正工作尤为必要。
  • 2.为了降低目标系统的复杂性,源端系统应负责数据的修复工作井确保数据正确。
  • 3.已经加载的错位记录,通常采用一条全新的替代记录加载,避免破坏完整性。
  • 4.数据转换重点关注技术系统中实现业务规则的活动,需要业务领域专家参与。

4.加载数据仓库

确定加载方式考虑的因素

1.延迟要求、源可用性、批处理窗口或上载间隔、目标数据库及时间帧的一致性

2.加载方法还必须解决数据质量处理过程、执行转换的时间、延迟到达的维度和数据拒绝等问题。

5.实施商务智能产品组合

为了在业务部门或者业务部门之间为正确的用户社区选定合适的工具

2.方法

1.根据需要给用户分组

2.将工具与用户要求相匹配

6.维护数据产品

1.发布管理

发布管理对增量的开发过程至关重要

2.管理数据产品开发生命周期
3.监控和调优加载过程

要注意数仓也需要归档

4.监控和调优商务智能活动

透明性和可见性是推动 DWBI 监控的关键原则

七.工具

1.元数据存储库

1.数据字典和术语
2.数据和数据模型的血缘关系

2.数据集成工具

1.数据集成
2.作业调度
3.工作流
4.报警处理

3.商务智能工具的类型

1.运营报表
2.业务绩效管理
3.运营分析应用

1.OLAP&OLTP

  • 在线分析处理 (OLAP)是一种为多维分析查询提供快速性能的方法。OLAP这一术语在某种程度上源于对OLTP(在线交易处理)的区别。

2.OLAP 常见操作

  • 常见的OLAP操作包括切片和切块、向下钻取、向上钻取、向上卷积和透视等。

八.方法

1.驱动需求的原型

在产品实现之前,通过创建一组演示

2.自助式的商务智能

自助服务是商务智能产品的基本交付

3.可查询的审计数据

为了维系数据血缘关系,所有的结构

九.实施指南

1.就绪评估/风险评估

1.有业务支持、与战略保持一致、有一个定义好的架构方法
2.明确数据敏感性和安全性约束;选择工具;保障资源安全;创建抽取过程以评估和接受源数据

2.版本路线图

数据仓库是逐步构建的。无论选择何种实现方法,不管是瀑布式、选代式,还是敏捷开发,都应该考虑到想要实现的最终状态,路线图是一种有价值的规划工具。

3.配置管理

4.组织和文化变革

1.业务倡议
2.业务目标和范围
3.业务资源
4.业务准备情况
5.愿景一致

十.数仓和 BI 的治理

1.业务接受度

成功的因素是:业务对数据的接受程度,包括可以理解的数据、具有可验证的质量,以及具有可证明的血缘关系

2.客户/用户满意度

3.服务水平协议

4.报表策略

1.报表策略包括标准、流程、指南、最佳实践和程序,它将确保用户获得清晰、准确和及时的信息。
2.解决的问题

1.安全访问

2.描述用户交互、报告、检查或查看其数据的访问机制

3.用户社区类型和使用它的适当工具

4.报表摘要、详细信息、例外情况以及频率、时间、分布、存储格式的本质

5.通过图形化输出发挥可视化功能的潜力

6.及时性与性能间的权衡

5.度量指标

1.使用指标
2.主题域覆盖率
3.响应时间和性能指标

版权声明:未经许可,不得抄袭。转载请此处留言或公众号后台沟通。更多关于CDMP认证和数据治理的交流请关注公众号(Data is King),公众号回复‘dmbok思维导图’ 可获取思维导图版知识点总结。

继续阅读