《构建数据湖仓》(Build the Data Lakehouse)作者比尔·恩门(Bill Inmon),被称为数据仓库之父,最早的数据仓库概念提出者。这本书,是比尔继Building the Data Warehouse”(《建立数据仓库》)又一力作。
本书一共十七章,我将以18篇(加上引言)读书笔记的形式,连续介绍该书的主要内容和观点,敬请关注和参与讨论。
第一章 向数据湖仓演进
一、数据架构向数据湖仓的演进涉及以下主要技术的发展。
- 硬件技术的发展,如穿孔纸带(Paper Taper)、打孔卡片(Punched Card)、磁带(Magnetic Tape)、磁盘存储(Disk Storage);
- 应用系统越来越多,应用系统从在线系统(Online Transaction System)到在线事务处理(Online Transaction Processing,OLTP)的发展;
- 数据方面:早期,终端用户总抱怨没有数据;现在终端用户被大量应用系统包围甚至淹没,开始抱怨找不到合适的数据。数据存在可靠性问题。同样的数据出现在多个地方,却有不同的值,如何确保决策的数据准确和可信?
- 获取决策正确的数据的复杂性,需要新的架构和方法
二、数据仓库(Data Warehouse,DW)
- 数据仓库解决了上述问题,成为一种新的体系结构化的整体解决方案。
- 数据仓库的分析基础设施包括:
- 元数据(Metadata),关于数据所在位置的指引;
- 数据模型(Data Model),对数据仓库中所管理的数据的抽象;
- 数据血缘(Data linage)数据仓库中所获取数据的起源和转换过程;
- 汇总(Summarization),对于在数据仓库中创建的数据的算法工作的描述;
- KPI,关键绩效指标
- ETL,将应用系统数据extract、Transaction和Load。
- 数据仓库存在的问题
(1)数据仓库存储和处理的大多数对结构化、业务交易所产生的数据,局限性日益突出;
组织内的三类数据:结构化数据、文本数据和其他非结构化数据。
(2)机器学习和人工智能的兴起,算法不是简单的基于SQL对数据直接进行访问和计算。
三、数据湖(Data Lake,DL)
- 数据湖是组织中所有不同类型数据的集合。
- 数据湖存在的问题
(1)缺乏关键基础设施特性的支持,比如不支持事务处理、未实施数据质量管理和数据治理、性能不佳等;
(2)企业中的数据湖,成为“数据沼泽(data Swamp)”,数据犹如一潭死水而无法使用,并随着时间的推移而“腐烂”。
四、当前数据架构面临的挑战
- 双重架构(数据湖--数据仓库)之间数据转移产生高昂的成本;
- 对机器学习的有限支持;
- 缺乏开放性
五、数据湖仓(Data Lakehouse)的出现
- 数据湖仓架构建立在现有数据湖的基础上,解决了当前数据架构面临的主要挑战;
- 数据湖仓架构图(略)
- 数据湖仓的主要特性
(1)采用数据湖优先的方法;
(2为数据湖提供可靠性和质量保障,如事务支持、模式支持、模式约束和模式演进;
(3)增强数据治理和安全控制;
(4)优化性能;
(5)支持机器学习;
(6)提供开放性。
六、数据仓库、数据湖和数据湖仓比较。
总结,数据湖仓可以在开放的环境中管理数据,整合来自企业所有部门的各种数据,并将数据湖的数据科学焦点与数据仓库的终端用户分析结合在起来,这些独特的能力为组织带来惊人的价值。
[鼓掌]如果您觉得还不错,有所帮助和启发,请点击红星,给个赞;
[作揖]点击关注,第一时间阅读;
[谢谢]欢迎在下方评论区,参与讨论,告诉我们您的想法。