天天看点

数据湖和数据中台

数据湖(Data Lake)

概念最早是2011年由CITO Research网站的CTO和作家Dan Woods所提出,其比喻是:如果我们把数据比作大自然的水,那么各个江川河流的水未经加工,源源不断地汇聚到数据湖中。

数据湖的权威定义(来自维基百科):数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)

数据中台

中台概念的鼻祖——阿里巴巴的数据产品部总经理朋新宇表示:“数据中台是数据+技术+产品+组织的组合,是企业开展新型运营的一个中枢系统。具象的说,它是一套解决方案,抽象的理解,它是一种新的公司运营理念”。

数澜科技CDO付登坡表示:“数据中台是让数据用起来持续的一套机制,经过业务数据化、数据资产化、资产服务化,并在有权限管理的情况下以 API 的方式开放出去 ”。

袋鼠云CEO 拖雷认为:“数据中台可以理解为企业的最核心的数据大脑……是一种理念,一种思维,是一种面向未来的架构”。袋鼠云将其总结为“5+1”模式,5是建设数据中台的五步法,即:咨询、规划、建设、应用、运营,1是是指一个大数据平台,提供大数据的处理、计算、分析、应用。

云徙首席架构师陈新宇表示:“数据中台与业务中台的一体化,其核心作用便是业务中台天然打通、统一了各个渠道的数据,所有数据都是高质量的,而这些数据通过分析能够反哺到业务本身,业务本身又将数据留给数据平台,从而形成良好的正向反馈”。

网易严选的魏文庆给出了网易严选对数据中台的定义:“数据中台是高质量、高效赋能数据前台的一系列数据系统和数据服务的组合”,无论是数据中台、业务总台、技术中台,核心都是“标准化”,实现流程都是先“规范化”,然后把规范“产品化工具化”。

阿里系数据中台

数据湖和数据中台

数据湖与数据中台的关系

大数据时代,数据量越来越多,数据形式日益复杂,而以数据仓库为代表的、现有的数据存储和处理技术无法满足海量、多样的数据处理需求的背景下产生的。“数据湖”是将复杂的事物具象化,偏技术一些,以一个形象的名字,反应了它在大数据存储和大数据处理方面的优势和能力。

数据湖作为一个集中的存储库,可以在其中存储任何形式(结构化和非结构化)、任意规模的数据。在数据湖中,可以不对存储的数据进行结构化,只有在使用数据的时候,再利用数据湖强大的大数据查询、处理、分析等组件对数据进行处理和应用。因此,数据湖具备运行不同类型数据分析的能力。