天天看点

数据中台前世今生二:从数据湖到大数据平台看数据应用需求发展

作者:麦聪软件

2005年Hadoop出现的时候,大数据技术开始普及。

从Hadoop到数据湖:

Hadoop相比经典数仓主要有两个主要优势:

  • 完全分布式,可以使用价格低廉的机器堆出一个计算、存储能力很强的集群,满足海量数据的处理要求;
  • 易于扩展,弱化数据格式。当数据被集成到Hadoop之后,可以不保留任何数据格式,数据模型与数据存储分离。当数据被使用的时候,可以根据不同的模型读取,满足异构数据灵活分析的需求。
数据中台前世今生二:从数据湖到大数据平台看数据应用需求发展

数据仓库和数据湖对比

随着互联网产业的发展和采集技术的成熟,大量(半)非结构化数据涌现,诸如半结构化的日志,非结构化语音和视频,携带时序和空间信息的IoT设备等。

与此同时,伴随着Hadoop技术日趋成熟,2010 Pentaho创始人兼CTO James Dixon在纽约 Hadoop World大会上提出了数据湖的概念:数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,仿佛各个数据源就像溪流一样,直接流入成湖。

数据中台前世今生二:从数据湖到大数据平台看数据应用需求发展

数据湖理解图

数据湖概念的提出,是Hadoop从开源技术走向商业化成熟的标志。企业基于 Hadoop构建数据湖,真正将数据作为一项企业核心资产,拉开了Hadoop 商用化的大幕。

但是,一个商用的Hadoop包含20多种计算引擎,数据研发涉及诸多流程,其技术门槛限制了Hadoop的商用化进程。

那么数据开发能否像工厂生产一样,直接在流水线上完成呢?

大数据(开发)平台的兴起——数据工厂时代

大数据平台具有很广阔的范围,在此提到的大数据平台,指的是面向开发使用的大数据开发平台。

对于一项数据开发任务,在完成一个需求时,常见的流程是:

  • 要把数据导入到大数据平台中,然后按照需求进行数据开发;
  • 待开发完成以后要进行数据验证比对,确认是否符合预期。
  • 接下来,数据发布上线,提交调度;
  • 最后,日常的任务运维,确保任务每日能够正常产出数据。

如此繁杂冗长的工作流程,如果没有高效平台作为支撑,就类似写代码没有一个好用的 IDE,用文本编辑器写代码一样,别人完成十个需求,你可能连一个需求都完成不了,效率异常低下,根本无法大规模的应用。

大数据平台概念的产生,是为了提高数据研发的效率,降低数据研发的门槛,让数据能够在一个设备流水线上快速地完成加工。大数据平台是面向数据研发场景,覆盖数据研发完整链路的工作台。

基于开发的使用场景,可分为数据集成、数据开发、数据测试等。平台的底层是以 Hadoop 为代表的基础设施,分为计算、资源调度和存储(如图)。

数据中台前世今生二:从数据湖到大数据平台看数据应用需求发展

大数据平台架构概念图

Hive、Spark、Flink、Impala提供了大数据计算引擎:Hive、Spark主要解决离线数据清洗、加工的场景。目前,Spark用得越来越多,性能要比Hive高不少;Flink主要是解决实时计算的场景;Impala主要是解决交互式查询的场景。

这些计算引擎统一运行在一个称为Yarn的资源调度管理框架内,由Yarn来分配计算资源。

当前最新的研究方向中也有基于Kubernetes实现资源调度的,例如在最新的 Spark 版本(2.4.4)中,Spark已经能够运行在 Kubernetes 管理的集群上,这样的好处是可以实现在线和离线的资源混合部署,节省机器成本。

数据存储在HDFS、Kudu 和 HBase系统内。HDFS不可更新,主要存全量数据,HBase提供了一个可更新的KV,主要存一些维度表,Kudu提供了实时更新的能力,一般用在实时数仓的构建场景中。

大数据平台像一条设备流水线,经过大数据平台的加工,原始数据变成了指标,出现在各个报表或者数据产品中。

但随着数据需求的快速增长,报表、指标、数据模型越来越多,越来越多人反馈找不到数据,数据不好用,数据需求响应速度慢,这成为阻塞数据产生价值的绊脚石,数据中台即将面世。

猜你想看:

数据中台的前世今生(一):数据仓库——数据应用需求的涌现

数据中台:始于阿里,兴于DaaS

数据中台坠落神坛,数据服务平台闪亮登场,阿里、快手又整新活?

麦聪软件,全球领先的DaaS厂商。两年内帮助近400家企业数字化转型更进一步,其中30多家为世界500强企业。核心产品麦聪DaaS平台包含统一数据管理和统一数据服务两大模块,具备数据集成、数据开发、数据质量、数据服务相关功能,欢迎大家带着企业数字化问题与我们一起讨论。

继续阅读