2005年Hadoop出现的时候，大数据技术开始普及。

从Hadoop到数据湖：

Hadoop相比经典数仓主要有两个主要优势：

完全分布式，可以使用价格低廉的机器堆出一个计算、存储能力很强的集群，满足海量数据的处理要求；

易于扩展，弱化数据格式。当数据被集成到Hadoop之后，可以不保留任何数据格式，数据模型与数据存储分离。当数据被使用的时候，可以根据不同的模型读取，满足异构数据灵活分析的需求。

数据仓库和数据湖对比

随着互联网产业的发展和采集技术的成熟，大量（半）非结构化数据涌现，诸如半结构化的日志，非结构化语音和视频，携带时序和空间信息的IoT设备等。

与此同时，伴随着Hadoop技术日趋成熟，2010 Pentaho创始人兼CTO James Dixon在纽约 Hadoop World大会上提出了数据湖的概念：数据湖（Data Lake）是一个以原始格式存储数据的存储库或系统，仿佛各个数据源就像溪流一样，直接流入成湖。

数据湖理解图

数据湖概念的提出，是Hadoop从开源技术走向商业化成熟的标志。企业基于 Hadoop构建数据湖，真正将数据作为一项企业核心资产，拉开了Hadoop 商用化的大幕。

但是，一个商用的Hadoop包含20多种计算引擎，数据研发涉及诸多流程，其技术门槛限制了Hadoop的商用化进程。

那么数据开发能否像工厂生产一样，直接在流水线上完成呢？

大数据（开发）平台的兴起——数据工厂时代

大数据平台具有很广阔的范围，在此提到的大数据平台，指的是面向开发使用的大数据开发平台。

对于一项数据开发任务，在完成一个需求时，常见的流程是：

要把数据导入到大数据平台中，然后按照需求进行数据开发；
待开发完成以后要进行数据验证比对，确认是否符合预期。
接下来，数据发布上线，提交调度；
最后，日常的任务运维，确保任务每日能够正常产出数据。

如此繁杂冗长的工作流程，如果没有高效平台作为支撑，就类似写代码没有一个好用的 IDE，用文本编辑器写代码一样，别人完成十个需求，你可能连一个需求都完成不了，效率异常低下，根本无法大规模的应用。

大数据平台概念的产生，是为了提高数据研发的效率，降低数据研发的门槛，让数据能够在一个设备流水线上快速地完成加工。大数据平台是面向数据研发场景，覆盖数据研发完整链路的工作台。

基于开发的使用场景，可分为数据集成、数据开发、数据测试等。平台的底层是以 Hadoop 为代表的基础设施，分为计算、资源调度和存储（如图）。

大数据平台架构概念图

Hive、Spark、Flink、Impala提供了大数据计算引擎：Hive、Spark主要解决离线数据清洗、加工的场景。目前，Spark用得越来越多，性能要比Hive高不少；Flink主要是解决实时计算的场景；Impala主要是解决交互式查询的场景。

这些计算引擎统一运行在一个称为Yarn的资源调度管理框架内，由Yarn来分配计算资源。

当前最新的研究方向中也有基于Kubernetes实现资源调度的，例如在最新的 Spark 版本（2.4.4）中，Spark已经能够运行在 Kubernetes 管理的集群上，这样的好处是可以实现在线和离线的资源混合部署，节省机器成本。

数据存储在HDFS、Kudu 和 HBase系统内。HDFS不可更新，主要存全量数据，HBase提供了一个可更新的KV，主要存一些维度表，Kudu提供了实时更新的能力，一般用在实时数仓的构建场景中。

大数据平台像一条设备流水线，经过大数据平台的加工，原始数据变成了指标，出现在各个报表或者数据产品中。

但随着数据需求的快速增长，报表、指标、数据模型越来越多，越来越多人反馈找不到数据，数据不好用，数据需求响应速度慢，这成为阻塞数据产生价值的绊脚石，数据中台即将面世。

猜你想看：

数据中台的前世今生（一）：数据仓库——数据应用需求的涌现

数据中台：始于阿里，兴于DaaS

数据中台坠落神坛，数据服务平台闪亮登场，阿里、快手又整新活？

麦聪软件，全球领先的DaaS厂商。两年内帮助近400家企业数字化转型更进一步，其中30多家为世界500强企业。核心产品麦聪DaaS平台包含统一数据管理和统一数据服务两大模块，具备数据集成、数据开发、数据质量、数据服务相关功能，欢迎大家带着企业数字化问题与我们一起讨论。

数据中台前世今生二：从数据湖到大数据平台看数据应用需求发展

从Hadoop到数据湖：

大数据（开发）平台的兴起——数据工厂时代

继续阅读

MDM基础数据平台日志功能介绍

美团基于Flink 实时数仓概述1.实时数仓概述

基于AJAX和Echarts的大数据平台前端开发：代码优化与效率提升

乡村振兴大数据平台建设方案(ppt)

数据中台与场景化分析

数据中台架构（企业数字化最佳实践）-读书笔记2数据资产建设

数字中台遇到2020双11，又翻车了？双11推动中台的“长期主义”从性能提升到数据中台如何保证不“翻车”？

145份！数据治理、数据中台、数据湖、数据仓库、主数据方案合集

谁持彩练当空舞彩虹无人机的前世今生

互联网的前世今生：互联技术如何突破

数据中台界面咋设计？

企业数据中台（大数据中心、共享交换平台数据管理平台）建设方案

深度剖析数据中台

scala 编程思想--第一部分

阿里巴巴企业数字化转型之数据中台体系架构设计方案（PPT）

实战 | 基于物联网的贷后风控大数据应用