大数据技术可以有效地帮助企业整合、挖掘、分析其所掌握的庞大数据信息,构建系统化的数据体系,从而完善企业自身的结构和管理机制。同时,伴随消费者个性化需求的增长,大数据在各个领域的应用开始逐步显现,已经开始并正在改变着大多数企业的发展途径及商业模式。
基于大数据相关技术为企业应用提供数据的采集、加工处理,以及价值挖掘。大数据平台分为大数据存储服务、大数据计算服务、大数据综合治理、数据服务。
- 大数据存储服务采用分布式存储(底层基于分布式文件系统)来保存海量数据的结构化数据与非结构化数据。
- 大数据计算服务包含离线计算、实时计算、流计算、图计算等计算引擎。
- 大数据综合治理包含大数据研发、数据集成平台、大数据运维、大数据模型、大数据管理和数据可视化。数据集成平台支持所有常见关系型数据库、NoSQL及大数据仓库之间的数据传输;它是一种集数据清洗、转换、迁移、实时数据订阅及数据实时同步于一体的数据传输服务。大数据模型负责大数据仓库中的数据建模工作,主要将数据整理、分化为基础数据层、明细数据层、主题数据层、专题数据层。数据可视化负责以图形、报表的方式展示给使用者。
- 数据服务负责将大数据层的业务结果以服务的方式发布出来,以提供给大数据分析的业务组件调用。
DaaS数据服务主要包含大数据平台、数据资源池和数据集成平台。
大数据平台
大数据平台一般由离线计算、流式计算、实时计算、机器学习、数据开发、数据运维、数据管理、可视化报表工具和数据可视化工具等计算引擎和工具组成。
大数据计算平台提供完整的计算能力服务,包括离线计算、实时计算和流式计算三大计算引擎,以满足企业级应用多样化的数据处理需求。
1.离线计算
分布式离线计算是海量数据离线处理服务,针对PB级的数据,单表可达万亿条记录,适用于实时性要求不高的批量处理,主要应用于大型数据仓库、日志分析、数据挖掘和商业智能等领域,支持分布式SQL,支持多种数据分析挖掘的分布式计算框架,内置大量数据挖掘和机器学习算法包。为了支持应用系统海量数据的建设,分布式离线计算系统具有PB级的存储处理能力和PB级的计算吞吐能力,支持多应用多实例并发同时计算并隔离应用数据和程序的能力,可以让多个用户在一套平台上协同工作。
2.实时计算
分布式实时计算则是一套实时联机分析处理(Online Analytical Processing,OLAP)系统,构建在分布式系统基础服务之上,是基于大规模并行处理(Massively Parallel Processing,MPP)架构并融合了搜索引擎索引技术的分布式实时计算系统。在数据存储模型上,采用自由灵活的关系模型存储,可以使用SQL进行自由灵活的计算分析,无须预先建模。分布式实时计算能够支撑较高并发查询量,并且通过动态的多副本数据存储计算技术来确保较高的系统可用性,因此能够直接作为面向最终用户的产品的后端系统。
3.流式计算
大数据流式计算为大数据计算平台建设提供流式数据处理能力,提供毫秒级至秒级的数据延迟处理服务,提供流式类SQL功能,支持流式数据写入和实时数据写出。流式计算是一个实时的增量计算平台,能提供类似于SQL的语言等计算模型完成增量式计算。其数据处理流程及核心模块构成如下。
- 数据产生:生产数据发生源,通常服务器日志、数据库日志、第三方数据均是数据生产者,这份流式数据将作为流式计算的驱动源进入数据集成模块。
- 数据集成:提供针对流式数据进行数据发布和订阅的数据总线。
- 数据计算:流式计算通过订阅数据集成提供的流式数据,驱动流式计算的运行。
- 数据存储:流式计算将流式加工计算的结果写入数据存储,包括关系型数据库、NoSQL数据库、OLAP系统等。
- 数据消费:不同的数据存储可以进行多样化的数据消费。提供消息队列的数据存储可以用作告警、提供关系型数据库的数据存储可以提供在线业务支持等。
数据资源池
数据资源池的数据库包括业务库、专题库、模型库、知识库、训练库、日志库、事件库和测试库,构建各类专题数据库,从而更好地进行数据分析,为各类数据技术负责数据资源整理分类及业务库(结构化/非结构化数据)提供技术支撑。
作为一个海量数据离线处理与分析的平台服务,非结构化数据技术支撑平台融合了分布式存储与计算、分布式数据仓库以及云计算服务等先进技术和运营理念,以云计算服务的形式实现海量数据的分享与处理;专注处理实时性要求不高的海量数据(TB/PB级)离线处理,应用于数据仓库构建、海量数据统计、数据挖掘和数据商业智能方面;支持MapReduce和类SQL的查询方式。
实时分析数据库服务是海量数据实时高并发在线分析计算服务,可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索;具有对海量数据的自由计算和极速响应能力,能快速、灵活地探索数据,快速发现数据价值,并可直接嵌入业务系统为终端客户提供分析服务。