2023-175，#每日一悟每日进步##大数据#大数据平台的架构模式1、Lambda架构最成熟、最稳定的架构，核心思想是

2023-06-20 09:53:00

2023-175，#每日一悟每日进步##大数据#

大数据平台的架构模式

1、Lambda架构

最成熟、最稳定的架构，核心思想是将批处理作业和实时流作业分离，各自独立运行，资源互相隔离。有三个层次：

（1）Batch Layer批处理层，主要负责所有的批处理操作，包含Hive、Spark-SQL或Map-Reduce等技术，数据处理依赖的主数据在该层维护；

（2）Serving Layer，以批处理层的结果数据为基础，对外提供低延时的数据查询和ad-hoc查询服务，本层既可以使用包括关系型数据库在内的传统技术，也可以使用Kylin、Presto、Impala或Druid等大数据OLAP产品；

（3）Speed Layer，使用流式计算技术实时处理当前数据，能以实时或近似实时的方式处理大量数据，但无法对全部历史数据进行操作，主要使用Storm、Spark Streaming或Flink等大数据流计算框架。

2、Kappa架构

是Lambda架构的简化，使用流计算技术统一批处理和实时处理两条数据处理的Pipeline。

在技术选型上一般需要这些组件：首先在前端需要有一个消息队列，如Kafka，其次在Kafka后接一个流计算框架，几乎所有的数据处理都会发生在流计算框架上，主流的流计算框架有Flink、Spark Streaming或Storm。

3、Smack架构

S、M、A、C、K分别代表了架构使用的5种技术：Spark、Mesos、Akka、Cassandra和Kafka。

Smack使用Akka进行数据采集，然后将数据写入Kafka，接着使用Spark Streaming进行实时流处理，处理结果和原始数据都写入Cassandra，核心是利用了Cassandra的多数据中心，将数据透明地冗余到两个Cassandra集群，一个集群专门用来接收流处理结果数据，另一个集群用于批处理分析，供Spark读写。

SMACK架构既支持批处理又支持实时处理，在数据处理层面只依赖Spark，在数据存储层面只依赖Cassandra，很好地统一了技术堆栈。

2023-175，#每日一悟每日进步##大数据#大数据平台的架构模式1、Lambda架构最成熟、最稳定的架构，核心思想是

2023-175，#每日一悟每日进步##大数据#大数据平台的架构模式1、Lambda架构最成熟、最稳定的架构，核心思想是

继续阅读

#挑战30天在头条写日记##创作达人挑战赛#如何认识redis?redis是一个非关系型数据库，基于键值对多种数据类型为

关系型数据库非关系型数据库区别、使用场景

#腾讯发布大模型向量数据库#7月4日，腾讯云正式发布AI原生（AINative）向量数据库TencentCloudVec

mariadb数据库（一）

基于AJAX和Echarts的大数据平台前端开发：代码优化与效率提升

乡村振兴大数据平台建设方案(ppt)

OLAP型数据库是一种强大的数据分析工具，能够处理复杂的多维数据分析和查询。什么是OLAP型数据库呢？OLAP型数据库是

8月1日，NineData发布对Oracle数据库的全版本支持。众所周知，Oracle数据库是一款全球领先的关系型数据库

自动装箱和拆箱#程序员#java#图文掘金计划#面试程大白笔记：概念：自动装箱和拆箱是Java为了方便开发者而设计的特性

Redis_01_Redis安装与使用

Spark Streaming实时流处理项目实战(二)初识实时流处理1.业务现状分析2.实时流处理产生背景3.实时流处理概述4.离线计算与试试计算对比5.实时流处理框架对比6.实时流处理框架与技术选型7.实时流处理在企业中的应用

Spark Streaming实时流处理项目实战(九)Spark Streaming进阶带状态的算子

scala 编程思想--第一部分

【一】基于Ubuntu16.04环境编译Spark源码及安装

spring data JPA中的主键策略

十四、MySQL备份和恢复数据库1、备份和恢复的方法2、使用mysqldump导出3、恢复转储文件4、字符编码问题5、锁表系列结语