Spark Sreaming实战(二)-小试流式处理1 业务分析实时流处理，应运而生！2 实时流处理产生背景3 实时流处理概述4 离线计算与实时计算对比5 实时流处理架构与技术选型6 实时流处理在企业中的应用

2021-12-02 23:50:00

1 业务分析

1.1 需求

统计主站每个(指定)教程访问的客户端、地域信息分布

地域: ip转换 Spark SQL项目实战

客户端:useragent获取 Hadoop基础教程

=》如上两个操作:采用离线(Spark/MapReduce )的方式进行统计

1.2 实现步骤

课程编号、ip信息、useragent

进行相应的统计分析操作: MapReduce/Spark

1.3 项目架构

日志收集: Flume

离线分析: MapReduce/Spark

统计结果图形化展示

看起来很简单，没什么高深的，但是现在需求改了嘛，很正常的骚操作对不对！

现在要求实时的精度大幅度提高！那么现在的架构已经无法满足需求了！

1.3.1 问题

小时级别

10分钟

5分钟

1分钟

秒级别

根本达不到精度要求！

实时流处理，应运而生！

2 实时流处理产生背景

◆ 时效性高

◆ 数据量大

◆ 实时流处理架构与技术选型

3 实时流处理概述

实时计算：响应时间比较短。
流式计算：数据不断的进入，不停顿。
实时流式计算：在不断产生的数据流上，进行实时计算

4 离线计算与实时计算对比

4.1 数据来源

离线：HDFS历史数据，数据量较大。

实时：消息队列（Kafka），实时新增/修改记录实时过来的某一笔数据。

4.2 处理过程

离线：Map + Reduce

实时：Spark(DStream/SS)

4.3 处理速度

离线：速度慢

实时：快速拿到结果

4.4 进程角度

离线：启动 + 销毁进程

实时： 7 * 24小时进行统计，线程不停止

5 实时流处理架构与技术选型

Flume实时收集WebServer产生的日志
添加Kafka消息队列，进行流量消峰，防止Spark/Storm崩掉
处理完数据，持久化到RDBMS/NoSQL
最后进行可视化展示

Kafka、Flume一起搭配更舒服哦~

6 实时流处理在企业中的应用

电信行业：推荐流量包
电商行业：推荐系统算法

Spark Sreaming实战(二)-小试流式处理1 业务分析实时流处理，应运而生！2 实时流处理产生背景3 实时流处理概述4 离线计算与实时计算对比5 实时流处理架构与技术选型6 实时流处理在企业中的应用

1 业务分析

1.1 需求

1.2 实现步骤

1.3 项目架构

1.3.1 问题

实时流处理，应运而生！

2 实时流处理产生背景

3 实时流处理概述

4 离线计算与实时计算对比

4.1 数据来源

4.2 处理过程

4.3 处理速度

4.4 进程角度

5 实时流处理架构与技术选型

6 实时流处理在企业中的应用

继续阅读

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

C++ 第十五周报告1--《冒泡法排序》

ubuntu14.04下安装hbse1.0.1.1

笔试面试题目：滑动窗口(二)

User Defined Hadoop DataType

数据结构与算法（27）——排序（二）

neo4j之cypher使用文档

Dijkstra--简易版（最短路径）

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

sqlServer根据经纬查距离

hdu7108哈希