《Spark核心技术与高级应用》——导读

2021-11-08 13:27:06

本节书摘来自华章社区《spark核心技术与高级应用》一书中的目录，作者于俊　向海　代其锋　马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看

前　言

基　础　篇

<a href="https://yq.aliyun.com/articles/108392">第1章　spark简介</a>

<a href="https://yq.aliyun.com/articles/108401">1.1　什么是spark</a>

<a href="https://yq.aliyun.com/articles/108406">1.2　spark的重要扩展</a>

<a href="https://yq.aliyun.com/articles/108412">第2章　spark部署和运行</a>

<a href="https://yq.aliyun.com/articles/108427">2.2　spark部署</a>

<a href="https://yq.aliyun.com/articles/108438">2.3　运行spark应用程序</a>

<a href="https://yq.aliyun.com/articles/108442">第3章　spark程序开发</a>

<a href="https://yq.aliyun.com/articles/108449">3.1　使用spark shell编写程序</a>

<a href="https://yq.aliyun.com/articles/108469">3.2　构建spark的开发环境</a>

<a href="https://yq.aliyun.com/articles/108474">3.3　独立应用程序编程</a>

第4章　编程模型

4.1　rdd介绍

4.2　创建rdd

4.3　rdd操作

4.4　共享变量

4.5　本章小结

第5章　作业执行解析

5.1　基本概念

5.2　作业执行流程

5.3　运行时环境

5.4　应用程序运行实例

5.5　本章小结

第6章　spark sql与dataframe

6.1　概述

6.2　dataframe

6.3　数据源

6.4　分布式的sql engine

6.5　性能调优

6.6　数据类型

6.7　本章小结

第7章　深入了解spark streaming

7.1　基础知识

7.2　dstream操作

7.3　性能调优

7.4　容错处理

7.5　一个例子

7.6　本章小结

第8章　spark mllib与机器学习

8.1　机器学习概述

8.2　spark mllib介绍

8.3　spark mllib库

8.4　ml库

8.5　本章小结

第9章　graphx图计算框架与应用

9.1　概述

9.2　spark graphx架构

9.3　graphx编程

9.4　应用场景

9.5　本章小结

第10章　sparkr（r on spark）

10.1　概述

10.2　安装sparkr

10.3　sparkr的运行与应用示例

10.4　本章小结

实　战　篇

第11章　大数据分析系统

11.1　背景

11.2　数据格式

11.3　应用架构

11.4　业务实现

11.5　本章小结

第12章　系统资源分析平台

12.1　业务背景

12.2　应用架构

12.3　代码实现

12.4　结果验证

12.5　本章小结

第13章　在spark上训练lr模型

13.1　逻辑回归简介

13.2　数据格式

13.3　mllib中lr模型源码介绍

13.4　实现案例

13.5　本章小结

第14章　获取二级邻居关系图

14.1　理解pagerank

14.2　pagerank算法基于spark的实现

14.3　基于pagerank的二级邻居获取

14.4　本章小结

高　级　篇

第15章　调度管理

15.1　调度概述

15.2　调度器

15.3　本章小结

第16章　存储管理

16.1　硬件环境

16.2　storage模块

16.3　shuff?le数据持久化

16.4　本章小结

第17章　监控管理

17.1　web界面

17.2　spark ui历史监控

17.3　监控工具

17.4　本章小结

第18章　性能调优

18.1　文件的优化

18.2　序列化数据

18.3　缓存

18.4　共享变量

18.5　流水线优化

18.6　本章小结

扩　展　篇

第19章　spark-jobserver实践

19.1　spark-jobserver是什么

19.2　编译、部署及体验

19.3　spark-jobserver程序实战

19.4　使用场景：用户属性分布计算

19.5　本章小结

第20章　spark tachyon实战

20.1　tachyon文件系统

20.2　tachyon入门

20.3　容错机制

20.4　本章小结

《Spark核心技术与高级应用》——导读

继续阅读

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

golang技术随笔（二）理解goroutine进程、线程和协程浅析goroutinego运行时调度参考资料

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

K-近邻算法以及图像分类应用

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结