天天看点

初窥Spark

初窥Spark

11月26日,ibm资深软件工程师朱志辉老师,在dba+社群db2用户群进行了一次主题为“初窥spark”的线上分享。小编特别整理出其中精华内容,供大家学习交流。同时,也非常感谢朱志辉老师对dba+社群给予的大力支持。

嘉宾简介  

ibm中国开发中心高级软件工程师

具有多年的数据库软件开发设计经验,擅长解决复杂的数据库应用系统问题及性能优化,拥有db2多项认证和oracle ocp证书

合作出版了《db2设计,管理与性能优化艺术》《db2性能管理与实战》

自从2007年加入ibm以来,一直从事db2相关工具的开发与研究,现在专注spark工具的初创研究

演讲实录  

一、前言

spark作为现在大数据领域最火热的技术,被称为将会是下个十所最重要的开源技术,其基于内存的计算速度100倍速于hadoop mapreduce,基于磁盘的运算速度也比hadoop mapreduce要快10倍,它易于使用,spark提供了80个以上的高阶操作使你很容易的使用java,scala,python,r等语言快速地构建分布式应用,你也可以scala,python和r shells进行交互式分析。作为一种通用数据处理引擎,你可以组合使用sql,流处理等技术来进行复杂的分析,它能够运行在hadoop,mesos,standalone或者云环境下,也能够访问hdfs,cassandra,hbase和s3等多种存储,下面我们从spark的诞生背景开始讨论它是如何实现这些优势的。

二、spark诞生的背景

mapreduce计算模型的诞生,极大的加速了大数据时代的到来(如果不熟悉mapreduce概念可以参考“我是如何向老婆解释mapreduce的?”这篇blog),在许多情况下,可以将mapreduce视为关系型数据库管理系统的补充。两个系统的差异如下表。

传统关系型数据库

mapreduce

数据大小

gb

pb

数据存取

多次读写

一次写入,多次读取

结构

静态模式

动态模式

完整性

横向扩展

非线性

线性的

mapreduce比较适合以批处理方式处理需要分析整个数据集的问题,随着mapreduce技术的发展,除了批处理类型的工作负载外,越来越多独立系统被开发出处理不同的工作负载。

初窥Spark

google就开发了pregel来处理图形计算,dremel来处理交互式sql,也有自己流处理引擎。而开源的hadoop体系也自己对应的处理引擎,每一种工作负责的处理都是由不同的引擎来负责,这样很难去部署,优化和管理众多的系统,而且这些工作流之种也很组合在一起形成流水线(pipeline)。

初窥Spark

为了消除这种复杂性,spark被设计为统一的大数据处理引擎,将批处理,交互式,迭代和流处理等有机的组合在spark中。

spark创始人认为,大多数的数据分析活动是探索性交互式的,spark为这种探索性交互方式设计了resilient distributed datasets(rdds),对具有简单函数式编程接口的分布式数据集合的抽象。可以理解rdd就是分页在不同机器上的list,当遇到错误的时候,这些list能够被恢复。

lines=sc.textfile(“hdfs://....”)

points = lines.map(line => parsepoint(line))

points.filter(p => p.x>100).count()

如上面的scala代码,rdd通常开始从hdfs文件系统读取文本文件开始,lines这个rdd由字符串组成,每个元素都对应着文本文件中的一行。调用map函数,可以将rdd转换成包含点元素的ponits集合。可以过滤这个集合并计算符合要求的点的数量。

总而言之:spark是一个统一的大数据处理引擎,它有机的组合了批处理,交互式,流处理和图计算处理能力,并以rdd抽象为基础,提供了简洁的函数式编程api来支持交互式的探索性数据分析处理手段。

三、spark的核心概念

1)resilient distributed dataset (rdd)弹性分布数据集

rdd弹性分布式数据集是分布式的只读的且已分区的集合对象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。这些集合是弹性的,如果数据集的一部分丢失,则可以对它们进行重建。具有自动容错,位置感知调试和可伸缩性,而容错性最难实现的。大多数分布式数据集的容错性有两种方式:数据检查点和记录数据的更新,对于大规模数据分析系统,数据检查点操作成本很高,主要原因是大规模数据在服务器之间的传输会带来各方面的问题,相比记录数据的更新,rdd只支持粗粒度的轮换,也就是记录如何从其他rdd转换而来,以便恢复丢失的分区。rdd必须是可序列化的。rdd可以cache到内存 中,每次对rdd数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了mapreduce大量的磁盘io操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,效率提升比较大。

2)rdd编程接口

作为spark的目标之一,spark提供了丰富的api来操作这些数据集,rdd包含2类api。

transformations——转换操作,这类操作的返回值还是一个rdd,常用的有map、filter、sort等,变形操作采用的是懒策略,如果只是将转换操作提交是不会提交任务来执行的。

spark支持的转换操作可参考以下链接:transformations

map(func)

返回一个新的分布式数据集,由每个原元素经过func函数转换后组成

filter(func)

返回一个新的数据集,由经过func函数后返回值为true的原元素组成

flatmap(func)

类似于map,但是每一个输入元素,会被映射为0到多个输出元素(因此,func函数的返回值是一个seq,而不是单一元素)

sample(withreplacement, frac, seed)

根据给定的随机种子seed,随机抽样出数量为frac的数据

union(otherdataset)

返回一个新的数据集,由原数据集和参数联合而成

groupbykey([numtasks])

在一个由(k,v)对组成的数据集上调用,返回一个(k,seq[v])对的数据集。注意:默认情况下,使用8个并行任务进行分组,你可以传入numtask可选参数,根据数据量设置不同数目的task

(groupbykey和filter结合,可以实现类似hadoop中的reduce功能)

reducebykey(func, [numtasks])

在一个(k,v)对的数据集上使用,返回一个(k,v)对的数据集,key相同的值,都被使用指定的reduce函数聚合到一起。和groupbykey类似,任务的个数是可以通过第二个可选参数来配置的

join(otherdataset, [numtasks])

在类型为(k,v)和(k,w)类型的数据集上调用,返回一个(k,(v,w))对,每个key中的所有元素都在一起的数据集

groupwith(otherdataset, [numtasks])

在类型为(k,v)和(k,w)类型的数据集上调用,返回一个数据集,组成元素为(k, seq[v], seq[w]) tuples。这个操作在其它框架,称为cogroup

cartesian(otherdataset)

笛卡尔积。但在数据集t和u上调用时,返回一个(t,u)对的数据集,所有元素交互进行笛卡尔积

sortbykey([ascendingorder])

在类型为( k, v )的数据集上调用,返回以k为键进行排序的(k,v)对数据集。升序或者降序由boolean型的ascendingorder参数决定

(类似于hadoop的map-reduce中间阶段的sort,按key进行排序)

actions——动作操作,这类操作或者返回结果,或者将rdd存储起来,如count,save等等,当动作操作提交时,任务执行立即被触发。

spark支持的动作操作可参考以下链接:actions

reduce(func)

通过函数func聚集数据集中的所有元素。func函数接受2个参数,返回一个值。这个函数必须是关联性的,确保可以被正确的并发执行

collect()

在driver的程序中,以数组的形式,返回数据集的所有元素。这通常会在使用filter或者其它操作后,返回一个足够小的数据子集再使用,直接将整个rdd集collect返回,很可能会让driver程序oom

count()

返回数据集的元素个数

take(n)

返回一个数组,由数据集的前n个元素组成。注意,这个操作目前并非在多个节点上,并行执行,而是driver程序所在机器,单机计算所有的元素

(gateway的内存压力会增大,需要谨慎使用)

first()

返回数据集的第一个元素(类似于take(1))

saveastextfile(path)

将数据集的元素,以textfile的形式,保存到本地文件系统,hdfs或者任何其它hadoop支持的文件系统。spark将会调用每个元素的tostring方法,并将它转换为文件中的一行文本

saveassequencefile(path)

将数据集的元素,以sequencefile的格式,保存到指定的目录下,本地系统,hdfs或者任何其它hadoop支持的文件系统。rdd的元素必须 由key-value对组成,并都实现了hadoop的writable接口,或隐式可以转换为writable(spark包括了基本类型的转换,例如 int,double,string等等)

foreach(func)

在数据集的每一个元素上,运行函数func。这通常用于更新一个累加器变量,或者和外部存储系统做交互

3)rdd依赖关系

初窥Spark

如上图,rdd之间有两种依赖:

窄依赖(narrow dependency)——一个父rdd最多被一个子rdd引用,如map,filter,union等等。

宽依赖(wide dependencies)——一个父rdd被多个子rdd引用,如groupbykey。

4)stage dag

初窥Spark

如图spark提交job之后会把job生成多个stage,多个stage之间是有依赖的,如上面stage3就依赖于stage1和stage2,stage之间的依赖关系就构成了dag(有向无环图)。spark通常会将窄依赖的rdd转换放在同一个stage中,而对于宽依赖,通常会发生shuffle操作,spark通常将shuffle操作定义为stage的边界。

5)spark运行模式

在了解rdd和dag的基础下,我们来看看,spark是如果对资源管理与作业调度来完成实际的分析任务。

spark支持如下运行模式:

local模式:单机运行环境,通常用于测试开发

伪分布模式:在单机环境下,模仿分布集群运行模式,也用于测试开发

集群模式:spark支持多种集群管理器

1.standalone模式,对于资源管理与作业调度由spark集群来完成。

初窥Spark

在这种模式下,driver负责创建sparkcontext来为应用的运行准备运行环境,sparkcontext负责与集群管理器通信,进行资源的申请,任务的分配和监控等,在worker节点上运行的executor工作进程在完成分配的任务后,driver同时负责将sparkcontext关闭。通常用sparkcontext代表driver。

2. spark on yarn模式

spark应用的资源与调度由yarn来管理 ,spark on yarn遵循yarn的官方规范实现,得益于spark天生支持多种scheduler和executor的良好设计,对yarn的支持也就非常容 易,spark on yarn的大致框架图。

初窥Spark

3.spark也可运行在mesos集群管理器上

四、spark的组件

初窥Spark

1)spark sql

spark sql是spark用来处理结构化数据的模块,它提供了叫做dataframes的编程抽象,也叫做分布式sql查询引擎,这个概念在spark1.5中引入。一个dataframe就是一个由命名列组织的分布式数据集。它在概念上等同关系型数据库中表或者r/python中的数据框。dataframes能够由多种方式构建,例如:结构化数据文件,hive中的表,外部数据库或者已有rdd。

dataframe api支持scala,java,python和r语言,下面是使用语言scala操作dataframe的简单实例。

初窥Spark

2)spark streaming

spark流程处理模块扩展了spark的核心api来支持,可伸缩,高吞吐量,可容错的实时的流数据处理,数据可以从不同的来源注入,例如kafka,flume,twitter,zeromq,kinesis或者tcp sockets. 可以对这些实时数据运用高级函数例如map,reduce,join结合窗口机制作一些复杂的数理运算,最终的处理结果可以推送到文件系统,数据库,实时仪表盘显示,也可使用spark机器学习算法或者图计算处理引擎来处理这些实时数据。

初窥Spark

spark的内部工作机制如下,spark stream接收到实时数据流,按照一定时间将数据流分隔成批,然后由spark引擎依次处理这些批量数据来获取最终的结果。

初窥Spark

spark streaming提供的高阶抽象叫做“离散流”或者dstream,它代表一个持续的数据流。dstreams能够从kafka,flumea和kinesis数据源创建或者从其它dstreams转换而来。在内部,dstream代表序列化rdds。

流计算技术通常用来处理实时业务分析,例如实时日志收集和预警系统等等。

3)machine learning library

mllib是spark的机器学习库,其目标使实际的机器学习运算简单和可伸缩。它由一些通用的学习算法和辅助类组成,包括分类、回归、聚类、协同过滤、降维等和一些底层的优化手段和api。

4)graphx

初窥Spark

graphx是 spark中用于图(e.g., web-graphs and social networks)和图并行计算(e.g., pagerank and collaborative filtering)的api,可以认为是graphlab(c++)和pregel(c++)在spark(scala)上的重写及优化,跟其他分布式 图计算框架相比,graphx最大的贡献是,在spark之上提供一栈式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。

graphx能过引入graph抽象来扩展spark rdd:由附有属性的点和边组成的有向多边形。graphx提供了一些基本的图计算操作集(如:subgraph,joinvertices和aggregatemessages)和一个经过优化的pregel api变体。graphx所包含的图形算法还在持续的增加和构建以使对于图分析任务更简单。

图算法通常用来处理最短路径,社交网络分析等等,比较有名的图算法就是google计算网页链接权重的pagerank。

五、结束语

spark基于rdd的抽象,结合dag,延迟计算等技术,尽可能充分利用内存迭代避免低效的磁盘读写,来提高运算速度,并以这个抽象为基础,将批处理,机器学习,流处理和图计算能多种工作负载有机的统一到其运算平台中,并且能够组合这些技术来进行复杂的分析任务,例如将流处理获得数据实时的分发的机器学习模块进行实时预测。其提供的高阶操作接口和各种便利的计算库,使得开发能够专注于自己的业务,使用它们快速的开发自己的应用。

通过上面的介绍,相信读者已经了解spark的基本的了解,如果想进一步的学习spark的知识,可以访问big data university,其中包含许多免费的mooc、ibm也提供了spark服务平台来免费试用。

<b></b>

<b>本文来自云栖社区合作伙伴"dbaplus",原文发布时间:2015-11-28</b>