概述
什么是Spark
◆ Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。其架构如下图所示:
Spark的适用场景
◆ Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小
◆ 由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。
◆ 总的来说Spark的适用面比较广泛且比较通用。
详细内容请参考视频:
Spark概述与编程模型(上) http://pan.baidu.com/s/1kT9okBl
Spark概述与编程模型(下) http://pan.baidu.com/s/16OEjc
另外给个相关的PDF文件供参考:
Spark概述与编程模型.pdf http://pan.baidu.com/s/1mg64rMw
==========================================================
申明:视频资料已过期,建议不要再下载了。