深入理解Spark：核心思想与源码分析. 3.3　创建metadataCleaner

2021-11-08 01:57:13

<b>3.3　创建metadatacleaner</b>

sparkcontext为了保持对所有持久化的rdd的跟踪，使用类型是timestamped-weakvaluehashmap的persistentrdds缓存。metadatacleaner的功能是清除过期的持久化rdd。创建metadatacleaner的代码如下。

private[spark] val persistentrdds = new timestampedweakvaluehashmap[int,

rdd[_]]

private[spark] val metadatacleaner =

new metadatacleaner(metadatacleanertype.spark_context, this.cleanup,

conf)

我们仔细看看metadatacleaner的实现，见代码清单3-14。

代码清单3-14　metadatacleaner的实现

private[spark] class metadatacleaner(

cleanertype: metadatacleanertype.metadatacleanertype,

cleanupfunc: (long) => unit,

conf: sparkconf)

extends logging

{

val name = cleanertype.tostring

private val delayseconds = metadatacleaner.getdelayseconds(conf,

cleanertype)

private val periodseconds = math.max(10, delayseconds / 10)

private val timer = new timer(name + " cleanup timer", true)

private val task = new timertask {

override def run() {

try {

cleanupfunc(system.currenttimemillis() - (delayseconds * 1000))

loginfo("ran metadata cleaner for " + name)

} catch {

case e: exception => logerror("error running cleanup task for

" + name, e)

}

if (delayseconds > 0) {

timer.schedule(task, delayseconds * 1000, periodseconds * 1000)

def cancel() {

timer.cancel()

从metadatacleaner的实现可以看出其实质是一个用timertask实现的定时器，不断调用cleanupfunc: (long) => unit这样的函数参数。构造metadatacleaner时的函数参数是cleanup，用于清理persistentrdds中的过期内容，代码如下。

private[spark] def cleanup(cleanuptime:

long) {

persistentrdds.clearoldvalues(cleanuptime)

深入理解Spark：核心思想与源码分析. 3.3　创建metadataCleaner

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

深入理解Spark：核心思想与源码分析. 3.3 创建metadataCleaner

继续阅读

深入理解Spark：核心思想与源码分析. 3.3　创建metadataCleaner