Spark Streaming 的saveAsTextFiles遇到的坑

2019-01-09 23:50:00

使用sparkStreaming消费数据，并使用Dstream的 saveAsTextFile保存数据到hdfs中，通过使用这个方法，生成的文件夹存在问题，

代码例子如下：

resultRdd.map(x=>x).saveAsTextFiles("hdfs:ip//data/storage/20181010/"+(new Date())) //new Date()自行转化

ssc.start()

ssc.awaitermination()

而hsfs中目录显示为

/data/storage/20181010/201810100708223-1547016648000

/data/storage/20181010/201810100708223-1547016652000

/data/storage/20181010/201810100708223-1547016658000

.........................................

从中发现最后面多了一条横杠 -和时间戳1547016648000，是根据间隔时间自动生成的，但是我不想要他后面的-1547016648000，

并且201810100708223日期固定住了

查看saveAsTextFiles源码

def saveAsTextFiles(prefix: String, suffix: String = ""): Unit = ssc.withScope {

  val saveFunc = (rdd: RDD[T], time: Time) => {

    val file = rddToFileName(prefix, suffix,time)

    rdd.saveAsTextFile(file)

  }

  this.foreachRDD(saveFunc)

}

saveAsTextFiles方法中也是调用了saveAsTextFile方法，其中有个添加时间戳的方法。

于是我根据源码自己使用foreachRDD，生成文件使用saveAsTextFile

resultRdd.foreachRDD{

rdd=>{}

rdd.map(x=>x).saveAsTextFile("hdfs:ip//data/storage/20181010/"+(new Date()))  //new Date()自行转化

}



ssc.start()

ssc.awaitermination()

现在hsfs中目录显示为

/data/storage/20181010/201810100708223

/data/storage/20181010/201810100708460

达到自己想要的结果，根据streaming 间隔时间生成文件夹，并其中包含文件。

Spark Streaming 的saveAsTextFiles遇到的坑

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结