Spark textFile在读取数据遭遇empty string或者ArrayIndexOutOfBoundsException: 2

2023-05-16 03:36:18

Spark textFile在读取数据遭遇empty string或者ArrayIndexOutOfBoundsException: 2

- - - 在使用spark textFile读取一个大数据文本有3万多行，然而在处理过程中即使用collect().foreach(println)进行打印输出，爆出empty string错误，经过排查，发现并不是存在空行，而是某一行数据存在空值，由于在处理过程中，将每一行中的数字抽取出来，转换成Double类型存入Vectors.dense稠密矩阵中，如果是某一行存在空值，则会爆出下标越界的错误，按此思路处理，果不其然：

在使用spark textFile读取一个大数据文本有3万多行，然而在处理过程中即使用collect().foreach(println)进行打印输出，爆出empty string错误，经过排查，发现并不是存在空行，而是某一行数据存在空值，由于在处理过程中，将每一行中的数字抽取出来，转换成Double类型存入Vectors.dense稠密矩阵中，如果是某一行存在空值，则会爆出下标越界的错误，按此思路处理，果不其然：

Caused by: java.lang.ArrayIndexOutOfBoundsException: 2

解决办法：

在处理过程中 filter筛选我们需要的数据

我的处理办法：

spark.sparkContext.textFile("file:///home/maxinehehe/document/ml-1m/adult/adult.data").
      map(_.split(",")).//filter(_!="").filter(p=>(p.size == 15)).
      map(p=>Adult(Vectors.dense(toZero(p(0)), toZero(p(2)), toZero(p(4)),
        toZero(p(10)), toZero(p(11)), toZero(p(12))),p(14).toString())
      ).toDF()

然后使用

df.collect.foreach(println)

就可以打印出所有数据了。

这个过程中发挥最重要作用的是filter(p=>(p.size == 15))这句代码除掉了长度不满足的行数，最后使用count数了下就排除了一行，就那一行在捣乱。

Spark textFile在读取数据遭遇empty string或者ArrayIndexOutOfBoundsException: 2

Spark textFile在读取数据遭遇empty string或者ArrayIndexOutOfBoundsException: 2

继续阅读

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开

【分类算法】什么是分类算法定义分类与聚类分类过程方法

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

浅谈企业活动中进行数据分析的重要性

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method