Spark SQL读取JSON案例以及存在的坑

2023-04-09 19:43:00

Spark可以读取JSON，将其转换为DataFrame （ DataFrame[Row] ）

Spark SQL可以自动推断JSON的schema，但是如果显式的提供模式可以避免额外的扫描

需要注意是：如果是读取JSON文件，提供的json文件不是典型的JSON文件，而是每行属于合法的JSON，然后用分隔符分割，具体规则：http://jsonlines.org/

官网Demo地址：http://spark.apache.org/docs/latest/sql-data-sources-json.html

读取JSON文件

// 以下是测试文件的json
//{"id": 1, "name": "mwf", "age": 23}
//{"id": 2, "name": "zqr", "age": 23}

val structType = new StructType()
    .add("id", IntegerType)
    .add("name", StringType)
    .add("age", IntegerType)

//读json文件，读取的时候也可以不指定schema，spark可以自动推断类型
val jsonDF = spark
   .read
   .schema(structType)
   .json("D:\\learning_spark\\spark_demo\\src\\main\\resources\\read_json.jsonl")

jsonDF.printSchema()
jsonDF.show()

读取JSON String

val seq = Seq("{\"id\": 1, \"name\": \"mwf\", \"age\": 23}", 
			  "{\"id\": 2, \"name\": \"zqr\", \"age\": 23}")

val jsonStringRdd = spark
    .sparkContext
    .parallelize(seq)

import spark.implicits._
// 也可以直接创建DS spark.createDataset(seq)
val jsonDS= jsonStringRdd.toDS()

//也可以直接传jsonStringRdd, 不过spark建议我们传入DataSet
val jsonDF2 = spark
    .read
    .json(jsonDS)
jsonDF2.show()

读取JSON的时候，存在的坑

当不指定schema时，可以读到正确的JSON；但是当指定schema后，读取到的JSON值都为null

{"id": "1", "name": "mwf", "age": 23}
{"id": "2", "name": "zqr", "age": 23}

以上JSON，我们如果指定如下schema：

val structType = new StructType()
    .add("id", IntegerType)
    .add("name", StringType)
    .add("age", IntegerType)

读取出来就会每行都变为null

将注意力放到"id":"1"那里，1是加了引号的，意味着他是一个字符串，而不是int类型的

spark无法直接从String转换为Integer,会将整行记录置为null

要解决如上问题，我们可以将id变为int值；或者直接将schema的类型都指定为String，在读取进来以后再处理为想要的类型

以下两个网站解决了我的疑问，大家也可以直接点过去看

https://codeday.me/bug/20190406/896703.html

https://blog.antlypls.com/blog/2016/01/30/processing-json-data-with-sparksql

居安思危，跳出安逸！

Spark SQL读取JSON案例以及存在的坑

读取JSON文件

读取JSON String

读取JSON的时候，存在的坑

当不指定schema时，可以读到正确的JSON；但是当指定schema后，读取到的JSON值都为null

要解决如上问题，我们可以将id变为int值；或者直接将schema的类型都指定为String，在读取进来以后再处理为想要的类型

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结