利用 sparksession读取Parquet，Json格式文件

2017-07-08 23:50:00

Spark支持的一些常见的格式：

文本文件：无任何的格式
json文件：半结构化
parquet：一种流行的列式存储格式
sequencefile：一种(k－v)的Hadoop文件格式.

import org.apache.spark.SparkConf

import org.apache.spark.sql.SparkSession

object OpsWihtJson_and_parquet {

  def main(args: Array[String]): Unit = {
    val sparkconf = new SparkConf().setAppName("test_Spark_sql").setMaster("local[2]")
    val ss = SparkSession.builder()
      .config(sparkconf)
      .getOrCreate()
    val sc = ss.sparkContext
    import ss.implicits._
    val fileRDD = sc.textFile("/opt/tarballs/spark_kafka/beifengspark/src/main/scala/2015082818")
     //读文本文件,生成普通rdd,通过.toDF转化为dataframe,然后可以就使用sql了
    ss.read.json("/home/zkpk/Desktop/test.json")
      .createOrReplaceTempView("people")
    val rs = ss.sql("select * from people")
    rs.printSchema()
    rs.show()
    ss.read.parquet("/home/bymain/Desktop/mllibDATA/scalaLogisticRegressionWithSGDModel/data/part-r-00000-9295ec7d-956a-46e7-91f8-a0b6f8a8ac93.snappy.parquet")
      .createOrReplaceTempView("users")
    val rs2 = ss.sql("select * from users")
    rs2.printSchema()
    rs.show()

    sc.stop()
    ss.stop()
  }
}

“`

SparkSession实质上是SQLContext和HiveContext的组合（未来可能还会加上StreamingContext），所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext，所以计算实际上是由sparkContext完成的。

如果需要读hdfs数据的话，通常走Hive的比较多。一般写sql的时候，能用sparksession解决的，都不会去弄rdd的各种transform和action*

利用 sparksession读取Parquet，Json格式文件

继续阅读

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

[HTML5]自定义属性 data-* 和 jQuery.data 详解

9.spark Core 进阶2--Cashe

七牛云-C#SDK-上传-前期准备

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

ubuntu14.04下安装hbse1.0.1.1

User Defined Hadoop DataType

neo4j之cypher使用文档

Ambari介绍和架构原理

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

vue-cli简介（中文翻译）

sqlServer根据经纬查距离

Ajax发送和获取json数据到Spring mvc 1.spring mvc后端2.web前段

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method

JSONObject包导入异常 java.lang.NoClassDefFoundErrorweb项目的导入包的问题