SparkSql如何创建DataFrame

2023-07-30 18:14:49

一,如果构建SparkSession

import org.apache.spark.sql.SparkSession;

1,SparkSession.builder().getOrCreate();

2,SparkSession.builder
  .master("local")
  .appName("Word Count")
  .config("spark.some.config.option", "some-value")
  .getOrCreate()

二,创建DataFrame

import spark.implicits._

1. def createDataFrame(data: List[_], beanClass: Class[_]): DataFrame

根据已给的装有对象的list,和对象的JavaBean创建,字段名为属性名

2. createDataFrame(rows: List[Row], schema: StructType): DataFrame

不存在javaBean,自己手动指定对象

三,数据源

SparkSession.read 用来读取非流式数据

SparkSession.readSteam,用来读取流式数据

DataFrameWriter ,写非流式数据

DataStreamWriter,写流式数据

继续阅读