一,如果构建SparkSession
import org.apache.spark.sql.SparkSession;
1,SparkSession.builder().getOrCreate();
2,SparkSession.builder
.master("local")
.appName("Word Count")
.config("spark.some.config.option", "some-value")
.getOrCreate()
二,创建DataFrame
import spark.implicits._
1. def createDataFrame(data: List[_], beanClass: Class[_]): DataFrame
根据已给的装有对象的list,和对象的JavaBean创建,字段名为属性名
2. createDataFrame(rows: List[Row], schema: StructType): DataFrame
不存在javaBean,自己手动指定对象
三,数据源
SparkSession.read 用来读取非流式数据
SparkSession.readSteam,用来读取流式数据
DataFrameWriter ,写非流式数据
DataStreamWriter,写流式数据