天天看點

Spark之RDD的transformation&action(Java&Scala實作)

1.1 從hadoop檔案系統(如hdfs、hive、hbase)輸入建立

1.2 從父rdd轉換得到新rdd

1.3 通過parallelize或makerdd将單機資料建立為分布式rdd

(差別: a)makerdd函數比parallelize函數多提供了資料的位置資訊。

1.4 基于db(mysql)、nosql(hbase)、s3(sc3)、資料流建立。

所有的transformation都是采用的懶政策,就是如果隻是将transformation送出是不會執行計算的,計算隻有在action被送出的時候才被觸發。

Spark之RDD的transformation&action(Java&Scala實作)