Spark學習之資料讀取與儲存（4）

2016-01-15 15:57:00

Spark學習之資料讀取與儲存（4）

1. 檔案格式

Spark對很多種檔案格式的讀取和儲存方式都很簡單。
如文本檔案的非結構化的檔案，如JSON的半結構化檔案，如SequenceFile結構化檔案。通過擴充名進行處理。

2. 讀取/儲存文本檔案

Python中讀取一個文本檔案

input = sc.textfile("file:///home/holen/repos/spark/README.md")
    Scala中讀取一個文本檔案
    val input = sc.textFile("file:///home/holen/repos/spark/README.md")
    Java中讀取一個文本檔案
    JavaRDD<String> input = sc.textFile("file:///home/holen/repos/spark/README.md")

saveAsTextFile()方法用了儲存為文本檔案

3. 讀取/儲存JSON檔案

Python中讀取JSON檔案

import json
    data = input.map(lambda x: json.loads(x))

    Python中儲存為JSON檔案
    (data.filter(lambda x: x["lovesPandas"]).map(lambda x: json.dumps(x)))
        .saveAsTextFile(outputFile)

4. Spark SQL中的結構化資料

結構化資料指的是有結構資訊的資料————也就是所有的資料記錄都有具有一緻字段結構的集合。
在各種情況下，我們把一條SQL查詢給Spark SQL，讓它對一個資料源執行查詢，然後得到由Row對象組成的RDD，每個Row對象表示一條記錄。

Spark學習之資料讀取與儲存（4）

Spark學習之資料讀取與儲存（4）

1. 檔案格式

2. 讀取/儲存文本檔案

3. 讀取/儲存JSON檔案

4. Spark SQL中的結構化資料

繼續閱讀

二叉樹及其應用--二叉樹建立

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

關于 underscore 中模闆引擎的應用示範樣例

underscore 模闆标簽修改。

Ajax——模闆引擎

使用underscore的template自定義模闆

underscore模闆功能的使用和學習

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

七牛雲-C#SDK-上傳-前期準備

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

詳解STM32單片機的堆棧

vue-cli簡介（中文翻譯）

Ajax發送和擷取json資料到Spring mvc 1.spring mvc後端2.web前段

JSONObject包導入異常 java.lang.NoClassDefFoundErrorweb項目的導入包的問題