天天看點

hadoop權威指南-閱讀筆記

一 Map-Reduce

兩個階段都是鍵值對。Map把資料打散,Reduce對相同鍵的資料做聚集計算。

二 HDFS

1.高延時,資料不可修改(追加)。

2.HDFS資料塊128M,磁盤資料塊512位元組。

3. namenode:管理節點:維護系統樹和整棵樹内所有檔案和目錄。輔助namenode。

    datanode:工作節點:存儲和檢索資料塊。datanode塊掃描器(檢查壞死磁盤)。

4. 均衡器

三 生态

1.Flume:從其他資料源向HDFS導入資料(事件型:如日志),按時間分區

2.sqoop:從結構化存儲器向HDFS導入導出資料。sqoop連接配接器:支援sqoop從關系型資料庫導入導出資料。

3.kettle:對資料etl操作,也可以導入導出資料。

4. pig:對資料操作和變換。

5.hive:用sql語言對hdfs上的資料查詢。外部表:庫外的表。資料分塊:表->分區->桶。存儲格式:行格式,檔案格式。

6.hbase:在hdfs上開發的面向列的分布式資料庫。解決實時通路大規模資料問題。非關系資料庫,不支援sql,沒有真正的索引,自動分區。

7.spark:實時計算。作業運作機制:driver,executor。driver負責托管應用,并為作業排程任務。executor專屬于應用,在應用期間執行,執行該應用的任務。

Spark是大資料記憶體計算引擎。一個job計算一類計算。并由前端可視化管理。

可以簡單了解Spark的資料類型為RDD。

對于RDD資料主要做三步運算:

(1)Map:将資料離散。

(2)Flat:将資料展開成一維。

(3)Reduce:對資料縮減/聚合後運算。

8.Zookepper:用來建構分布式應用,hadoop的分布式協調服務。運作模式:獨立模式,複制模式:一般機器可用就可用。

繼續閱讀