hadoop權威指南-閱讀筆記

2023-07-22 06:47:52

一 Map-Reduce

兩個階段都是鍵值對。Map把資料打散，Reduce對相同鍵的資料做聚集計算。

二 HDFS

1.高延時，資料不可修改（追加）。

2.HDFS資料塊128M，磁盤資料塊512位元組。

3. namenode:管理節點：維護系統樹和整棵樹内所有檔案和目錄。輔助namenode。

datanode:工作節點：存儲和檢索資料塊。datanode塊掃描器（檢查壞死磁盤）。

4. 均衡器

三生态

1.Flume:從其他資料源向HDFS導入資料（事件型：如日志），按時間分區

2.sqoop:從結構化存儲器向HDFS導入導出資料。sqoop連接配接器：支援sqoop從關系型資料庫導入導出資料。

3.kettle:對資料etl操作，也可以導入導出資料。

4. pig:對資料操作和變換。

5.hive:用sql語言對hdfs上的資料查詢。外部表：庫外的表。資料分塊：表->分區->桶。存儲格式：行格式，檔案格式。

6.hbase:在hdfs上開發的面向列的分布式資料庫。解決實時通路大規模資料問題。非關系資料庫，不支援sql，沒有真正的索引，自動分區。

7.spark:實時計算。作業運作機制：driver，executor。driver負責托管應用，并為作業排程任務。executor專屬于應用，在應用期間執行，執行該應用的任務。

Spark是大資料記憶體計算引擎。一個job計算一類計算。并由前端可視化管理。

可以簡單了解Spark的資料類型為RDD。

對于RDD資料主要做三步運算：

（1）Map：将資料離散。

（2）Flat：将資料展開成一維。

（3）Reduce：對資料縮減/聚合後運算。

8.Zookepper:用來建構分布式應用，hadoop的分布式協調服務。運作模式：獨立模式，複制模式：一般機器可用就可用。

繼續閱讀