天天看點

《Hadoop MapReduce實戰手冊》一2.1 簡介

本節書摘來異步社群《hadoop mapreduce實戰手冊》一書中的第2章,第2.1節,作者: 【美】srinath perera , thilina gunarathne 譯者: 楊卓荦 責編: 楊海玲,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

hadoop mapreduce實戰手冊

hadoop分布式檔案系統(hadoop distributed file system,hdfs)被設計成适合運作在低廉的通用硬體上的面向塊結構的分布式檔案系統。hdfs支援海量資料存儲,并提供高吞吐量的資料通路。hdfs通過跨多個節點的備援方式存儲檔案資料,以確定容錯性和高聚合帶寬。

hdfs是hadoop mapreduce計算預設使用的分布式檔案系統。hadoop在處理存儲在hdfs上的資料時支援資料本地化感覺。然而,hdfs也可以用作一個通用的分布式檔案系統。hdfs架構主要由一個用于處理檔案系統中繼資料的中央namenode以及很多個用于存儲真實資料塊的datanode組成。hdfs資料塊通常是粗粒度的,适合存儲大資料産品。

1.5節和第1章中的其他各節說明了如何部署hdfs,并對hdfs的基本操作給出了一個概述。本章将學習一組精心挑選的進階hdfs操作,在使用hadoop mapreduce進行大規模資料處理時,這些操作将十分有用,同時,也适用于使用hdfs作為一個獨立的分布式檔案系統用于非mapreduce場景。