天天看點

hadoop 爬蟲_HadoopHadoop曆史Hadoop核心HDFSMapReduce總結HDFSHDFS的設計思路HDFS核心概念HDFS的基礎架構圖HDFS優點:HDFS常見指令

Hadoop曆史

雛形開始于2002年的Apache的Nutch,Nutch是一個開源Java 實作的搜尋引擎。它提供了我們運作自己的搜尋引擎所需的全部工具。包括全文搜尋和Web爬蟲。

随後在2003年Google發表了一篇技術學術論文谷歌檔案系統(GFS)。GFS也就是google File System,google公司為了存儲海量搜尋資料而設計的專用檔案系統。

2004年Nutch創始人Doug Cutting基于Google的GFS論文實作了分布式檔案存儲系統名為NDFS。

2004年Google又發表了一篇技術學術論文MapReduce。MapReduce是一種程式設計模型,用于大規模資料集(大于1TB)的并行分析運算。

2005年Doug Cutting又基于MapReduce,在Nutch搜尋引擎實作了該功能。

2006年,Yahoo雇用了Doug Cutting,Doug Cutting将NDFS和MapReduce更新命名為Hadoop,Yahoo開建了一個獨立的團隊給Goug Cutting專門研究發展Hadoop。

Google和Yahoo對Hadoop的貢獻功不可沒。

Hadoop核心

Hadoop的核心是HDFS和Map-Reduce,而兩者隻是理論基礎,不是具體可使用的進階應用,Hadoop生态有很多經典的項目,比如HBase、Hive等,這些都是基于HDFS和MapReduce發展出來的。要想了解Hadoop,就必須知道HDFS和MapReduce是什麼。

HDFS

HDFS(Hadoop Distributed File System,Hadoop分布式檔案系統),它是一個高度容錯性的系統,适合部署在廉價的機器上。HDFS能提供高吞吐量的資料通路,适合那些有着超大資料集(large data set)的應用程式。

HDFS的設計特點是:

  • 大資料檔案,非常适合上T級别的大檔案或者一堆大資料檔案的存儲,如果檔案隻有幾個G甚至更小就沒啥意思了。
  • 檔案分塊存儲,HDFS會将一個完整的大檔案平均分塊存儲到不同電腦上,它的意義在于讀取檔案時可以同時從多個主機取不同區塊的檔案,多主機讀取比單主機讀取效率要高得多得多。
  • 流式資料通路,一次寫入多次讀寫,這種模式跟傳統檔案不同,它不支援動态改變檔案内容,而是要求讓檔案一次寫入就不做變化,要變化也隻能在檔案末添加内容。
  • 廉價硬體,HDFS可以應用在普通PC機上,這種機制能夠讓給一些公司用幾十台廉價的計算機就可以撐起一個大資料叢集。
  • 硬體故障,HDFS認為所有計算機都可能會出問題,為了防止某個主機失效讀取不到該主機的塊檔案,它将同一個檔案塊副本配置設定到其它某幾個主機上,如果其中一台主機失效,可以迅速找另一塊副本取檔案。

HDFS的關鍵元素:

  • Block:将一個檔案進行分塊,通常是64M。
  • NameNode:儲存整個檔案系統的目錄資訊、檔案資訊及分塊資訊,這是由唯一一台主機專門儲存,當然這台主機如果出錯,NameNode就失效了。在Hadoop2.*開始支援activity-standy模式----如果主NameNode失效,啟動備用主機運作NameNode。
  • DataNode:分布在廉價的計算機上,用于存儲Block塊檔案。

MapReduce

通俗說MapReduce是一套從海量·源資料提取分析元素最後傳回結果集的程式設計模型,将檔案分布式存儲到硬碟是第一步,而從海量資料中提取分析我們需要的内容就是MapReduce做的事了。

下面以一個計算海量資料最大值為例:一個銀行有上億儲戶,銀行希望找到存儲金額最高的金額是多少,按照傳統的計算方式,我們會這樣:

Long moneys[] ...  Long max = 0L;  for(int i=0;imax){      max = moneys[i];    }  }  
           

如果計算的數組長度少的話,這樣實作是不會有問題的,還是面對海量資料的時候就會有問題。

MapReduce會這樣做:首先數字是分布存儲在不同塊中的,以某幾個塊為一個Map,計算出Map中最大的值,然後将每個Map中的最大值做Reduce操作,Reduce再取最大值給使用者。

MapReduce的基本原理就是:将大的資料分析分成小塊逐個分析,最後再将提取出來的資料彙總分析,最終獲得我們想要的内容。當然怎麼分塊分析,怎麼做Reduce操作非常複雜,Hadoop已經提供了資料分析的實作,我們隻需要編寫簡單的需求指令即可達成我們想要的資料。

總結

總的來說Hadoop适合應用于大資料存儲和大資料分析的應用,适合于伺服器幾千台到幾萬台的叢集運作,支援PB級的存儲容量。

Hadoop典型應用有:搜尋、日志處理、推薦系統、資料分析、視訊圖像分析、資料儲存等。

HDFS

全稱Hadoop distributed file system,簡稱HDFS,是一個分布式檔案系統。它是谷歌的GFS提出之後出現的另外一種檔案系統。它有一定高度的容錯性,而且提供了高吞吐量的資料通路,非常适合大規模資料集上的應用。HDFS 提供了一個高度容錯性和高吞吐量的海量資料存儲解決方案。

在最初,HADOOP是作為Apache Nutch搜尋引擎項目的基礎架構而開發的,後來由于它獨有的特性,讓它成為HADOOP CORE項目的一部分。

HDFS的設計思路

簡單說一下它的設計思路,大家就可以了解為什麼它可以提供高吞吐量的資料通路和适合大規模資料集的應用的特性。

首先HDFS的設計之初就是針對超大檔案的存儲的,小檔案不會提高通路和存儲速度,反而會降低;其次它采用了最高效的通路模式,也就是經常所說的流式資料通路,特點就是一次寫入多次讀取;再有就是它運作在普通的硬體之上的,即使硬體故障,也就通過容錯來保證資料的高可用。

HDFS核心概念

  • Block:大檔案的存儲會被分割為多個block進行存儲。預設為64MB,每一個blok會在多個datanode上存儲多份副本,預設為3份。這些設定都能夠通過配置檔案進行更改。
  • Namenode:主要負責存儲一些metadata資訊,主要包括檔案目錄、block和檔案對應關系,以及block和datanode的對應關系
  • Datanode:負責存儲資料,上面我們所說的高度的容錯性大部分在datanode上實作的,還有一部分容錯性是展現在namenode和secondname,還有jobtracker的容錯等。

HDFS的基礎架構圖

hadoop 爬蟲_HadoopHadoop曆史Hadoop核心HDFSMapReduce總結HDFSHDFS的設計思路HDFS核心概念HDFS的基礎架構圖HDFS優點:HDFS常見指令

HDFS優點:

  • 高吞吐量通路:HDFS的每個block分布在不同的rack上,在使用者通路時,HDFS會計算使用最近和通路量最小的伺服器給使用者提供。由于block在不同的rack上都有備份,是以不再是單資料通路,是以速度和效率是非常快的。另外HDFS可以并行從伺服器叢集中讀寫,增加了檔案讀寫的通路帶寬。
  • 高容錯性:上面簡單的介紹了一下高度容錯。系統故障是不可避免的,如何做到故障之後的資料恢複和容錯處理是至關重要的。HDFS通過多方面保證資料的可靠性,多分複制并且分布到實體位置的不同伺服器上,資料校驗功能、背景的連續自檢資料一緻性功能,都為高容錯提供了可能。
  • 容量擴充:因為HDFS的block資訊存放到namenode上,檔案的block分布到datanode上,當擴充的時候,僅僅添加datanode數量,系統可以在不停止服務的情況下做擴充,不需要人工幹預。3個不同的位置:
  • 本地電腦
  • 伺服器(Mac:terminal/終端 Windows:Xshell scureCRT)
  • 叢集

HDFS常見指令

HDFS上的資料,分布在不同的地方,我們有一些指令可以用于 增加/檢視/删除 等資料操作。

#顯示/下的所有檔案夾資訊hadoop fs -ls /#遞歸顯示所有檔案夾和子檔案(夾)hadoop fs -lsr#建立/user/hadoop目錄hadoop fs -mkdir /user/hadoop#把a.txt放到叢集/user/hadoop/檔案夾下hadoop fs -put a.txt /user/hadoop/#把叢集上的/user/hadoop/a.txt拉到本地/目錄下hadoop fs -get /user/hadoop/a.txt /#叢集上複制檔案hadoop fs -cp src dst#叢集上移動檔案hadoop fs -mv src dst#檢視叢集上檔案/user/hadoop/a.txt的内容hadoop fs -cat /user/hadoop/a.txt#删除叢集上/user/hadoop/a.txt檔案hadoop fs -rm /user/hadoop/a.txt#删除目錄和目錄下所有檔案hadoop fs -rmr /user/hadoop/a.txt#與hadoop fs -put功能類似hadoop fs -copyFromLocal localsrc dst #将本地檔案上傳到hdfs,同時删除本地檔案hadoop fs -moveFromLocal localsrc dst