本節書摘來異步社群《hadoop mapreduce實戰手冊》一書中的第1章,第1.9節,作者: 【美】srinath perera , thilina gunarathne 譯者: 楊卓荦 責編: 楊海玲,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。
hadoop mapreduce實戰手冊
本節将描述如何在分布式叢集中運作作業。
準備工作
啟動hadoop叢集。
操作步驟
現在讓我們在分布式的hadoop環境中運作wordcount示例程式。
把你的hadoop發行版目錄的readme.txt檔案複制到hdfs檔案系統的/data/input1位置,作為我們前一節中編寫的wordcountmapreduce示例的輸入資料。
現在,讓我們在hadoop_home目錄下運作wordcount示例。
運作下面的指令可列出輸出目錄的内容,并檢視運作結果。
工作原理
分布式環境的hadoop作業送出方式與本地安裝的hadoop作業送出方式相似,如1.3節所描述的那樣。然而,有兩點主要的不同。
首先,hadoop将作業的輸入資料和作業産生的輸出資料都存儲在hdfs檔案系統中。是以,我們使用第1步将輸入檔案存儲在hdfs檔案系統中,使用第3步從hdfs檔案系統中讀取輸出檔案。
其次,送出作業時,本地hadoop安裝模式将作業放在本地jvm上執行。然而,分布式叢集将作業送出給jobtracker,并且使用分布式hadoop叢集中的節點執行該作業。
更多參考
可以通過hdfs監控ui檢視wordcount應用程式的結果,如1.6節所描述的那樣。同樣,也可以像1.10節介紹的那樣檢視關于wordcount作業的統計資訊。