《Hadoop MapReduce實戰手冊》一1.9 在分布式叢集環境中運作WordCount程式

2021-11-08 09:06:22

本節書摘來異步社群《hadoop mapreduce實戰手冊》一書中的第1章，第1.9節，作者：【美】srinath perera , thilina gunarathne 譯者：楊卓荦責編：楊海玲，更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

hadoop mapreduce實戰手冊

本節将描述如何在分布式叢集中運作作業。

準備工作

啟動hadoop叢集。

操作步驟

現在讓我們在分布式的hadoop環境中運作wordcount示例程式。

把你的hadoop發行版目錄的readme.txt檔案複制到hdfs檔案系統的/data/input1位置，作為我們前一節中編寫的wordcountmapreduce示例的輸入資料。

現在，讓我們在hadoop_home目錄下運作wordcount示例。

運作下面的指令可列出輸出目錄的内容，并檢視運作結果。

工作原理

分布式環境的hadoop作業送出方式與本地安裝的hadoop作業送出方式相似，如1.3節所描述的那樣。然而，有兩點主要的不同。

首先，hadoop将作業的輸入資料和作業産生的輸出資料都存儲在hdfs檔案系統中。是以，我們使用第1步将輸入檔案存儲在hdfs檔案系統中，使用第3步從hdfs檔案系統中讀取輸出檔案。

其次，送出作業時，本地hadoop安裝模式将作業放在本地jvm上執行。然而，分布式叢集将作業送出給jobtracker，并且使用分布式hadoop叢集中的節點執行該作業。

更多參考

可以通過hdfs監控ui檢視wordcount應用程式的結果，如1.6節所描述的那樣。同樣，也可以像1.10節介紹的那樣檢視關于wordcount作業的統計資訊。

繼續閱讀