天天看點

MapReduce工作流程詳解全過程

  1. 先從HDFS檔案系統中讀取檔案

  2. 進行合并

  3. 進行邏輯切分 Split

MapReduce工作流程詳解全過程
  1. 對一行資料進行切分RecordRead,以key為行首字母的偏移量value為對應的一行資料 傳給maptask

  2. MapTask對資料進行處理後 傳給shuffle的分區partition

  3. partition對資料進行分區處理 将資料傳給shuffle的sort排序

  4. sort排序後的結果傳送給shuffle的combiner(局部聚合) 将結果傳給shuffle的group(分組)

MapReduce工作流程詳解全過程
  1. 分組後的結果傳給Reduce進行計算

  2. reduce計算後的結果最終輸出給HDFS檔案系統

MapReduce工作流程詳解全過程

全過程

MapReduce工作流程詳解全過程

繼續閱讀