-
先從HDFS檔案系統中讀取檔案
-
進行合并
-
進行邏輯切分 Split
-
對一行資料進行切分RecordRead,以key為行首字母的偏移量value為對應的一行資料 傳給maptask
-
MapTask對資料進行處理後 傳給shuffle的分區partition
-
partition對資料進行分區處理 将資料傳給shuffle的sort排序
-
sort排序後的結果傳送給shuffle的combiner(局部聚合) 将結果傳給shuffle的group(分組)
-
分組後的結果傳給Reduce進行計算
-
reduce計算後的結果最終輸出給HDFS檔案系統