-
先从HDFS文件系统中读取文件
-
进行合并
-
进行逻辑切分 Split
-
对一行数据进行切分RecordRead,以key为行首字母的偏移量value为对应的一行数据 传给maptask
-
MapTask对数据进行处理后 传给shuffle的分区partition
-
partition对数据进行分区处理 将数据传给shuffle的sort排序
-
sort排序后的结果传送给shuffle的combiner(局部聚合) 将结果传给shuffle的group(分组)
-
分组后的结果传给Reduce进行计算
-
reduce计算后的结果最终输出给HDFS文件系统