天天看点

MapReduce工作流程详解全过程

  1. 先从HDFS文件系统中读取文件

  2. 进行合并

  3. 进行逻辑切分 Split

MapReduce工作流程详解全过程
  1. 对一行数据进行切分RecordRead,以key为行首字母的偏移量value为对应的一行数据 传给maptask

  2. MapTask对数据进行处理后 传给shuffle的分区partition

  3. partition对数据进行分区处理 将数据传给shuffle的sort排序

  4. sort排序后的结果传送给shuffle的combiner(局部聚合) 将结果传给shuffle的group(分组)

MapReduce工作流程详解全过程
  1. 分组后的结果传给Reduce进行计算

  2. reduce计算后的结果最终输出给HDFS文件系统

MapReduce工作流程详解全过程

全过程

MapReduce工作流程详解全过程

继续阅读