[Hadoop]MapReduce多輸出

FileOutputFormat及其子類産生的檔案放在輸出目錄下。每個reducer一個檔案并且檔案由分區号命名：part-r-00000，part-r-00001，等等。有時可能要對輸出的檔案名進行控制或讓每個reducer輸出多個檔案。MapReduce為此提供了MultipleOutputFormat類。

MultipleOutputFormat類可以将資料寫到多個檔案，這些檔案的名稱源于輸出的鍵和值或者任意字元串。這允許每個reducer（或者隻有map作業的mapper）建立多個檔案。采用name-r-nnnnn形式的檔案名用于map輸出，name-r-nnnnn形式的檔案名用于reduce輸出，其中name是由程式設定的任意名字，nnnnn是一個指名塊号的整數（從0開始）。塊号保證從不同塊（mapper或者reducer）寫的輸出在相同名字情況下不會沖突。

1. 重定義輸出檔案名

我們可以對輸出的檔案名進行控制。考慮這樣一個需求：按男女性别來區分度假訂單資料。這需要運作一個作業，作業的輸出是男女各一個檔案，此檔案包含男女性别的所有資料記錄。

這個需求可以使用MultipleOutputs來實作：

package com.sjf.open.test;
import java.io.IOException;
import org.apache.commons.lang3.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.GzipCodec;
import org.apache.hadoop.mapred.JobPriority;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import com.sjf.open.utils.ConfigUtil;
/**
* Created by xiaosi on 16-11-7.
*/
public class VacationOrderBySex extends Configured implements Tool {
public static void main(String[] args) throws Exception {
int status = ToolRunner.run(new VacationOrderBySex(), args);
System.exit(status);
}
public static class VacationOrderBySexMapper extends Mapper<LongWritable, Text, Text, Text> {
public String fInputPath = "";
@Override
protected void setup(Context context) throws IOException, InterruptedException {
super.setup(context);
fInputPath = ((FileSplit) context.getInputSplit()).getPath().toString();
}
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String line = value.toString();
if(fInputPath.contains("vacation_hot_country_order")){
String[] params = line.split("\t");
String sex = params[2];
if(StringUtils.isBlank(sex)){
return;
}
context.write(new Text(sex.toLowerCase()), value);
}
}
}
public static class VacationOrderBySexReducer extends Reducer<Text, Text, NullWritable, Text> {
private MultipleOutputs<NullWritable, Text> multipleOutputs;
@Override
protected void setup(Context context) throws IOException, InterruptedException {
multipleOutputs = new MultipleOutputs<NullWritable, Text>(context);
}
@Override
protected void reduce(Text key, Iterable<Text> values, Context context)
throws IOException, InterruptedException {
for (Text value : values) {
multipleOutputs.write(NullWritable.get(), value, key.toString());
}
}
@Override
protected void cleanup(Context context) throws IOException, InterruptedException {
multipleOutputs.close();
}
}
@Override
public int run(String[] args) throws Exception {
if (args.length != 2) {
System.err.println("./run <input> <output>");
System.exit(1);
}
String inputPath = args[0];
String outputPath = args[1];
int numReduceTasks = 16;
Configuration conf = this.getConf();
conf.setBoolean("mapred.output.compress", true);
conf.setClass("mapred.output.compression.codec", GzipCodec.class, CompressionCodec.class);
Job job = Job.getInstance(conf);
job.setJobName("vacation_order_by_jifeng.si");
job.setJarByClass(VacationOrderBySex.class);
job.setMapperClass(VacationOrderBySexMapper.class);
job.setReducerClass(VacationOrderBySexReducer.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
job.setOutputKeyClass(NullWritable.class);
job.setOutputValueClass(Text.class);
FileInputFormat.setInputPaths(job, inputPath);
FileOutputFormat.setOutputPath(job, new Path(outputPath));
job.setNumReduceTasks(numReduceTasks);
boolean success = job.waitForCompletion(true);
return success ? 0 : 1;
}
}

在生成輸出的reduce中，在setup()方法中構造一個MultipleOutputs的執行個體并将它賦予一個執行個體變量。在reduce()方法中使用MultipleOutputs執行個體來寫輸出，而不是context。write()方法作用于鍵，值和名字。這裡使用的是性别作為名字，是以最後産生的輸出名稱的形式為sex-r-nnnnn：

-rw-r--r-- 3 wirelessdev wirelessdev 0 2016-12-06 10:41 tmp/data_group/order/vacation_hot_country_order_by_sex/_SUCCESS
-rw-r--r-- 3 wirelessdev wirelessdev 88574 2016-12-06 10:41 tmp/data_group/order/vacation_hot_country_order_by_sex/f-r-00005.gz
-rw-r--r-- 3 wirelessdev wirelessdev 60965 2016-12-06 10:41 tmp/data_group/order/vacation_hot_country_order_by_sex/m-r-00012.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 10:41 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00000.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 10:41 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00001.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 10:41 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00002.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 10:41 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00003.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 10:41 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00004.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 10:41 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00005.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 10:41 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00006.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 10:41 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00007.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 10:41 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00008.gz

我們可以看到在輸出檔案中不僅有我們想要的輸出檔案類型，還有part-r-nnnnn形式的檔案，但是檔案内沒有資訊，這是程式預設的輸出檔案。是以我們在指定輸出檔案名稱時（name-r-nnnnn），不要指定name為part，因為它已經被使用為預設值了。

2. 多目錄輸出

在MultipleOutputs的write()方法中指定的基本路徑相對于輸出路徑進行解釋，因為它可以包含檔案路徑分隔符（/），建立任意深度的子目錄。例如，我們改動上面的需求：按男女性别來區分度假訂單資料，不同性别資料位于不同子目錄（例如：sex=f/part-r-00000）。

public static class VacationOrderBySexReducer extends Reducer<Text, Text, NullWritable, Text> {
private MultipleOutputs<NullWritable, Text> multipleOutputs;
@Override
protected void setup(Context context) throws IOException, InterruptedException {
multipleOutputs = new MultipleOutputs<NullWritable, Text>(context);
}
@Override
protected void reduce(Text key, Iterable<Text> values, Context context)
throws IOException, InterruptedException {
for (Text value : values) {
String basePath = String.format("sex=%s/part", key.toString());
multipleOutputs.write(NullWritable.get(), value, basePath);
}
}
@Override
protected void cleanup(Context context) throws IOException, InterruptedException {
multipleOutputs.close();
}
}

後産生的輸出名稱的形式為sex=f/part-r-nnnnn或者sex=m/part-r-nnnnn：

-rw-r--r-- 3 wirelessdev wirelessdev 0 2016-12-06 12:26 tmp/data_group/order/vacation_hot_country_order_by_sex/_SUCCESS
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 12:26 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00000.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 12:26 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00001.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 12:26 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00002.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 12:26 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00003.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 12:26 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00004.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 12:26 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00005.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 12:26 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00006.gz
-rw-r--r-- 3 wirelessdev wirelessdev 20 2016-12-06 12:26 tmp/data_group/order/vacation_hot_country_order_by_sex/part-r-00007.gz
drwxr-xr-x - wirelessdev wirelessdev 0 2016-12-06 12:26 tmp/data_group/order/vacation_hot_country_order_by_sex/sex=f
drwxr-xr-x - wirelessdev wirelessdev 0 2016-12-06 12:26 tmp/data_group/order/vacation_hot_country_order_by_sex/sex=m

3. 延遲輸出

FileOutputFormat的子類會産生輸出檔案(part-r-nnnnn)，即使檔案是空的，也會産生。我們有時候不想要這些空的檔案，我們可以使用LazyOutputFormat進行處理。它是一個封裝輸出格式，可以指定分區第一條記錄輸出時才真正建立檔案。要使用它，用JobConf和相關輸出格式作為參數來調用setOutputFormatClass()方法即可：

Configuration conf = this.getConf();
Job job = Job.getInstance(conf);
LazyOutputFormat.setOutputFormatClass(job, TextOutputFormat.class);

再次檢查一下我們的輸出檔案（第一個例子）：

sudo -uwirelessdev hadoop fs -ls tmp/data_group/order/vacation_hot_country_order_by_sex/
Found 3 items
-rw-r--r-- 3 wirelessdev wirelessdev 0 2016-12-06 13:36 tmp/data_group/order/vacation_hot_country_order_by_sex/_SUCCESS
-rw-r--r-- 3 wirelessdev wirelessdev 88574 2016-12-06 13:36 tmp/data_group/order/vacation_hot_country_order_by_sex/f-r-00005.gz
-rw-r--r-- 3 wirelessdev wirelessdev 60965 2016-12-06 13:36 tmp/data_group/order/vacation_hot_country_order_by_sex/m-r-00012.gz

[Hadoop]MapReduce多輸出

1. 重定義輸出檔案名

2. 多目錄輸出

3. 延遲輸出

繼續閱讀

大資料技術原理與應用（最後三天備考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

Windows下Cygwin環境的Hadoop安裝（3）- 運作hadoop中的wordcount執行個體遇到的問題和解決方法

MapReduce運作Wordcount時一直卡在INFO mapreduce.Job: Running job，web檢視一直處于accepted階段

ubuntu hadoop2.6.1，terminal下運作wordcount

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

[Hadoop]MapReduce多輸出

1. 重定義輸出檔案名

2. 多目錄輸出

﻿3. 延遲輸出

繼續閱讀

3. 延遲輸出