大数据【五十四】【转】Hadoop系列之InputFormat,OutputFormat用法

本文主要是介绍大数据【五十四】【转】Hadoop系列之InputFormat,OutputFormat用法，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/u011734144/article/details/60773786

---------------------------------------------------------------------------------------------------------------------

一。首先看下InputFormat接口的代码


public interface InputFormat<K, V> {InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;RecordReader<K, V> createRecordReader(InputSplit split, TaskAttemptContext context)  throws IOException;

显然，该接口主要负责实现两个功能：
1. InputSplit负责数据切割，即对输入的数据按照一定的方式切割，它定义了分割的长度和位置，分割出来的每个片段的长度决定了每个mapper任务的大小，而分割的位置决定了将由哪个服务器来执行这个任务，InputSplit按照长度切分出来的每个片段会分别交给一个mapper任务处理，而切分出来的位置决定了哪个机器来执行该mapper任务

2. RecordReader负责读取记录，即从各自要处理的数据片段中逐行读取数据，并以键值对的形式提交给mapper任务

所以框架为每个InputSplit的结果产生一个Map任务

二。OutputFormat接口代码如下

public interface OutputFormat<K, V> {RecordWriter<K, V> getRecordWriter(FileSystem var1, JobConf var2, String var3, Progressable var4) throws IOException;void checkOutputSpecs(FileSystem var1, JobConf var2) throws IOException;
}

OutputFormat 描述Map/Reduce作业的输出样式。

Map/Reduce框架根据作业的OutputFormat来：