Map Reduce shuffle 及Hadoop工作简记 --- 写给初学Hadoop和MapReduce的人

本文主要是介绍Map Reduce shuffle 及Hadoop工作简记 --- 写给初学Hadoop和MapReduce的人，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

MapReduce学习笔记

1、Map

输入：<key,value> key是文本的每一行的偏移量，0开始，以字节为单位

输出：<key,value>

map函数（必须是这个名字）的参数，（输入key,输入value，Context）

代码框架：

//前两个参数输入类型后两个参数输出类型

publicstaticclassMapClass

extendsMapper<Object, Text, Text, IntWritable>{

publicvoidmap(Object key, Text value, Context context)throwsIOException,InterruptedException{

context.write(desirekey,desirevalue);//Map的输出<key,value>

}

2、Combine

根据情况，可以没有

3、Reduce

Hadoop负责将Map产生的<key,value>处理成{具有相同key的value集合}，传给Reducer

输入：<key,(listof values)>

输出：<key,value>

reduce函数（必须是这个名字）的参数，（输入key,输入具有相同key的value集合，Context）其中，输入的key,value必须类型与map的输出<key,value>相同，这一点适用于map，reduce类及函数

代码框架：

//前两个参数输入类型后两个参数输出类型

publicstaticclassReduceClass

extendsReducer<Text,IntWritable,Text,Writable>{

publicvoidreduce(Text key, Iterable<valueType>values, Context context)throwsIOException, InterruptedException{

context.write(desirekey,desirevalue);

//Reduce的输出<key,value>

}

4、Context

context.write()基本就是输出的意思，在map就是map输出，在reduce就是reduce的输出。

context.write()是会直接在每次输出的时候换行的，如果需要在中间加上格式性的比如空格，自己在输入参数里处理newText(str1+””);等等

5、main函数的配置

a.定义Configurationconf = newConfiguration();

b.String[]otherArgs = newGenericOptionsParser(conf,args).getRemainingArgs();

otherArgs[]数组里存的分别是输入路径和输出路径，并判断是不是存在路径

c.run

Job job = newJob(conf, String类型的名字);

job.setJarByClass（）

job.setMapperClass

job.setCombinerClass //根据情况，可以没有

job.setReducerClass

job.setPartitionerClass //根据情况，可以没有

d.设置输出输入路径并正常退出

FileInputFormat.addInputPath

FileOutputFormat.setOutputPath

System.exit(job.waitForCompletion(true)? 0 : 1);

6、Shuffle

Map端的shuffle:map的输出内存缓冲区是环形结构（见下一行代码）

finalint kvnext = (kvindex + 1) % kvoffsets.length;

当内存缓冲区满了，就把缓冲区内容分割(spill)到磁盘，此时，若map生成结果的速度快于写出速度，缓冲区会满，那么map需要等待至分割结束。写出时调用sortAndSpill并创建spill文件，按照key值进行排序，（若有combine先进性combine），然后依照划分顺序将结果写入Spill文件。