本文主要是介绍Map Reduce shuffle 及Hadoop工作简记 --- 写给初学Hadoop和MapReduce的人,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
MapReduce学习笔记
1、Map
输入:<key,value> key是文本的每一行的偏移量,0开始,以字节为单位
输出:<key,value>
map函数(必须是这个名字)的参数,(输入key,输入value,Context)
代码框架:
//前两个参数 输入类型后两个参数输出类型
publicstaticclassMapClass
extendsMapper<Object, Text, Text, IntWritable>{
publicvoidmap(Object key, Text value, Context context)throwsIOException,InterruptedException{
context.write(desirekey,desirevalue);//Map的输出<key,value>
}
}
2、Combine
根据情况,可以没有
3、Reduce
Hadoop负责将Map产生的<key,value>处理成{具有相同key的value集合},传给Reducer
输入:<key,(listof values)>
输出:<key,value>
reduce函数(必须是这个名字)的参数,(输入key,输入具有相同key的value集合,Context)其中,输入的key,value必须类型与map的输出<key,value>相同,这一点适用于map,reduce类及函数
代码框架:
//前两个参数 输入类型后两个参数输出类型
publicstaticclassReduceClass
extendsReducer<Text,IntWritable,Text,Writable>{
publicvoidreduce(Text key, Iterable<valueType>values, Context context)throwsIOException, InterruptedException{
context.write(desirekey,desirevalue);
//Reduce的输出<key,value>
}
}
4、Context
context.write()基本就是输出的意思,在map就是map输出,在reduce就是reduce的输出。
context.write()是会直接在每次输出的时候换行的,如果需要在中间加上格式性的比如空格,自己在输入参数里处理newText(str1+””);等等
5、main函数的配置
a.定义Configurationconf = newConfiguration();
b.String[]otherArgs = newGenericOptionsParser(conf,args).getRemainingArgs();
otherArgs[]数组里存的分别是输入路径和输出路径,并判断是不是存在路径
c.run
Job job = newJob(conf, String类型的名字);
job.setJarByClass()
job.setMapperClass
job.setCombinerClass //根据情况,可以没有
job.setReducerClass
job.setPartitionerClass //根据情况,可以没有
d.设置输出输入路径并正常退出
FileInputFormat.addInputPath
FileOutputFormat.setOutputPath
System.exit(job.waitForCompletion(true)? 0 : 1);
6、Shuffle
Map端的shuffle:map的输出内存缓冲区是环形结构(见下一行代码)
finalint kvnext = (kvindex + 1) % kvoffsets.length;
当内存缓冲区满了,就把缓冲区内容分割(spill)到磁盘,此时,若map生成结果的速度快于写出速度,缓冲区会满,那么map需要等待至分割结束。写出时调用sortAndSpill并创建spill文件,按照key值进行排序,(若有combine先进性combine),然后依照划分顺序将结果写入Spill文件。
每个Map结束之后,在Map的TaskTracker还会将众多的spill文件中的数据按照划分(Partitioner)重新划分,以便于Reduce处理。
Reduce端的shuffle:JobTracker能够记录map输出与TaskTracker的映射关系。reduce定期向JobTracker获取map输出并复制到本地而不会等待全部的map结束。reduce在复制的同时把从各个mapTaskTracker复制的输出文件整合,维持数据原来次序
这篇关于Map Reduce shuffle 及Hadoop工作简记 --- 写给初学Hadoop和MapReduce的人的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!