Map Reduce shuffle 及Hadoop工作简记 --- 写给初学Hadoop和MapReduce的人

2024-05-28 04:32

本文主要是介绍Map Reduce shuffle 及Hadoop工作简记 --- 写给初学Hadoop和MapReduce的人,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

MapReduce学习笔记

1Map

输入:<key,value> key是文本的每一行的偏移量,0开始,以字节为单位

输出:<key,value>

map函数(必须是这个名字)的参数,(输入key,输入valueContext


代码框架:

//前两个参数 输入类型后两个参数输出类型

publicstaticclassMapClass

extendsMapper<Object, Text, Text, IntWritable>{

publicvoidmap(Object key, Text value, Context context)throwsIOException,InterruptedException{

context.write(desirekey,desirevalue);//Map的输出<key,value>

}

}


2Combine

根据情况,可以没有

3Reduce

Hadoop负责将Map产生的<key,value>处理成{具有相同keyvalue集合},传给Reducer

输入:<key,(listof values)>

输出:<key,value>

reduce函数(必须是这个名字)的参数,(输入key,输入具有相同keyvalue集合,Context)其中,输入的key,value必须类型与map的输出<key,value>相同,这一点适用于mapreduce类及函数


代码框架:

//前两个参数 输入类型后两个参数输出类型

publicstaticclassReduceClass

extendsReducer<Text,IntWritable,Text,Writable>{

publicvoidreduce(Text key, Iterable<valueType>values, Context context)throwsIOException, InterruptedException{

context.write(desirekey,desirevalue);

//Reduce的输出<key,value>

}

}


4Context

context.write()基本就是输出的意思,在map就是map输出,在reduce就是reduce的输出。

context.write()是会直接在每次输出的时候换行的,如果需要在中间加上格式性的比如空格,自己在输入参数里处理newText(str1+””);等等


5main函数的配置

a.定义Configurationconf = newConfiguration();

b.String[]otherArgs = newGenericOptionsParser(conf,args).getRemainingArgs();

otherArgs[]数组里存的分别是输入路径和输出路径,并判断是不是存在路径

c.run

Job job = newJob(conf, String类型的名字);

job.setJarByClass()

job.setMapperClass

job.setCombinerClass //根据情况,可以没有

job.setReducerClass

job.setPartitionerClass //根据情况,可以没有


d.设置输出输入路径并正常退出

FileInputFormat.addInputPath

FileOutputFormat.setOutputPath


System.exit(job.waitForCompletion(true)? 0 : 1);

6Shuffle

Map端的shuffle:map的输出内存缓冲区是环形结构(见下一行代码)

finalint kvnext = (kvindex + 1) % kvoffsets.length;

当内存缓冲区满了,就把缓冲区内容分割(spill)到磁盘,此时,若map生成结果的速度快于写出速度,缓冲区会满,那么map需要等待至分割结束。写出时调用sortAndSpill并创建spill文件,按照key值进行排序,(若有combine先进性combine),然后依照划分顺序将结果写入Spill文件。

每个Map结束之后,在MapTaskTracker还会将众多的spill文件中的数据按照划分(Partitioner)重新划分,以便于Reduce处理。

Reduce端的shuffle:JobTracker能够记录map输出与TaskTracker的映射关系。reduce定期向JobTracker获取map输出并复制到本地而不会等待全部的map结束。reduce在复制的同时把从各个mapTaskTracker复制的输出文件整合,维持数据原来次序

这篇关于Map Reduce shuffle 及Hadoop工作简记 --- 写给初学Hadoop和MapReduce的人的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1009543

相关文章

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

Go语言利用泛型封装常见的Map操作

《Go语言利用泛型封装常见的Map操作》Go语言在1.18版本中引入了泛型,这是Go语言发展的一个重要里程碑,它极大地增强了语言的表达能力和灵活性,本文将通过泛型实现封装常见的Map操作,感... 目录什么是泛型泛型解决了什么问题Go泛型基于泛型的常见Map操作代码合集总结什么是泛型泛型是一种编程范式,允

JSON字符串转成java的Map对象详细步骤

《JSON字符串转成java的Map对象详细步骤》:本文主要介绍如何将JSON字符串转换为Java对象的步骤,包括定义Element类、使用Jackson库解析JSON和添加依赖,文中通过代码介绍... 目录步骤 1: 定义 Element 类步骤 2: 使用 Jackson 库解析 jsON步骤 3: 添

Java中List转Map的几种具体实现方式和特点

《Java中List转Map的几种具体实现方式和特点》:本文主要介绍几种常用的List转Map的方式,包括使用for循环遍历、Java8StreamAPI、ApacheCommonsCollect... 目录前言1、使用for循环遍历:2、Java8 Stream API:3、Apache Commons

SSID究竟是什么? WiFi网络名称及工作方式解析

《SSID究竟是什么?WiFi网络名称及工作方式解析》SID可以看作是无线网络的名称,类似于有线网络中的网络名称或者路由器的名称,在无线网络中,设备通过SSID来识别和连接到特定的无线网络... 当提到 Wi-Fi 网络时,就避不开「SSID」这个术语。简单来说,SSID 就是 Wi-Fi 网络的名称。比如

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

工作常用指令与快捷键

Git提交代码 git fetch  git add .  git commit -m “desc”  git pull  git push Git查看当前分支 git symbolic-ref --short -q HEAD Git创建新的分支并切换 git checkout -b XXXXXXXXXXXXXX git push origin XXXXXXXXXXXXXX