MapReduce 的shuffle过程

2024-06-04 23:18
文章标签 过程 mapreduce shuffle

本文主要是介绍MapReduce 的shuffle过程,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Map过程处理完生成一堆键值对,并写入缓存,
最终缓存数据会写入磁盘,但是写入磁盘之前会经历一些操作才会写入磁盘。
经历分区,排序,可能会合并,这个过程结束,且缓存满了(并不是满了才写,而是到一定比例,默认是0.8,因为需要留缓存让map任务得以继续),再写入磁盘(非hdfs)
然后清空缓存,上述步骤会发生多次,每个磁盘文件,最后统一归并,最后归并成一个大的文件。这个大文件是分区的,对应的reduce任务处理对应的分区文件。

shuffle过程其实是下面四个步骤的第3步:
1、输入数据执行map任务
2、写入缓存
3、溢写(分区,排序,合并) 这一步是shuffle过程。
对于写入缓存的一堆键值对,先进行分区,这个分区就是为之后reduce从分区中取文件之间联系,这个分区一般对key进行hash函数,这样保证相同的key的值分在一个区。
对于每一个分区的数据,进行排序(系统默认根据字典序排序,无需用户干预)。
拍完序再进行合并,合并为了减少溢写到磁盘上的数据量,假如有两个键值对<a,1> ,<a,1>
合并的操作就是将其变为<a,2>的操作。两个键值对合并为一个键值对,这种才叫合并。
这种方式就可以减少很多的键值对,写入磁盘数据量大大减少。合并操作不是必须的,用户定义了,才执行合并操作。
然后就写入磁盘文件了。
重复1,2,3步骤,就会产生多个溢写文件了。
4、文件归并
最终在整个map任务执行完之前,系统会对这么多小的文件进行归并操作,合并为一个大的文件。这个大的文件里面的键值对,同样是分区的,且是排序的。

当jobtracker检测到上述步骤完全结束,会通知reduce去把属于该reduce的文件拉走。
上述就是map端的shuffle过程。

reduce从多个map任务中拉去文件,这些文件到reduce服务器上会先归并再合并。
再重说刚刚 如果map没有进行合并操作的话,那生成的就是<a,{1,1}>,经过了合并操作才是生成<a,2>
所以再总结一下:
在map过程的时候,如果:
执行了合并操作 生成<key,value>形式
没有执行合并操作 生成<key,value-list>形式

reduce的归并是指将<a,1> <a,1> 生成一个<a,{1,1}>的形式
为什么reduce还要生成<key,value-list>呢?因为reduce处理的文件是来自于多个map服务器上的,例如:
A map服务器文件:<a,4>
B map服务器问件:<a,5>
那reduce拿到这些文件要先,归并生成:<a,{4,5}>
然后再合并生成<a,9>

讲课的人说:
如果map输出的结果没有经过合并的话,输出的是:<key,value-list>
那按照这个理解,其实在溢写前,至少执行了 分区,排序,归并,可能发生合并。
因为map如果不执行合并,也有value-list的生成的话,说明肯定发生了归并操作了。
那我觉得讲课的人说的合并操作大大减少了磁盘写入量,其实是减少了,但没有大大减少吧。
最后,reduce端shuffle过程是在reduce函数执行之前。

这篇关于MapReduce 的shuffle过程的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1031401

相关文章

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

作业提交过程之HDFSMapReduce

作业提交全过程详解 (1)作业提交 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 第2步:Client向RM申请一个作业id。 第3步:RM给Client返回该job资源的提交路径和作业id。 第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。 第5步:Client提交完资源后,向RM申请运行MrAp

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

Solr 使用Facet分组过程中与分词的矛盾解决办法

对于一般查询而言  ,  分词和存储都是必要的  .  比如  CPU  类型  ”Intel  酷睿  2  双核  P7570”,  拆分成  ”Intel”,”  酷睿  ”,”P7570”  这样一些关键字并分别索引  ,  可能提供更好的搜索体验  .  但是如果将  CPU  作为 Facet  字段  ,  最好不进行分词  .  这样就造成了矛盾  ,  解决方法

Python:豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】

**爬取豆瓣电影信息,分析近年电影行业的发展情况** 本文是完整的数据分析展现,代码有完整版,包含豆瓣电影爬取的具体方式【附带爬虫豆瓣,数据处理过程,数据分析,可视化,以及完整PPT报告】   最近MBA在学习《商业数据分析》,大实训作业给了数据要进行数据分析,所以先拿豆瓣电影练练手,网络上爬取豆瓣电影TOP250较多,但对于豆瓣电影全数据的爬取教程很少,所以我自己做一版。 目

ORACLE语法-包(package)、存储过程(procedure)、游标(cursor)以及java对Result结果集的处理

陈科肇 示例: 包规范 CREATE OR REPLACE PACKAGE PACK_WMS_YX IS-- Author : CKZ-- Created : 2015/8/28 9:52:29-- Purpose : 同步数据-- Public type declarations,游标 退休订单TYPE retCursor IS REF CURSOR;-- RETURN vi_co_co

OpenStack创建虚拟机过程

OpenStack创建虚拟机过程 一、在分析OpenStack创建虚拟机的过程之前,先来梳理一下需要用用到哪些组件。 二、每一步都需要去keystone去进行验证,下图有详细的流程。 登录界面或命令行通过RESTful API向keystone获取认证信息。keystone通过用户请求认证信息,并生成auth-token返回给对应的认证请求。界面或命令行通过RESTful API

Maven生命周期:深入理解构建过程

目录 1. Maven生命周期简介 2. 默认生命周期的阶段 3. 清理生命周期 4. 站点生命周期 5. Maven生命周期的灵活性 6. 结论         在Java开发中,Maven是一个不可或缺的工具,它通过自动化项目的构建、依赖管理和文档生成等任务,极大地提高了开发效率。Maven的核心之一是其构建生命周期,它定义了项目构建过程中的一系列阶段。在这篇文章中,我们将深

JVM工作过程

将JVM工作过程粗略分为5个阶段,包括加载阶段、链接阶段、初始化阶段、执行阶段、回收阶段 其中, (1)加载阶段、链接阶段的解析部分主要由类加载器完成 (2)初始化阶段是由JVM的类加载机制在类加载过程的最后阶段自动触发的。 (3)执行阶段主要由执行引擎负责 (4)回收阶段主要是垃圾收集器(Garbage Collector)负责。 所以,在Java虚拟机(JVM)中,读取字节码文件、解析字节码

【QNX+Android虚拟化方案】120 - Android 侧 USB2.0 插拔过程

【QNX+Android虚拟化方案】120 - Android 侧 USB2.0 插拔过程 基于原生纯净代码,自学总结 纯技术分享,不会也不敢涉项目、不泄密、不传播代码文档!!! 本文禁止转载分享 !!! 汇总链接:《【QNX+Android虚拟化方案】00 - 系列文章链接汇总》 本文链接:《【QNX+Android虚拟化方案】120 - Android 侧 USB2.0