十张图带你入门Map/Reduce

2023-12-11 11:32
文章标签 入门 map 图带 reduce 十张

本文主要是介绍十张图带你入门Map/Reduce,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


发表于 2013-01-07 14:166647次阅读| 来源 个人博客10 条评论| 作者 Aurelien
Hadoop MapReduce
摘要:博主Aurelien,从13岁开始编程。曾在荷兰、比利时、法国、硅谷等多个国家从事网站开发,现效力于Terracotta公司。本篇文章来自Aurelien博客,用一个很简单的用例为初学者介绍了Map/Reduce的使用方法;希望为广大初学者带来帮助。

你可能已经知道:Map/Reduce是一种模式,非常适合令人烦恼的并行算法。但是什么是令人烦恼的并行算法?答案:这个算法非常适合被多重并行的执行。那么什么样的模式才会非常适合并行算法?答案:任何作用在数据上的算法都会被隔离。

如果你编写的程序经常会在同一个时刻执行多重事件,并且它们需要访问一些公用数据;那么将会出现冲突,你必须着手处理当一个事件修改某个数据时,而另一个事件正在读取这段数据。这就是并发操作。如果你事件作用的数据段没有被其它事件操作,那么做的将是并行操作。显而易见:你可以使用扩展来解决并发性问题。

举个例子:如果你有一张记录了城市的表格,而每个城市都有两个属性 —— 所属州和城市年度平均温度。比如:San Francisco:{CA,58}。现在你想计算每年的平均温度 —— BY STATE。因为可以通过state对city进行分组查询,然后计算一个州的平均温度而不涉及到其他的州 —— 这里就将会出现高度并行算法问题。

如果你想逐步做这件事,你将从一个空的平均温度表开始。然后迭代访问表中的城市,查询每个城市中的state属性,接着做出相关的年度平均温度修改。

接下来看第一幅图:

这是一张印度地图。有许多州:MP、CG、OR等等。同样有数个城市,每一个城市都有{State,City average temperture}作为值。

这里我们将做每个周的平均温度。我们将通过state来分组查询城市的平均温度,然后计算出每个组的平均值。

当然我们并不是很在意每个城市的名称,所以将抛弃它只保留州名和城市温度。

既然已经获得了我们想要的数据,那么可以通过state进行重分组。我们将得到一张关于所有州内所有平均温度的表。

这里我们得到了非常好的数据模型用于逻辑计算,而仅需要做的就是计算每个州的平均温度。

当然,这并不困难。

我们有一些数据。做一点点的重分组,然后做计算。当然所有的这些都可以并行的执行(每个state一个并行任务)。

下面我们使用Map/Reduce重做这个问题!

Map/Reduce有3个步骤:Map/Shuffle/Reduce

Shuffle部分由Hadoop自行完成,这里只需要关注Map和Reduce的实现部分。

在Map部分你需要输入<Key,Value>数据。

在这里Key就是城市的名称,而Value是属性集:所属州以及城市均温。

同样通过state将temperature重分组、排除下城市名称,那么在state变为Key时temperature将成为Value。

现在Shuffle的任务是实现Map的完成。它将会通过Key进行分组,然后你就会获得一个List<Value>。

这也将作为Reduce任务的输入数据 —— 从Shuffle任务中获得的Key、List<Value>。

Reduce任务还是数据逻辑的完成者,在这里当然就是计算州的年平均温度。

我们也将获得如下的最终结果

这样就完成了Map/Reduce对数据进行重塑:

Mapper<K1,V1> ==》 <K2,V2>

Reducer<K2,List<V2> >==》<K3,V3>

简单的Map/Reduce入门希望能帮助弄清Map/Reduce任务的实现过程,下面附带用例代码:用例代码部分(Java) 

原文链接:Confused About Map/Reduce?(编译/仲浩 王旭东/审校)

欢迎关注@CSDN云计算微博,了解更多云信息。

本文为CSDN编译整理,未经允许不得转载。如需转载请联系mark

这篇关于十张图带你入门Map/Reduce的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/480535

相关文章

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

SpringBoot如何通过Map实现策略模式

《SpringBoot如何通过Map实现策略模式》策略模式是一种行为设计模式,它允许在运行时选择算法的行为,在Spring框架中,我们可以利用@Resource注解和Map集合来优雅地实现策略模式,这... 目录前言底层机制解析Spring的集合类型自动装配@Resource注解的行为实现原理使用直接使用M

C++ 各种map特点对比分析

《C++各种map特点对比分析》文章比较了C++中不同类型的map(如std::map,std::unordered_map,std::multimap,std::unordered_multima... 目录特点比较C++ 示例代码 ​​​​​​代码解释特点比较1. std::map底层实现:基于红黑

Python FastAPI入门安装使用

《PythonFastAPI入门安装使用》FastAPI是一个现代、快速的PythonWeb框架,用于构建API,它基于Python3.6+的类型提示特性,使得代码更加简洁且易于绶护,这篇文章主要介... 目录第一节:FastAPI入门一、FastAPI框架介绍什么是ASGI服务(WSGI)二、FastAP

JavaScript中的Map用法完全指南

《JavaScript中的Map用法完全指南》:本文主要介绍JavaScript中Map用法的相关资料,通过实例讲解了Map的创建、常用方法和迭代方式,还探讨了Map与对象的区别,并通过一个例子展... 目录引言1. 创建 Map2. Map 和对象的对比3. Map 的常用方法3.1 set(key, v

Golang中map缩容的实现

《Golang中map缩容的实现》本文主要介绍了Go语言中map的扩缩容机制,包括grow和hashGrow方法的处理,具有一定的参考价值,感兴趣的可以了解一下... 目录基本分析带来的隐患为什么不支持缩容基本分析在 Go 底层源码 src/runtime/map.go 中,扩缩容的处理方法是 grow

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

Go语言利用泛型封装常见的Map操作

《Go语言利用泛型封装常见的Map操作》Go语言在1.18版本中引入了泛型,这是Go语言发展的一个重要里程碑,它极大地增强了语言的表达能力和灵活性,本文将通过泛型实现封装常见的Map操作,感... 目录什么是泛型泛型解决了什么问题Go泛型基于泛型的常见Map操作代码合集总结什么是泛型泛型是一种编程范式,允

JSON字符串转成java的Map对象详细步骤

《JSON字符串转成java的Map对象详细步骤》:本文主要介绍如何将JSON字符串转换为Java对象的步骤,包括定义Element类、使用Jackson库解析JSON和添加依赖,文中通过代码介绍... 目录步骤 1: 定义 Element 类步骤 2: 使用 Jackson 库解析 jsON步骤 3: 添

Java中List转Map的几种具体实现方式和特点

《Java中List转Map的几种具体实现方式和特点》:本文主要介绍几种常用的List转Map的方式,包括使用for循环遍历、Java8StreamAPI、ApacheCommonsCollect... 目录前言1、使用for循环遍历:2、Java8 Stream API:3、Apache Commons