Java大数据学习06--Mapreduce概述及核心思想

本文主要是介绍Java大数据学习06--Mapreduce概述及核心思想，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、MapReduce的作用：

用来解决集群上的海量数据的分布式计算问题的框架，让用户将更多精力放在业务逻辑的开发上，而不用关心分布式计算中的复杂性。

二、MapReduce的结构：

1、MRAppMaster：负责整个程序的过程调度及状态协调
2、MapTask：负责map阶段的整个数据处理流程
3、ReduceTask：负责reduce阶段的整个数据处理流程

三、MapReduce流程解析：

1、一个mr程序启动的时候，最先启动的是MRAppMaster，MRAppMaster启动后根据本次job的描述信息，计算出需要的maptask实例数量，然后向集群申请机器启动相应数量的maptask进程

2、maptask进程启动之后，根据给定的数据切片范围进行数据处理，主体流程为：
a)利用客户指定的inputformat来获取RecordReader读取数据，形成输入KV对
b)将输入KV对传递给客户定义的map()方法，做逻辑运算，并将map()方法输出的KV对收集到缓存
c)将缓存中的KV对按照K分区排序后不断溢写到磁盘文件

3、MRAppMaster监控到所有maptask进程任务完成之后，会根据客户指定的参数启动相应数量的reducetask进程，并告知reducetask进程要处理的数据范围（数据分区）

4、Reducetask进程启动之后，根据MRAppMaster告知的待处理数据所在位置，从若干台maptask运行所在机器上获取到若干个maptask输出结果文件，并在本地进行重新归并排序，然后按照相同key的KV为一个组，调用客户定义的reduce()方法进行逻辑运算，并收集运算输出的结果KV，然后调用客户指定的outputformat将结果数据输出到外部存储

四、Mapreduce核心思想：

1、分布式的运算程序往往需要分为至少两个阶段。

2、第一个阶段的map task开发实例各司其职互不相干，完全并行。

3、第二个阶段的reduce task开发实例互不相干，但是用到的数据依赖于上一个阶段的所有map task开发实例的输出。

4、Mapreduce编程模型只能包含一个map阶段和reduce阶段，如果用户的业务逻辑非常复杂，那就只能写多个mapreduce程序，串行执行。一步步处理数据。

例如wordcount：

1、读数据。

2、按行处理。

3、用空格进行切分每行中的单词。

4、存入hashmap（key：单词 value：出现的次数）。

等分给自己的数据片全部读完之后。

5、将hashmap按照首字母范围分成多个hashmap。