Hadoop的基本使用(3)——MapReduce的基本操作(实现字符统计)

2024-06-18 04:58

本文主要是介绍Hadoop的基本使用(3)——MapReduce的基本操作(实现字符统计),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

MapReduce:

是Hadoop中一个并行计算框架,默认Hadoop提供了一些工具实现对HDFS上数据的分析计算汇总。

特点:hadoop充分的利用了集群当中DataNode的节点的CPU和内存,使用这些节点作为计算汇总节点,最终将汇总的数据写回HDFS(默认)。

数据: 存储各个dataNode中 (block单位)

数据拆分==>数据切片(针对数据块一种逻辑映射)==>MapTask(DataNode所在机器)(多个)==>ReduceTask(若干个DataNode所在机器)

Hadoop2 MapReduce2基于Yarn实现 资源管理器 负责资源调度和调配

ResourceManager:负责资源的分配和管理 CPU,内存 提供MapTask、ReduceTask的jvm启动参数 | 任务分配。
NodeManager:每一个DataNode上会启动一个NodeManager,负责连接ResourceManager以及启动MapTask或者ReduceTask (MapTask和ReduceTask统称 YarnChild)。
(详情:参考 hadoop权威指南第三版 75 RMB 中文版 《How MapReduce Works》)

搭建MapReduce的运行环境

1.修改etc/hadoop/yarn|mapred-site.xml
yarn-site.xml

<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value>
</property> 
<property><name>yarn.resourcemanager.hostname</name><value>CentOSA</value>
</property>

mapred-site.xml

<property><name>mapreduce.framework.name</name><value>yarn</value>
</property>
<!--跨平台运行-->
<property><name>mapreduce.app-submission.cross-platform</name><value>true</value>
</property>

2.启动|停止Yarn

[root@CentOSA hadoop-2.6.0]# ./sbin/start|stop-yarn.sh 

通过MapReduce实现字符统计

1、导入相关jar包

hadoop-common
hadoop-hdfs
hadoop-mapred
hadoop-yarn

2、书写Mapper、Reducer类

mappers

/** Keyin(限此类):数据在文件中的偏移量* Value:数据* keyout:统计依据* valueout:统计值*/
public class Mapper extends Mapper<LongWritable, Text, Text, IntWritable> {protected void map(LongWritable key, Text value,Context context) throws Exception {String string[]=value.toString().split("");for(String s:string){context.write(new Text(s), new IntWritable(1));}}
}

reducer

public class Reducer extends Reducer<Text, IntWritable, Text, IntWritable> {@Overrideprotected void reduce(Text key, Iterable<IntWritable> value,Context context)throws IOException, InterruptedException {int total=0;for(IntWritable i:value){total+=i.get();}context.write(key, new IntWritable(total));}
}

3、书写实现类

public class Submitter {public static void main(String[] args) throws Exception {//1、获得job对象Configuration conf=new Configuration();//...关联配置conf.addResource("core-site.xml");conf.addResource("hdfs-site.xml");conf.addResource("yarn-site.xml");conf.addResource("mapred-site.xml");conf.set("mapreduce.job.jar", "wc.jar");//...获取job实例Job job=Job.getInstance(conf);job.setJarByClass(Submitter.class);//2、设置数据的读入、输出类型job.setInputFormatClass(TextInputFormat.class);job.setOutputFormatClass(TextOutputFormat.class);//3、设置数据的读取输出路径Path src=new Path("");TextInputFormat.addInputPath(job, src);Path dst=new Path("");//..输出文件目录必须不存在,若存在通过此代码删除FileSystem fileSystem=FileSystem.get(conf);if(fileSystem.exists(dst)){fileSystem.delete(dst, true);}TextOutputFormat.setOutputPath(job, dst);//4、设置依据类job.setMapperClass(Mapper.class);job.setReducerClass(Reducer.class);//5、设置传输数据类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);//6、提交job.waitForCompletion(true);}
}

代码运行过程

1、切片(spilt)计算过程

InputFormat
指定了文件处理路径
对文件做切片,实现了切片数据的计算逻辑
实现了对切片数据的读取逻辑,为Mapper提供数据

InputFormat->FileInputFormat->TextInputFormater

方法
getSplit (FileInputFormat实现)
creatRecordReader (FileInputFormat未实现)

TextInputFormat举例

一个数据块对应一个切面,在任务提交时计算切片,并将切片数据写入hdfs目录,存储对应的块信息
MapTask(MapContext)
调用mapper,传入自身持有的Context
MapContext下面持有RecordReader(来自于TextInputFormat方法提供)
RecordReader所需要的实现类是LineRecordReader
LineRecordReader
核心方法:intialize()

Mapper
方法:setup、map、cleanup、run
run(context)↓

public void run(Context context) throws IOException, InterruptedException {setup(context);try {//调用context,实际委派给Reader调用的是RecordReader中的方法while (context.nextKeyValue()) {map(context.getCurrentKey(), context.getCurrentValue(), context);}} finally {cleanup(context);}}

set->map->cleanup
MapContext
实现类:Context

2、任务提交过程、切片计算

connect()连接到资源管理器;
JobSubmiter.submitJobInternal()
checkSpecs(job);检查路径是否为空

//增加权限访问
./bin/hdfs dfs -chmod -R 777 /tmp
//开启历史查看
./sbin/mr-jobhistory-daemon.sh start historyserver

submitClient.getNewJobID();获取jobjd
checkSpecs(job);检查输出目录是否为null
copyAndConfigureFiles(job,submitJobDir);构建临时目录,上传jar包,得到配置文件
(files,libjars,archives,jobjar上传至创建的新目录)
writeSplits(job, submitJobDir);计算切片 并且将切片信息写入到HDFS
(一个切片——>一个MapTask——>1秒——>2g内存)
writeConf(conf, submitJobFile);生成job.xml配置信息
getSplit();
建造切面:makeSplit
如果长度不为空,获得blkLocation,file.getBlkLocation
判断文件是否可以拆分isSplitable();不能拆分则文件多大创造一个多大的切面
每次创建一个切面长度减少切面大小,不足一个块时作为小块处理
最后一个切面可以比一个块稍大一点点

3、常见InputFormat

TextInputFormat

job.setInputFormatClass(TextInputFormat.class);

Key: 偏移量
值 : 行数据
切片: 优先按照文件为单位 再按照splitSize去计算切片

NLineInputFormat

job.setInputFormatClass(NLineInputFormat.class);

Key: 偏移量(LongWriteble)
值 : 行数据(Text)
切片: 优先按照文件为单位 再按照N行为单位去计算切片

//设置每次创建切片时所用的行数
conf.setInt("mapereduce.input.lineinputformat.linespermap",3)

KeyValueTextInputFormat

job.setInputFormatClass(KeyValueTextInputFormat.class);

Key: 内容key(Text)
值 : 内容值
切片: 优先按照文件为单位 再按照splitSize去计算切片
注意在Mapper类修改

public class WordMapper extends Mapper<Text, Text, Text, Text> {@Overrideprotected void map(Text key, Text value,Context context)    }   
}

CombineTextInputFormat(Rackaware)

job.setInputFormatClass(CombineTextInputFormat.class);

Key: 偏移量
值 : 行数据
切片: 按照总文件的大小/splitSize去计算切片数目 一个切片 对应 多个小的block

MultipleInputs

MultipleInputs.addInputPath(job, new Path("/demo/order1"),KeyValueTextInputFormat.class , OrderMapper1.class);
MultipleInputs.addInputPath(job, new Path("/demo/order2"),KeyValueTextInputFormat.class , OrderMapper2.class);

这篇关于Hadoop的基本使用(3)——MapReduce的基本操作(实现字符统计)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1071361

相关文章

C语言中联合体union的使用

本文编辑整理自: http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=179471 一、前言 “联合体”(union)与“结构体”(struct)有一些相似之处。但两者有本质上的不同。在结构体中,各成员有各自的内存空间, 一个结构变量的总长度是各成员长度之和。而在“联合”中,各成员共享一段内存空间, 一个联合变量

C++对象布局及多态实现探索之内存布局(整理的很多链接)

本文通过观察对象的内存布局,跟踪函数调用的汇编代码。分析了C++对象内存的布局情况,虚函数的执行方式,以及虚继承,等等 文章链接:http://dev.yesky.com/254/2191254.shtml      论C/C++函数间动态内存的传递 (2005-07-30)   当你涉及到C/C++的核心编程的时候,你会无止境地与内存管理打交道。 文章链接:http://dev.yesky

Tolua使用笔记(上)

目录   1.准备工作 2.运行例子 01.HelloWorld:在C#中,创建和销毁Lua虚拟机 和 简单调用。 02.ScriptsFromFile:在C#中,对一个lua文件的执行调用 03.CallLuaFunction:在C#中,对lua函数的操作 04.AccessingLuaVariables:在C#中,对lua变量的操作 05.LuaCoroutine:在Lua中,

Vim使用基础篇

本文内容大部分来自 vimtutor,自带的教程的总结。在终端输入vimtutor 即可进入教程。 先总结一下,然后再分别介绍正常模式,插入模式,和可视模式三种模式下的命令。 目录 看完以后的汇总 1.正常模式(Normal模式) 1.移动光标 2.删除 3.【:】输入符 4.撤销 5.替换 6.重复命令【. ; ,】 7.复制粘贴 8.缩进 2.插入模式 INSERT

Lipowerline5.0 雷达电力应用软件下载使用

1.配网数据处理分析 针对配网线路点云数据,优化了分类算法,支持杆塔、导线、交跨线、建筑物、地面点和其他线路的自动分类;一键生成危险点报告和交跨报告;还能生成点云数据采集航线和自主巡检航线。 获取软件安装包联系邮箱:2895356150@qq.com,资源源于网络,本介绍用于学习使用,如有侵权请您联系删除! 2.新增快速版,简洁易上手 支持快速版和专业版切换使用,快速版界面简洁,保留主

如何免费的去使用connectedpapers?

免费使用connectedpapers 1. 打开谷歌浏览器2. 按住ctrl+shift+N,进入无痕模式3. 不需要登录(也就是访客模式)4. 两次用完,关闭无痕模式(继续重复步骤 2 - 4) 1. 打开谷歌浏览器 2. 按住ctrl+shift+N,进入无痕模式 输入网址:https://www.connectedpapers.com/ 3. 不需要登录(也就是

通过SSH隧道实现通过远程服务器上外网

搭建隧道 autossh -M 0 -f -D 1080 -C -N user1@remotehost##验证隧道是否生效,查看1080端口是否启动netstat -tuln | grep 1080## 测试ssh 隧道是否生效curl -x socks5h://127.0.0.1:1080 -I http://www.github.com 将autossh 设置为服务,隧道开机启动

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测

时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测 目录 时序预测 | MATLAB实现LSTM时间序列未来多步预测-递归预测基本介绍程序设计参考资料 基本介绍 MATLAB实现LSTM时间序列未来多步预测-递归预测。LSTM是一种含有LSTM区块(blocks)或其他的一种类神经网络,文献或其他资料中LSTM区块可能被描述成智能网络单元,因为

vue项目集成CanvasEditor实现Word在线编辑器

CanvasEditor实现Word在线编辑器 官网文档:https://hufe.club/canvas-editor-docs/guide/schema.html 源码地址:https://github.com/Hufe921/canvas-editor 前提声明: 由于CanvasEditor目前不支持vue、react 等框架开箱即用版,所以需要我们去Git下载源码,拿到其中两个主

android一键分享功能部分实现

为什么叫做部分实现呢,其实是我只实现一部分的分享。如新浪微博,那还有没去实现的是微信分享。还有一部分奇怪的问题:我QQ分享跟QQ空间的分享功能,我都没配置key那些都是原本集成就有的key也可以实现分享,谁清楚的麻烦详解下。 实现分享功能我们可以去www.mob.com这个网站集成。免费的,而且还有短信验证功能。等这分享研究完后就研究下短信验证功能。 开始实现步骤(新浪分享,以下是本人自己实现