Hadoop MapReduce 求公司部门员工工资总和案例实现!

2023-11-10 03:00

本文主要是介绍Hadoop MapReduce 求公司部门员工工资总和案例实现!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Hadoop MapReduce 求公司部门工资总和案例实现目录

    • 1.回顾MapReduce的WordCount程序
    • 2.公司各部门员工薪水表
    • 3.编写MapReduce程序
    • 4.上传jar包以及执行jar需要注意的地方
    • 5.查看执行结果

1.回顾MapReduce的WordCount程序

这是MapReduce Wordcount程序,结合起来看感觉更容易理解MapReduce程序的写法。这是WordcCount程序:MapReduce的WordCount程序

2.公司各部门员工薪水表

这是一张员工工资表,是csv文件类型,这里用两个部门举例分别是10号部门和20号部门,我们要做的是将10号部门与20号部门的员工工资总和分别求取出来。
在这里插入图片描述
在这里插入图片描述

3.编写MapReduce程序

其实编写这个程序和变写MapReduce WordCount程序是一样的,只需修改我们Mapper端,Reducer端的输入输出的数据类型,以及我们的主程序的Mapper端,Reducer端的输出的数据类型,即可。
Mapper端

package infoSalary;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/*** @author ganxiang* IDE      IntelliJ IDEA* @project_name and filename HadoopTraining SalaryMapper* @date 2020/04/25 0025 13:41*/public class SalaryMapper extends Mapper<LongWritable, Text, IntWritable,IntWritable> {@Overrideprotected void map(LongWritable key1, Text value1, Context context) throws IOException, InterruptedException {//1,获取数据String line =value1.toString();//2,分割数据String [] data =line.split(",");//3,写出数据context.write(new IntWritable(Integer.parseInt(data[1])),new IntWritable(Integer.parseInt(data[2])));}
}

Reducer端

package infoSalary;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;/*** @author ganxiang* IDE      IntelliJ IDEA* @project_name and filename HadoopTraining SalaryReducer* @date 2020/04/25 0025 13:47*/public class SalaryReducer extends Reducer<IntWritable,IntWritable,IntWritable,IntWritable> {@Overrideprotected void reduce(IntWritable key3, Iterable<IntWritable> values3, Context context) throws IOException, InterruptedException {int sum =0;//1,求取部门工资总和for (IntWritable count:values3){sum+=count.get();}//2,写出部门号以及部门员工工资总和context.write(key3,new IntWritable(sum));}
}

Job端

package infoSalary;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;/*** @author ganxiang* IDE      IntelliJ IDEA* @project_name and filename HadoopTraining SalaryJob* @date 2020/04/25 0025 13:53*/public class SalaryJob {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {//1,创建一个jobJob salaryJob =Job.getInstance(new Configuration());//2,设置job的入口函数salaryJob.setJarByClass(SalaryJob.class);//3,设置mappersalaryJob.setMapperClass(SalaryMapper.class);salaryJob.setMapOutputKeyClass(IntWritable.class);salaryJob.setMapOutputValueClass(IntWritable.class);//4,设置reducersalaryJob.setReducerClass(SalaryReducer.class);salaryJob.setOutputKeyClass(IntWritable.class);salaryJob.setOutputValueClass(IntWritable.class);//5,设置数据的存放路径FileInputFormat.setInputPaths(salaryJob,new Path(args[0]));FileOutputFormat.setOutputPath(salaryJob,new Path(args[1]));//6,提交任务salaryJob.waitForCompletion(true);}}

4.上传jar包以及执行jar需要注意的地方

从IDEA中打好jar包,上传到我们的虚拟环境中。在执行jar的时候需要注意一点,如果我们在同一个项目中编写了多个MapReduce程序并打成jar执行,需要在执行的时候指定package在的主函数名,如果不指定将报错无法找到主函数运行失败。如果没有在一个项目中写多个MapReduce程序打成jar包,忽略此信息。
1,此时我们的项目结构为这样的。
在这里插入图片描述
2,如果这样hadoop jar jar名执行将报错,因为同一个项目中存在多个MapReduce程序。
在这里插入图片描述
3,这样执行即可解决问题,hadoop jar jar名 package名.主函数名 。

 hadoop jar sumsalary.jar infoSalary.SalaryJob  /salary/salary.csv /output/salary

在这里插入图片描述

5.查看执行结果

5.1,任务执行成功

在这里插入图片描述
2,各部门的员工工资总和为10号部门1600,20号部门2400,经过计算没有误差。
在这里插入图片描述
ok,完工,都看到这儿了,点赞在走呗🤞🤞🤞🤞。

这篇关于Hadoop MapReduce 求公司部门员工工资总和案例实现!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/380038

相关文章

Python实现终端清屏的几种方式详解

《Python实现终端清屏的几种方式详解》在使用Python进行终端交互式编程时,我们经常需要清空当前终端屏幕的内容,本文为大家整理了几种常见的实现方法,有需要的小伙伴可以参考下... 目录方法一:使用 `os` 模块调用系统命令方法二:使用 `subprocess` 模块执行命令方法三:打印多个换行符模拟

SpringBoot+EasyPOI轻松实现Excel和Word导出PDF

《SpringBoot+EasyPOI轻松实现Excel和Word导出PDF》在企业级开发中,将Excel和Word文档导出为PDF是常见需求,本文将结合​​EasyPOI和​​Aspose系列工具实... 目录一、环境准备与依赖配置1.1 方案选型1.2 依赖配置(商业库方案)二、Excel 导出 PDF

Python实现MQTT通信的示例代码

《Python实现MQTT通信的示例代码》本文主要介绍了Python实现MQTT通信的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1. 安装paho-mqtt库‌2. 搭建MQTT代理服务器(Broker)‌‌3. pytho

使用zip4j实现Java中的ZIP文件加密压缩的操作方法

《使用zip4j实现Java中的ZIP文件加密压缩的操作方法》本文介绍如何通过Maven集成zip4j1.3.2库创建带密码保护的ZIP文件,涵盖依赖配置、代码示例及加密原理,确保数据安全性,感兴趣的... 目录1. zip4j库介绍和版本1.1 zip4j库概述1.2 zip4j的版本演变1.3 zip4

python生成随机唯一id的几种实现方法

《python生成随机唯一id的几种实现方法》在Python中生成随机唯一ID有多种方法,根据不同的需求场景可以选择最适合的方案,文中通过示例代码介绍的非常详细,需要的朋友们下面随着小编来一起学习学习... 目录方法 1:使用 UUID 模块(推荐)方法 2:使用 Secrets 模块(安全敏感场景)方法

MySql基本查询之表的增删查改+聚合函数案例详解

《MySql基本查询之表的增删查改+聚合函数案例详解》本文详解SQL的CURD操作INSERT用于数据插入(单行/多行及冲突处理),SELECT实现数据检索(列选择、条件过滤、排序分页),UPDATE... 目录一、Create1.1 单行数据 + 全列插入1.2 多行数据 + 指定列插入1.3 插入否则更

Spring StateMachine实现状态机使用示例详解

《SpringStateMachine实现状态机使用示例详解》本文介绍SpringStateMachine实现状态机的步骤,包括依赖导入、枚举定义、状态转移规则配置、上下文管理及服务调用示例,重点解... 目录什么是状态机使用示例什么是状态机状态机是计算机科学中的​​核心建模工具​​,用于描述对象在其生命

Spring Boot 结合 WxJava 实现文章上传微信公众号草稿箱与群发

《SpringBoot结合WxJava实现文章上传微信公众号草稿箱与群发》本文将详细介绍如何使用SpringBoot框架结合WxJava开发工具包,实现文章上传到微信公众号草稿箱以及群发功能,... 目录一、项目环境准备1.1 开发环境1.2 微信公众号准备二、Spring Boot 项目搭建2.1 创建

IntelliJ IDEA2025创建SpringBoot项目的实现步骤

《IntelliJIDEA2025创建SpringBoot项目的实现步骤》本文主要介绍了IntelliJIDEA2025创建SpringBoot项目的实现步骤,文中通过示例代码介绍的非常详细,对大家... 目录一、创建 Spring Boot 项目1. 新建项目2. 基础配置3. 选择依赖4. 生成项目5.

Linux下删除乱码文件和目录的实现方式

《Linux下删除乱码文件和目录的实现方式》:本文主要介绍Linux下删除乱码文件和目录的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux下删除乱码文件和目录方法1方法2总结Linux下删除乱码文件和目录方法1使用ls -i命令找到文件或目录