大数据-Hadoop-MapReduce(二):MapReduce编程案例

2024-09-02 03:48

本文主要是介绍大数据-Hadoop-MapReduce(二):MapReduce编程案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

案例:使用MapReduce进行词频统计

1、读取本地数据,使用本地(Windows中的hadoop)计算资源,计算结果保存到本地

在这里插入图片描述

WCMapper.java

package com.wyr.wordcount;import java.io.IOException;
import java.util.List;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.RecordReader;/*** 注意:导包时,导入 org.apache.hadoop.mapreduce包下的类(2.0的新api)* * 1. 自定义的类必须符合 MapperReduce 的Mapper的规范* * 2.在MapperReduce中,只能处理 key-value格式的数据* 	 KEYIN, VALUEIN: mapper输入的k-v类型。 由当前Job的 InputFormat 的 RecordReader决定!封装输入的 key-value 由 RecordReader 自动进行。*   KEYOUT, VALUEOUT: mapper输出的k-v类型: 自定义*   * 3. InputFormat的作用:*  		①验证输入目录中文件格式,是否符合当前Job的要求*  		②生成切片,每个切片都会交给一个MapTask处理;方法: List<InputSplit> getSplits*  		③创建RecordReader,由RecordReader从切片中读取记录,交给Mapper进行处理;方法:RecordReader<K,V> createRecordReader;默认hadoop使用的是TextInputFormat,TextInputFormat使用LineRecordReader!** 4. 在Hadoop中,如果有Reduce阶段。通常key-value都需要实现序列化协议,来进行不同机器间的数据网络传输。*  	MapTask处理后的key-value,只是一个阶段性的结果!这些key-value需要传输到ReduceTask所在的机器!*  	不同机器间的数据传输最快捷的方式:将一个对象通过序列化技术,序列化到一个文件中,经过网络传输到另外一台机器,再使用反序列化技术,从文件中读取数据,还原为对象!*  	java的序列化协议的缺点: Serilizxxxxx,特点:不仅保存对象的属性值,类型,还会保存大量的包的结构,子父类和接口的继承信息!	保存的信息太多、太重*  	hadoop开发了一款轻量级的序列化协议: Wriable机制!**/
public class WCMapper extends Mapper<LongWritable, Text, Text, IntWritable>{	// KEYIN, VALUEIN, KEYOUT, VALUEOUT    第 3 个参数表示单词;第 4个参数表示词频private Text out_key=new Text();private IntWritable out_value=new IntWritable(1);// 针对输入的每个 keyin-valuein调用一次   (0,hello	hi	hello	hi),其中key为:0,value为:hello	hi	hello	hi@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {	// key 为 输入数据的每行的偏移量;value 为输入数据的每行的数据;context为输出数据System.out.println("keyin:"+key+"----keyout:"+value);String[] words = value.toString().split("\t");for (String word : words) {out_key.set(word);//写出数据(单词,1)context.write(out_key, out_value);}	}
}

WCReducer.java

package com.wyr.wordcount;import java.io.IOException;import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;/*** 1. Reducer需要符合Hadoop的Reducer规范** KEYIN, VALUEIN: Mapper输出的 keyout-valueout* KEYOUT, VALUEOUT: 自定义**/
public class WCReducer extends Reducer<Text, IntWritable, Text, IntWritable>{   // KEYIN, VALUEIN, KEYOUT, VALUEOUTprivate IntWritable out_value=new IntWritable();// reduce一次处理一组数据,key相同的视为一组@Overrideprotected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {int sum=0;for (IntWritable intWritable : values) {sum+=intWritable.get();}out_value.set(sum);//将累加的值写出context.write(key, out_value);}
}

WCDriver.java

package com.wyr.wordcount;import java.io.IOException;
import java.net.URI;import org.apache.hadoop

这篇关于大数据-Hadoop-MapReduce(二):MapReduce编程案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1128902

相关文章

使用Navicat工具比对两个数据库所有表结构的差异案例详解

《使用Navicat工具比对两个数据库所有表结构的差异案例详解》:本文主要介绍如何使用Navicat工具对比两个数据库test_old和test_new,并生成相应的DDLSQL语句,以便将te... 目录概要案例一、如图两个数据库test_old和test_new进行比较:二、开始比较总结概要公司存在多

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

Python给Excel写入数据的四种方法小结

《Python给Excel写入数据的四种方法小结》本文主要介绍了Python给Excel写入数据的四种方法小结,包含openpyxl库、xlsxwriter库、pandas库和win32com库,具有... 目录1. 使用 openpyxl 库2. 使用 xlsxwriter 库3. 使用 pandas 库

SpringBoot定制JSON响应数据的实现

《SpringBoot定制JSON响应数据的实现》本文主要介绍了SpringBoot定制JSON响应数据的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们... 目录前言一、如何使用@jsonView这个注解?二、应用场景三、实战案例注解方式编程方式总结 前言

使用Python在Excel中创建和取消数据分组

《使用Python在Excel中创建和取消数据分组》Excel中的分组是一种通过添加层级结构将相邻行或列组织在一起的功能,当分组完成后,用户可以通过折叠或展开数据组来简化数据视图,这篇博客将介绍如何使... 目录引言使用工具python在Excel中创建行和列分组Python在Excel中创建嵌套分组Pyt

在Rust中要用Struct和Enum组织数据的原因解析

《在Rust中要用Struct和Enum组织数据的原因解析》在Rust中,Struct和Enum是组织数据的核心工具,Struct用于将相关字段封装为单一实体,便于管理和扩展,Enum用于明确定义所有... 目录为什么在Rust中要用Struct和Enum组织数据?一、使用struct组织数据:将相关字段绑

在Mysql环境下对数据进行增删改查的操作方法

《在Mysql环境下对数据进行增删改查的操作方法》本文介绍了在MySQL环境下对数据进行增删改查的基本操作,包括插入数据、修改数据、删除数据、数据查询(基本查询、连接查询、聚合函数查询、子查询)等,并... 目录一、插入数据:二、修改数据:三、删除数据:1、delete from 表名;2、truncate

C#多线程编程中导致死锁的常见陷阱和避免方法

《C#多线程编程中导致死锁的常见陷阱和避免方法》在C#多线程编程中,死锁(Deadlock)是一种常见的、令人头疼的错误,死锁通常发生在多个线程试图获取多个资源的锁时,导致相互等待对方释放资源,最终形... 目录引言1. 什么是死锁?死锁的典型条件:2. 导致死锁的常见原因2.1 锁的顺序问题错误示例:不同

Java实现Elasticsearch查询当前索引全部数据的完整代码

《Java实现Elasticsearch查询当前索引全部数据的完整代码》:本文主要介绍如何在Java中实现查询Elasticsearch索引中指定条件下的全部数据,通过设置滚动查询参数(scrol... 目录需求背景通常情况Java 实现查询 Elasticsearch 全部数据写在最后需求背景通常情况下