hadoop入门4:Map实现Join逻辑,无需要使用reducer

2024-06-07 12:32

本文主要是介绍hadoop入门4:Map实现Join逻辑,无需要使用reducer,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在hadoop入门3里,用订单和产品进行关联,用map+reducer实现join逻辑,但是这种使用,小数据下还好,但是一旦出现海量数据,会出现reduce处理任务严重不平衡,有的reduce很轻松,有的reduce很繁忙,也就是数据倾斜;因此去掉reduce这一步,直接在map完成join,

需要在map完成join过程,势必需要在每个map task里获取产品信息(产品信息是小部分,可以在放在每个mapTask里),产品放入每个map task,hadoop已经提供这种机制:

        //制定缓存文件到所有的maptask运行节点//job.addArchiveToClassPath(archive);//缓存jar包到task运行节点的calsspath中//job.addFileToClassPath(file);//缓存普通文件到task运行节点的calsspath中//job.addCacheArchive(uri);//缓存压缩包文件到task运行节点的工作目录//job.addCacheFile(uri);//缓存普通文件到task运行节点的工作目录//将产品信息缓存到task运行节点里//job.addCacheFile(new URI("file:/e:/data/mapjoin/product/product.txt"));job.addCacheFile(new URI("hdfs://hadoop01:9000/product/product.txt"));

完整代码:

package com.zsy.mr.mapjoin;import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.util.HashMap;
import java.util.List;
import java.util.Map;import org.apache.commons.io.IOUtils;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class MapSideJoin {static class MapSideMapper extends Mapper<LongWritable, Text, Text, NullWritable>{Map<String, String> productMap = new HashMap<String, String>();Text v = new Text();/*** setup 是maptask处理数据之前调用,可以进行数据初始化*/@Overrideprotected void setup(Context context)throws IOException, InterruptedException {// String paths = context.getLocalCacheFiles()[0].getName();BufferedReader bReader = new BufferedReader(new InputStreamReader(new FileInputStream("product.txt")));List<String> list  = IOUtils.readLines(bReader);String[] tempStr = null;for (String string : list) {if(StringUtils.isNotBlank(string)) {tempStr = string.split(" ");productMap.put(tempStr[0].toString(), string);}}}@Overrideprotected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context)throws IOException, InterruptedException {//通过空格分割String[] strs = value.toString().split(" ");String pId = strs[2];//产品idString resultProduct = productMap.get(pId);v.set(value.toString()+" "+resultProduct);context.write(v, NullWritable.get());}}public static void main(String[] args) throws Exception {Configuration conf = new Configuration();Job job = Job.getInstance(conf);job.setJarByClass(MapSideJoin.class);job.setMapperClass(MapSideMapper.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(NullWritable.class);//FileInputFormat.setInputPaths(job, new Path("E:\\data\\mapjoin\\input")); FileInputFormat.setInputPaths(job, new Path(args[0])); //FileOutputFormat.setOutputPath(job, new Path("E:\\data\\mapjoin\\output"));FileOutputFormat.setOutputPath(job, new Path(args[1]));//制定缓存文件到所有的maptask运行节点//job.addArchiveToClassPath(archive);//缓存jar包到task运行节点的calsspath中//job.addFileToClassPath(file);//缓存普通文件到task运行节点的calsspath中//job.addCacheArchive(uri);//缓存压缩包文件到task运行节点的工作目录//job.addCacheFile(uri);//缓存普通文件到task运行节点的工作目录//将产品信息缓存到task运行节点里//job.addCacheFile(new URI("file:/e:/data/mapjoin/product/product.txt"));job.addCacheFile(new URI("hdfs://hadoop01:9000/product/product.txt"));job.setNumReduceTasks(0 );boolean res = job.waitForCompletion(true);System.exit(res?0:1);}}

hadoop集群运行结果:

可以正常join。

 

但是我遇到的一个问题,我在eclipse运行,在setUp里死活找不到product.txt文件,放到虚拟机的集群里跑就可以,不知道是啥原因,后面有时间看看这个问题

这篇关于hadoop入门4:Map实现Join逻辑,无需要使用reducer的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1039180

相关文章

Android kotlin中 Channel 和 Flow 的区别和选择使用场景分析

《Androidkotlin中Channel和Flow的区别和选择使用场景分析》Kotlin协程中,Flow是冷数据流,按需触发,适合响应式数据处理;Channel是热数据流,持续发送,支持... 目录一、基本概念界定FlowChannel二、核心特性对比数据生产触发条件生产与消费的关系背压处理机制生命周期

java使用protobuf-maven-plugin的插件编译proto文件详解

《java使用protobuf-maven-plugin的插件编译proto文件详解》:本文主要介绍java使用protobuf-maven-plugin的插件编译proto文件,具有很好的参考价... 目录protobuf文件作为数据传输和存储的协议主要介绍在Java使用maven编译proto文件的插件

c++ 类成员变量默认初始值的实现

《c++类成员变量默认初始值的实现》本文主要介绍了c++类成员变量默认初始值,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录C++类成员变量初始化c++类的变量的初始化在C++中,如果使用类成员变量时未给定其初始值,那么它将被

SpringBoot线程池配置使用示例详解

《SpringBoot线程池配置使用示例详解》SpringBoot集成@Async注解,支持线程池参数配置(核心数、队列容量、拒绝策略等)及生命周期管理,结合监控与任务装饰器,提升异步处理效率与系统... 目录一、核心特性二、添加依赖三、参数详解四、配置线程池五、应用实践代码说明拒绝策略(Rejected

C++ Log4cpp跨平台日志库的使用小结

《C++Log4cpp跨平台日志库的使用小结》Log4cpp是c++类库,本文详细介绍了C++日志库log4cpp的使用方法,及设置日志输出格式和优先级,具有一定的参考价值,感兴趣的可以了解一下... 目录一、介绍1. log4cpp的日志方式2.设置日志输出的格式3. 设置日志的输出优先级二、Window

Ubuntu如何分配​​未使用的空间

《Ubuntu如何分配​​未使用的空间》Ubuntu磁盘空间不足,实际未分配空间8.2G因LVM卷组名称格式差异(双破折号误写)导致无法扩展,确认正确卷组名后,使用lvextend和resize2fs... 目录1:原因2:操作3:报错5:解决问题:确认卷组名称​6:再次操作7:验证扩展是否成功8:问题已解

Qt使用QSqlDatabase连接MySQL实现增删改查功能

《Qt使用QSqlDatabase连接MySQL实现增删改查功能》这篇文章主要为大家详细介绍了Qt如何使用QSqlDatabase连接MySQL实现增删改查功能,文中的示例代码讲解详细,感兴趣的小伙伴... 目录一、创建数据表二、连接mysql数据库三、封装成一个完整的轻量级 ORM 风格类3.1 表结构

基于Python实现一个图片拆分工具

《基于Python实现一个图片拆分工具》这篇文章主要为大家详细介绍了如何基于Python实现一个图片拆分工具,可以根据需要的行数和列数进行拆分,感兴趣的小伙伴可以跟随小编一起学习一下... 简单介绍先自己选择输入的图片,默认是输出到项目文件夹中,可以自己选择其他的文件夹,选择需要拆分的行数和列数,可以通过

Python中将嵌套列表扁平化的多种实现方法

《Python中将嵌套列表扁平化的多种实现方法》在Python编程中,我们常常会遇到需要将嵌套列表(即列表中包含列表)转换为一个一维的扁平列表的需求,本文将给大家介绍了多种实现这一目标的方法,需要的朋... 目录python中将嵌套列表扁平化的方法技术背景实现步骤1. 使用嵌套列表推导式2. 使用itert

使用Docker构建Python Flask程序的详细教程

《使用Docker构建PythonFlask程序的详细教程》在当今的软件开发领域,容器化技术正变得越来越流行,而Docker无疑是其中的佼佼者,本文我们就来聊聊如何使用Docker构建一个简单的Py... 目录引言一、准备工作二、创建 Flask 应用程序三、创建 dockerfile四、构建 Docker