hadoop入门4:Map实现Join逻辑,无需要使用reducer

2024-06-07 12:32

本文主要是介绍hadoop入门4:Map实现Join逻辑,无需要使用reducer,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在hadoop入门3里,用订单和产品进行关联,用map+reducer实现join逻辑,但是这种使用,小数据下还好,但是一旦出现海量数据,会出现reduce处理任务严重不平衡,有的reduce很轻松,有的reduce很繁忙,也就是数据倾斜;因此去掉reduce这一步,直接在map完成join,

需要在map完成join过程,势必需要在每个map task里获取产品信息(产品信息是小部分,可以在放在每个mapTask里),产品放入每个map task,hadoop已经提供这种机制:

        //制定缓存文件到所有的maptask运行节点//job.addArchiveToClassPath(archive);//缓存jar包到task运行节点的calsspath中//job.addFileToClassPath(file);//缓存普通文件到task运行节点的calsspath中//job.addCacheArchive(uri);//缓存压缩包文件到task运行节点的工作目录//job.addCacheFile(uri);//缓存普通文件到task运行节点的工作目录//将产品信息缓存到task运行节点里//job.addCacheFile(new URI("file:/e:/data/mapjoin/product/product.txt"));job.addCacheFile(new URI("hdfs://hadoop01:9000/product/product.txt"));

完整代码:

package com.zsy.mr.mapjoin;import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.util.HashMap;
import java.util.List;
import java.util.Map;import org.apache.commons.io.IOUtils;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class MapSideJoin {static class MapSideMapper extends Mapper<LongWritable, Text, Text, NullWritable>{Map<String, String> productMap = new HashMap<String, String>();Text v = new Text();/*** setup 是maptask处理数据之前调用,可以进行数据初始化*/@Overrideprotected void setup(Context context)throws IOException, InterruptedException {// String paths = context.getLocalCacheFiles()[0].getName();BufferedReader bReader = new BufferedReader(new InputStreamReader(new FileInputStream("product.txt")));List<String> list  = IOUtils.readLines(bReader);String[] tempStr = null;for (String string : list) {if(StringUtils.isNotBlank(string)) {tempStr = string.split(" ");productMap.put(tempStr[0].toString(), string);}}}@Overrideprotected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context)throws IOException, InterruptedException {//通过空格分割String[] strs = value.toString().split(" ");String pId = strs[2];//产品idString resultProduct = productMap.get(pId);v.set(value.toString()+" "+resultProduct);context.write(v, NullWritable.get());}}public static void main(String[] args) throws Exception {Configuration conf = new Configuration();Job job = Job.getInstance(conf);job.setJarByClass(MapSideJoin.class);job.setMapperClass(MapSideMapper.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(NullWritable.class);//FileInputFormat.setInputPaths(job, new Path("E:\\data\\mapjoin\\input")); FileInputFormat.setInputPaths(job, new Path(args[0])); //FileOutputFormat.setOutputPath(job, new Path("E:\\data\\mapjoin\\output"));FileOutputFormat.setOutputPath(job, new Path(args[1]));//制定缓存文件到所有的maptask运行节点//job.addArchiveToClassPath(archive);//缓存jar包到task运行节点的calsspath中//job.addFileToClassPath(file);//缓存普通文件到task运行节点的calsspath中//job.addCacheArchive(uri);//缓存压缩包文件到task运行节点的工作目录//job.addCacheFile(uri);//缓存普通文件到task运行节点的工作目录//将产品信息缓存到task运行节点里//job.addCacheFile(new URI("file:/e:/data/mapjoin/product/product.txt"));job.addCacheFile(new URI("hdfs://hadoop01:9000/product/product.txt"));job.setNumReduceTasks(0 );boolean res = job.waitForCompletion(true);System.exit(res?0:1);}}

hadoop集群运行结果:

可以正常join。

 

但是我遇到的一个问题,我在eclipse运行,在setUp里死活找不到product.txt文件,放到虚拟机的集群里跑就可以,不知道是啥原因,后面有时间看看这个问题

这篇关于hadoop入门4:Map实现Join逻辑,无需要使用reducer的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/1039180

相关文章

使用Python将JSON,XML和YAML数据写入Excel文件

《使用Python将JSON,XML和YAML数据写入Excel文件》JSON、XML和YAML作为主流结构化数据格式,因其层次化表达能力和跨平台兼容性,已成为系统间数据交换的通用载体,本文将介绍如何... 目录如何使用python写入数据到Excel工作表用Python导入jsON数据到Excel工作表用

SpringBoot实现微信小程序支付功能

《SpringBoot实现微信小程序支付功能》小程序支付功能已成为众多应用的核心需求之一,本文主要介绍了SpringBoot实现微信小程序支付功能,文中通过示例代码介绍的非常详细,对大家的学习或者工作... 目录一、引言二、准备工作(一)微信支付商户平台配置(二)Spring Boot项目搭建(三)配置文件

鸿蒙中@State的原理使用详解(HarmonyOS 5)

《鸿蒙中@State的原理使用详解(HarmonyOS5)》@State是HarmonyOSArkTS框架中用于管理组件状态的核心装饰器,其核心作用是实现数据驱动UI的响应式编程模式,本文给大家介绍... 目录一、@State在鸿蒙中是做什么的?二、@Spythontate的基本原理1. 依赖关系的收集2.

Python基础语法中defaultdict的使用小结

《Python基础语法中defaultdict的使用小结》Python的defaultdict是collections模块中提供的一种特殊的字典类型,它与普通的字典(dict)有着相似的功能,本文主要... 目录示例1示例2python的defaultdict是collections模块中提供的一种特殊的字

基于Python实现高效PPT转图片工具

《基于Python实现高效PPT转图片工具》在日常工作中,PPT是我们常用的演示工具,但有时候我们需要将PPT的内容提取为图片格式以便于展示或保存,所以本文将用Python实现PPT转PNG工具,希望... 目录1. 概述2. 功能使用2.1 安装依赖2.2 使用步骤2.3 代码实现2.4 GUI界面3.效

MySQL更新某个字段拼接固定字符串的实现

《MySQL更新某个字段拼接固定字符串的实现》在MySQL中,我们经常需要对数据库中的某个字段进行更新操作,本文就来介绍一下MySQL更新某个字段拼接固定字符串的实现,感兴趣的可以了解一下... 目录1. 查看字段当前值2. 更新字段拼接固定字符串3. 验证更新结果mysql更新某个字段拼接固定字符串 -

java实现延迟/超时/定时问题

《java实现延迟/超时/定时问题》:本文主要介绍java实现延迟/超时/定时问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java实现延迟/超时/定时java 每间隔5秒执行一次,一共执行5次然后结束scheduleAtFixedRate 和 schedu

Java Optional避免空指针异常的实现

《JavaOptional避免空指针异常的实现》空指针异常一直是困扰开发者的常见问题之一,本文主要介绍了JavaOptional避免空指针异常的实现,帮助开发者编写更健壮、可读性更高的代码,减少因... 目录一、Optional 概述二、Optional 的创建三、Optional 的常用方法四、Optio

C++ Sort函数使用场景分析

《C++Sort函数使用场景分析》sort函数是algorithm库下的一个函数,sort函数是不稳定的,即大小相同的元素在排序后相对顺序可能发生改变,如果某些场景需要保持相同元素间的相对顺序,可使... 目录C++ Sort函数详解一、sort函数调用的两种方式二、sort函数使用场景三、sort函数排序

在Android平台上实现消息推送功能

《在Android平台上实现消息推送功能》随着移动互联网应用的飞速发展,消息推送已成为移动应用中不可或缺的功能,在Android平台上,实现消息推送涉及到服务端的消息发送、客户端的消息接收、通知渠道(... 目录一、项目概述二、相关知识介绍2.1 消息推送的基本原理2.2 Firebase Cloud Me