Map端的Join map-side join

2024-01-26 22:30
文章标签 map join 端的 side

本文主要是介绍Map端的Join map-side join,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

  • map-side join:(最为高效)
  • 核心思想:将小表进行分布式缓存,在map-task阶段读取缓存文件数据存储到内存数据结构中,以供reduce阶段连接查找。
  • 适用场景:有一个或者多个小表(文件)
  • 优点:将小表缓存,可以高效查询;由于在map阶段进行连接,所以将会大大减小map到reduce端的数据传输,从而减少不必要的shuffle耗时,提高整个mr的执行效率
  • 缺点:如果业务全是大表不适合
  • semi-join(半连接):
  • 核心思想:将大表过滤或者清洗后进行缓存,从而转换为map-side端的join。

导入的包 注意导入长包
以及数据 对应三个文件

/*** 作者:Shishuai* 文件名:MapSideJoinDemo* 时间:2019/9/4 19:11*/package com.mapjoin_reducejoin;import ali.mr.day02.MapSideJoin;
import jdk.nashorn.internal.ir.BaseNode;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.filecache.DistributedCache;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.jboss.netty.util.internal.ConcurrentHashMap;import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Map;/*** map-side join:(最为高效)* 核心思想:将小表进行分布式缓存,在map-task阶段读取缓存文件数据存储到内存数据结构中,以供reduce阶段连接查找。* 适用场景:有一个或者多个小表(文件)* 优点:将小表缓存,可以高效查询;由于在map阶段进行连接,所以将会大大减小map到reduce端的数据传输,从而减少不必要的shuffle耗时,提高整个mr的执行效率* 缺点:如果业务全是大表不适合** semi-join(半连接):* 核心思想:将大表过滤或者清洗后进行缓存,从而转换为map-side端的join。** login:uid	sexid	logindate1	1	2017-04-17 08:16:202   2	2017-04-15 06:18:203   1	2017-04-16 05:16:244   2	2017-04-14 03:18:205   1	2017-04-13 02:16:256   2	2017-04-13 01:15:207   1	2017-04-12 08:16:348   2	2017-04-11 09:16:209   0	2017-04-10 05:16:50sex:sexMap0	不知道1	男2	女user uname1	小红2   小行3   小通4   小闪5   小镇6   小振7   小秀8   小微9   小懂10	小明11  小刚12  小举13  小黑14  小白15  小鹏16  小习输出:
loginuid	sex		uname	logindate1	男	小红	2017-04-17 08:16:202	女	小行	2017-04-15 06:18:203	男	小通	2017-04-16 05:16:244	女	小闪	2017-04-14 03:18:205	男	小镇	2017-04-13 02:16:256	女	小振	2017-04-13 01:15:207	男	小秀	2017-04-12 08:16:348	女	小微	2017-04-11 09:16:209	不知道	小懂	2017-04-10 05:16:50*** @Author Shishuai* @Email 1198319583@qq.com* @Description //TODO* @Date 19:39 2019/9/4* @Param* @Retrun 这个打包到集群上运行 两个表ur sex 以及login已经上传到hdfs 而且使用的是ha模式 我的端口是默认8020没改 改过的一般是9000**/

主要的一个setup和一个map函数
在setup 读取缓存文件 就是两个小表 ur 和 sex 因为就两列 读出来数据存到map中
在map 一行一行的读取login数据,切割后得到id
然后根据id取出对应map的值

public class MapSideJoinDemo {//自定义的mapper类public static class MyMapper extends Mapper<LongWritable, Text, Text, NullWritable>{public Text k = new Text();//读取缓存文件,并按照文件名称读取到map或者别的数据结构中//定义一个存储sex缓存的数据结构Map<String, String> sexMap = new ConcurrentHashMap<String, String>();Map<String, String> userMap = new ConcurrentHashMap<String, String>();//读取缓存在hdfs上的两个表文件//找到这两个缓存文件 将他们放入map中 因为就两列 所以@Overrideprotected void setup(Context context) throws IOException, InterruptedException {Path[] paths = DistributedCache.getLocalCacheFiles(context.getConfiguration());for(Path p : paths){String fileName = p.getName();BufferedReader bufferedReader = null;if(fileName.endsWith("sex")){bufferedReader = new BufferedReader(new FileReader(new File(p.toString())));while(bufferedReader.ready()){String line = bufferedReader.readLine();String sexs[] = line.split("\t");sexMap.put(sexs[0], sexs[1]);}}else if(fileName.equals("ur")){bufferedReader = new BufferedReader(new FileReader(new File(p.toString())));while(bufferedReader.ready()){String line = bufferedReader.readLine();String users[] = line.split("\t");userMap.put(users[0], users[1]);}}if(bufferedReader != null){bufferedReader.close();}}}//抽象map函数   (map阶段的核心业务逻辑)//然后进行map过程 一行一行读入login表中的信息//uid  sexid   time//1	   1	 2017-04-17 08:16:20  比如读入这个 切割后根据前边两个id去拿两个map对应的值@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {String[] words = value.toString().split("\t");String uid = words[0];String sex_id = words[1];String uname = "";String sexlab = "";sexlab = sexMap.getOrDefault(sex_id, "");uname = userMap.getOrDefault(uid, "");this.k.set(uid + "\t" + sexlab + "\t" + uname + "\t" + words[2]);context.write(k, NullWritable.get());}}//驱动方法public static void main(String[] args) {try {//1、获取配置对象并进行属性设置Configuration conf = new Configuration();//对conf设置conf.set("fs.defaultFS", "hdfs://qf");conf.set("dfs.nameservices", "qf");conf.set("dfs.ha.namenodes.qf", "nn1, nn2");conf.set("dfs.namenode.rpc-address.qf.nn1", "hadoop01:8020");conf.set("dfs.namenode.rpc-address.qf.nn2", "hadoop02:8020");conf.set("dfs.client.failover.proxy.provider.qf", "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider");//2、获取jobJob job = Job.getInstance(conf, "mapSideJoin");//3、对job设置运行主类job.setJarByClass(MapSideJoinDemo.class);//4、对job的map端属性设置job.setMapperClass(MyMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(NullWritable.class);//设置缓存 (缓存文件读取不了)//job.setCacheFiles();job.addCacheFile(new URI("hdfs://qf:8020/sex"));job.addCacheFile(new URI("hdfs://qf:8020/ur"));//6、设置job的输入路径和输出路径FileInputFormat.addInputPath(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));//7、提交作业int success = job.waitForCompletion(true) ? 0 : 1;//8、退出System.exit(success);} catch (IOException e) {e.printStackTrace();} catch (URISyntaxException e) {e.printStackTrace();} catch (InterruptedException e) {e.printStackTrace();} catch (ClassNotFoundException e) {e.printStackTrace();}}
}

[root@hadoop01 join]# yarn jar /home/hadoopDemo-1.0-SNAPSHOT.jar com.mapjoin_reducejoin.MapSideJoinDemo /login /out/03

结果文件 没问题
在这里插入图片描述
在这里插入图片描述

这篇关于Map端的Join map-side join的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/648250

相关文章

SpringBoot如何通过Map实现策略模式

《SpringBoot如何通过Map实现策略模式》策略模式是一种行为设计模式,它允许在运行时选择算法的行为,在Spring框架中,我们可以利用@Resource注解和Map集合来优雅地实现策略模式,这... 目录前言底层机制解析Spring的集合类型自动装配@Resource注解的行为实现原理使用直接使用M

java String.join()的使用小结

《javaString.join()的使用小结》String.join()是Java8引入的一个实用方法,用于将多个字符串按照指定分隔符连接成一个字符串,本文主要介绍了javaString.join... 目录1. 方法定义2. 基本用法2.1 拼接多个字符串2.2 拼接集合中的字符串3. 使用场景和示例3

C++ 各种map特点对比分析

《C++各种map特点对比分析》文章比较了C++中不同类型的map(如std::map,std::unordered_map,std::multimap,std::unordered_multima... 目录特点比较C++ 示例代码 ​​​​​​代码解释特点比较1. std::map底层实现:基于红黑

JavaScript中的Map用法完全指南

《JavaScript中的Map用法完全指南》:本文主要介绍JavaScript中Map用法的相关资料,通过实例讲解了Map的创建、常用方法和迭代方式,还探讨了Map与对象的区别,并通过一个例子展... 目录引言1. 创建 Map2. Map 和对象的对比3. Map 的常用方法3.1 set(key, v

Golang中map缩容的实现

《Golang中map缩容的实现》本文主要介绍了Go语言中map的扩缩容机制,包括grow和hashGrow方法的处理,具有一定的参考价值,感兴趣的可以了解一下... 目录基本分析带来的隐患为什么不支持缩容基本分析在 Go 底层源码 src/runtime/map.go 中,扩缩容的处理方法是 grow

Go语言利用泛型封装常见的Map操作

《Go语言利用泛型封装常见的Map操作》Go语言在1.18版本中引入了泛型,这是Go语言发展的一个重要里程碑,它极大地增强了语言的表达能力和灵活性,本文将通过泛型实现封装常见的Map操作,感... 目录什么是泛型泛型解决了什么问题Go泛型基于泛型的常见Map操作代码合集总结什么是泛型泛型是一种编程范式,允

数据库使用之union、union all、各种join的用法区别解析

《数据库使用之union、unionall、各种join的用法区别解析》:本文主要介绍SQL中的Union和UnionAll的区别,包括去重与否以及使用时的注意事项,还详细解释了Join关键字,... 目录一、Union 和Union All1、区别:2、注意点:3、具体举例二、Join关键字的区别&php

JSON字符串转成java的Map对象详细步骤

《JSON字符串转成java的Map对象详细步骤》:本文主要介绍如何将JSON字符串转换为Java对象的步骤,包括定义Element类、使用Jackson库解析JSON和添加依赖,文中通过代码介绍... 目录步骤 1: 定义 Element 类步骤 2: 使用 Jackson 库解析 jsON步骤 3: 添

Java中List转Map的几种具体实现方式和特点

《Java中List转Map的几种具体实现方式和特点》:本文主要介绍几种常用的List转Map的方式,包括使用for循环遍历、Java8StreamAPI、ApacheCommonsCollect... 目录前言1、使用for循环遍历:2、Java8 Stream API:3、Apache Commons

Collection List Set Map的区别和联系

Collection List Set Map的区别和联系 这些都代表了Java中的集合,这里主要从其元素是否有序,是否可重复来进行区别记忆,以便恰当地使用,当然还存在同步方面的差异,见上一篇相关文章。 有序否 允许元素重复否 Collection 否 是 List 是 是 Set AbstractSet 否