hadoop入门4:Map实现Join逻辑,无需要使用reducer

2024-06-07 12:32

本文主要是介绍hadoop入门4:Map实现Join逻辑,无需要使用reducer,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在hadoop入门3里,用订单和产品进行关联,用map+reducer实现join逻辑,但是这种使用,小数据下还好,但是一旦出现海量数据,会出现reduce处理任务严重不平衡,有的reduce很轻松,有的reduce很繁忙,也就是数据倾斜;因此去掉reduce这一步,直接在map完成join,

需要在map完成join过程,势必需要在每个map task里获取产品信息(产品信息是小部分,可以在放在每个mapTask里),产品放入每个map task,hadoop已经提供这种机制:

        //制定缓存文件到所有的maptask运行节点//job.addArchiveToClassPath(archive);//缓存jar包到task运行节点的calsspath中//job.addFileToClassPath(file);//缓存普通文件到task运行节点的calsspath中//job.addCacheArchive(uri);//缓存压缩包文件到task运行节点的工作目录//job.addCacheFile(uri);//缓存普通文件到task运行节点的工作目录//将产品信息缓存到task运行节点里//job.addCacheFile(new URI("file:/e:/data/mapjoin/product/product.txt"));job.addCacheFile(new URI("hdfs://hadoop01:9000/product/product.txt"));

完整代码:

package com.zsy.mr.mapjoin;import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URI;
import java.util.HashMap;
import java.util.List;
import java.util.Map;import org.apache.commons.io.IOUtils;
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class MapSideJoin {static class MapSideMapper extends Mapper<LongWritable, Text, Text, NullWritable>{Map<String, String> productMap = new HashMap<String, String>();Text v = new Text();/*** setup 是maptask处理数据之前调用,可以进行数据初始化*/@Overrideprotected void setup(Context context)throws IOException, InterruptedException {// String paths = context.getLocalCacheFiles()[0].getName();BufferedReader bReader = new BufferedReader(new InputStreamReader(new FileInputStream("product.txt")));List<String> list  = IOUtils.readLines(bReader);String[] tempStr = null;for (String string : list) {if(StringUtils.isNotBlank(string)) {tempStr = string.split(" ");productMap.put(tempStr[0].toString(), string);}}}@Overrideprotected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context)throws IOException, InterruptedException {//通过空格分割String[] strs = value.toString().split(" ");String pId = strs[2];//产品idString resultProduct = productMap.get(pId);v.set(value.toString()+" "+resultProduct);context.write(v, NullWritable.get());}}public static void main(String[] args) throws Exception {Configuration conf = new Configuration();Job job = Job.getInstance(conf);job.setJarByClass(MapSideJoin.class);job.setMapperClass(MapSideMapper.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(NullWritable.class);//FileInputFormat.setInputPaths(job, new Path("E:\\data\\mapjoin\\input")); FileInputFormat.setInputPaths(job, new Path(args[0])); //FileOutputFormat.setOutputPath(job, new Path("E:\\data\\mapjoin\\output"));FileOutputFormat.setOutputPath(job, new Path(args[1]));//制定缓存文件到所有的maptask运行节点//job.addArchiveToClassPath(archive);//缓存jar包到task运行节点的calsspath中//job.addFileToClassPath(file);//缓存普通文件到task运行节点的calsspath中//job.addCacheArchive(uri);//缓存压缩包文件到task运行节点的工作目录//job.addCacheFile(uri);//缓存普通文件到task运行节点的工作目录//将产品信息缓存到task运行节点里//job.addCacheFile(new URI("file:/e:/data/mapjoin/product/product.txt"));job.addCacheFile(new URI("hdfs://hadoop01:9000/product/product.txt"));job.setNumReduceTasks(0 );boolean res = job.waitForCompletion(true);System.exit(res?0:1);}}

hadoop集群运行结果:

可以正常join。

 

但是我遇到的一个问题,我在eclipse运行,在setUp里死活找不到product.txt文件,放到虚拟机的集群里跑就可以,不知道是啥原因,后面有时间看看这个问题

这篇关于hadoop入门4:Map实现Join逻辑,无需要使用reducer的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1039180

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

Makefile简明使用教程

文章目录 规则makefile文件的基本语法:加在命令前的特殊符号:.PHONY伪目标: Makefilev1 直观写法v2 加上中间过程v3 伪目标v4 变量 make 选项-f-n-C Make 是一种流行的构建工具,常用于将源代码转换成可执行文件或者其他形式的输出文件(如库文件、文档等)。Make 可以自动化地执行编译、链接等一系列操作。 规则 makefile文件

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu