【Hadoop】9.MapReduce框架原理-OutputFormat数据输出

2023-11-09 13:32

本文主要是介绍【Hadoop】9.MapReduce框架原理-OutputFormat数据输出,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在前面,我们知道了多种输入模式,输出也一样。OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口。

OutputFormat 接口实现类
  1. 文本输出TextOutputFormat
    默认的输出格式是TextOutputFormat它把每条记录写为文本行。它的键和值可以是任意类型,因为TextOutputFormat调用toString() 方法把它们转换为字符串
  2. SequenceFileOutputFormat
    将SequenceFileOutputFormat输出作为后续MapReduce任务的输入,这便是一种好的输出格式,因为他的格式紧凑,很容易被压缩
  3. 自定义OutputFormat
    根据自己的需求,自定义实现。
自定义OutputFormat实现过程

步骤:

  1. 自定义一个类继承FileOutputFormat
  2. 改写RecordWriter,具体改写输出数据的方法write()

示例:
在这里插入图片描述

CustomOutputDriver

package com.xing.MapReduce.CustomOutputFormat;import com.xing.MapReduce.Flowsum.FlowBean;
import com.xing.MapReduce.Flowsum.FlowBeanMapper;
import com.xing.MapReduce.Flowsum.FlowDriver;
import com.xing.MapReduce.Flowsum.FlowReducer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;public class CustomOutputDriver {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {System.setProperty("hadoop.home.dir", "E:\\hadoop-2.7.1");String in = "E:\\hdfs\\data\\customout\\input\\demo.txt";String out = "E:\\hdfs\\data\\customout\\out";Path inPath = new Path(in);Path outPath = new Path(out);Configuration configuration = new Configuration();FileSystem fs = FileSystem.get(configuration);if (fs.exists(outPath)) {if (fs.delete(outPath, true)){System.out.println("success delete outfile");}}Job job = Job.getInstance(configuration);job.setJobName("CustomOutput");job.setJarByClass(CustomOutputDriver.class);job.setMapperClass(CustomOutputMapper.class);job.setReducerClass(CustomOutputReduce.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(NullWritable.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(NullWritable.class);// 设置自定义FileOutputFormat类job.setOutputFormatClass(CustomFileOutputFormat.class);FileInputFormat.setInputPaths(job, inPath);FileOutputFormat.setOutputPath(job, outPath);boolean rel = job.waitForCompletion(true);if (rel) {System.out.println("success");}}}

CustomOutputMapper

package com.xing.MapReduce.CustomOutputFormat;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class CustomOutputMapper extends Mapper<LongWritable,Text,Text,NullWritable> {@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {context.write(value,NullWritable.get() );}
}

CustomOutputReduce

package com.xing.MapReduce.CustomOutputFormat;import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;public class CustomOutputReduce extends Reducer<Text,NullWritable,Text,NullWritable> {@Overrideprotected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {for (NullWritable value : values) {context.write(key,value );}}
}

CustomFileOutputFormat

package com.xing.MapReduce.CustomOutputFormat;import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;public class CustomFileOutputFormat extends FileOutputFormat<Text,NullWritable> {/***  返回自定义的Writer* @param context* @return* @throws IOException* @throws InterruptedException*/public RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext context) throws IOException, InterruptedException {return new CustomRecordWriter(context);}
}

CustomRecordWriter

package com.xing.MapReduce.CustomOutputFormat;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;import java.io.IOException;public class CustomRecordWriter extends RecordWriter<Text, NullWritable> {private FileSystem fs;private Configuration conf;private FSDataOutputStream fos1;private FSDataOutputStream fos2;CustomRecordWriter(){}CustomRecordWriter(TaskAttemptContext context) {// 初始化一些属性try {conf = context.getConfiguration();fs = FileSystem.get(conf);fos1 = fs.create(new Path("E:\\hdfs\\data\\customout\\output\\http.txt"));fos2 = fs.create(new Path("E:\\hdfs\\data\\customout\\output\\other.txt"));} catch (IOException e) {e.printStackTrace();}}/***  判断key值是否含有HTTP,有则输出到http.txt 其他都输出到other.txt文件* @param text* @param nullWritable* @throws IOException* @throws InterruptedException*/public void write(Text text, NullWritable nullWritable) throws IOException, InterruptedException {if (text.toString().toUpperCase().contains("HTTP")){System.out.println("yes");// \r\n 为windows的换行 fos1.write(text.toString().concat("\r\n").getBytes());}else {System.out.println("no");fos2.write(text.toString().concat("\r\n").getBytes());}}/***  关闭流* @param taskAttemptContext* @throws IOException* @throws InterruptedException*/public void close(TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {IOUtils.closeStream(fos1);IOUtils.closeStream(fos2);}
}

输出结果
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

这篇关于【Hadoop】9.MapReduce框架原理-OutputFormat数据输出的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/376425

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类(常规内部类)局部内部类(方法内部类)匿名内部类二、

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容:标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO(blocking I/O)NI

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Python GUI框架中的PyQt详解

《PythonGUI框架中的PyQt详解》PyQt是Python语言中最强大且广泛应用的GUI框架之一,基于Qt库的Python绑定实现,本文将深入解析PyQt的核心模块,并通过代码示例展示其应用场... 目录一、PyQt核心模块概览二、核心模块详解与示例1. QtCore - 核心基础模块2. QtWid