自定义InputFormat和OutputFormat案例

2023-12-14 06:18

本文主要是介绍自定义InputFormat和OutputFormat案例,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、自定义InputFormat

  InputFormat是输入流,在前面的例子中使用的是文件输入输出流FileInputFormat和FileOutputFormat,而FileInputFormat和FileOutputFormat它们默认使用的是继承它们的子类TextInputFormat和TextOutputFormat,以Text的方式去读取数据。

  当我们遇到许多小文件,要将他们整理合成为一个文件SequenceFile(存储了多个小文件),且文件内的存储格式为:文件路径+文件内容,这时我们可以通过封装自定义的InputFormat输入流来实现需求。

  思路如下:

    1.自定义FuncFileInputFormat类继承FileInputFormat(参数类型为NullWritable和BytesWritable),并重写isSplitable和createRecordReader方法;

    2.isSplitable方法中return false即可表示不切割,createRecordReader方法中要返回一个RecordReader类,这是我们要自定义的对输入文件的业务逻辑,所以创建FuncRecordReader类;

    3.FuncRecordReader类继承RecordReader类,参数类型同为NullWritable和BytesWritable,重写initialize、nextKeyValue、getCurrentKey、getCurrentValue、getProcess、close方法;

    4.Mapper:初始化setup方法,通过context拿到切片、获取路径、将路径写入定义的全局变量Text t,然后在map阶段将t和value输出到reducer;

    5.Reducer:遍历values,输出key,value;

    6.Driver:在设置完Mapper和Reducer类后,添加设置setInputFormatClass为FuncFileInputFormat、设置setOutputFormatClass为SequenceFileOutputFormat。

  代码如下:

/*** @author: PrincessHug* @date: 2019/3/29, 20:49* @Blog: https://www.cnblogs.com/HelloBigTable/*/
public class FuncFileInputFormat extends FileInputFormat<NullWritable, BytesWritable> {@Overrideprotected boolean isSplitable(JobContext context, Path filename) {return false;}@Overridepublic RecordReader<NullWritable, BytesWritable> createRecordReader(InputSplit inputSplit, TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {FuncRecordReader recordReader = new FuncRecordReader();return recordReader;}
}public class FuncRecordReader  extends RecordReader<NullWritable, BytesWritable> {boolean isProcess = false;FileSplit split;Configuration conf;BytesWritable value = new BytesWritable();//初始化@Overridepublic void initialize(InputSplit inputSplit, TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {//初始化切片文件this.split = (FileSplit) inputSplit;//初始化配置信息conf = taskAttemptContext.getConfiguration();}//获取下一个文件@Overridepublic boolean nextKeyValue() throws IOException, InterruptedException {if (!isProcess){//根据切片的长度来创建缓冲区byte[] buf = new byte[(int) split.getLength()];FSDataInputStream fis = null;FileSystem fs = null;try {//获取路径Path path = split.getPath();//根据路径获取文件系统fs = path.getFileSystem(conf);//拿到输入流fis = fs.open(path);//数据拷贝IOUtils.readFully(fis,buf,0,buf.length);//拷贝缓存到最终的输出value.set(buf,0,buf.length);} catch (IOException e) {e.printStackTrace();} finally {IOUtils.closeStream(fis);IOUtils.closeStream(fs);}isProcess = true;return true;}return false;}@Overridepublic NullWritable getCurrentKey() throws IOException, InterruptedException {return NullWritable.get();}@Overridepublic BytesWritable getCurrentValue() throws IOException, InterruptedException {return value;}@Overridepublic float getProgress() throws IOException, InterruptedException {return 0;}@Overridepublic void close() throws IOException {}
}public class SequencceFileMapper extends Mapper<NullWritable, BytesWritable, Text,BytesWritable> {Text t = new Text();@Overrideprotected void setup(Context context) throws IOException, InterruptedException {//拿到切片信息FileSplit split = (FileSplit) context.getInputSplit();//路径Path path = split.getPath();//即带路径有待名称t.set(path.toString());}@Overrideprotected void map(NullWritable key, BytesWritable value, Context context) throws IOException, InterruptedException {context.write(t,value);}
}public class SequenceFileReducer extends Reducer<Text, BytesWritable,Text,BytesWritable> {@Overrideprotected void reduce(Text key, Iterable<BytesWritable> values, Context context) throws IOException, InterruptedException {for (BytesWritable v:values){context.write(key,v);}}
}public class SequenceFileDriver {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {//1.获取job信息Configuration conf = new Configuration();Job job = Job.getInstance(conf);//2.获取Jar包job.setJarByClass(SequenceFileDriver.class);//3.获取Mapper、Redcuer类job.setMapperClass(SequencceFileMapper.class);job.setReducerClass(SequenceFileReducer.class);//4.设置自定义读取方法job.setInputFormatClass(FuncFileInputFormat.class);//5.设置默认的输出方式job.setOutputFormatClass(SequenceFileOutputFormat.class);//6.获取Mapper输出数据类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(BytesWritable.class);//7.获取Reducer输出数据类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(BytesWritable.class);//8.设置输入存在的路径与处理后的结果路径FileInputFormat.setInputPaths(job,new Path("G:\\mapreduce\\inputformat\\in"));FileOutputFormat.setOutputPath(job,new Path("G:\\mapreduce\\inputformat\\out"));//9.提交任务if (job.waitForCompletion(true)){System.out.println("运行完成!");}else {System.out.println("运行失败!");}}
}

 

  

二、自定义OutputFormat

  需求:目前我们有一个网站ip的文件,每行都有一个网站的ip地址,要求我们将含有“www.baidu.com”的ip地址取出放入一个结果文件,其他的地址放入另一个结果文件。

  思路:1.首先Mapper、Reduer就是简单的读取数据、写出数据;

    2.自定义FuncFileOutputFormat,重写它的getRecordWriter方法,返回一个FIleRecordWriter对象,这里我们再定义一个FileRecordWriter,重写FileRecordWriter、write、close方法;

    3.Driver:再设置Reducer输出后添加设置setOutputFormatClass为我们自定义的FuncFileOutputFormat即可;

  代码如下:

/*** @author: PrincessHug* @date: 2019/3/30, 14:44* @Blog: https://www.cnblogs.com/HelloBigTable/*/
public class FileMapper extends Mapper<LongWritable, Text, IntWritable, Text> {@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {context.write(new IntWritable(1),new value);}
}public class FileReducer extends Reducer<IntWritable, Text,Text,NullWritable> {@Overrideprotected void reduce(IntWritable key, Iterable<Text> values, Context context) throws IOException, InterruptedException {for (Text k:values){String s = k.toString() + "\n";context.write(new Text(s),NullWritable.get());}}
}public class FuncFileOutputFormat extends FileOutputFormat<Text, NullWritable> {@Overridepublic RecordWriter<Text, NullWritable> getRecordWriter(TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {return new FileRecordWriter(taskAttemptContext);}
}public class FileRecordWriter extends RecordWriter<Text, NullWritable> {Configuration conf = null;FSDataOutputStream baidulog = null;FSDataOutputStream otherlog = null;//定义数据输出路径public FileRecordWriter(TaskAttemptContext taskAttemptContext) throws IOException {//获取配置信息和文件系统conf = taskAttemptContext.getConfiguration();FileSystem fs = FileSystem.get(conf);//定义输出路径itstarlog = fs.create(new Path("G:\\mapreduce\\outputformat\\out\\itstart\\baidu.logs"));otherlog = fs.create(new Path("G:\\mapreduce\\outputformat\\out\\other\\other.logs"));}//数据输出@Overridepublic void write(Text key, NullWritable value) throws IOException, InterruptedException {if (key.toString().contains("baidu")){baidulog.write(key.getBytes());}else {otherlog.write(key.getBytes());}}//关闭资源@Overridepublic void close(TaskAttemptContext taskAttemptContext) throws IOException, InterruptedException {if (itstarlog != null){itstarlog.close();}if (otherlog != null){otherlog.close();}}
}public class FileDriver {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {//配置、jobConfiguration conf = new Configuration();Job job = Job.getInstance(conf);//jar包job.setJarByClass(FileDriver.class);//Mapper、Reducerjob.setMapperClass(FileMapper.class);job.setReducerClass(FileReducer.class);//Mapper输出job.setMapOutputKeyClass(IntWritable.class);job.setMapOutputValueClass(Text.class);//Reudcer输出job.setOutputKeyClass(Text.class);job.setOutputValueClass(NullWritable.class);//自定义输出类job.setOutputFormatClass(FuncFileOutputFormat.class);//文件输入输出流FileInputFormat.setInputPaths(job,new Path("G:\\mapreduce\\outputformat\\in"));FileOutputFormat.setOutputPath(job,new Path("G:\\mapreduce\\outputformat\\out"));//提交任务if (job.waitForCompletion(true)){System.out.println("运行完成!");}else {System.out.println("运行失败!");}}
}

  

 

转载于:https://www.cnblogs.com/HelloBigTable/p/10638866.html

这篇关于自定义InputFormat和OutputFormat案例的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/491432

相关文章

Python中re模块结合正则表达式的实际应用案例

《Python中re模块结合正则表达式的实际应用案例》Python中的re模块是用于处理正则表达式的强大工具,正则表达式是一种用来匹配字符串的模式,它可以在文本中搜索和匹配特定的字符串模式,这篇文章主... 目录前言re模块常用函数一、查看文本中是否包含 A 或 B 字符串二、替换多个关键词为统一格式三、提

Python get()函数用法案例详解

《Pythonget()函数用法案例详解》在Python中,get()是字典(dict)类型的内置方法,用于安全地获取字典中指定键对应的值,它的核心作用是避免因访问不存在的键而引发KeyError错... 目录简介基本语法一、用法二、案例:安全访问未知键三、案例:配置参数默认值简介python是一种高级编

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

Java实现自定义table宽高的示例代码

《Java实现自定义table宽高的示例代码》在桌面应用、管理系统乃至报表工具中,表格(JTable)作为最常用的数据展示组件,不仅承载对数据的增删改查,还需要配合布局与视觉需求,而JavaSwing... 目录一、项目背景详细介绍二、项目需求详细介绍三、相关技术详细介绍四、实现思路详细介绍五、完整实现代码

一文详解Java Stream的sorted自定义排序

《一文详解JavaStream的sorted自定义排序》Javastream中的sorted方法是用于对流中的元素进行排序的方法,它可以接受一个comparator参数,用于指定排序规则,sorte... 目录一、sorted 操作的基础原理二、自定义排序的实现方式1. Comparator 接口的 Lam

从入门到精通MySQL 数据库索引(实战案例)

《从入门到精通MySQL数据库索引(实战案例)》索引是数据库的目录,提升查询速度,主要类型包括BTree、Hash、全文、空间索引,需根据场景选择,建议用于高频查询、关联字段、排序等,避免重复率高或... 目录一、索引是什么?能干嘛?核心作用:二、索引的 4 种主要类型(附通俗例子)1. BTree 索引(

HTML中meta标签的常见使用案例(示例详解)

《HTML中meta标签的常见使用案例(示例详解)》HTMLmeta标签用于提供文档元数据,涵盖字符编码、SEO优化、社交媒体集成、移动设备适配、浏览器控制及安全隐私设置,优化页面显示与搜索引擎索引... 目录html中meta标签的常见使用案例一、基础功能二、搜索引擎优化(seo)三、社交媒体集成四、移动

六个案例搞懂mysql间隙锁

《六个案例搞懂mysql间隙锁》MySQL中的间隙是指索引中两个索引键之间的空间,间隙锁用于防止范围查询期间的幻读,本文主要介绍了六个案例搞懂mysql间隙锁,具有一定的参考价值,感兴趣的可以了解一下... 目录概念解释间隙锁详解间隙锁触发条件间隙锁加锁规则案例演示案例一:唯一索引等值锁定存在的数据案例二:

如何自定义一个log适配器starter

《如何自定义一个log适配器starter》:本文主要介绍如何自定义一个log适配器starter的问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求Starter 项目目录结构pom.XML 配置LogInitializer实现MDCInterceptor

MySQL 表的内外连接案例详解

《MySQL表的内外连接案例详解》本文给大家介绍MySQL表的内外连接,结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录表的内外连接(重点)内连接外连接表的内外连接(重点)内连接内连接实际上就是利用where子句对两种表形成的笛卡儿积进行筛选,我