lzo格式作为输入时调整map个数

2024-05-05 08:38

文章标签 输入格式 map 个数调整 lzo

本文主要是介绍lzo格式作为输入时调整map个数，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

普通文本文件作为mapreduce的输入时调整map个数需调整

mapred.min.split.size和 mapred.max.split.size

mapred.min.split.size是每个map的大小的最小值，而map的大小不能超过 mapred.max.split.size且不超过blocksize,因此map的大小是 Math.max(minSize, Math.min(maxSize, blockSize))

但是输入为LZO压缩格式时，还需要一些额外的设置。

用java编写mapreduce程序时，lzo格式作为输入跟用文本作为输入一样，可以把lzo文件当做文本直接使用，但是一个lzo文件会分在一个map上，如果lzo文件过大，希望用多个map时，调整 mapred.min.split.size和 mapred.max.split.size就不好使了。

解决方法：

lzo文件建索引，索引文件与lzo文件同名，后缀为.index，与lzo文件放在同一hdfs目录下

设置job的inputformat:默认的是TextInputFormat，这里要改成job.setInputFormatClass(LzoTextInputFormat.class)

加入头文件：import com.hadoop.mapreduce.LzoTextInputFormat。该头文件在hadoop-lzo-0.4.14.jar中。

加上这些之后，再设置 mapred.min.split.size和 mapred.max.split.size就可以调整map个数了

这篇关于lzo格式作为输入时调整map个数的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/961273。 23002807@qq.com

相关文章

使用C++将处理后的信号保存为PNG和TIFF格式

使用C++将处理后的信号保存为PNG和TIFF格式

《使用C++将处理后的信号保存为PNG和TIFF格式》在信号处理领域,我们常常需要将处理结果以图像的形式保存下来,方便后续分析和展示,C++提供了多种库来处理图像数据,本文将介绍如何使用stb_ima... 目录1. PNG格式保存使用stb_imagephp_write库1.1 安装和包含库1.2 代码解

阅读更多...

Go语言利用泛型封装常见的Map操作

Go语言利用泛型封装常见的Map操作

《Go语言利用泛型封装常见的Map操作》Go语言在1.18版本中引入了泛型,这是Go语言发展的一个重要里程碑,它极大地增强了语言的表达能力和灵活性,本文将通过泛型实现封装常见的Map操作,感... 目录什么是泛型泛型解决了什么问题Go泛型基于泛型的常见Map操作代码合集总结什么是泛型泛型是一种编程范式，允

阅读更多...

JSON字符串转成java的Map对象详细步骤

JSON字符串转成java的Map对象详细步骤

《JSON字符串转成java的Map对象详细步骤》：本文主要介绍如何将JSON字符串转换为Java对象的步骤,包括定义Element类、使用Jackson库解析JSON和添加依赖,文中通过代码介绍... 目录步骤 1: 定义 Element 类步骤 2: 使用 Jackson 库解析 jsON步骤 3: 添

阅读更多...

Java中List转Map的几种具体实现方式和特点

Java中List转Map的几种具体实现方式和特点

《Java中List转Map的几种具体实现方式和特点》：本文主要介绍几种常用的List转Map的方式,包括使用for循环遍历、Java8StreamAPI、ApacheCommonsCollect... 目录前言1、使用for循环遍历：2、Java8 Stream API：3、Apache Commons

阅读更多...

IDEA如何将String类型转json格式

IDEA如何将String类型转json格式

《IDEA如何将String类型转json格式》在Java中,字符串字面量中的转义字符会被自动转换,但通过网络获取的字符串可能不会自动转换,为了解决IDEA无法识别JSON字符串的问题,可以在本地对字... 目录问题描述问题原因解决方案总结问题描述最近做项目需要使用Ai生成json，可生成String类型

阅读更多...

spoj705( 求不相同的子串个数)

spoj705( 求不相同的子串个数)

题意：求串s的不同子串的个数解题思路：任何子串都是某个后缀的前缀，对n个后缀排序，求某个后缀的前缀的个数，减去height[i](第i个后缀与第i-1 个后缀有相同的height[i]个前缀)。代码如下： #include<iostream>#include<algorithm>#include<stdio.h>#include<math.h>#include<cstrin

阅读更多...

【测试】输入正确用户名和密码，点击登录没有响应的可能性原因

【测试】输入正确用户名和密码，点击登录没有响应的可能性原因

目录一、前端问题 1. 界面交互问题 2. 输入数据校验问题二、网络问题 1. 网络连接中断 2. 代理设置问题三、后端问题 1. 服务器故障 2. 数据库问题 3. 权限问题：四、其他问题 1. 缓存问题 2. 第三方服务问题 3. 配置问题一、前端问题 1. 界面交互问题登录按钮的点击事件未正确绑定，导致点击后无法触发登录操作。页面可能存在

阅读更多...

XTU 1233 n个硬币连续m个正面个数（dp）

XTU 1233 n个硬币连续m个正面个数（dp）

题面： Coins Problem Description: Duoxida buys a bottle of MaiDong from a vending machine and the machine give her n coins back. She places them in a line randomly showing head face or tail face o

阅读更多...

easyui同时验证账户格式和ajax是否存在

easyui同时验证账户格式和ajax是否存在

accountName: {validator: function (value, param) {if (!/^[a-zA-Z][a-zA-Z0-9_]{3,15}$/i.test(value)) {$.fn.validatebox.defaults.rules.accountName.message = '账户名称不合法（字母开头，允许4-16字节，允许字母数字下划线）';return fal

阅读更多...

Collection List Set Map的区别和联系

Collection List Set Map的区别和联系

Collection List Set Map的区别和联系这些都代表了Java中的集合，这里主要从其元素是否有序，是否可重复来进行区别记忆，以便恰当地使用，当然还存在同步方面的差异，见上一篇相关文章。有序否允许元素重复否 Collection 否是 List 是是 Set AbstractSet 否

阅读更多...