Hadoop3：MapReduce源码解读之Mapper阶段的FileInputFormat的切片原理（2）

2024-06-06 11:04

文章标签 源码切片原理解读阶段 mapper mapreduce hadoop3 fileinputformat

本文主要是介绍Hadoop3：MapReduce源码解读之Mapper阶段的FileInputFormat的切片原理（2），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Job那块的断点代码截图省略，直接进入切片逻辑
参考：Hadoop3：MapReduce源码解读之Mapper阶段的Job任务提交流程（1）

4、FileInputFormat切片源码解析

切片入口
在这里插入图片描述
获取切片

获取切片最大的Size和切片最小的Size

判断文件是否可以切片，如果文件不支持切片，则整体处理
这里只考虑支持切片的代码逻辑

根据切片大小配置，及块大小配置，计算出切片最终取值

此处可以看出，如果块大小配置在切片大小之间的值，则切片大小取块大小。
在这里插入图片描述
这里可以看出，切片是对每一个文件单独计算的，不是把所有文件累加到一起的大小进行计算切片数量。

切片的一个代码层面的处理逻辑。
如果，文件大小小于切片大小的1.1倍，则不增加切片。
然后根据splitSize值去划分数据块
在这里插入图片描述
生成临时切片文件

创建配置信息文件到临时文件夹中

总结

FileInputFormat类的继承关系
在这里插入图片描述
主要关注该类里面的getSplits方法

整体流程梳理

常用API

这篇关于Hadoop3：MapReduce源码解读之Mapper阶段的FileInputFormat的切片原理（2）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1035928。 23002807@qq.com

相关文章

Java编译生成多个.class文件的原理和作用

Java编译生成多个.class文件的原理和作用

《Java编译生成多个.class文件的原理和作用》作为一名经验丰富的开发者,在Java项目中执行编译后,可能会发现一个.java源文件有时会产生多个.class文件,从技术实现层面详细剖析这一现象... 目录一、内部类机制与.class文件生成成员内部类（常规内部类）局部内部类（方法内部类）匿名内部类二、

阅读更多...

java之Objects.nonNull用法代码解读

java之Objects.nonNull用法代码解读

《java之Objects.nonNull用法代码解读》：本文主要介绍java之Objects.nonNull用法代码,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录Java之Objects.nonwww.chinasem.cnNull用法代码Objects.nonN

阅读更多...

Python中随机休眠技术原理与应用详解

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

阅读更多...

Python实现无痛修改第三方库源码的方法详解

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

阅读更多...

Java的IO模型、Netty原理解析

Java的IO模型、Netty原理解析

《Java的IO模型、Netty原理解析》Java的I/O是以流的方式进行数据输入输出的,Java的类库涉及很多领域的IO内容：标准的输入输出,文件的操作、网络上的数据传输流、字符串流、对象流等,这篇... 目录1.什么是IO2.同步与异步、阻塞与非阻塞3.三种IO模型BIO（blocking I/O）NI

阅读更多...

SpringCloud负载均衡spring-cloud-starter-loadbalancer解读

SpringCloud负载均衡spring-cloud-starter-loadbalancer解读

《SpringCloud负载均衡spring-cloud-starter-loadbalancer解读》：本文主要介绍SpringCloud负载均衡spring-cloud-starter-loa... 目录简述主要特点使用负载均衡算法1. 轮询负载均衡策略（Round Robin）2. 随机负载均衡策略（

阅读更多...

解读spring.factories文件配置详情

解读spring.factories文件配置详情

《解读spring.factories文件配置详情》：本文主要介绍解读spring.factories文件配置详情,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录使用场景作用内部原理机制SPI机制Spring Factories 实现原理用法及配置spring.f

阅读更多...

Spring MVC使用视图解析的问题解读

Spring MVC使用视图解析的问题解读

《SpringMVC使用视图解析的问题解读》：本文主要介绍SpringMVC使用视图解析的问题解读,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Spring MVC使用视图解析1. 会使用视图解析的情况2. 不会使用视图解析的情况总结Spring MVC使用视图

阅读更多...

Linux中的进程间通信之匿名管道解读

Linux中的进程间通信之匿名管道解读

《Linux中的进程间通信之匿名管道解读》：本文主要介绍Linux中的进程间通信之匿名管道解读,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、基本概念二、管道1、温故知新2、实现方式3、匿名管道（一）管道中的四种情况（二）管道的特性总结一、基本概念我们知道多

阅读更多...

Spring 中 BeanFactoryPostProcessor 的作用和示例源码分析

Spring 中 BeanFactoryPostProcessor 的作用和示例源码分析

《Spring中BeanFactoryPostProcessor的作用和示例源码分析》Spring的BeanFactoryPostProcessor是容器初始化的扩展接口,允许在Bean实例化前... 目录一、概览1. 核心定位2. 核心功能详解3. 关键特性二、Spring 内置的 BeanFactory

阅读更多...