Hadoop 1.x的Shuffle源码分析之3

2024-06-11 09:58
文章标签 分析 源码 hadoop shuffle

本文主要是介绍Hadoop 1.x的Shuffle源码分析之3,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

shuffle有两种,一种是在内存存储数据,另一种是在本地文件存储数据,两者几乎一致。


以本地文件进行shuffle的过程为例:

mapOutput = shuffleToDisk(mapOutputLoc, input, filename, compressedLength)

shuffleToDisk函数如下:

private MapOutput shuffleToDisk(MapOutputLocation mapOutputLoc,InputStream input,Path filename,long mapOutputLength) throws IOException {
        // Find out a suitable location for the output on local-filesystem
        //在本地文件系统做输出,输出文件的pathPath localFilename = lDirAlloc.getLocalPathForWrite(filename.toUri().getPath(), mapOutputLength, conf);
        //创建Map输出MapOutput mapOutput = new MapOutput(mapOutputLoc.getTaskId(), mapOutputLoc.getTaskAttemptId(), conf, localFileSys.makeQualified(localFilename), mapOutputLength);// Copy data to local-disk
        //从input读取数据,写入到本地文件,这个input是http连接创建的流式输入OutputStream output = null;long bytesRead = 0;try {output = rfs.create(localFilename);byte[] buf = new byte[64 * 1024];int n = -1;try {n = input.read(buf, 0, buf.length);} catch (IOException ioe) {readError = true;throw ioe;}while (n > 0) {bytesRead += n;shuffleClientMetrics.inputBytes(n);output.write(buf, 0, n);// indicate we're making progressreporter.progress();try {n = input.read(buf, 0, buf.length);} catch (IOException ioe) {readError = true;throw ioe;}}LOG.info("Read " + bytesRead + " bytes from map-output for " +mapOutputLoc.getTaskAttemptId());
          //正常取完数据,关闭。output.close();input.close();} catch (IOException ioe) {LOG.info("Failed to shuffle from " + mapOutputLoc.getTaskAttemptId(), ioe);// Discard the map-output
          try {mapOutput.discard();} catch (IOException ignored) {LOG.info("Failed to discard map-output from " + mapOutputLoc.getTaskAttemptId(), ignored);}mapOutput = null;// Close the streamsIOUtils.cleanup(LOG, input, output);// Re-throwthrow ioe;}// Sanity check
        //检查读取是否正常if (bytesRead != mapOutputLength) {try {mapOutput.discard();} catch (Exception ioe) {// IGNORED because we are cleaning upLOG.info("Failed to discard map-output from " + mapOutputLoc.getTaskAttemptId(), ioe);} catch (Throwable t) {String msg = getTaskID() + " : Failed in shuffle to disk :" + StringUtils.stringifyException(t);reportFatalError(getTaskID(), t, msg);}mapOutput = null;throw new IOException("Incomplete map output received for " +mapOutputLoc.getTaskAttemptId() + " from " +mapOutputLoc.getOutputLocation() + " (" + bytesRead + " instead of " + mapOutputLength + ")");}return mapOutput;}

所以说,这一段shuffle的本质就是,从http的输入流读取数据,然后存放在本地文件系统的磁盘文件,写完之后,把taskId, jobid,本地文件名等等诸多参数放在MapOutput对象记录下来,然后返回一个MapOutput对象。


java的代码很直接,没有花花绕的东东,除了略有一点冗长,实在没什么缺点  :)

这篇关于Hadoop 1.x的Shuffle源码分析之3的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1050845

相关文章

[职场] 公务员的利弊分析 #知识分享#经验分享#其他

公务员的利弊分析     公务员作为一种稳定的职业选择,一直备受人们的关注。然而,就像任何其他职业一样,公务员职位也有其利与弊。本文将对公务员的利弊进行分析,帮助读者更好地了解这一职业的特点。 利: 1. 稳定的职业:公务员职位通常具有较高的稳定性,一旦进入公务员队伍,往往可以享受到稳定的工作环境和薪资待遇。这对于那些追求稳定的人来说,是一个很大的优势。 2. 薪资福利优厚:公务员的薪资和

springboot家政服务管理平台 LW +PPT+源码+讲解

3系统的可行性研究及需求分析 3.1可行性研究 3.1.1技术可行性分析 经过大学四年的学习,已经掌握了JAVA、Mysql数据库等方面的编程技巧和方法,对于这些技术该有的软硬件配置也是齐全的,能够满足开发的需要。 本家政服务管理平台采用的是Mysql作为数据库,可以绝对地保证用户数据的安全;可以与Mysql数据库进行无缝连接。 所以,家政服务管理平台在技术上是可以实施的。 3.1

高仿精仿愤怒的小鸟android版游戏源码

这是一款很完美的高仿精仿愤怒的小鸟android版游戏源码,大家可以研究一下吧、 为了报复偷走鸟蛋的肥猪们,鸟儿以自己的身体为武器,仿佛炮弹一样去攻击肥猪们的堡垒。游戏是十分卡通的2D画面,看着愤怒的红色小鸟,奋不顾身的往绿色的肥猪的堡垒砸去,那种奇妙的感觉还真是令人感到很欢乐。而游戏的配乐同样充满了欢乐的感觉,轻松的节奏,欢快的风格。 源码下载

高度内卷下,企业如何通过VOC(客户之声)做好竞争分析?

VOC,即客户之声,是一种通过收集和分析客户反馈、需求和期望,来洞察市场趋势和竞争对手动态的方法。在高度内卷的市场环境下,VOC不仅能够帮助企业了解客户的真实需求,还能为企业提供宝贵的竞争情报,助力企业在竞争中占据有利地位。 那么,企业该如何通过VOC(客户之声)做好竞争分析呢?深圳天行健企业管理咨询公司解析如下: 首先,要建立完善的VOC收集机制。这包括通过线上渠道(如社交媒体、官网留言

基于Java医院药品交易系统详细设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W+,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码+数据库🌟 感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,希望帮助更多的人  Java精品实战案例《600套》 2023-2025年最值得选择的Java毕业设计选题大全:1000个热

美容美发店营销版微信小程序源码

打造线上生意新篇章 一、引言:微信小程序,开启美容美发行业新纪元 在数字化时代,微信小程序以其便捷、高效的特点,成为了美容美发行业营销的新宠。本文将带您深入了解美容美发营销微信小程序,探讨其独特优势及如何助力商家实现业务增长。 二、微信小程序:美容美发行业的得力助手 拓宽客源渠道:微信小程序基于微信社交平台,轻松实现线上线下融合,帮助商家快速吸引潜在客户,拓宽客源渠道。 提升用户体验:

风水研究会官网源码系统-可展示自己的领域内容-商品售卖等

一款用于展示风水行业,周易测算行业,玄学行业的系统,并支持售卖自己的商品。 整洁大气,非常漂亮,前端内容均可通过后台修改。 大致功能: 支持前端内容通过后端自定义支持开启关闭会员功能,会员等级设置支持对接官方支付支持添加商品类支持添加虚拟下载类支持自定义其他类型字段支持生成虚拟激活卡支持采集其他站点文章支持对接收益广告支持文章评论支持积分功能支持推广功能更多功能,搭建完成自行体验吧! 原文

HTML5文旅文化旅游网站模板源码

文章目录 1.设计来源文旅宣传1.1 登录界面演示1.2 注册界面演示1.3 首页界面演示1.4 文旅之行界面演示1.5 文旅之行文章内容界面演示1.6 关于我们界面演示1.7 文旅博客界面演示1.8 文旅博客文章内容界面演示1.9 联系我们界面演示 2.效果和源码2.1 动态效果2.2 源代码2.3 源码目录 源码下载万套模板,程序开发,在线开发,在线沟通 作者:xcLeigh

打包体积分析和优化

webpack分析工具:webpack-bundle-analyzer 1. 通过<script src="./vue.js"></script>方式引入vue、vuex、vue-router等包(CDN) // webpack.config.jsif(process.env.NODE_ENV==='production') {module.exports = {devtool: 'none

Java中的大数据处理与分析架构

Java中的大数据处理与分析架构 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们来讨论Java中的大数据处理与分析架构。随着大数据时代的到来,海量数据的存储、处理和分析变得至关重要。Java作为一门广泛使用的编程语言,在大数据领域有着广泛的应用。本文将介绍Java在大数据处理和分析中的关键技术和架构设计。 大数据处理与