hadoop mr的一些文件归属(包括临时文件的存储情况)

2024-02-25 00:59

本文主要是介绍hadoop mr的一些文件归属(包括临时文件的存储情况),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

转载地址:http://blog.csdn.net/bxyz1203/article/details/8057810#comments

一、概述

一个计算的流程如下图所示,对于一个简单的wordcount的计算中,总共要经历哪些文件呢?本文将详细探讨这个话题。文章可能会重新编辑,如果想浏览最新内容请访问原创博客:http://blog.csdn.net/bxyz1203/article/details/8057810。由于作者个人知识面有限,如果描述有错误或者遗留之处敬请谅解,再欢迎指出,我们共同进步。

本文分析的是0.19.1版本。其实无论是哪个版本(除了最新的2)都差不多。


mr各种文件存储的大致目录:


二、文件存储分析
1、Client提交任务之前对此任务的一些初始化工作。
一般会在{mapred.system.dir}目录中写入job.jar、job.xml、job.split文件。
2、JobTracker初始化job的时候会从hdfs中拷贝job.xml、job.split文件,为了存储JobHistory日志及获得数据分片等一些数据。

在本地{mapred.local.dir}中存储job.xml。job.xml是client 的jobConf继承taskTracker的 jobConf得到的。

[python]  view plain copy
  1. -rw-r--r--  10 dragon.caol supergroup      14612 2012-10-10 19:19 /tmp/hadoop-dragon.caol/mapred/system/job_201210101858_0001/job.jar  
  2. -rw-r--r--   1 dragon.caol supergroup        166 2012-10-10 19:19 /tmp/hadoop-dragon.caol/mapred/system/job_201210101858_0001/job.split  
  3. -rw-r--r--   1 dragon.caol supergroup      17638 2012-10-10 19:19 /tmp/hadoop-dragon.caol/mapred/system/job_201210101858_0001/job.xml  
  4. drwxrwxrwx   - dragon.caol supergroup          0 2012-10-10 19:19 /tmp/hadoop-dragon.caol/mapred/system/job_201210101858_0001/libjars  
  5. -rw-------   1 dragon.caol supergroup          4 2012-10-10 18:59 /tmp/hadoop-dragon.caol/mapred/system/jobtracker.info  
3、TaskTracker通过心跳向JobTracker获得task后,一般是有四个task:jobsetup->map->reduce->jobclean。(对于比较简单的只有一个map与reduced的情况)对于任务的执行,map、reduce会执行一些用户的代码外,最终其实会落到OutputCommitter(其实这个也可以自定义的)的实现类上面。

jobsetup会从hdfs中拷贝job.jar、job.xml到{mapred.local.dir}中;后map、reduce的一些临时数据会存储到{mapred.local.dir}中;最后Jobclean会删除此job在TaskTracker的{mapred.local.dir}及{output}/_temporary中产生的一些临时数据。

3.1、对于map中间产生的一些临时数据。这些文件是由SpillThread线程生成的。包括 索引文件spill.n.out.index及数据文件spill.n.out等,这些文件的组织相对比较复杂。最后会被reduce调用http RESTful请求来获取。

3.2、对于reduce的一部分数据会存储到hdfs的output的_temporary中,当reduce完成时会转移最终生成文件到输出根目录。(当然对于一般的情况下,reduce开始的阶段会从map的临时文件中拷贝数据,所以一般reduce不完成,map产生的数据也不会被删除)

4、日志文件(过程中产生的,没有具体的步骤。)

4.1、JobHistory存储在{output}/_logs/history中,这个也是最后剩下在hdfs中的日志了。分为两部分,一个部分存储jobclient提交的job.xml;一部分存储执行过程中的数据。这个日志我们一般可以拿来分析任务的执行过程,例如导入Gridmix模拟线上场景做压力测试。注意这里存储的job.xml是client 的jobConf继承JobTracker的 jobConf得到的。

4.2、还有一些文件日志都是放在计算执行过程中的磁盘上,参见:附二。基本在{HADOOP_HOME}/logs文件中。此些是System.out/err及log4j产生的一些日志。对于map、reduce的任务,由于是用户自定义的,可能产生的日志量非常大,我们一般会限制日志输出的大小或者条数。



一个job执行完成,其实在{mapred.sysrem.dir}/{jobid}及{mapred.local.dir}/{jobid}数据都会删除的。最终剩下的也就是:{output}中的一些文件,一般包括:part-r-xxxxx最终结果文件及JobHistory;再就是在各个本地磁盘上面的log日志了。


ps:

附一:看下{mapred.local.dir}的目录结构<其中jobTracker、taskTracker分别在各自的机器上面>

[python]  view plain copy
  1. .  
  2. |-- jobTracker  
  3. |   `-- job_201210101610_0003.xml  
  4. `-- taskTracker  
  5.     `-- jobcache  
  6.         `-- job_201210101610_0003  
  7.             |-- attempt_201210101610_0003_m_000000_0  
  8.             |   |-- job.xml  
  9.             |   |-- output  
  10.             |   |   |-- file.out  
  11.             |   |   `-- file.out.index  
  12.             |   |-- pid  
  13.             |   `-- split.dta  
  14.             |-- attempt_201210101610_0003_m_000001_0  
  15.             |   |-- job.xml  
  16.             |   `-- work  
  17.             |-- jars  
  18.             |   |-- META-INF  
  19.             |   |   |-- MANIFEST.MF  
  20.             |   |           `-- Executor.class  
  21.             。。。。。。省去一些解压缩的文件  
  22.             |   `-- job.jar  
  23.             |-- job.xml  
  24.             `-- work  
附二:看下:logs目录: <其中 hadoop-dragon.caol-xxxx是由守护进程记录的日志,各自分散在自己的机器上;userlogs是由taskTracker产生的, 也是存储在taskTracker的机器上面;再其他都是存储在JobTracker上面。>

[python]  view plain copy
  1. .  
  2. |-- hadoop-dragon.caol-datanode-hd19-vm1.yunti.yh.aliyun.com.log  
  3. |-- hadoop-dragon.caol-datanode-hd19-vm1.yunti.yh.aliyun.com.out  
  4. |-- hadoop-dragon.caol-jobtracker-hd19-vm1.yunti.yh.aliyun.com.log  
  5. |-- hadoop-dragon.caol-jobtracker-hd19-vm1.yunti.yh.aliyun.com.out  
  6. |-- hadoop-dragon.caol-namenode-hd19-vm1.yunti.yh.aliyun.com.log  
  7. |-- hadoop-dragon.caol-namenode-hd19-vm1.yunti.yh.aliyun.com.out  
  8. |-- hadoop-dragon.caol-secondarynamenode-hd19-vm1.yunti.yh.aliyun.com.log  
  9. |-- hadoop-dragon.caol-secondarynamenode-hd19-vm1.yunti.yh.aliyun.com.out  
  10. |-- hadoop-dragon.caol-tasktracker-hd19-vm1.yunti.yh.aliyun.com.log  
  11. |-- hadoop-dragon.caol-tasktracker-hd19-vm1.yunti.yh.aliyun.com.out  
  12. |-- history  
  13. |   |-- h1_1349856617736_job_201210101610_0003_conf.xml  
  14. |   `-- h1_1349856617736_job_201210101610_0003_dragon.caol_word+count  
  15. |-- history.idx  
  16. |-- job_201210101610_0003_conf.xml  
  17. `-- userlogs  
  18.     `-- job_201210101610_0003  
  19.         |-- attempt_201210101610_0003_m_000000_0  
  20.         |   |-- log.index  
  21.         |   |-- stderr  
  22.         |   |-- stdout  
  23.         |   `-- syslog  
  24.         |-- attempt_201210101610_0003_m_000001_0  
  25.         |   |-- log.index  
  26.         |   |-- stderr  
  27.         |   |-- stdout  
  28.         |   `-- syslog  
  29.         |-- attempt_201210101610_0003_m_000002_0  
  30.         |   |-- log.index  
  31.         |   |-- stderr  
  32.         |   |-- stdout  
  33.         |   `-- syslog  
  34.         `-- attempt_201210101610_0003_r_000000_0  
  35.             |-- log.index  
  36.             |-- stderr  
  37.             |-- stdout  
  38.             `-- syslog  

这篇关于hadoop mr的一些文件归属(包括临时文件的存储情况)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/743948

相关文章

使用JavaScript操作本地存储

《使用JavaScript操作本地存储》这篇文章主要为大家详细介绍了JavaScript中操作本地存储的相关知识,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考一下... 目录本地存储:localStorage 和 sessionStorage基本使用方法1. localStorage

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

速了解MySQL 数据库不同存储引擎

快速了解MySQL 数据库不同存储引擎 MySQL 提供了多种存储引擎,每种存储引擎都有其特定的特性和适用场景。了解这些存储引擎的特性,有助于在设计数据库时做出合理的选择。以下是 MySQL 中几种常用存储引擎的详细介绍。 1. InnoDB 特点: 事务支持:InnoDB 是一个支持 ACID(原子性、一致性、隔离性、持久性)事务的存储引擎。行级锁:使用行级锁来提高并发性,减少锁竞争

ORACLE语法-包(package)、存储过程(procedure)、游标(cursor)以及java对Result结果集的处理

陈科肇 示例: 包规范 CREATE OR REPLACE PACKAGE PACK_WMS_YX IS-- Author : CKZ-- Created : 2015/8/28 9:52:29-- Purpose : 同步数据-- Public type declarations,游标 退休订单TYPE retCursor IS REF CURSOR;-- RETURN vi_co_co

如何保证android程序进程不到万不得已的情况下,不会被结束

最近,做一个调用系统自带相机的那么一个功能,遇到的坑,在此记录一下。 设备:红米note4 问题起因 因为自定义的相机,很难满足客户的所有需要,比如:自拍杆的支持,优化方面等等。这些方面自定义的相机都不比系统自带的好,因为有些系统都是商家定制的,难免会出现一个奇葩的问题。比如:你在这款手机上运行,无任何问题,然而你换一款手机后,问题就出现了。 比如:小米的红米系列,你启用系统自带拍照功能后