【Hadoop】知识点总结、大学期末复习

2024-08-22 15:44

本文主要是介绍【Hadoop】知识点总结、大学期末复习,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述

  • 博主简介:努力学习的22级计算机科学与技术本科生一枚🌸
  • 博主主页: @Yaoyao2024
  • 往期回顾: 【论文精读】上交大、上海人工智能实验室等提出基于配准的少样本异常检测框架超详细解读(翻译+精读)
  • 每日一言🌼: 人只有知道自己无知后,才能从骨子里谦和起来,不再恃才傲物,不再咄咄逼人。 – 莫言

0、前言:

  • Map:每次对一行数据进行操作
  • Reduce:对具有同一个key的所有k-v进行操作

单选和多选略,已上传到资源

一、单选

二、多选

三、简答题

1. Hadoop启动的进程有哪些?

请列出正常工作的hadoop集群中Hadoop都分别需要启动哪些进程,他
们的作用分别是什么,尽可能的全面些。

  • NameNode(维转):1NameNode 是 HDFS 中的主节点,负责维护文件系统的元数据(如文件目录结构、文件块与 DataNode 的映射关系等)。2它不接受客户端的读写请求,而是将请求转发给DataNode,并协调数据的读写操作
  • SecondNameNode(冷备):冷备,对一定范围内数据做快照性备份
  • Datanode(实存读写发心跳):1DataNode 是 HDFS 中的从节点,负责存储实际的数据块2客户端通过与 NameNode通信获取数据块的存储位置,然后直接与 DataNode 进行数据的读写操作3DataNode 还会定期向 NameNode 发送心跳信息,以报告自身的状态数据块的完整性
  • ResourceManager(资源管理调度又监控):1资源管理:管理集群的计算资源;2任务调度:根据资源可用性和调度策略,将任务分配给合适的节点;3监控Applicationmager:监控其状态,并在其失败时重启它。
  • NodeManager:是 yarn 中每个节点上的代理,它管理 hadoop 集群中单个计算节点,包括与 resoucemanager 保持通信监督 container 的生命周期管理,监控每个 container 的资源使用(内存、cpu 等)情况,追踪节点健康状况,管理日志和不同应用程序用到的附属服务。

2. Hadoop调度器(schedular)

  • FIFO Schedular先进先出(默认)
  • Capacity Schedular:计算能力调度器,选择占用最小,优先级高的先执行
  • Fair Schedular:公平调度,所有的Job具有相同的资源

3. 执行流程图

3.1Hdfs读流程

在这里插入图片描述

  1. 首先1.open,客户端打开分布式文件系统
  2. 与Namenode交互2.read:客户端像namenode发送请求,获取要读取文件的位置信息,包括组成该文件的所有数据块,以及它们的Datanode所在地址
  3. 3.read:得到文件数据块信息后,客户端会通过输入流和DataNode进行交互以读取数据
  4. 4,5:客户端会并行地从多个DataNode读取数据,以提高读取效率;在本地重新组装文件,还原原始文件
  5. 6.close:文件读取完毕后,客户端关闭与DatanodeNameNode的连接

3.2Hdfs写流程

在这里插入图片描述

写:
1 客户端向NameNode发送写入文件的请求

2 NameNode响应请求:检查自身是否正常运行,判断要创建的文件是否存在客户端是否拥有创建文件的权限。如果以上检查均通过,NameNode会在HDFS文件系统中创建一个空文件,并把这一操作记录在edits.log中。如果检查中有任何一项没有通过,则NameNode会向客户端抛异常,文件创建失败。

3 文件切分:客户端将待写入的文件分成固定大小的数据块(128M)。每个数据库都会被分配一个唯一的块标识符/

4 数据块副本选择:在写入数据块之前,客户端需要选择数据库的副本位置。这通常是基于HDFS的副本放置策略,旨在减少数据的传播的开销和延迟。

5 数据块写入:客户端将数据块分别发送给副本所在的DataNode。DataNode接收到数据块后,会将数据块暂存到本地磁盘的临时文件上。

6 数据块复制。一旦数据块被写入到了一个DataNode的临时文件中。该DataNode会将其复制到其他副本位置所在的DataNode上

7 副本确认:当所有副本都完成数据写入后,DataNode会向客户端发送副本确认信息。客户端收到所有副本确认信息后,将告知NameNode数据块写入完成

3.3Mapreduce的执行过程

在这里插入图片描述

  • Map任务,5个步骤:
    1. split 的目的是将一个原始文件分成多个文件,分别交由不同的 map 节点处理
    2. map
    1. buffer in memory内存溢出,写入磁盘
    2. partition sort and spill to disk
    3. combine:每个 map 任务执行过程中有可能会溢写生成多个文件,而 map 任务结束 后需要将结果传到 reduce 任务节点,为提高效率需在网络传输文件前将多个小文件 合并成大文件,combine 是 map 节点本地 reduce 过程。

  1. 输入阶段:MapReduce 作业从 HDFS 或其他输入源读取数据。
  2. Map 阶段:Map 任务将输入数据划分为多个键值对,并对其进行处理。处理结果作为中间键值对输出到本地磁盘
  3. Shuffle 阶段:MapReduce 框架将 Map 任务输出的中间键值对按照进行排序和分组,并将相同键的值传递给 Reduce 任务。
  4. Reduce 阶段:Reduce 任务接收 Shuffle 阶段传递过来的键值对,对它们进行聚合处理,并将结果输出到 HDFS 或其他输出源
  5. 输出阶段:MapReduce 作业将 Reduce 任务输出的结果存储到 HDFS 或其他输出目标。

Reduce阶段:四个步骤Merge-----sort-------reduce-----output

在这里插入图片描述

4.MapReduce中combiner,partition作用

  • Partition(分区发送便聚合):分区,对Map输出的键值对结果根据键的哈希值或其他逻辑将数据划分进行分区,决定Mapper生成的中间结果中,每条记录应该送往哪个reducer节点。这种设计可以确保具有相同键的数据被发送到同一个 Reducer 进行处理,从而便于在 Reduce阶段进行聚合操作。
  • Combiner(合并减宽减计算):相当于一个Local Reducer,通常和Reduce的逻辑差不多,在Map输出阶段合并相同key对应的value。有两个作用
    1. 减少网络带宽:减少从MapReduce的数据传输量
    2. 减少Reduce计算量,提高执行效率

5. 内部表与外部表区别(从创建和删除的角度)。

  • 创建表阶段:外部表创建表的时候,不会移动数到数据仓库目录中(/user/hive/warehouse),只会记录表数据存放的路径, 内部表会把数据复制或剪切到表的目录下。
  • 删除表阶段:
    外部表在删除表的时候只会删除表的元数据信息不会删除表数据,内部表删除时会将元数据信息和表数据同时删除

6.Hadoop 的 2 个主要组件及其功能

Hadoop 主要由两个核心组件组成:Hadoop Distributed File System (HDFS) 和 MapReduce。

  • HDFS(管理存储主从架):Hadoop 的分布式文件系统,用于存储和管理大数据集。它采用主/从架构,包括一个 NameNode(主节点)和多个 DataNode(从节点)。NameNode 管理文件系统的元数据,而 DataNode 存储实际的数据块。
  • MapReduce(编程架构处数据):Hadoop 的编程框架,用于处理存储在 HDFS 中的大数据。它将复杂的数据处理任务分解为两个主要阶段:Map 阶段和 Reduce 阶段。Map 阶段将数据划分为多个键值对,Reduce 阶段则对这些键值对进行聚合和输出

7.NameNode 和 DataNode 分别承担什么角色?

  • NameNode(维转):1NameNode 是 HDFS 中的主节点,负责维护文件系统的元数据(如文件目录结构、文件块与 DataNode 的映射关系等)。2它不接受客户端的读写请求,而是将请求转发给DataNode,并协调数据的读写操作

  • Datanode(实存、读写、发心跳):1DataNode 是 HDFS 中的从节点,负责存储实际的数据块2客户端通过与 NameNode通信获取数据块的存储位置,然后直接与 DataNode 进行数据的读写操作3DataNode 还会定期向 NameNode 发送心跳信息,以报告自身的状态数据块的完整性

8.单点故障问题

Hadoop 集群中的 NameNode 单点故障问题可以通过设置 NameNode 的高可用(HA) 来解决。HA 配置使用两个 NameNode 实例,一个处于活动状态(Active),另一个处于备用状态(Standby)。当活动 NameNode 出现故障时,备用 NameNode 会自动接管其工作,从而确保集群的连续性和可用性。

此外,还可以使用 Zookeeper 等分布式协调服务监控和管理 NameNode 的状态和切换过程

9.述 Hadoop 在大数据处理中的优势——凌晨扩容

  1. 可扩展性:Hadoop 能够处理 PB 级甚至更大的数据集,通过增加节点可以轻松地扩展集群的处理能力
  2. 容错性:Hadoop 采用分布式存储和计算的方式,将数据分散存储在多个节点上,并通过数据冗余和故障恢复机制保证数据的高可用性。
  3. 灵活性:Hadoop 支持多种编程语言和工具进行数据处理,如 Java、Python 等,同时提供了丰富的 API 和生态系统供开发者使用。
  4. 成本效益:Hadoop 运行在普通硬件上,相比传统的高性能计算集群具有更低的成本。同时,Hadoop 的开源特性使得用户可以免费获取和使用它。

10. FsImage 镜像文件和 EditLog 日志文件 HDFS 中提供的 Secondary NameNode 节点的职责。

  • 存整命息:FsImage 镜像文件用于存储整个文件系统命名空间的信息

  • 持久记录元变化:EditLog 日志文件用于持久化记录文件系统元数据发生的变化

  • 周期合并减大小;缩短重启保完整:Secondary NameNode 节点主要是周期性的把 NameNode 中的 EditLog 日志文件合并到FsImage 镜像文件中,从而减小 EditLog 日志文件的大小缩短集群重启时间,并且也保证了 HDFS 系统的完整性

11Hadoop 中的 Block 是什么?为什么需要它?

  • Hadoop 中的 Block 是 HDFS 中数据存储的基本单位,通常大小为 128MB(可配置)。HDFS将数据划分为多个 Block,并将它们分散存储在集群中的多个 DataNode 上。
  • 这种设计提高了数据的可靠性可扩展性,因为每个 Block 都有多个副本存储在不同的节点上,并且可以通过增加节点来扩展存储能力。

12. Yarn提交作业的流程

在这里插入图片描述

  1. 作业提交:(集群、RM)(1~4)
  • 提作业,请ID:Client(客户端)调用 job.waitForCompletion 方法,向整个集群提交 MapReduce 作业。Client 向 ResourceManager(RM)申请一个作业 ID
  • 反作业,反ID:RM 给 Client 返回该 job 的资源提交路径和作业 ID
  • 提Jar、切、配:Client 提交 jar 包切片信息配置文件指定的资源提交路径
  • 申请运行:Client 提交完资源后,向 RM 申请运行 MRAppMaster(MapReduce 应用程序主)。
  1. 作业初始化:(RM)(5~7)
  • job加入容量器:当 RM 收到 Client 的请求后,将该 job 添加到容量调度器中。
  • NM领Job,创container,产程序主:某一个空闲的 NodeManager(NM)领取到该 Job。该 NM 创建 Container,并产生 MRAppMaster。
  • 下资到本地:下载 Client 提交的资源到本地
  1. 资源分配:(MRAppMaster,RM的Application Manager)(8)
  • 程序主和程序管理器交互获资源:MRAppMaster 与 RM 的应用程序管理器(Application Manager)进行交互,协商以获取运行作业所需的资源。
  • RM调度器依策略分资源:RM 的调度器根据集群的资源情况和配置的调度策略(如容量调度、公平调度等),将源分配给 MRAppMaster。
  1. 任务执行:(9-11)
  • 细分资源:MRAppMaster 将获取到的资源分配给各个 NM。(9~10)
  • 执行MRtask:NM 上的 Executor(执行器)根据分配到的资源和作业的具体任务,开始执行 Map Task 或Reduce Task。(11)
  1. 作业监控和完成:(RM,MRAppMAster)
  • 监控:RM 的应用程序管理器负责监控 MRAppMaster 的运行状态,并在必要时进行重启。

  • 通知完成:当所有任务执行完毕后,MRAppMaster 通知 RM 作业已完成。

  • 取结果:Client 通过 RM 获取作业完成状态,并获取结果。

四、编程题

1.

1.当前日志采样格式为:
• a,b,c,d
• b,b,f,e
• a,a,c,f • 请用你最熟悉的语言编写一个map/reduce程序,计算第四列每个元素出现
的个数。

public void map(Object key, Text value, Context context){IntWritable one = new IntWritable(1);//输出的valueText fourthElement = new Text(); //输出的key//使用StringTonkenizer对该行文本进行切分StringTokenizer itr = new StringTokenizer(value.toString(),",");int colCount = 0;for(itr.hasMoreTokens()) {String token = itr.nextToken();colCount++;if(colCount == 4) {fourthElement.set(token);context.write(fourthElement, one);}}
}
public void reduce(Text key, Iterable <IntWritable> values, Context context) {//输出结果IntWritable result = new IntWritable();int sum = 0;for(IntWritable val : values){sum += val.get();}result.set(sum);context.write(key, result);
}

2.

原机器人发言文件:
• 08ERSADSWERDS 哈哈 0 我的宝,你好?
• 09FGSDASEWQDD 雷猴 1 http://127.0.0.1/aaa.jpg
• 08ERSADSWERDS 哈哈 0 我的宝怎么不说话?
• 7876DSADASDSA 嘻嘻 0 我们分手吧
• 第一列为机器人id。
• 第二列为机器人昵称。
• 第三列为发言的类型: 0-文字 1-图片。
• 第四列为发言内容。
• 2. 我们要统计每个机器人发言的文字条数, 图片条数。如:
• 哈哈 文字总条数:2 , 图片总条数:0
• 嘻嘻 文字总条数:1 , 图片总条数:0
• 雷猴 文字总条数:0 , 图片总条数:1

 public void map(Object key, Text value, Context context) {// 用于存储机器人昵称和发言类型的组合键Text robotNickname = new Text();Text messageType = new Text();// 使用StringTokenizer将每行文本分割为列StringTokenizer itr = new StringTokenizer(value.toString(), " ");
// 获取各列数据String robotId = itr.nextToken();String nickname = itr.nextToken();String type = itr.nextToken();String content = itr.nextToken();// 设置机器人昵称robotNickname.set(nickname);		// 设置消息类型if ("0".equals(type)) {messageType.set("text");} else if ("1".equals(type)) {messageType.set("image");} else {return; // 忽略其他类型}// 组合键:昵称 + 消息类型context.write(robotNickname, messageType);}
  public void reduce(Text key, Iterable<Text> values, Context context) {int textCount = 0;int imageCount = 0;// 遍历所有的值,统计文字条数和图片条数for (Text val : values) {if ("text".equals(val.toString())) {textCount++;} else if ("image".equals(val.toString())) {imageCount++;}}// 输出结果String result = "文字总条数:" + textCount + ",图片总条数:" + imageCount;context.write(key, new Text(result));}

3.

  1. 需求: 有如下指定时间,指定手机号通话时长文件:
    • 13632433234 15 2021-11-20
    • 19832433234 10 2021-11-20
    • 13632433234 12 2021-11-21
    • 13986255437 41 2021-11-19
    • 13632433234 分别在 20号通话15分钟,在21号通话12分钟。
    • 我们要统计:每个手机号总通话时长,并且136开头的手机号统计到一个文
    件,198开头也统计到另一个文件。。
public void map(Object key, Text value, Context context) {Text phoneNumber = new Text(); //keyIntWritable duration = new Interatable(); // valueStringTokenizer itr = new StringTokenizer(value.toString(), " ");String number = itr.nextToken();int dur = Integer.parseInt(itr.nextToken());phoneNumber.set(number);duration.set(dur);context.write(phoneNumber, duration);
}
public void reduce(Text key, Iterable<IntWritable> values, Context context) {IntWritable result = new IntWritable();int sum = 0;for(IntWritable duration : values){sum += duration.get();}result.set(sum);context.write(key, result);
}

这篇关于【Hadoop】知识点总结、大学期末复习的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1096703

相关文章

Python中实现进度条的多种方法总结

《Python中实现进度条的多种方法总结》在Python编程中,进度条是一个非常有用的功能,它能让用户直观地了解任务的进度,提升用户体验,本文将介绍几种在Python中实现进度条的常用方法,并通过代码... 目录一、简单的打印方式二、使用tqdm库三、使用alive-progress库四、使用progres

Android数据库Room的实际使用过程总结

《Android数据库Room的实际使用过程总结》这篇文章主要给大家介绍了关于Android数据库Room的实际使用过程,详细介绍了如何创建实体类、数据访问对象(DAO)和数据库抽象类,需要的朋友可以... 目录前言一、Room的基本使用1.项目配置2.创建实体类(Entity)3.创建数据访问对象(DAO

Java向kettle8.0传递参数的方式总结

《Java向kettle8.0传递参数的方式总结》介绍了如何在Kettle中传递参数到转换和作业中,包括设置全局properties、使用TransMeta和JobMeta的parameterValu... 目录1.传递参数到转换中2.传递参数到作业中总结1.传递参数到转换中1.1. 通过设置Trans的

C# Task Cancellation使用总结

《C#TaskCancellation使用总结》本文主要介绍了在使用CancellationTokenSource取消任务时的行为,以及如何使用Task的ContinueWith方法来处理任务的延... 目录C# Task Cancellation总结1、调用cancellationTokenSource.

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;