大数据面试必背原理

本文主要是介绍大数据面试必背原理，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

HDFS读取过程：

在这里插入图片描述
1、客户端通过Distributed FileSystem向NameNode请求下载文件。
2、NameNode通过查询元数据，找到文件块所在的DataNode地址，返回目标文件的元数据。
3、挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。
4、DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。
5、客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。

HDFS写入流程：

在这里插入图片描述
1、客户端通过Distributed FileSystem模块向namenode请求上传文件到/user/atguigu/ss.avi这个路径文件
2、校验文件是否存在，如果存在就会报目录存在这个错误，如果不存在则相应可以上传文件
3、客户端请求第一个Block（0-128M）上传到那几个DataNode服务器上
4、返回dn1，dn2，dn3节点，表示这三个节点可以存储数据（通过负载量和距离来选择dn）
5、客户端通过调用FSDataOutPutStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
6、dn1、dn2、dn3逐级应答客户端。
7、客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。
8、告诉namenode传输完成

MapReduce工作流程

1、输入文件分片，每一片都由一个MapTask来处理
2、Map输出的中间结果会先放在内存缓冲区中，这个缓冲区的大小默认是100M，当缓冲区中的内容达到80%时（80M）会将缓冲区的内容写到磁盘上。也就是说，一个map会输出一个或者多个这样的文件，如果一个map输出的全部内容没有超过限制，那么最终也会发生这个写磁盘的操作，只不过是写几次的问题。
3、从缓冲区写到磁盘的时候，会进行分区并排序，分区指的是某个key应该进入到哪个分区，同一分区中的key会进行排序，如果定义了Combiner的话，也会进行combine操作
4、如果一个map产生的中间结果存放到多个文件，那么这些文件最终会合并成一个文件，这个合并过程不会改变分区数量，只会减少文件数量。例如，假设分了3个区，4个文件，那么最终会合并成1个文件，3个区
5、以上只是一个map的输出，接下来进入reduce阶段
6、每个reducer对应一个ReduceTask，在真正开始reduce之前，先要从分区中抓取数据
7、相同的分区的数据会进入同一个reduce。这一步中会从所有map输出中抓取某一分区的数据，在抓取的过程中伴随着排序、合并。
8、reduce输出

简列几条MapReduce的调优方法

MapReduce优化方法主要从六个方面考虑：数据输入，Map阶段，Reduce阶段，IO传输，数据倾斜问题和常用的调优参数。

1.数据输入
1)合并小文件，在执行MR任务前将小文件进行合并，大量的小文件会产生大量的map任务，增大map任务装载次数，而任务的装载比较耗时，从而导致MR运行较慢；
2)采用combinetextinputformat来作为输入，解决输入端大量小文件的场景。
2.Map阶段
1)减少溢写次数，通过调整io.sort.mb及sort.spill.percent参数值，增大出发溢写的内存上限，减少溢写次数，从而减少磁盘IO；
2)减少合并次数，通过调整io.sort.factor参数，增大merge的文件数目，减少merge的次数，从而缩减MR处理时间；
3)在map之后，不影响业务逻辑的前提下，先进行combine处理，减少IO。
3.Reduce阶段
1)合理设置map和reduce的数量，两个数量都不能太少或者太多，太少，会导致task等待时间太长，延长处理时间，太多，会导致map和reduce任务之间竞争资源，造成处理超时等错误；
2)设置map和reduce共存，调整，show start completedmaps参数，使map运行到一定程度后，reduce也开始运行，从而减少reduce等待时间；
3)规避使用reduce，因为reduce在用于连接数据集的时候会产生大量的网络消耗；
4)合理设置reduce端的buffer，可以通过设置参数来配置，使得buffer中的一部分数据可以直接输送到reduce，从而减少IO开销；MapReduce，Reduce.input.buffer.percent的默认为0.0，当值大于0时，会保留在指定比例的内存读buffer中的数据直接拿给reduce使用。
4.IO传输
1)采用数据压缩的方式，减少任务的IO时间；
2)使用seq二进制文件。

谈谈Zookeeper理解

Zookeeper 作为一个分布式的服务框架，主要用来解决分布式集群中应用系统的一致性问题( 解决单点故障问题 )。
Zookeeper 并不是用来专门存储数据的，它的作用主要是用来维护和监控你存储的数据的状态变化，通过监控这些数据状态的变化，从而可以达到基于数据的集群管理
总结: Zookeeper=文件系统+通知机制

这篇关于大数据面试必背原理的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！