【hadoop】 2001-hdfs原理

2023-11-29 04:32

文章标签 原理 hdfs hadoop 2001

本文主要是介绍【hadoop】 2001-hdfs原理，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

HDFS是一个主/从（Mater/Slave）体系结构，从最终用户的角度来看，它就像传统的文件系统一样，可以通过目录路径对文件执行 CRUD（Create、Read、Update和Delete）操作。但由于分布式存储的性质，HDFS集群拥有一个 NameNode和一些 DataNode。NameNode管理文件系统的 元数据，DataNode 存储实际的数据。客户端通过同NameNode和DataNodes的交互访问文件系统。客户端联系NameNode以获取文件的元数据，而真正的文件I/O操作是直接和DataNode进行交互的。

1、HDFS

由NameNode（管理者）-DataNode（工作者）组成

NameNode：管理文件系统命名、维护所有文件和目录、记录每个文件中各个块在数据节点的信息，接收用户的操作请求。

DataNode：文件存储基本单元。文件系统工作节点，存储并检索数据块，并且定期向NameNode发送他们所存储块的列表。

fsimage: 存储NameNode内存元数据信息，存储内存数据，内存数据序列化到磁盘上。

edits：操作日志文件

fstime：保持最近一次checkpoint的时间。

fsimage + edits 合并，生成新的fsimage，在本地保存，并将其推送到NameNode，

替换旧的fsimage

fs.checkpoint.period : 两次checkpoint的最大时间间隔，默认3600s。需要满足两足

Hadoop2.x 版本在HDFS中增加对高可用性（HA）的支持，配置一对 活动-备用（active-standby)namenode

HDFS中的数据块（block）

Hadoop1.x版本HDFS默认数据块大小64M

Hadoop2.x版本HDFS默认数据块大小128M

数据块：是文件存储处理的单元

2、HDFS架构

3、元数据存储细节

NameNode Metadata

文件名： /test/a.log

复制因子： 3

文件分成两块： blk_1,blk_2

每块存储位置： blk_1 存储在 h0,h1,h3 主机上，bllk_2存储在 h0,h2,h4主机上

1）NameNode、DataNode和Client

NameNode可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。
DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode。
Client就是需要获取分布式文件系统文件的应用程序。

　　2）文件写入