Hadoop之HDFS的原理和常用命令及API（java）

本文主要是介绍Hadoop之HDFS的原理和常用命令及API（java），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1、简介

书接上回，上篇博文中介绍如何安装Hadoop和基本配置，本文介绍Hadoop中分布式文件组件--HDFS，在HDFS中，有namenode、datanode、secondnamenode这三个角色，本文将详细介绍这几个组件是如何进行协作的，以及HDFS常用命令和一些api的使用。

HDFS特点：

高容错性：拥有副本机制，提高容错性；
适合处理大数据量：能够处理GB、TB、PB级别的数据量；
数据传输有延迟：不适合低延时数据访问；
不适合大量小文件存储：文件信息都会存储在namenode中，namenode内存空间有限，而且小文件过多会导致磁盘寻址时间长；
不支持文件并发写入、修改：只支持串行写，而且只支持追加，不支持修改。

2、HDFS中几个组件的原理及使用

2.1、NameNode（nn）

NameNode是master，是HDFS中的管理者，管理HDFS文件的命令空间、文件副本策略、管理数据块映射信息、处理客户端的读写请求等。存储文件数据块元数据信息，NameNode的默认空间为128G，每个block的元数据信息占用150B。

2.2、DataNode（dn）

datanode是执行NameNode下发的操作命令，存储实际的数据块，执行数据块的读写操作，文件块大小默认是 128Mb ，可通过 dfs.blocksize 参数设置（在 hdfs-site.xml 文件中设置）。

2.3、SecondaryNameNode（2nn）

SecondaryNameNode并非NameNode的热备份，当NameNode挂掉的时候，辅助回复NameNode；在NameNode正常的时候，辅助NameNode，分摊NameNode工作量。

2.4、NameNode 和 SecondaryNameNode 的工作机制

NameNode节点因为经常响应客户请求，需要及时获取请求文件的元数据信息。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此HDFS会产生元数据备份文件存储在磁盘中，备份文件为FsImage。

在内存中的元数据更新时，如果同时更新FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失。因此，引入Edits文件（只进行追加操作，效率很高）。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。这样，一旦NameNode节点断电，可以通过FsImage和Edits的合并，就能合成元数据。但是，如果长时间添加数据到Edits中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行FsImage和Edits的合并，如果这个操作由NameNode 节点完成，又会效率过低。因此，引入一个新的节点SecondaryNameNode，专门用于FsImage和Edits的合并。

注：第一次启动NameNode格式化后，创建Fsimage和Edits文件。

2.5、hdfs读写原理

2.5.1、读原理

2.5.2、写原理

3、HDFS常用命令

HDFS命令可以使用 hadoop fs 也可以使用 hdfs dfs 命令。

# 1、帮助命令
hadoop fs -help 具体命令（例如：rm、get）
# 2、上传文件（拷贝）
hadoop fs -put/copyFromLocal 本地文件 hdfs目录   
hadoop fs -put/copyFromLocal test.txt /test  
# 3、上传文件（剪切）
hadoop fs -moveFromLocal 本地文件 hdfs目录
# 4、追加文件内容
hadoop fs -appendToFile 本地文件 hdfs文件
# 5、下载
hadoop fs -get/copyToLocal HDFS文件 本地文件
# 6、hdfs类似于linux命令的操作
hadoop fs -ls/mv/rm/du/chmod/chown/mkdir/tail/cp/cat ...

4、HDFS的API操作

关于HDFS操作使用test方式运行代码。

4.1、引入依赖

<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.2.4</version>
</dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><version>3.3.1</version>
</dependency><dependency><groupId>org.junit.platform</groupId><artifactId>junit-platform-launcher</artifactId><version>1.10.3</version><scope>test</scope>
</dependency>

4.2、搭建测试代码框架

关于HDFS操作的API，可以使用fs对象进行操作，这些API都可以很快上手。对于HDFS的使用，需要根据使用场景进行一些自定义设置，需要在Configuration中指定即可。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.jupiter.api.AfterAll;
import org.junit.jupiter.api.BeforeAll;
import org.junit.jupiter.api.Test;
import org.junit.jupiter.api.TestInstance;
import org.springframework.boot.test.context.SpringBootTest;
import java.net.URI;
import java.util.Arrays;@SpringBootTest(classes = TestHDFS.class)
@TestInstance(TestInstance.Lifecycle.PER_CLASS)
public class TestHDFS {FileSystem fs;@BeforeAllpublic void init() throws  Exception{Configuration configuration = new Configuration();URI uri = new URI("hdfs://192.168.0.66:8020");fs = FileSystem.get(uri, configuration);}@AfterAllpublic void destory() throws Exception{fs.close();}@Testpublic void getStatus() throws Exception{FileStatus[] fileStatuses = fs.listStatus(new Path("/test/test.txt"));for(FileStatus status : fileStatuses){System.out.println(status.getPath());System.out.println("is directory" + status.isDirectory());System.out.println("is file" + status.isFile());}}@Testpublic void getFiles() throws Exception{RemoteIterator<LocatedFileStatus> statusRemoteIterator = fs.listFiles(new Path(("/test")), true);while (statusRemoteIterator.hasNext()) {LocatedFileStatus status = statusRemoteIterator.next();System.out.println(Arrays.toString(status.getBlockLocations()));System.out.println(status.getPath());System.out.println(status.isFile());System.out.println(status.getBlockSize());System.out.println(status.getOwner());}}
}

5、HDFS配置

在HDFS中有几种配置文件：

hdfs-default.xml：定义HDFS默认参数；
hdfs-site.xml：在 etc/hadoop目录下，可以自定义配置；
在java项目中的resources目录下 hdfs-site.xml：自定义配置；
在java代码中的Configuration中指定。

几种配置文件的优先级为：1 < 2 < 3 < 4。在使用过程中需要根据使用场景来自定义参数。

6、总结

本文详细介绍HDFS读写以及NameNode和SecondaryNameNode之间如何协调工作的原理，让大家对HDFS有了进一步了解，同时介绍HDFS一些常用命令，可以帮助我们使用命令直接操作HDFS，最后介绍如何将HDFS引入到项目中，如何在代码中实现HDFS的操作。关于更多Hadoop组件相关知识，将在后续持续更新。

这篇关于Hadoop之HDFS的原理和常用命令及API（java）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！