Hadoop之HDFS的原理和常用命令及API(java)

2024-09-03 15:28

本文主要是介绍Hadoop之HDFS的原理和常用命令及API(java),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、简介

        书接上回,上篇博文中介绍如何安装Hadoop和基本配置,本文介绍Hadoop中分布式文件组件--HDFS,在HDFS中,有namenode、datanode、secondnamenode这三个角色,本文将详细介绍这几个组件是如何进行协作的,以及HDFS常用命令和一些api的使用。

HDFS特点:

  • 高容错性:拥有副本机制,提高容错性;
  • 适合处理大数据量:能够处理GB、TB、PB级别的数据量;
  • 数据传输有延迟:不适合低延时数据访问;
  • 不适合大量小文件存储:文件信息都会存储在namenode中,namenode内存空间有限,而且小文件过多会导致磁盘寻址时间长;
  • 不支持文件并发写入、修改:只支持串行写,而且只支持追加,不支持修改。
2、HDFS中几个组件的原理及使用

2.1、NameNode(nn)

        NameNode是master,是HDFS中的管理者,管理HDFS文件的命令空间、文件副本策略、管理数据块映射信息、处理客户端的读写请求等。存储文件数据块元数据信息,NameNode的默认空间为128G,每个block的元数据信息占用150B。

2.2、DataNode(dn)

        datanode是执行NameNode下发的操作命令,存储实际的数据块,执行数据块的读写操作,文件块大小默认是 128Mb ,可通过 dfs.blocksize 参数设置(在 hdfs-site.xml 文件中设置)。

2.3、SecondaryNameNode(2nn)

        SecondaryNameNode并非NameNode的热备份,当NameNode挂掉的时候,辅助回复NameNode;在NameNode正常的时候,辅助NameNode,分摊NameNode工作量。

2.4、NameNode 和 SecondaryNameNode 的工作机制

        NameNode节点因为经常响应客户请求,需要及时获取请求文件的元数据信息。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此HDFS会产生元数据备份文件存储在磁盘中,备份文件为FsImage。

        在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。因此,引入Edits文件(只进行追加操作,效率很高)。每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到Edits中。这样,一旦NameNode节点断电,可以通过FsImage和Edits的合并,就能合成元数据。但是,如果长时间添加数据到Edits中,会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长。因此,需要定期进行FsImage和Edits的合并,如果这个操作由NameNode 节点完成,又会效率过低。因此,引入一个新的节点SecondaryNameNode,专门用于FsImage和Edits的合并。

注:第一次启动NameNode格式化后,创建Fsimage和Edits文件。

2.5、hdfs读写原理
2.5.1、读原理

2.5.2、写原理

3、HDFS常用命令

        HDFS命令可以使用 hadoop fs  也可以使用 hdfs dfs 命令。 

# 1、帮助命令
hadoop fs -help 具体命令(例如:rm、get)
# 2、上传文件(拷贝)
hadoop fs -put/copyFromLocal 本地文件 hdfs目录   
hadoop fs -put/copyFromLocal test.txt /test  
# 3、上传文件(剪切)
hadoop fs -moveFromLocal 本地文件 hdfs目录
# 4、追加文件内容
hadoop fs -appendToFile 本地文件 hdfs文件
# 5、下载
hadoop fs -get/copyToLocal HDFS文件 本地文件
# 6、hdfs类似于linux命令的操作
hadoop fs -ls/mv/rm/du/chmod/chown/mkdir/tail/cp/cat ...
4、HDFS的API操作

        关于HDFS操作使用test方式运行代码。

4.1、引入依赖
<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.2.4</version>
</dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><version>3.3.1</version>
</dependency><dependency><groupId>org.junit.platform</groupId><artifactId>junit-platform-launcher</artifactId><version>1.10.3</version><scope>test</scope>
</dependency>
4.2、搭建测试代码框架

        关于HDFS操作的API,可以使用fs对象进行操作,这些API都可以很快上手。对于HDFS的使用,需要根据使用场景进行一些自定义设置,需要在Configuration中指定即可

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.jupiter.api.AfterAll;
import org.junit.jupiter.api.BeforeAll;
import org.junit.jupiter.api.Test;
import org.junit.jupiter.api.TestInstance;
import org.springframework.boot.test.context.SpringBootTest;
import java.net.URI;
import java.util.Arrays;@SpringBootTest(classes = TestHDFS.class)
@TestInstance(TestInstance.Lifecycle.PER_CLASS)
public class TestHDFS {FileSystem fs;@BeforeAllpublic void init() throws  Exception{Configuration configuration = new Configuration();URI uri = new URI("hdfs://192.168.0.66:8020");fs = FileSystem.get(uri, configuration);}@AfterAllpublic void destory() throws Exception{fs.close();}@Testpublic void getStatus() throws Exception{FileStatus[] fileStatuses = fs.listStatus(new Path("/test/test.txt"));for(FileStatus status : fileStatuses){System.out.println(status.getPath());System.out.println("is directory" + status.isDirectory());System.out.println("is file" + status.isFile());}}@Testpublic void getFiles() throws Exception{RemoteIterator<LocatedFileStatus> statusRemoteIterator = fs.listFiles(new Path(("/test")), true);while (statusRemoteIterator.hasNext()) {LocatedFileStatus status = statusRemoteIterator.next();System.out.println(Arrays.toString(status.getBlockLocations()));System.out.println(status.getPath());System.out.println(status.isFile());System.out.println(status.getBlockSize());System.out.println(status.getOwner());}}
}
5、HDFS配置

        在HDFS中有几种配置文件:

  1. hdfs-default.xml:定义HDFS默认参数;
  2. hdfs-site.xml:在 etc/hadoop目录下,可以自定义配置;
  3. 在java项目中的resources目录下 hdfs-site.xml:自定义配置;
  4. 在java代码中的Configuration中指定。

几种配置文件的优先级为:1 < 2 < 3 < 4。在使用过程中需要根据使用场景来自定义参数。

6、总结

         本文详细介绍HDFS读写以及NameNode和SecondaryNameNode之间如何协调工作的原理,让大家对HDFS有了进一步了解,同时介绍HDFS一些常用命令,可以帮助我们使用命令直接操作HDFS,最后介绍如何将HDFS引入到项目中,如何在代码中实现HDFS的操作。关于更多Hadoop组件相关知识,将在后续持续更新。

       

这篇关于Hadoop之HDFS的原理和常用命令及API(java)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1133345

相关文章

java脚本使用不同版本jdk的说明介绍

《java脚本使用不同版本jdk的说明介绍》本文介绍了在Java中执行JavaScript脚本的几种方式,包括使用ScriptEngine、Nashorn和GraalVM,ScriptEngine适用... 目录Java脚本使用不同版本jdk的说明1.使用ScriptEngine执行javascript2.

Spring MVC如何设置响应

《SpringMVC如何设置响应》本文介绍了如何在Spring框架中设置响应,并通过不同的注解返回静态页面、HTML片段和JSON数据,此外,还讲解了如何设置响应的状态码和Header... 目录1. 返回静态页面1.1 Spring 默认扫描路径1.2 @RestController2. 返回 html2

Spring常见错误之Web嵌套对象校验失效解决办法

《Spring常见错误之Web嵌套对象校验失效解决办法》:本文主要介绍Spring常见错误之Web嵌套对象校验失效解决的相关资料,通过在Phone对象上添加@Valid注解,问题得以解决,需要的朋... 目录问题复现案例解析问题修正总结  问题复现当开发一个学籍管理系统时,我们会提供了一个 API 接口去

Java操作ElasticSearch的实例详解

《Java操作ElasticSearch的实例详解》Elasticsearch是一个分布式的搜索和分析引擎,广泛用于全文搜索、日志分析等场景,本文将介绍如何在Java应用中使用Elastics... 目录简介环境准备1. 安装 Elasticsearch2. 添加依赖连接 Elasticsearch1. 创

Spring核心思想之浅谈IoC容器与依赖倒置(DI)

《Spring核心思想之浅谈IoC容器与依赖倒置(DI)》文章介绍了Spring的IoC和DI机制,以及MyBatis的动态代理,通过注解和反射,Spring能够自动管理对象的创建和依赖注入,而MyB... 目录一、控制反转 IoC二、依赖倒置 DI1. 详细概念2. Spring 中 DI 的实现原理三、

SpringBoot 整合 Grizzly的过程

《SpringBoot整合Grizzly的过程》Grizzly是一个高性能的、异步的、非阻塞的HTTP服务器框架,它可以与SpringBoot一起提供比传统的Tomcat或Jet... 目录为什么选择 Grizzly?Spring Boot + Grizzly 整合的优势添加依赖自定义 Grizzly 作为

高效管理你的Linux系统: Debian操作系统常用命令指南

《高效管理你的Linux系统:Debian操作系统常用命令指南》在Debian操作系统中,了解和掌握常用命令对于提高工作效率和系统管理至关重要,本文将详细介绍Debian的常用命令,帮助读者更好地使... Debian是一个流行的linux发行版,它以其稳定性、强大的软件包管理和丰富的社区资源而闻名。在使用

Redis主从/哨兵机制原理分析

《Redis主从/哨兵机制原理分析》本文介绍了Redis的主从复制和哨兵机制,主从复制实现了数据的热备份和负载均衡,而哨兵机制可以监控Redis集群,实现自动故障转移,哨兵机制通过监控、下线、选举和故... 目录一、主从复制1.1 什么是主从复制1.2 主从复制的作用1.3 主从复制原理1.3.1 全量复制

Java后端接口中提取请求头中的Cookie和Token的方法

《Java后端接口中提取请求头中的Cookie和Token的方法》在现代Web开发中,HTTP请求头(Header)是客户端与服务器之间传递信息的重要方式之一,本文将详细介绍如何在Java后端(以Sp... 目录引言1. 背景1.1 什么是 HTTP 请求头?1.2 为什么需要提取请求头?2. 使用 Spr

Java如何通过反射机制获取数据类对象的属性及方法

《Java如何通过反射机制获取数据类对象的属性及方法》文章介绍了如何使用Java反射机制获取类对象的所有属性及其对应的get、set方法,以及如何通过反射机制实现类对象的实例化,感兴趣的朋友跟随小编一... 目录一、通过反射机制获取类对象的所有属性以及相应的get、set方法1.遍历类对象的所有属性2.获取