关于hdfs 你需要知道的10件事情

2024-06-09 21:58

文章标签 需要 hdfs 知道事情

本文主要是介绍关于hdfs 你需要知道的10件事情，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

公众号：数据猿温大大

小猴&温大大对话

hdfs 角色简介

Client：通过 CLI 或 API 来操作 DataNode（读 / 写操作）和 NameNode（获取文件位置信息），就像图书馆的管理员一样负责书籍的借取/录入。
NameNode：管理整个文件系统的元数据，如命名空间、数据块（Block）映射信息、副本策略及处理客户端读写请求，就像图书馆的前台一样负责检索图书所在位置。
DateNode：管理每个数据块，如存储实际的数据块，处理客户端对数据块的读/写操作，就像图书馆的书架一样存放具体的书籍。
Secondary NameNode：辅助 NameNode 分担工作量，定期合并 fsimage（命名空间镜像）和 fsedits（修改日志）并推送给 NameNode，就像第二个前台专门用来备份检索信息。

hdfs 读流程（借书）

hdfs 写流程（存书）

hdfs Second NameNode流程（秘书）

hdfs 网络拓扑（距离）

如下所示：client会从节点1获取数据，而不是从节点2、节点100001获取，原因是节点100001跨交换机会有网络损耗，节点1、2虽然都在同1台交换机上，但client就在节点1上，所以client最终会从节点1获取数据。

考虑：网络带宽的稀缺性，所以节点之间备份按照“彼此临近”传输，
计算如果将数据中心 d1 里的机架 r1 上的节点 n1 定义为 /d1/r1/n1 的话，
那么

同一节点上的两个应用程序：distance(/d1/r1/n1，/d1/r1/n1) = 0 2. 同一机架上的两个节点：distance(/d1/r1/n1，/d1/r1/n2) = 2
同一数据中心里不同机架上的两个节点：distance(/d1/r1/n1，/d1/r2/n3) = 4
不同数据中心的两个节点：distance(/d1/r1/n1, /d2/r4/n1) = 6

hdfs 副本策略（备份）

hdfs 容错性

hdfs 总结

更多精彩内容关注公众号：数据猿温大大

这篇关于关于hdfs 你需要知道的10件事情的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1046413。 23002807@qq.com

相关文章

Java8需要知道的4个函数式接口简单教程

Java8需要知道的4个函数式接口简单教程

《Java8需要知道的4个函数式接口简单教程》：本文主要介绍Java8中引入的函数式接口,包括Consumer、Supplier、Predicate和Function,以及它们的用法和特点,文中... 目录什么是函数是接口？Consumer接口定义核心特点注意事项常见用法1.基本用法2.结合andThen链

阅读更多...

SpringBoot操作spark处理hdfs文件的操作方法

SpringBoot操作spark处理hdfs文件的操作方法

《SpringBoot操作spark处理hdfs文件的操作方法》本文介绍了如何使用SpringBoot操作Spark处理HDFS文件,包括导入依赖、配置Spark信息、编写Controller和Ser... 目录SpringBoot操作spark处理hdfs文件1、导入依赖2、配置spark信息3、cont

阅读更多...

关于数据埋点，你需要了解这些基本知识

关于数据埋点，你需要了解这些基本知识

产品汪每天都在和数据打交道，你知道数据来自哪里吗？移动app端内的用户行为数据大多来自埋点，了解一些埋点知识，能和数据分析师、技术侃大山，参与到前期的数据采集，更重要是让最终的埋点数据能为我所用，否则可怜巴巴等上几个月是常有的事。埋点类型根据埋点方式，可以区分为：手动埋点半自动埋点全自动埋点秉承“任何事物都有两面性”的道理：自动程度高的，能解决通用统计，便于统一化管理，但个性化定

阅读更多...

HDFS—存储优化（纠删码）

HDFS—存储优化（纠删码）

纠删码原理 HDFS 默认情况下，一个文件有3个副本，这样提高了数据的可靠性，但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码，采用计算的方式，可以节省约50％左右的存储空间。此种方式节约了空间，但是会增加 cpu 的计算。纠删码策略是给具体一个路径设置。所有往此路径下存储的文件，都会执行此策略。默认只开启对 RS-6-3-1024k

阅读更多...

HDFS—集群扩容及缩容

HDFS—集群扩容及缩容

白名单：表示在白名单的主机IP地址可以，用来存储数据。配置白名单步骤如下： 1）在NameNode节点的/opt/module/hadoop-3.1.4/etc/hadoop目录下分别创建whitelist 和blacklist文件（1）创建白名单 [lytfly@hadoop102 hadoop]$ vim whitelist 在whitelist中添加如下主机名称，假如集群正常工作的节

阅读更多...

业务中14个需要进行A/B测试的时刻[信息图]

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中，我们将全面了解有关 A/B测试的所有内容。我们将介绍不同类型的A/B测试，如何有效地规划和启动测试，如何评估测试是否成功，您应该关注哪些指标，多年来我们发现的常见错误等等。什么是A/B测试？ A/B测试（有时称为“分割测试”）是一种实验类型，其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体，以查看哪一种效果最好。本质上，A/B测

阅读更多...

argodb自定义函数读取hdfs文件的注意点，避免FileSystem已关闭异常

argodb自定义函数读取hdfs文件的注意点，避免FileSystem已关闭异常

一、问题描述一位同学反馈，他写的argo存过中调用了一个自定义函数，函数会加载hdfs上的一个文件，但有些节点会报FileSystem closed异常，同时有时任务会成功，有时会失败。二、问题分析 argodb的计算引擎是基于spark的定制化引擎，对于自定义函数的调用跟hive on spark的是一致的。udf要通过反射生成实例，然后迭代调用evaluate。通过代码分析，udf在

阅读更多...

Vue2电商项目(二) Home模块的开发；（还需要补充js节流和防抖的回顾链接）

Vue2电商项目(二) Home模块的开发；（还需要补充js节流和防抖的回顾链接）

文章目录一、Home模块拆分1. 三级联动组件TypeNav2. 其余组件二、发送请求的准备工作1. axios的二次封装2. 统一管理接口API----跨域3. nprogress进度条三、 vuex模块开发四、TypeNav三级联动组件开发1. 动态展示三级联动数据2. 三级联动动态背景(1)、方式一：CSS样式(2)、方式二：JS 3. 控制二三级数据隐藏与显示--绑定styl

阅读更多...

使用WebP解决网站加载速度问题，这些细节你需要了解

使用WebP解决网站加载速度问题，这些细节你需要了解

说到网页的图片格式，大家最常想到的可能是JPEG、PNG，毕竟这些老牌格式陪伴我们这么多年。然而，近几年，有一个格式悄悄崭露头角，那就是WebP。很多人可能听说过，但到底它好在哪？你的网站或者项目是不是也应该用WebP呢？别着急，今天咱们就来好好聊聊WebP这个图片格式的前世今生，以及它值不值得你花时间去用。为什么会有WebP？你有没有遇到过这样的情况？网页加载特别慢，尤其是那

阅读更多...

插件maven-search：Maven导入依赖时，使用插件maven-search拷贝需要的依赖的GAV

插件maven-search：Maven导入依赖时，使用插件maven-search拷贝需要的依赖的GAV

然后粘贴： <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>8.0.26</version> </dependency>

阅读更多...