hdfs专题

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

HDFS—集群扩容及缩容

白名单:表示在白名单的主机IP地址可以,用来存储数据。 配置白名单步骤如下: 1)在NameNode节点的/opt/module/hadoop-3.1.4/etc/hadoop目录下分别创建whitelist 和blacklist文件 (1)创建白名单 [lytfly@hadoop102 hadoop]$ vim whitelist 在whitelist中添加如下主机名称,假如集群正常工作的节

argodb自定义函数读取hdfs文件的注意点,避免FileSystem已关闭异常

一、问题描述 一位同学反馈,他写的argo存过中调用了一个自定义函数,函数会加载hdfs上的一个文件,但有些节点会报FileSystem closed异常,同时有时任务会成功,有时会失败。 二、问题分析 argodb的计算引擎是基于spark的定制化引擎,对于自定义函数的调用跟hive on spark的是一致的。udf要通过反射生成实例,然后迭代调用evaluate。通过代码分析,udf在

【hadoop Sqoop】Sqoop从mysql导数据到hdfs

1.下载sqoop安装包 wget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2.解压安装包 tar -xzvf /sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 3.配置hadoop mv s

【Hadoop|HDFS篇】NameNode和SecondaryNameNode

1. NN和2NN的工作机制 思考:NameNode中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访 问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在 内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的 Fslmage。 这样又会带来新的问题,当在内存中的元数据更新时,如

【Hadoop|HDFS篇】DataNode

1. DataNode的工作机制 1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 2)DataNode启动后向NameNode注册,通过后,周期性(6h)的向NameNode上报所有块信息。 DN向NN汇报当前解读信息的时间间隔,默认6小时。 DN扫描自己节点块信息列表的时间,默认为

Flink读取kafka数据并以parquet格式写入HDFS

《2021年最新版大数据面试题全面开启更新》 《2021年最新版大数据面试题全面开启更新》 大数据业务场景中,经常有一种场景:外部数据发送到kafka中,flink作为中间件消费kafka数据并进行业务处理;处理完成之后的数据可能还需要写入到数据库或者文件系统中,比如写入hdfs中; 目前基于spark进行计算比较主流,需要读取hdfs上的数据,可以通过读取parquet:spark.read

MySQL Binlog同步HDFS的方案

这个问题我想只要是在做数据开发的,有一定数据实时性要求、需要做数据的增量同步的公司都会遇到。 19年的时候我曾经写过一点canal的文章。 现在你只要看这个文章就可以了。 这篇文章是一个读者推荐给我的,原地址:https://dwz.cn/XYdYpNiI,作者:混绅士 我对其中的一些内容做了修改。 关系型数据库和Hadoop生态的沟通越来越密集,时效要求也越来越高。本篇就来调研下实时抓取MyS

HDFS读写数据过程原理分析

大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 暴走大数据 点击右侧关注,暴走大数据! Hadoop HDFS读写数据过程原理分析 在学习hadoop hdfs的过程中,有很多人在编程实践这块不知道该其实现的原理是什么,为什么通过几十行小小的代码就可以实现对hdfs的数据的读写。 在下面的介绍中会详细的说明该其过程实现的原理(图片选自中国大学MOOC[大数据技术原理与应用]课

HDFS应用场景、原理、基本架构及使用方法

点击上方蓝色字体,选择“设为星标” 回复”资源“获取更多资源 大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 暴走大数据 点击右侧关注,暴走大数据! HDFS应用场景、原理、基本架构及使用方法 HDFS优点和缺点 HDFS优点 1、高容错性    数据自动保存多个副本    副本丢失后,自动恢复 2、适合批处理    移动计算而非数据    数据位置暴露给计算框架 3

快看 | Java连接集成Kerberos的HA HDFS方案

点击上方蓝色字体,选择“设为星标” 回复”资源“获取更多资源 来源:http://suo.im/5SGnSD 大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 暴走大数据 点击右侧关注,暴走大数据! 在实施方案前,假设读者已经基本熟悉以下技术  (不细说) Java,mavenhdfs,kerberos 方案实施 最后目录大概如下新建maven工程,pom.xml配置, 添加

【大数据哔哔集20210122】面试官问我HDFS丢不丢数据?我啪就把这个文章甩到他脸上

数据一致性 HDFS作为分布式文件系统在分布式环境下如何保证数据一致性。HDFS中,存储的文件将会被分成若干的大小一致的block分布式地存储在不同的机器上,需要NameNode节点来对这些数据进行管理,存储这些block的结点称为DataNode,NameNode是用来管理这些元数据的。 NameNode保证元数据的一致性 客户端上传文件时,NameNode首先往edits log文件

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇

📢欢迎关注博客主页:https://blog.csdn.net/u013411339 📢欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流! 📢本文由【王知无】原创,首发于 CSDN博客! 📢本文首发CSDN论坛,未经过官方和本人允许,严禁转载! 本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。 硬刚大数据系列文章链接:

HDFS要点剖析

谈到大数据,不得不提的一个名词是“HDFS”。它是一种分布式文件存储系统,其系统架构图如下图所示: 从图中可以了解到的几个关键概念 元数据(MetaData)机架(Rock)块(Block) 从图中可以了解到的两个重要组件: NameNodeDataNode 需要了解的另一个组件: SecondaryNameNode 三个重要的组件说明 NameNode 简单地说,NameNod

Hdfs FileSystem 使用姿势不对导致的内存泄露

文章目录 一、问题描述二、问题排查Java Heap Dump文件使用Jmap获取运行中的jvm内存在Jhat页面查找对应类实例具体的引用问题定位 三、解决方案四、总结 一、问题描述 有用户反馈访问httpfs服务偶尔出现502的情况,所以上httpfs服务器看了下,发现有一台因为OOM挂掉了(运维告警没弄好,所以没及时通知到)。 目前有两台HttpFs,通过nginx转发,

如何上传数据到集群的HDFS上

直接甩例子,如下。 背景 我windows机子上有一个rai_4m1.txt文件。 我要将它传到一个hadoop集群上去,放到hdfs上。 集群中有一台机器,地址为192.168.0.41。 借用工具 1、Xftp 传文件从一台机器上到另一台机器上。配好会话后可直接给目标机器新建目录,将源机器上的文件拖到目标机器上。 2、Xshell 敲命令,远程访问机器。 如何将这个rai_4m1.t

hadoop实战(四) HDFS常用操作指令

一、HDFS的概念和特性    首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件。其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色 重要特性如下:    (1)HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64

hadoop实战(三) 使用HDFS操作文件

一、hadoop简介    HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起    HDFS集群:负责海量数据的存储,集群中的角色主要有 NameNode / DataNode    YARN集群:负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager 二、hdfs的工作机制 (一)、概述

Hadoop之HDFS的原理和常用命令及API(java)

1、简介         书接上回,上篇博文中介绍如何安装Hadoop和基本配置,本文介绍Hadoop中分布式文件组件--HDFS,在HDFS中,有namenode、datanode、secondnamenode这三个角色,本文将详细介绍这几个组件是如何进行协作的,以及HDFS常用命令和一些api的使用。 HDFS特点: 高容错性:拥有副本机制,提高容错性;适合处理大数据量:能够处理GB、T

删了HDFS又能怎样?记一次删库不跑路事件

一、事发背景二、应急措施直观的方案 三、分析过程hdfs文件删除过程BlockManagerEditLog hdfs元数据的加载方案确定 四、灾难重演五、经验总结 一、事发背景 ​ 上个月的某一天,由于集群空间不足,公司有一位权限较高的员工通过跳板机在某个线上集群执行手动清理命令,疯狂地执行hadoop fs -rmr -skipTrash /user/hive/wareh

Trino大量查询会导致HDFS namenode主备频繁切换吗?

会,且肯定会 一、背景 今天还没起床就被智能运维叫醒了,说通过namenode审计日志查看访问源ip有我们的trino集群,并且访问量比较大,起床气范了,这不很正常吗,早上一般都是跑批高峰,也不一定是我们trino的问题,必须按时上班。 到了工位联系运维,被告知也不一定是我们的trino引起的namenode主备节点切换,因为那个时间段,有很多系统会访问大数据平台,不管怎样,既然有警告就得排查,

大数据修炼之hadoop--HDFS

文章目录 原理组件 文件系统shelljava api数据流NameNode作用: 原理 假设前提与设计目标 硬件错误大规模数据集简单的一致性模型移动计算比移动数据共划算异构软硬件平台见的可以执行 组件 Namenode:HDFS的守护进程,用来管理文件系统的命名空间,负责记录文件是如何分割成数据块,以及这些数据块分别被存储到哪些数据节点上,它的主要功能是对内存及IO进行

大数据-Hadoop-HDFS(一):数据存储模块(Hadoop Distributed File System,分布式文件系统)【适合一次写入,多次读出的场景】【可以追加数据,但不可修改已有数据】

一、HDFS概述 1、HDFS产出背景及定义 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位

大数据-ETL工具:Sqoop【关系型数据库(MySQL,Oracle...) <==(业务)数据==> Hive/HBase/HDFS】【Hadoop与关系数据库之间传送数据的工具】

我们常用的 ETL 工具有Sqoop、Kettle、Nifi: Kettle虽然功能较完善,但当处理大数据量的时候瓶颈问题比较突出;NiFi的功能强大,且支持大数据量操作,但NiFi集群是独立于Hadoop集群的,需要独立的服务器来支撑,强大也就意味着有上手门槛,学习难度大,用人成本高;Sqoop专为关系型数据库和Hadoop之间的ETL而生,支持海量数据,符合项目的需求,且操作简单门槛低。

大数据-数仓-数仓工具:Hive(离线数据分析框架)【替代MapReduce编程;插入、查询、分析HDFS中的大规模数据;机制是将HiveSQL转化成MR程序;不支持修改、删除操作;执行延迟较高】

Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。 Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。 Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单

大数据-数据存储:HDFS、MongoDB、HBase的区别和使用场景

一、HDFS HDFS::适合大文件存储,可append,但不可修改。适合Hadoop离线数据分析,Apache Spark的数据存储。 HDFS对大量小文件的存储开销比较大,适合大文件处理,如果有多个小文件,可以合并为大文件再处理HDFS适用于高吞吐量,而不适合低时间延迟的访问HDFS适用于流式读取的方式,不适合多用户写入一个文件、随机写以及文件的覆盖操作HDFS更加适合写入一次,读取多次的