大数据-Hadoop-HDFS(一):数据存储模块(Hadoop Distributed File System,分布式文件系统)【适合一次写入,多次读出的场景】【可以追加数据,但不可修改已有数据】

本文主要是介绍大数据-Hadoop-HDFS(一):数据存储模块(Hadoop Distributed File System,分布式文件系统)【适合一次写入,多次读出的场景】【可以追加数据,但不可修改已有数据】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在这里插入图片描述
在这里插入图片描述
请添加图片描述

一、HDFS概述

1、HDFS产出背景及定义

  • 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。
  • HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
  • HDFS的使用场景:适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。

2、HDFS优点

  • 高容错性

    1. 数据自动保存多个副本。它通过增加副本的形式,提高容错性。
      在这里插入图片描述
    2. 某一个副本丢失以后,它可以自动恢复。
      在这里插入图片描述
  • 适合处理大数据

    1. 数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据;
    2. 文件规模:能够处理百万规模以上的文件数量,数量相当之大。
  • 可构建在廉价机器上,通过多副本机制,提高可靠性。

3、HDFS缺点

  • 不适合低延时数据访问:HDFS不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。

  • 无法高效的对大量小文件进行存储。

    • 存储大量小文件的话,它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的,因为NameNode的内存总是有限的;
    • 小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。
    • 根本原因: HDFS存储了大量的小文件,会降低NameNode的服务能力!NameNode负责文件元数据(属性,块的映射)的管理,NameNode在运行时,必须将当前集群中存储所有文件的元数据全部加载到内存!NameNode需要大量内存!
    • 举例: 当前运行NN的机器,有64G内存,除去系统开销,分配给NameNode50G内存!
      1. 文件a (1k), 存储到HDFS上,需要将a文件的元数据保存到NameNode,加载到内存。a文件的元数据包括: 文件名 创建时间 所属主 所属组 权限 修改时间+ 块的映射(1块),假设这些元数据大小为150B,则最多存储 50 G 150 B \cfrac{50G}{150B} 150B50G个文件a的元数据信息,能存储的文件a的总大小为: 50 G 150 B × 1 k \cfrac{50G}{150B}×1k 150B50G×1k
      2. 文件b (128M), 存储到HDFS上,需要将b文件的元数据保存到NameNode,加载到内存。b文件的元数据包括: 文件名 创建时间 所属主 所属组 权限 修改时间+块的映射(1块),假设这些元数据大小为150B,则最多存储 50 G 150 B \cfrac{50G}{150B} 150B50G个文件b的元数据信息,能存储的文件b的总大小为: 50 G 150 B × 128 M \cfrac{50G}{150B}×128M 150B50G×128M
  • 不支持并发写入、文件随机修改

    • HDFS不支持对文件的随机写,即仅支持数据append(追加),不支持文件的随机修改!原因: 文件在HDFS上存储时,以block为基本单位存储!
      1. 没有提供对文件的在线寻址(打开)功能;
      2. 文件以块形式存储,修改了一个块中的内容,就会影响当前块之后所有的块,效率低;
    • 同一个文件在同一时刻只能由一个客户端写入!

4、HDFS组成架构

在这里插入图片描述

  • NameNode(nn):就是Master,它是一个主管、管理者。
    1. 管理HDFS的名称空间;
    2. 配置副本策略;
    3. 管理数据块(Block)映射信息;
    4. 处理客户端读写请求。
  • DataNode:就是Slave。NameNode下达命令,DataNode执行实际的操作。
    1. 存储实际的数据块;
    2. 执行数据块的读/写操作。
  • Client:就是客户端。
    1. 文件切分。文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传;
    2. 与NameNode交互,获取文件的位置信息;
    3. 与DataNode交互,读取或者写入数据;
    4. Client提供一些命令来管理HDFS,比如NameNode格式化;
    5. Client可以通过一些命令来访问HDFS,比如对HDFS增删查改操作;
  • Secondary NameNode:并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。
    1. 辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode ;
    2. 在紧急情况下,可辅助恢复NameNode。

5、HDFS文件块(block)大小

HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在Hadoop2.x版本中是128M,老版本中是64M。

  • 默认块大小为128M,128M指的是块的最大大小!每个块最多存储128M的数据,如果当前块存储的数据不满128M,存了多少数据,就占用多少的磁盘空间!
  • HDFS的文件块(block)的大小设置主要取决于磁盘传输速率。
  • 一个文件块(block)不管大小,只属于一个文件!
    在这里插入图片描述

5.1 文件块(block)大小的计算

  • 默认为128M的原因,基于最佳传输损耗理论!
  • 最佳传输损耗理论:在一次传输中,寻址时间占用总传输时间的1%时,本次传输的损耗最小,为最佳性价比传输!
  • 不论对磁盘的文件进行读还是写,都需要先进行寻址!
  • 目前硬件的发展条件,普通磁盘写的速率大概为100M/S, 寻址时间一般为10ms,传输时间 = 10 m s 1 % = 1 s \cfrac{10ms}{1\%}=1s 1%10ms=1s
  • 所以一个block的大小理论上设置为 100 M / s × 1 s = 100 M 100M/s×1s=100M 100M/s×1s=100M最合适
  • 另一方面,块在传输时,每64K还需要校验一次,因此块大小,必须为2的n次方,最接近100M的就是128M!
  • 如果公司使用的是固态硬盘,写的速度是300M/S,将块大小调整到 256M
  • 如果公司使用的是固态硬盘,写的速度是500M/S,将块大小调整到 512M

5.2 文件块(block)大小要合适

  • 文件块(block)大小不能太大
    • 如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时,会非常慢。
    • 在上传文件时,一旦发生故障,会造成资源的浪费。
    • 在一些分块读取的场景,不够灵活,会带来额外的网络消耗,比如:当前有文件A(大小为1G),
      1. 如果文件块(block)大小为128M,则文件A存在8块block中。如果只需要读取A文件0-128M部分的内容,需要读取取第一块block,即需要读取128M的内容即可。
      2. 如果文件块(block)大小为1G, 则文件A存在1块block中。只需要读取A文件0-128M部分的内容,需要读取取第一块block,则需要读取1G的内容。
  • 文件块(block)大小不能太小
    • HDFS的块比磁盘的块大,其目的是为了最小化寻址开销;
    • 块设置太小,会增加寻址时间,程序一直在找块的开始位置;比如:文件A(大小为128M)
      1. 如果block的大小为1M,则需要生成128个block,同时在NameNode中要生成128个映射信息与之对应;
      2. 如果block的大小为128M,则需要生成1个block,同时在NameNode中要生成1个映射信息与之对应;
    • 块太小,同样大小的文件,会占用过多的NameNode的元数据空间
    • 块太小,在进行读写操作时,会消耗额外的寻址时间

二、HFDS的Shell操作

1、基本语法

bin/hadoop fs 具体命令   
bin/hdfs dfs 具体命令

dfs是fs的实现类。

2、命令大全

[wyr@hadoop102 hadoop-2.7.2]$ bin/hadoop fs[-appendToFile <localsrc> ... <dst>][-cat [-ignoreCrc] <src> ...][-checksum <src> ...][-chgrp [-R] GROUP PATH...][-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...][-chown [-R] [OWNER][:[GROUP]] PATH...][-copyFromLocal [-f] [-p] <localsrc> ... <dst>][-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>][-count [-q] <path> ...][-cp [-f] [-p] <src> ... <dst>][-createSnapshot <snapshotDir> [<snapshotName>]][-deleteSnapshot <snapshotDir> <snapshotName>][-df [-h] [<path> ...]][-du [-s] [-h] <path> ...][-expunge][-get [-p] [-ignoreCrc] [-crc] <src> ... <localdst>][-getfacl [-R] <path>][-getmerge [-nl] <src> <localdst>][-help [cmd ...]][-ls [-d] [-h] [-R] [<path> ...]][-mkdir [-p] <path> ...][-moveFromLocal <localsrc> ... <dst>][-moveToLocal <src> <localdst>][-mv <src> ... <dst>][-put [-f] [-p] <localsrc> ... <dst>][-renameSnapshot <snapshotDir> <oldName> <newName>][-rm [-f] [-r|-R] [-skipTrash] <src> ...][-rmdir [--ignore-fail-on-non-empty] <dir> ...][-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]][-setrep [-R] [-w] <rep> <path> ...][-stat [format] <path> ...][-tail [-f] <file>][-test -[defsz] <path>][-text [-ignoreCrc] <src> ...][-touchz <path> ...][-usage [cmd ...]]

3、常用命令实操

  • 启动Hadoop集群(方便后续的测试)
    [wyr@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh
    [wyr@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh
    
  • -help:输出这个命令参数
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -help rm
    
  • -ls: 显示目录信息
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -ls /
    
  • -mkdir:在HDFS上创建目录
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -mkdir -p /sanguo/shuguo
    
  • -moveFromLocal:从本地剪切粘贴到HDFS
    [wyr@hadoop102 hadoop-2.7.2]$ touch kongming.txt
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs  -moveFromLocal  ./kongming.txt  /sanguo/shuguo
    
  • -appendToFile:追加一个文件到已经存在的文件末尾
    [wyr@hadoop102 hadoop-2.7.2]$ touch liubei.txt
    [wyr@hadoop102 hadoop-2.7.2]$ vi liubei.txt
    输入
    san gu mao lu
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -appendToFile liubei.txt /sanguo/shuguo/kongming.txt
    
  • -cat:显示文件内容
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop fs -cat /sanguo/shuguo/kongming.txt
    
  • -chgrp 、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限
    [wyr@hadoop102 hadoop-2.7.2]$ hadoop

这篇关于大数据-Hadoop-HDFS(一):数据存储模块(Hadoop Distributed File System,分布式文件系统)【适合一次写入,多次读出的场景】【可以追加数据,但不可修改已有数据】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1128909

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

如何选择适合孤独症兄妹的学校?

在探索适合孤独症儿童教育的道路上,每一位家长都面临着前所未有的挑战与抉择。当这份责任落在拥有孤独症兄妹的家庭肩上时,选择一所能够同时满足两个孩子特殊需求的学校,更显得尤为关键。本文将探讨如何为这样的家庭做出明智的选择,并介绍星贝育园自闭症儿童寄宿制学校作为一个值得考虑的选项。 理解孤独症儿童的独特性 孤独症,这一复杂的神经发育障碍,影响着儿童的社交互动、沟通能力以及行为模式。对于拥有孤独症兄

Hadoop企业开发案例调优场景

需求 (1)需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。 (2)需求分析: 1G / 128m = 8个MapTask;1个ReduceTask;1个mrAppMaster 平均每个节点运行10个 / 3台 ≈ 3个任务(4    3    3) HDFS参数调优 (1)修改:hadoop-env.sh export HDFS_NAMENOD

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

HDFS—集群扩容及缩容

白名单:表示在白名单的主机IP地址可以,用来存储数据。 配置白名单步骤如下: 1)在NameNode节点的/opt/module/hadoop-3.1.4/etc/hadoop目录下分别创建whitelist 和blacklist文件 (1)创建白名单 [lytfly@hadoop102 hadoop]$ vim whitelist 在whitelist中添加如下主机名称,假如集群正常工作的节

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd