本文主要是介绍只知道Hadoop 3副本容错?用这种方式给公司节省五十万硬盘成本,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
目录
EC的设计目标
EC背景
EC在RAID应用
EC与HDFS
EC在Hadoop架构的调整
NameNode元数据存储
Client
DataNode
EC存储方案
EC编码和解码
容错性和存储效率
连续存储还是条纹单元存储
EC策略关键属性
EC策略命名
online-EC
自定义EC策略
XOR算法与RS算法
部署HDFS EC
集群配置要求
EC配置
EC命令
验证测试
新上传一个293M的文件到冷数据目录
使用distcp迁移数据
基于Hive使用EC
按时间分区设置EC
按数据使用频率设置EC
EC的设计目标
- Hadoop默认的3副本方案需要额外的200%的存储空间、和网络IO开销
- 而一些较低I/O的warn和cold数据,副本数据的访问是比较少的(hot数据副本会被用于计算)
- EC可以提供同级别的容错能力,存储空间要少得多(官方宣传不到50%),使用了EC,副本始终为1
EC背景
EC在RAID应用
- EC在RAID也有应用,RAID通过EC将文件划分为更小的单位,例如:可以按照bit、byte或者block来划分。
- 然后将这些条纹单元存储在不同的磁盘中
条纹单元:官方称之为Stripe Unit,我把它隐喻为斑马身上的黑白条纹,就称每个文件经过EC处理后的就是一个个的条纹单元。
EC编码奇偶校验单元
根据剩余条纹单元和奇偶校验单元恢复数据。
EC与HDFS
一个具有6个块,3副本会消耗6 x 3 = 18个块存储空间。而EC只需要 6个Block,再加上3个奇偶校验,仅需要6 + 3 = 9个块。节省了一半的存储空间。
EC在Hadoop架构的调整
使用EC有几个重要优势:
- Online-EC,在写入数据的时候就是以EC方式写入的,而不是先存完数据再开始进行EC编码处理(offline-EC)。
- Online-EC将一个小
这篇关于只知道Hadoop 3副本容错?用这种方式给公司节省五十万硬盘成本的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!