HDFS encryption 实战之背景和架构介绍

2024-06-04 00:48

本文主要是介绍HDFS encryption 实战之背景和架构介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、HDFS encryption背景

在全世界,为零满足隐私和其他安全需求,很多政府部门、金融部门和管理单位强制要求数据加密。例如 银行支付行业为零满足信息安全必须满足支付卡行业数据安全标准 Payment Card Industry Data Security Standard (PCI DSS)。其他一些例子,美国联邦政府信息安全管理法案 United States government’s Federal Information Security Management Act (FISMA) 、医疗保险可携性和责任法案Health Insurance Portability and Accountability Act (HIPAA)。对HDFS里面的数据进行加密可以帮助你的组织应对这些规定。
HDFS encryption 实现了在集群中读写HDFS Block时透明的、端到端的数据加密。透明加密意味着终端用户无需感知encryption/decryption 过程,而端到端意味数据在静态和传输过程中都是加密的。

2、HDFS encryption 具备的能力

HDFS encryption 具备下面一些能力:

  • 只有HDFS client才能够加解密 ● 为了区分开HDFS administrator, Key
    Administrator这两个用户,必须要将Administration of HDFS and administration of
    keys分成两个独立的功能,这样可以保证没有一个独立的用户可以同时拥有data和keys。
  • 操作系统级别和HDFS交互仅使用加密数据,减轻了os和文件系统成的威胁 ● HDFS使用的是高级加密标准模式(AES-CTR)加密算法。 AES-CTR默认支持128-bit 加密key,或者在 Java Cryptography Extension (JCE) unlimited strength JCE 安装情况下,可以支持128-bit 加密key
  • HDFS encryption 在设计的时候充分利用了Intel® Advanced Encryption Standard
    Instructions (AES-NI)指令集,一种基于硬件的加密加速技术,所以你的集群性能在配置encryption后没有明显的性能消耗(AES-NI指令集相比于硬件实现的AES,可以提高一个数量级)。但是你需要更新HDFS和MAPREDUCE的cryptography(密码学)库才能使用加速机制。

3、主要架构

3.1 Keystores 和 the Hadoop Key Management Server

许多keystores 没有满足HDFS加解密的性能,这就需要重新设计一个新的服务,叫做 Hadoop Key Management Server (KMS)。KMS作为一个代理实现连接HDFS client和后端的keystore。keystore和HADOOP KMS 相互交互和HDFS clients交互过程中 都必须使用 Hadoop’s KeyProvider API。
当然HDFS encryption可以使用一个本地的java Keystore 作为key 管理器,Cloudera在生产环境不推荐使用本地java keystore,而是一个更健壮和安全的key 管理方案。 Cloudera Navigator Key Trustee Server 是一个管理加密key 的key store,同时具有其它一些安全特性。为了集成Cloudera Navigator Key Trustee Server,Cloudera提供了一个通用的KMS 服务,叫做Key Trustee KMS。
下面这张图解释了HDFSclients 和 NAMENODE怎么样一个企业级keystore交互。
这里写图片描述
怎样安装Navigator Key Trustee和 Hadoop Key Management Server,我会在后面详细参数。

3.2、Encryption Zones and Keys

Encryption Zones(EZ) 是HDFS 上面的一个需要加密的目录。开始是一个空木了,可以使用一些工具比如distcp 将数据添加到Zones里面。拷贝到这个目录的文件和子目录都会被加密,只要添加到这个目录下面了就不可以对文件和目录进行命名。需要注意一点是不能在已经有的目录上面创建Encryption zones。

名词解释:
- 每一个EZ对应有一个 EZ key,这个key是有key administrator 在创建zone的时候指定的,EZ key存储在后端的keystore的,独立于HDFS存在的
- 在EZ里面的每一个文件 拥有自己的encryption key,叫做Data Encryption Key (DEK)
- 这些DEKS 使用了自己的EK key进行加密,然后了Encrypted Data Encryption Key (EDEK)
下面的这张图解释了怎么样使用encryption zone keys (EZ keys), data encryption keys (DEKs), 和encrypted data encryption keys (EDEKs)去解密和加密文件。
这里写图片描述

EDEKS 持久化存储在Namenode里面,作为一个文件的属性,使用了HDFS 可扩展属性。NameNode可以安全存储和处理EDEKS,因为HDFS 用户 没有权限获取EDEK’s encryption keys (EZ keys)。即使HDFS 妥协(比如获取到HDFS超级用户),这个恶意用户也只能获取到加密文件和EDEKS。EZ keys 在KMS和keystore被单独的权限管理。

一个EZ key 可以拥有多个版本,每个key version拥有自己不同key 实体(也就说, encryption and decryption使用的内容是不一样的)。key 的旋转 是通过翻滚EZ key实现的。每个文件 key的旋转是通过新的EZ可以重新加密文件的DEK ,获取到一个新的EDEK的。HDFS 可以识别一个 encrytion key主要两个途径:1)key name 最新的key version,2)指定的key version。
这个地方需要测试一下,不同的key version 是否可以 加密和解密同一份数据?

3.3 操作文件流程

为了解密一个新文件,需要如下流程

  • HDFS需要从Namenode获取一个新的EDEK
  • NameNode 请求KMS 使用这个文件对应encryption zone 的EZ key 解密 EDE
  • client 使用这个DEK去解密这个新文件
    这里写图片描述

4、参考文档

https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_sg_hdfs_encryption.html#concept_z2d_1vz_np

这篇关于HDFS encryption 实战之背景和架构介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1028590

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

mybatis的整体架构

mybatis的整体架构分为三层: 1.基础支持层 该层包括:数据源模块、事务管理模块、缓存模块、Binding模块、反射模块、类型转换模块、日志模块、资源加载模块、解析器模块 2.核心处理层 该层包括:配置解析、参数映射、SQL解析、SQL执行、结果集映射、插件 3.接口层 该层包括:SqlSession 基础支持层 该层保护mybatis的基础模块,它们为核心处理层提供了良好的支撑。

百度/小米/滴滴/京东,中台架构比较

小米中台建设实践 01 小米的三大中台建设:业务+数据+技术 业务中台--从业务说起 在中台建设中,需要规范化的服务接口、一致整合化的数据、容器化的技术组件以及弹性的基础设施。并结合业务情况,判定是否真的需要中台。 小米参考了业界优秀的案例包括移动中台、数据中台、业务中台、技术中台等,再结合其业务发展历程及业务现状,整理了中台架构的核心方法论,一是企业如何共享服务,二是如何为业务提供便利。

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

HDFS—集群扩容及缩容

白名单:表示在白名单的主机IP地址可以,用来存储数据。 配置白名单步骤如下: 1)在NameNode节点的/opt/module/hadoop-3.1.4/etc/hadoop目录下分别创建whitelist 和blacklist文件 (1)创建白名单 [lytfly@hadoop102 hadoop]$ vim whitelist 在whitelist中添加如下主机名称,假如集群正常工作的节

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount