大数据快速使用Kerberos认证集群

2024-06-11 05:28

本文主要是介绍大数据快速使用Kerberos认证集群,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、创建安全集群并登录其Manager

  1. 创建安全集群,开启“Kerberos认证“参数开关,并配置“密码“、“确认密码“参数。该密码用于登录Manager,请妥善保管。

  2. 登录MRS管理控制台页面。

  3. 单击“集群列表“,在“现有集群“列表,单击指定的集群名称,进入集群信息页面。

  4. 单击“集群管理页面“后的“前往Manager”,打开Manager页面。

    • 若用户创建集群时已经绑定弹性公网IP。

      1. 添加安全组规则,默认填充的是用户访问公网IP地址9022端口的规则。如需对安全组规则进行查看,修改和删除操作,请单击“管理安全组规则“。

         说明:

        • 自动获取的访问公网IP与用户本机IP不一致,属于正常现象,无需处理。
        • 9022端口为knox的端口,需要开启访问knox的9022端口权限,才能访问Manager服务。
      2. 勾选“我确认xx.xx.xx.xx为可信任的公网访问IP,并允许从该IP访问MRS Manager页面。“

    • 若用户创建集群时暂未绑定弹性公网IP。

      1. 在弹性公网IP下拉框中选择可用的弹性公网IP或单击“管理弹性公网IP“创建弹性公网IP。

      2. 添加安全组规则,默认填充的是用户访问公网IP地址9022端口的规则。如需对安全组规则进行查看,修改和删除操作,请点击“管理安全组规则“。

         说明:

        • 自动获取的访问公网IP与用户本机IP不一致,属于正常现象,无需处理。
        • 9022端口为knox的端口,需要开启访问knox的9022端口权限,才能访问Manager服务。
      3. 勾选“我确认xx.xx.xx.xx为可信任的公网访问IP,并允许从该IP访问MRS Manager页面。“

  5. 单击“确定“,进入Manager登录页面。

  6. 输入创建集群时默认的用户名“admin“及设置的密码,单击“登录“进入Manager页面。

二、创建角色和用户

开启Kerberos认证的集群,必须通过以下步骤创建一个用户并分配相应权限来允许用户执行程序。

  1. 在Manager界面选择“系统 > 权限 > 角色”。

  2. 单击“添加角色“。

    填写如下信息:

    • 填写角色的名称,例如mrrole。
    • 在“配置资源权限”选择待操作的集群,然后选择“Yarn > 调度队列 > root”,勾选“权限”列中的“提交”和“管理”,勾选完全后,不要单击确认,要单击如下图的待操作的集群名,再进行后面权限的选择。
    • 选择“HBase > HBase Scope”,勾选global的“权限”列的“创建”、“读”、“写”和“执行”,勾选完全后,不要单击确认,要单击如下图的待操作的集群名,再进行后面权限的选择。
    • 选择“HDFS > 文件系统 > hdfs://hacluster/”,勾选“权限”列的“读”、“写”和“执行”,勾选完全后,不要单击确认,要单击如下图的待操作的集群名,再进行后面权限的选择。
    • 选择“Hive > Hive读写权限”,勾选“权限”列的“查询”、“删除”、“插入”和“建表”,单击“确定”,完成角色的创建。
  3. 选择“系统 > 权限 > 用户组 > 添加用户组”,为样例工程创建一个用户组,例如mrgroup。

  4. 选择“系统 > 权限 > 用户 > 添加用户”,为样例工程创建一个用户。

    • 填写用户名,例如test,当需要执行Hive程序时,请设置用户名为“hiveuser“。

    • 用户类型为“人机”用户。

    • 输入密码(特别注意该密码在后面运行程序时要用到)。

    • 加入用户组mrgroup和supergroup。

    • 设置其“主组”为supergroup,并绑定角色mrrole取得权限。

      单击“确定”完成用户创建。

  5. 选择“系统 > 权限 > 用户”,选择新建用户test,选择“更多 > 下载认证凭据”,保存后解压得到用户的keytab文件与krb5.conf文件。

三、执行MapReduce程序

本小节提供执行MapReduce程序的操作指导,旨在指导用户在安全集群模式下运行程序。

前提条件

已编译好待运行的程序及对应的数据文件,如mapreduce-examples-1.0.jar、input_data1.txt和input_data2.txt。

操作步骤

  1. 采用远程登录软件(比如:MobaXterm)通过ssh登录(使用集群弹性IP登录)到安全集群的master节点。

  2. 登录成功后分别执行下列命令,在/opt/Bigdata/client目录下创建test文件夹,在test目录下创建conf文件夹:

    cd /opt/Bigdata/client
    mkdir test
    cd test
    mkdir conf
    
  3. 使用上传工具(比如:WinScp)将mapreduce-examples-1.0.jar、input_data1.txt和input_data2.txt复制到test目录下,将“创建角色和用户“中的步骤5获得的keytab文件和krb5.conf文件复制到conf目录。

  4. 执行如下命令配置环境变量并认证已创建用户,例如test。

    cd /opt/Bigdata/client
    source bigdata_env
    export YARN_USER_CLASSPATH=/opt/Bigdata/client/test/conf/
    kinit test
    

    然后按照提示输入密码,无异常提示返回(首次登录需按照系统提示修改密码),则完成了用户的kerberos认证。

  5. 执行如下命令将数据导入到HDFS中:

    cd test
    hdfs dfs -mkdir /tmp/input
    hdfs dfs -put input_data* /tmp/input
    
  6. 执行如下命令运行程序:

    yarn jar mapreduce-examples-1.0.jar com.huawei.bigdata.mapreduce.examples.FemaleInfoCollector /tmp/input /tmp/mapreduce_output
    

    其中:

    /tmp/input指HDFS文件系统中input的路径。

    /tmp/mapreduce_output指HDFS文件系统中output的路径,该目录必须不存在,否则会报错。

  7. 程序运行成功后,执行 hdfs dfs -ls /tmp/mapreduce_output会显示如下:

    图 1 查看程序运行结果

四、执行Spark程序

本小节提供执行Spark程序的操作指导,旨在指导用户在安全集群模式下运行程序。

前提条件

已编译好待运行的程序及对应的数据文件,如FemaleInfoCollection.jar、input_data1.txt和input_data2.txt。

操作步骤

  1. 采用远程登录软件(比如:MobaXterm)通过ssh登录(使用集群弹性IP登录)到安全集群的master节点。

  2. 登录成功后分别执行下列命令,在/opt/Bigdata/client目录下创建test文件夹,在test目录下创建conf文件夹:

    cd /opt/Bigdata/client
    mkdir test
    cd test
    mkdir conf
    
  3. 使用上传工具(比如:WinScp)将样FemaleInfoCollection.jar、input_data1.txt和input_data2.txt复制到test目录下,将“创建角色和用户“中的步骤5获得的keytab文件和krb5.conf文件复制到conf目录。

  4. 执行如下命令配置环境变量并认证已创建用户,例如test。

    cd /opt/Bigdata/client
    source bigdata_env
    export YARN_USER_CLASSPATH=/opt/Bigdata/client/test/conf/
    kinit test
    

    然后按照提示输入密码,无异常提示返回,则完成了用户的kerberos认证。

  5. 执行如下命令将数据导入到HDFS中:

    cd test
    hdfs dfs -mkdir /tmp/input
    hdfs dfs -put input_data* /tmp/input
    
  6. 执行如下命令运行程序:

    cd /opt/Bigdata/client/Spark/spark
    bin/spark-submit --class com.huawei.bigdata.spark.examples.FemaleInfoCollection --master yarn-client /opt/Bigdata/client/test/FemaleInfoCollection-1.0.jar /tmp/input
    
  7. 程序运行成功后,会显示如下:

    图 2 程序运行结果

五、执行Hive程序

本小节提供执行Hive程序的操作指导,旨在指导用户在安全集群模式下运行程序。

前提条件

已编译好待运行的程序及对应的数据文件,如hive-examples-1.0.jar、input_data1.txt和input_data2.txt。

操作步骤

  1. 采用远程登录软件(比如:MobaXterm)通过ssh登录(使用集群弹性IP登录)到安全集群的master节点。

  2. 登录成功后分别执行下列命令,在/opt/Bigdata/client目录下创建test文件夹,在test目录下创建conf文件夹:

    cd /opt/Bigdata/client
    mkdir test
    cd test
    mkdir conf
    
  3. 使用上传工具(比如:WinScp)将样FemaleInfoCollection.jar、input_data1.txt和input_data2.txt复制到test目录下,将“创建角色和用户“中的步骤5获得的keytab文件和krb5.conf文件复制到conf目录。

  4. 执行如下命令配置环境变量并认证已创建用户,例如test。

    cd /opt/Bigdata/client
    source bigdata_env
    export YARN_USER_CLASSPATH=/opt/Bigdata/client/test/conf/
    kinit test
    

    然后按照提示输入密码,无异常提示返回,则完成了用户的kerberos认证。

  5. 执行如下命令运行程序:

    chmod +x /opt/hive_examples -R   cd /opt/hive_examples   java -cp .:hive-examples-1.0.jar:/opt/hive_examples/conf:/opt/Bigdata/client/Hive/Beeline/lib/*:/opt/Bigdata/client/HDFS/hadoop/lib/* com.huawei.bigdata.hive.example.ExampleMain
    
  6. 程序运行成功后,会显示如下:

    图 3 程序运行的结果

这篇关于大数据快速使用Kerberos认证集群的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1050303

相关文章

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

服务器集群同步时间手记

1.时间服务器配置(必须root用户) (1)检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 (2)修改ntp配置文件 [r

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

HDFS—集群扩容及缩容

白名单:表示在白名单的主机IP地址可以,用来存储数据。 配置白名单步骤如下: 1)在NameNode节点的/opt/module/hadoop-3.1.4/etc/hadoop目录下分别创建whitelist 和blacklist文件 (1)创建白名单 [lytfly@hadoop102 hadoop]$ vim whitelist 在whitelist中添加如下主机名称,假如集群正常工作的节

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd