【大数据基础平台】星环TDH社区集群版本部署

2023-11-05 03:01

本文主要是介绍【大数据基础平台】星环TDH社区集群版本部署,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

🦄 个人主页——🎐开着拖拉机回家_大数据运维-CSDN博客 🎐✨🍁

🪁🍁🪁🍁🪁🍁🪁🍁 🪁🍁🪁🍁🪁🍁🪁 🪁🍁🪁🍁🪁🍁🪁🍁🪁🍁🪁🍁

                   感谢点赞和关注 ,每天进步一点点!加油!

目录

一、概述

二、环境配置

三、安装Manager

四、配置集群

五、安装服务

六、基本配置

6.1 开启安全

6.2 安装TDH客户端

6.3 集群外使用hadoop client

6.3.1 使用hadoop/hdfs

6.3.2 使用hbase shell

6.3.3 beeline访问hive


一、概述


TDH企业级一站式大数据基础平台致力于帮助企业更全面、更便捷、更智能、更安全的加速数字化转型。通过数年时间的打磨创新,已帮助数千家行业客户利用大数据平台构建核心商业系统,加速商业创新。为了让大数据技术得到更广泛的使用与应用从而创造更高的价值,依托于TDH强大的技术底座,星环科技推出TDH社区版(Transwarp Data Hub Community Edition)版本,致力于为企业用户、高校师生、科研机构以及其他专业开发人员提供更轻量、更简单、更易用的数据分析开发环境,轻松应对各类人员数据分析需求。

社区版官网:TDH社区版-TDH Community Edition-星环科技

下载

官网安装手册:星环社区版安装手册

安装视频:星环社区版安装视频


二、环境配置


配置JDK

yum install  bash-completion  lrzsz  tree  vim  wget  net-tools  -ymkdir -p  /usr/java
tar -zxvf jdk-8u162-linux-x64.tar.gz -C  /usr/javavim /etc/profile
export JAVA_HOME=/usr/java/jdk1.8.0_162
export CLASSPATH=$JAVA_HOME/lib/
export PATH=$PATH:$JAVA_HOME/binsource /etc/profile
java -version

关闭防火墙和 selinux

systemctl stop firewalld
systemctl disable firewalld
systemctl status firewalld
# 临时关闭
setenforce 0
sed -i "s/SELINUX=enforcing/SELINUX=disabled/g" /etc/selinux/config

安装chrony

yum install chrony -y
# 修改chrony配置文件指定NTP源为阿里NTP
sed -r -i 's?^pool.+iburst?pool ntp.aliyun.com iburst?' /etc/chrony.conf
# 重启chrony服务
systemctl restart chronyd
# 开机自动启动chrony服务
systemctl enable chronyd
# 查看时间服务器状态
chronyc sources -v

主机名映射

/etc/hosts192.168.2.114 tw-manager
192.168.2.115 tdh-node01
192.168.2.116 tdh-node02

磁盘容量


三、安装Manager


解压安装包,然后运行Web Installer使用图形化界面安装

tar xvzf TDH-Platform-Community-Transwarp-9.3.1-X86_64-final.tar.gz
cd transwarp-9.3.1-X86_64-final
./install

登录如下显示 的web 地址

通过浏览器访问管理节点,进入Web Installer界面

同意

选择继续

推荐默认端口“8180” ,下一步

安装Manager需要一个包含对应版本操作系统的资源库(repo)

【知识分享】安装Manager时如何配置RPM仓库

centos-7-os-x86_64安装包下载_开源镜像站-阿里云

Index of /centos/7/os/x86_64/

您进行选择后,系统会清理资源库缓存:


资源库缓存清理完毕后,系统会自动开始安装和配置Transwarp Manager

Manager安装完成,可以访问提示的安装地址并使用默认的用户名/密码(admin/admin)去登录管理界面继续接下来的配置。


四、配置集群


默认账号密码为 admin

接受最终用户协议才可以进行进一步

需要给您的集群设置一个名字。输入集群名字后点击“下一步”

如果配置集群中的节点可以通过用主机名互相访问,用户必须配置有效的DNS服务器或/etc/hosts文件。否则请选择需要管理工具配置/etc/hosts,Transwarp Manager会相应为您配置/etc/hosts文件,然后添加节点。

  • NTP配置

编辑机柜,默认下一步

默认下一步

选择添加节点

添加安装的节点服务器

我选择SSH访问权限配置,输入用户名和密码

选中已添加的节点,下一步

配置完成后,点击“下一步”进行节点最终检查,系统将为您进行检查,如果有检查项出现告警,请点击+号查看具体说明并进行对应项的处理。

确定

系统会开始自动添加节点,添加节点的过程会进行一段时间,成功后您会看到成功页面。


五、安装服务


服务需要上传单独的tar,选择上传产品,完后上传后 点击下一步

点击 上传按键,并在以下弹出窗口中选择产品包的位置(可同时上传多个软件包)

上传中

选择产品组件安装

HDFS,YARN,Zookeeper 添加

简单认证模式,下一步

下一步

下一步

确定安装

安装中

安装完成

全局服务

集群已安装的组件

组件监控


六、基本配置


6.1 开启安全


进入全局服务下的Guardian服务详情页,选择一键开启安全


 

输入密码

完成配置刷新

6.2 安装TDH客户端


Manager页面下载客户端,选择“随产品包上传”下载tdh-client。

选择所有组件 ,确定

下载 后上传/opt路径解压

tar -xvf tdh-client.tar

完成后即可使用TDH-Client。 使用TDH-Client前还需设置JAVA_HOME环境变量。

执行脚本,请执行位于目录TDH-Client内的脚本init.sh。

source TDH-Client/init.sh

您可以以任何用户执行该脚本,但是我们建议以root用户身份执行。当以其他用户身份执行时,需要输入root密码。

注意 ,用户必须使用source命令执行该脚本。 当新建一个连接到服务的终端session时,都需要重新执行source init.sh,bash init.sh 和 ./init.sh 都不起作用。


6.3 集群外使用hadoop client


首先您需要保证JAVA_HOME设置正确。已准备好TDH-Client(TDH-Client文件夹下有init.sh),下方假定TDH-Client存储路径为:/opt

6.3.1 使用hadoop/hdfs

# 查看 principal
klist -kt /opt/TDH-Client/kerberos/hdfs.keytab
# 认证
kinit -kt /opt/TDH-Client/kerberos/hdfs.keytab hdfs@TDH

创建文件夹和上传文件测试

6.3.2 使用hbase shell


在guardian上下载hbase租户的keytab,假定路径是/tmp/hbase.keytab /opt/TDH-Client/kerberos/hbase.keytab, 如果没有认证直接进入 命令报错如下:

klist -kt /opt/TDH-Client/kerberos/hbase.keytab

确认后执行下方命令方可使用.

source /opt/TDH-Client/init.sh
kinit -kt /opt/TDH-Client/kerberos/hbase.keytab hbase@TDH

hbase shel 进入命令行,创建表kangll , put 数据

create 'kangll',{NAME=>'d',VERSIONS => 1,DATA_BLOCK_ENCODING => 'FAST_DIFF',COMPRESSION => 'SNAPPY'},{SPLITS=> ['0','1','2','3','4','5','6','7','8','9','a','b','c','d','e','f']}
alter  'kangll', {NAME => 't',VERSIONS => 1,DATA_BLOCK_ENCODING => 'FAST_DIFF',COMPRESSION => 'SNAPPY'},{SPLITS=> ['0','1','2','3','4','5','6','7','8','9','a','b','c','d','e','f']}put 'kangll','e312673c87115b12#20230215#1','t:md','2023-02-23 18:27:07.692'
put 'kangll','f8a5414345987335#20230215#1','t:md','2023-02-23 18:27:07.692'
put 'kangll','ab68b01fb2fb77d9#20230215#1','t:md','2023-02-23 18:27:07.692'
put 'kangll','0fbdc950ab7bac48#20230215#1','t:md','2023-02-23 18:27:07.692'
put 'kangll','03852b8d2e682a2d#20230215#1','t:md','2023-02-23 18:27:07.692'
put 'kangll','36506147bed193c9#20230215#1','t:md','2023-02-23 18:27:07.692'

查询成功

6.3.3 beeline访问hive


source /opt/TDH-Client/init.sh
kinit -kt /opt/TDH-Client/kerberos/hive.keytab hive@TDH

通过 Beeline 命令行连接

beeline -u 'jdbc:hive2://192.168.3.115:10000/default;principal=hive/tw-manager@TDH;kuser=hive@TDH;keytab=/opt/TDH-Client/kerberos/hive.keytab;auth=kerberos;krb5conf=/etc/krb5.conf'

创建表时,若没有指定存储格式,默认为TextFile,是不支持插入单行或多行的,我们使用select 的方式插入一条数据 作为测试。

Guardian添加winner_spark 用户,kerytab文件自动创建,Guardian页面上面给winner_spark 用户授HBase, HDFS的使用权限。


参考文档地址:

星环科技 | TranswarpCloud

这篇关于【大数据基础平台】星环TDH社区集群版本部署的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/346977

相关文章

DeepSeek模型本地部署的详细教程

《DeepSeek模型本地部署的详细教程》DeepSeek作为一款开源且性能强大的大语言模型,提供了灵活的本地部署方案,让用户能够在本地环境中高效运行模型,同时保护数据隐私,在本地成功部署DeepSe... 目录一、环境准备(一)硬件需求(二)软件依赖二、安装Ollama三、下载并部署DeepSeek模型选

Java中注解与元数据示例详解

《Java中注解与元数据示例详解》Java注解和元数据是编程中重要的概念,用于描述程序元素的属性和用途,:本文主要介绍Java中注解与元数据的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参... 目录一、引言二、元数据的概念2.1 定义2.2 作用三、Java 注解的基础3.1 注解的定义3.2 内

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据

C++中使用vector存储并遍历数据的基本步骤

《C++中使用vector存储并遍历数据的基本步骤》C++标准模板库(STL)提供了多种容器类型,包括顺序容器、关联容器、无序关联容器和容器适配器,每种容器都有其特定的用途和特性,:本文主要介绍C... 目录(1)容器及简要描述‌php顺序容器‌‌关联容器‌‌无序关联容器‌(基于哈希表):‌容器适配器‌:(

C#提取PDF表单数据的实现流程

《C#提取PDF表单数据的实现流程》PDF表单是一种常见的数据收集工具,广泛应用于调查问卷、业务合同等场景,凭借出色的跨平台兼容性和标准化特点,PDF表单在各行各业中得到了广泛应用,本文将探讨如何使用... 目录引言使用工具C# 提取多个PDF表单域的数据C# 提取特定PDF表单域的数据引言PDF表单是一

一文详解Python中数据清洗与处理的常用方法

《一文详解Python中数据清洗与处理的常用方法》在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战,本文总结了多种数据清洗与处理方法,文中的示例代码简洁易懂,有需要的小伙伴可以参考下... 目录缺失值处理重复值处理异常值处理数据类型转换文本清洗数据分组统计数据分箱数据标准化在数据处理与分析过

大数据小内存排序问题如何巧妙解决

《大数据小内存排序问题如何巧妙解决》文章介绍了大数据小内存排序的三种方法:数据库排序、分治法和位图法,数据库排序简单但速度慢,对设备要求高;分治法高效但实现复杂;位图法可读性差,但存储空间受限... 目录三种方法:方法概要数据库排序(http://www.chinasem.cn对数据库设备要求较高)分治法(常

golang1.23版本之前 Timer Reset方法无法正确使用

《golang1.23版本之前TimerReset方法无法正确使用》在Go1.23之前,使用`time.Reset`函数时需要先调用`Stop`并明确从timer的channel中抽取出东西,以避... 目录golang1.23 之前 Reset ​到底有什么问题golang1.23 之前到底应该如何正确的

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

python管理工具之conda安装部署及使用详解

《python管理工具之conda安装部署及使用详解》这篇文章详细介绍了如何安装和使用conda来管理Python环境,它涵盖了从安装部署、镜像源配置到具体的conda使用方法,包括创建、激活、安装包... 目录pytpshheraerUhon管理工具:conda部署+使用一、安装部署1、 下载2、 安装3