阿里云的oss上传到cdh的hdfs集群

2024-08-24 19:58

文章标签 阿里集群 oss hdfs 传到 cdh

本文主要是介绍阿里云的oss上传到cdh的hdfs集群，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1.oss可以上传到hdfs，支持emr集群还支持其他开源的hdfs版本。

emr-tools兼容Hadoop 2.4.x、2.5.x、2.6.x、2.7.x版本，如果有其他Hadoop版本兼容性的需求，请提交工单给阿里云。

下载https://helpcdn.aliyun.com/document_detail/63822.html

tar jxf emr-tools.tar.bz2

2.oss到hdfs命令。

./hdfs2oss4emr.sh oss://accessKeyId:accessKeySecret@bucket-name.oss-cn-hangzhou.aliyuncs.com/path/on/oss /path/on/new-hdfs

这个可以作为备份数据的方式，可以降低存储价格。

参数	说明
accessKeyId	访问OSS API的密钥。获取方式请参见如何获取如何获取AccessKeyId和AccessKeySecret。
accessKeySecret	访问OSS API的密钥。获取方式请参见如何获取如何获取AccessKeyId和AccessKeySecret。
bucket-name.oss-cn-hangzhou.aliyuncs.com	OSS的访问域名，包括bucket名称和endpoint地址。

这篇关于阿里云的oss上传到cdh的hdfs集群的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1103456。 23002807@qq.com

相关文章

springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法

springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法

《springboot整合阿里云百炼DeepSeek实现sse流式打印的操作方法》：本文主要介绍springboot整合阿里云百炼DeepSeek实现sse流式打印,本文给大家介绍的非常详细,对大... 目录1.开通阿里云百炼,获取到key2.新建SpringBoot项目3.工具类4.启动类5.测试类6.测

阅读更多...

Redis分片集群的实现

Redis分片集群的实现

《Redis分片集群的实现》Redis分片集群是一种将Redis数据库分散到多个节点上的方式,以提供更高的性能和可伸缩性,本文主要介绍了Redis分片集群的实现,具有一定的参考价值,感兴趣的可以了解一... 目录1. Redis Cluster的核心概念哈希槽（Hash Slots）主从复制与故障转移2.

阅读更多...

centos7基于keepalived+nginx部署k8s1.26.0高可用集群

centos7基于keepalived+nginx部署k8s1.26.0高可用集群

《centos7基于keepalived+nginx部署k8s1.26.0高可用集群》Kubernetes是一个开源的容器编排平台,用于自动化地部署、扩展和管理容器化应用程序,在生产环境中,为了确保集... 目录一、初始化（所有节点都执行）二、安装containerd（所有节点都执行）三、安装docker-

阅读更多...

SpringBoot操作spark处理hdfs文件的操作方法

SpringBoot操作spark处理hdfs文件的操作方法

《SpringBoot操作spark处理hdfs文件的操作方法》本文介绍了如何使用SpringBoot操作Spark处理HDFS文件,包括导入依赖、配置Spark信息、编写Controller和Ser... 目录SpringBoot操作spark处理hdfs文件1、导入依赖2、配置spark信息3、cont

阅读更多...

如何在一台服务器上使用docker运行kafka集群

如何在一台服务器上使用docker运行kafka集群

《如何在一台服务器上使用docker运行kafka集群》文章详细介绍了如何在一台服务器上使用Docker运行Kafka集群,包括拉取镜像、创建网络、启动Kafka容器、检查运行状态、编写启动和关闭脚本... 目录1.拉取镜像2.创建集群之间通信的网络3.将zookeeper加入到网络中4.启动kafka集群

阅读更多...

Nacos集群数据同步方式

Nacos集群数据同步方式

《Nacos集群数据同步方式》文章主要介绍了Nacos集群中服务注册信息的同步机制,涉及到负责节点和非负责节点之间的数据同步过程,以及DistroProtocol协议在同步中的应用... 目录引言负责节点（发起同步）DistroProtocolDistroSyncChangeTask获取同步数据getDis

阅读更多...

服务器集群同步时间手记

服务器集群同步时间手记

1.时间服务器配置（必须root用户）（1）检查ntp是否安装 [root@node1 桌面]# rpm -qa|grep ntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem-1.41-1.1.el6.noarchntpdate-4.2.6p5-10.el6.centos.x86_64 （2）修改ntp配置文件 [r

阅读更多...

HDFS—存储优化（纠删码）

HDFS—存储优化（纠删码）

纠删码原理 HDFS 默认情况下，一个文件有3个副本，这样提高了数据的可靠性，但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码，采用计算的方式，可以节省约50％左右的存储空间。此种方式节约了空间，但是会增加 cpu 的计算。纠删码策略是给具体一个路径设置。所有往此路径下存储的文件，都会执行此策略。默认只开启对 RS-6-3-1024k

阅读更多...

HDFS—集群扩容及缩容

HDFS—集群扩容及缩容

白名单：表示在白名单的主机IP地址可以，用来存储数据。配置白名单步骤如下： 1）在NameNode节点的/opt/module/hadoop-3.1.4/etc/hadoop目录下分别创建whitelist 和blacklist文件（1）创建白名单 [lytfly@hadoop102 hadoop]$ vim whitelist 在whitelist中添加如下主机名称，假如集群正常工作的节

阅读更多...

Hadoop集群数据均衡之磁盘间数据均衡

Hadoop集群数据均衡之磁盘间数据均衡

生产环境，由于硬盘空间不足，往往需要增加一块硬盘。刚加载的硬盘没有数据时，可以执行磁盘数据均衡命令。（Hadoop3.x新特性） plan后面带的节点的名字必须是已经存在的，并且是需要均衡的节点。如果节点不存在，会报如下错误：如果节点只有一个硬盘的话，不会创建均衡计划：（1）生成均衡计划 hdfs diskbalancer -plan hadoop102 （2）执行均衡计划 hd

阅读更多...