DCU集群搭建虚拟环境方法简介

2023-11-07 06:52

本文主要是介绍DCU集群搭建虚拟环境方法简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.conda安装方法:

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh  #下载miniconda安装包chmod 750 Miniconda3-latest-Linux-x86_64.sh  #添加执行权限bash ./Miniconda3-latest-Linux-x86_64.sh  #安装下载的minnconda3

下载安装包
修改权限并安装
查看安装的conda版本
2.集群安装dcu版本的pytorch安装包
格式:
conda create -n 虚拟环境名 python=3.8

(1)集群一般会预置适配的安装包,路径为:/public/software/apps/DeepLearning/whl
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

环境搭建方法(以安装dtk2304下面的torch1.13-py38为例):

conda create -n torch_test_env python=3.8 -y  # torch_test_env为虚拟环境名,可以自定义 ,-y 表示yes,无需在安装过程中再手动输入conda activate torch_test_env  #激活虚拟环境pip install /public/software/apps/DeepLearning/whl/dtk-23.04/pytorch/torch-1.13/py38/torch-1.13.1+git55d300e.abi0.dtk2304-cp38-cp38-manylinux2014_x86_64.whl -i https://pypi.mirrors.ustc.edu.cn/simple     #安装集群的torch包,-i 后面表示镜像源,可以加速安装#其他不涉及加速的包可以正常pip install 安装注意:选择的torch版本对应的python需要和创建环境时的python相匹配

在这里插入图片描述
验证:

salloc -p wzhdnormal -N1 -n32 --gres=dcu:4 #申请资源。-p后面表示队列名,可以通过whichpartition查看到。wzhdnormal其中hd表示dcu队列 ,-N 表示节点数,-n 表示核心数,dcu:4表示卡数,一般核:卡=8:1,即若申请两张卡,对应核数为16,salloc -p wzhdnormal -N1 -n16 --gres=dcu:2ssh 计算节点 #登录计算节点,squeue查看作业运行状态,nodelist下面对应的为计算节点
conda activate torch_test_env  #重新进入虚拟环境
module switch compiler/dtk/23.04 #切换为对应的dtk版本
python
import torch
torch.cuda.is_available() #显示true表示安装成功注意:验证完请务必取消作业,scancel JOBID

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

作业提交参考脚本:

test.slurm #自定义脚本名

#!/bin/bash
#BATCH -J test                         # 作业名
#SBATCH -p wzhdnormal                  # 队列名  使用whichpartition 查看
#SBATCH -N 1                            # 节点数量
#SBATCH --ntasks-per-node=1           # 每节点运行进程数
#SBATCH -c 8                                   # 每个进程所用cpu核数
#SBATCH --gres=dcu:1                    # 每个节点申请的dcu数量
#SBATCH -o %j.out                       # 作业标准输出
#SBATCH -e %j.out                       # 作业错误输出,这里两种输出放在了一个文件中显示#加载conda环境
source ~/miniconda3/etc/profile.d/conda.sh
conda activate  torch_test_env
#加载module
module purge
module load compiler/devtoolset/7.3.1
module load mpi/hpcx/gcc-7.3.1
module load compiler/dtk/23.04#运行程序
python -u main.py 

提交作业:sbatch 脚本名
查看作业:squeue
取消作业:scancel 作业号 (作业号:执行squeue,jobid下面的数字)
实时查看输出:tail -f 输出文件名

这篇关于DCU集群搭建虚拟环境方法简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/361988

相关文章

Java实现任务管理器性能网络监控数据的方法详解

《Java实现任务管理器性能网络监控数据的方法详解》在现代操作系统中,任务管理器是一个非常重要的工具,用于监控和管理计算机的运行状态,包括CPU使用率、内存占用等,对于开发者和系统管理员来说,了解这些... 目录引言一、背景知识二、准备工作1. Maven依赖2. Gradle依赖三、代码实现四、代码详解五

centos7基于keepalived+nginx部署k8s1.26.0高可用集群

《centos7基于keepalived+nginx部署k8s1.26.0高可用集群》Kubernetes是一个开源的容器编排平台,用于自动化地部署、扩展和管理容器化应用程序,在生产环境中,为了确保集... 目录一、初始化(所有节点都执行)二、安装containerd(所有节点都执行)三、安装docker-

JAVA中整型数组、字符串数组、整型数和字符串 的创建与转换的方法

《JAVA中整型数组、字符串数组、整型数和字符串的创建与转换的方法》本文介绍了Java中字符串、字符数组和整型数组的创建方法,以及它们之间的转换方法,还详细讲解了字符串中的一些常用方法,如index... 目录一、字符串、字符数组和整型数组的创建1、字符串的创建方法1.1 通过引用字符数组来创建字符串1.2

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

Apache Tomcat服务器版本号隐藏的几种方法

《ApacheTomcat服务器版本号隐藏的几种方法》本文主要介绍了ApacheTomcat服务器版本号隐藏的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1. 隐藏HTTP响应头中的Server信息编辑 server.XML 文件2. 修China编程改错误

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

Mycat搭建分库分表方式

《Mycat搭建分库分表方式》文章介绍了如何使用分库分表架构来解决单表数据量过大带来的性能和存储容量限制的问题,通过在一对主从复制节点上配置数据源,并使用分片算法将数据分配到不同的数据库表中,可以有效... 目录分库分表解决的问题分库分表架构添加数据验证结果 总结分库分表解决的问题单表数据量过大带来的性能

Java汇编源码如何查看环境搭建

《Java汇编源码如何查看环境搭建》:本文主要介绍如何在IntelliJIDEA开发环境中搭建字节码和汇编环境,以便更好地进行代码调优和JVM学习,首先,介绍了如何配置IntelliJIDEA以方... 目录一、简介二、在IDEA开发环境中搭建汇编环境2.1 在IDEA中搭建字节码查看环境2.1.1 搭建步

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结