本文主要是介绍并行 云架构 深度框架 sbatch slurm 深度学习 tensorflow环境从搭建到使用 conda,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
有一定的GPU云时常可用,一个节点4个GPU,我本人决定使用anaconda搭建tensorflow1.13并且使用。
anaconda是乙方提供的,使用bash命令可以加载
module load anaconda/3.7
加载后正常使用create命令建立环境
详情见我所有conda标志的博客,其实就是下面一句代码,看明白就不用翻了。
下面这句代码就从零开始建立了一个tensorflow gpu的环境,版本是1.13,这一句代码,所有的依赖包括cuda,cudnn都保证安装好了。并且不会和任何人包括自己的环境冲突,虚拟环境这个技能真的超级有用且简单。不明白为什么很多人非要看十多篇长达5页的博客,折腾半个月环境,偏偏不愿意花五分钟试试我下面的代码。
conda create --name tenf13 tensorflow-gpu=1.13
上面建立的虚拟环境名字叫做tenf13,名字就是你叫他他就答应的。所以需要点名激活他,你不激活用不了,用完了,你再让他走。虚拟环境就是随叫随到这种的方便,所以可以建立10多种,随便是pytorch,tf,keras,还有各种版本,比如tf1,tf2。
激活环境
注意,必须使用source激活该环境。
source activate tenf13
这个环境就搭建完成了。使用时是这么使用的。
在你的bash代码中。我的实验配置都是用bash代码写得,因为方便。
#!/bin/bash#SBATCH -N 2
#SBATCH --ntasks-per-node=20
#SBATCH -A para
#SBATCH -p gpu
#SBATCH --gres=gpu:4export HOME=/home/tom/project
module load anaconda/3.7
source activate tenf13
实际上就最后两句有用的激活了环境。export HOME这句我觉着可能是定位anaconda的。这两句激活了环境,下面就可以写自己的代码了。比如
#!/bin/bash#SBATCH -N 2
#SBATCH --ntasks-per-node=20
#SBATCH -A para
#SBATCH -p gpu
#SBATCH --gres=gpu:4export HOME=/home/tom/project
module load anaconda/3.7
source activate tenf13python test.py
bash 代码也没什么神秘的,就是平时输入命令行的现在输入在一个文件里面而已。
tensorflow代码
之所以写这个是因为,在配置session的config时,需要特别注意一个参数。
否则会出错:CUB segmented reduce errortoo many resources requested for launch
参考:
https://devtalk.nvidia.com/default/topic/1038115/jetson-tx2/cub-segmented-reduce-errortoo-many-resources-requested-for-launch/
config = tf.ConfigProto()
config.gpu_options.allow_growth = Truesession = tf.Session(config=config, ...)
所以在我的实际代码中我是这么写的:
# Soft placement allows placing on CPU ops without GPU implementation.session_config = tf.ConfigProto(allow_soft_placement=True, log_device_placement=False)#LT add on cloud envsession_config.gpu_options.allow_growth = True
运行与监控
使用sbatch命令可以运行.sh文件。提交的进程会有一个唯一的id,比如会这么回复:
Submitted batch job 6712625
使用squeue可以查看正在运行的id
输出的内容在
slurm-6712625.out
使用vim即可看
这篇关于并行 云架构 深度框架 sbatch slurm 深度学习 tensorflow环境从搭建到使用 conda的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!