并行云架构深度框架 sbatch slurm 深度学习 tensorflow环境从搭建到使用 conda

本文主要是介绍并行云架构深度框架 sbatch slurm 深度学习 tensorflow环境从搭建到使用 conda，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

有一定的GPU云时常可用，一个节点4个GPU，我本人决定使用anaconda搭建tensorflow1.13并且使用。

anaconda是乙方提供的，使用bash命令可以加载

module load anaconda/3.7

加载后正常使用create命令建立环境

详情见我所有conda标志的博客，其实就是下面一句代码，看明白就不用翻了。

下面这句代码就从零开始建立了一个tensorflow gpu的环境，版本是1.13，这一句代码，所有的依赖包括cuda，cudnn都保证安装好了。并且不会和任何人包括自己的环境冲突，虚拟环境这个技能真的超级有用且简单。不明白为什么很多人非要看十多篇长达5页的博客，折腾半个月环境，偏偏不愿意花五分钟试试我下面的代码。

conda create --name tenf13 tensorflow-gpu=1.13

上面建立的虚拟环境名字叫做tenf13，名字就是你叫他他就答应的。所以需要点名激活他，你不激活用不了，用完了，你再让他走。虚拟环境就是随叫随到这种的方便，所以可以建立10多种，随便是pytorch，tf，keras，还有各种版本，比如tf1,tf2。

激活环境

注意，必须使用source激活该环境。

source activate tenf13

这个环境就搭建完成了。使用时是这么使用的。

在你的bash代码中。我的实验配置都是用bash代码写得，因为方便。

#!/bin/bash#SBATCH -N 2
#SBATCH --ntasks-per-node=20
#SBATCH -A para
#SBATCH -p gpu
#SBATCH --gres=gpu:4export HOME=/home/tom/project
module load anaconda/3.7
source activate tenf13

实际上就最后两句有用的激活了环境。export HOME这句我觉着可能是定位anaconda的。这两句激活了环境，下面就可以写自己的代码了。比如

#!/bin/bash#SBATCH -N 2
#SBATCH --ntasks-per-node=20
#SBATCH -A para
#SBATCH -p gpu
#SBATCH --gres=gpu:4export HOME=/home/tom/project
module load anaconda/3.7
source activate tenf13python test.py

bash 代码也没什么神秘的，就是平时输入命令行的现在输入在一个文件里面而已。

tensorflow代码

之所以写这个是因为，在配置session的config时，需要特别注意一个参数。

否则会出错：CUB segmented reduce errortoo many resources requested for launch

参考：

https://devtalk.nvidia.com/default/topic/1038115/jetson-tx2/cub-segmented-reduce-errortoo-many-resources-requested-for-launch/

config = tf.ConfigProto()
config.gpu_options.allow_growth = Truesession = tf.Session(config=config, ...)

所以在我的实际代码中我是这么写的：

      # Soft placement allows placing on CPU ops without GPU implementation.session_config = tf.ConfigProto(allow_soft_placement=True, log_device_placement=False)#LT add on cloud envsession_config.gpu_options.allow_growth = True