【深度学习服务器环境配置】显卡驱动、CUDA11、CUDNN及torch、tensorflow安装

本文主要是介绍【深度学习服务器环境配置】显卡驱动、CUDA11、CUDNN及torch、tensorflow安装,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 丑话说在前
  • 一、了解服务器配置
    • 1.系统版本信息
    • 2.显卡信息
  • 二、安装驱动及CUDA
    • 1.驱动安装
    • 2.卸载旧CUDA(选)
    • 3.CUDA11安装
        • 1)下载安装
        • 2)配置环境变量
        • 3)查看是否安装成功
  • 三、安装CUDNN
    • 1.下载
    • 2.解压安装
    • 3.查看是否安装成功
  • 四、 安装anaconda
    • 1.下载安装
    • 2.设置环境变量
  • 五、安装深度学习库
    • 1.torch安装
    • 2.tensorflow安装
  • 总结


丑话说在前

首先,我基本是现学现卖,linux基础懂一点,深度学习基础懂一点,然后服务器也只玩过阿里云的,以下内容是配了学院四台服务器深度学习环境后总结出的笔记,希望能帮到下一个学习的你
(必要时候请掌握科学上网方法)


如果你不了解配置流程,你可以先泛读全文,了解下配置的大概流程。本文,我会从一个未安装显卡驱动和CUDA的服务器开始记录起(升级cuda的方法请从卸载旧cuda读起),内容包括安装anaconnda、cuda、cudnn以及深度学习常用库pytorch和tensorflow。可以选择你需要配置的部分阅读。

一、了解服务器配置

包括:服务器安装的系统版本信息、显卡信息等

1.系统版本信息

服务器安装的系统各不相同(window较少见),较常见的是轻量级的centos和ubuntu。

因接下来下载cuda等配件时需选择系统版本信息,所以需提前了解系统版本信息,

  • 查看linux系统版本命令:
lsb_release -a
  • 输出:

在这里插入图片描述
如图:该服务器安装的linux版本为Ubuntu16.04

2.显卡信息

如果服务器未安装显卡情况下,nvidia-smi命令输出将为空,那么要了解显卡信息需用以下命令:

lspci | grep -i nvidia

输出:
在这里插入图片描述
【这™是什么鬼.png】

由于驱动问题无法显示显卡的具体型号,在网址输入1b00,可以看到显卡型号是:TITAN X

在这里插入图片描述

二、安装驱动及CUDA

1.驱动安装


因为安装CUDA时会有选项让你选择是否安装显卡驱动,选择是,便会帮你安装好新驱动,所以无论是安装(升级)驱动还是安装(升级)CUDA,都可以选择跳过手动安装驱动步骤,直接到下一步安装cuda。

2.卸载旧CUDA(选)

如安装过cuda,想升级CUDA版本,需先卸载旧的cuda版本,卸载方法也很简单

原理(按cuda8.0):

在安装cuda时默认会安装在/usr/local/cuda-8.0文件夹下

卸载cuda8.0,则只需要运行文件夹下的uninstall文件卸载即可

命令如下:

sudo /usr/local/cuda-8.0/bin/uninstall_cuda_8.0.pl

卸载之后,会发现cuda-8.0该文件夹还存在,这是cudnn文件,所以输入命令将文件删除干净:

sudo rm -rf /usr/local/cuda-8.0

同理安装cuda其他版本时默认都会安装在/usr/local/下对应的文件夹下,卸载只需运行uninstall文件即可。

3.CUDA11安装

1)下载安装

在Google(或百度)输入CUDA11.0 download
在这里插入图片描述
进入官网下载
在这里插入图片描述

根据服务器系统版本信息选择相应选项,可见支持Installer Type(安装类型)有三种,这里我们选择第一种本地运行文件(runfile)

因学院服务器并为配置完全以及其他不可抗原因(不想处理报错能力有限 )我们选择第一种安装方法。

在这里插入图片描述

基础安装指导(base Installer)显示,我们只需要运行两句命令:

下载cuda的run文件

wget http://developer.download.nvidia.com/compute/cuda/11.0.2/local_installers/cuda_11.0.2_450.51.05_linux.run

在这里插入图片描述

使用管理员权限运行该安装文件

sudo sh cuda_11.0.2_450.51.05_linux.run

运行安装文件会显示几个可选项:
依次如下:

1 .输入:accept,接受协议
在这里插入图片描述

2.选择默认配置(包括安装驱动)Install
在这里插入图片描述

静待安装。

2)配置环境变量

修改环境变量文件~/.bashrc(该文件是在根目录下的隐藏文件,根目录下输入ls -a可见)

vim ~/.bashrc

在变量文件后加上下面三句:

export CUDA_HOME=/usr/local/cuda-11.0
export LD_LIBRARY_PATH=${CUDA_HOME}/lib64
export PATH=${CUDA_HOME}/bin:${PATH}

保存并退出(关于vim的用法如果你不是很懂的话,我这里大概说一下,进入vim编辑环境需要按 i,进入命令环境按 esc,保存并退出(在命令环境)按 :wq(w表示写,q表示退出))。

最后执行.bashrc:

source ~/.bashrc

使其生效

3)查看是否安装成功

使用命令nvcc -V查看安装版本信息:
在这里插入图片描述

三、安装CUDNN

1.下载

到官网下载对应cuda和linux版本的cudnn

先在本地电脑下载完上传到服务器,下载后格式为.solitairetheme8文件,需先转为压缩包格式后解压

执行命令:

cp  cudnn-11.0-linux-x64-v8.0.5.39.solitairetheme8 cudnn-11.0-linux-x64-v8.0.5.39.tgz
tar -zxvf  cudnn-11.0-linux-x64-v8.0.5.39.tgz

2.解压安装

解压后再拷贝文件到CUDA目录下即可:

cp cuda/lib64/* /usr/local/cuda-11.0/lib64/
cp cuda/include/* /usr/local/cuda-11.0/include/

3.查看是否安装成功

查看信息,是否安装成功

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

(网上说有输出证明是安装成功,但我本次安装的三台服务器都无输出,仔细查看对应的cudnn.h文件后发现文件中并无cudnn版本信息,个人猜测是新版的cudnn文件中无版本信息)

四、 安装anaconda

1.下载安装

  1. 官网下载linux对应版本anaconda
    下载后上传服务器
  • 查看当前目录下的文件
  • 给与安装文件可执行权限
  • 运行安装文件
ls
sudo chmod +x Anaconda3-2020.11-Linux-x86_64.sh
./Anaconda3-2020.11-Linux-x86_64.sh
  • 如图:

在这里插入图片描述

  1. 安装选项如下

回车(继续)
在这里插入图片描述

安装协议,按q退出
在这里插入图片描述

接受协议,输入yes
在这里插入图片描述

设置安装路径
在这里插入图片描述

添加配置环境,输入yes
在这里插入图片描述

静待安装完成
在这里插入图片描述
安装完成,提示告诉我们(for changes to take…)关闭旧连接打开新shell,经过我实验发现仅需要运行下环境配置文件即可。

source ~/.bashrc

此时在输入conda即有相关信息输出,安装完成

在这里插入图片描述

2.设置环境变量

上述操作虽完成了anaconda的安装,但细心的你一定发现该安装仅在该安装用户下(我的操作都是在root用户下)。所以需要添加个环境变量,使得所有用户都能使用anaconda。(也可以针对单个用户更改用户对应的.bashrc文件即可)

在已安装anaconda的用户下执行命令:

vim /etc/environment

在添加上安装anaconda路径,注意分割符":"(如我添加):

/usr/local/anconda/bin

重启,操作生效,所有用户都能使用anaconda。

五、安装深度学习库

1.torch安装

官网选择安装选项信息,使用conda命令下载安装
在这里插入图片描述

conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=11.0 -c pytorch

注意:安装pytorch时官方会顺便安装类似cudnn的包,因此我们上面也可以不用安装cudnn

  • 检测是否torch-gpu安装成功,依次输入:
python
import torch
torch.__version__
torch.cuda.is_available()

输出结果为true,安装成功
如图:
在这里插入图片描述

2.tensorflow安装

同样使用pip命令安装,如:

pip  install tensorflow-gpu==2.2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple/

需要注意的是tensorflow版本与对应的cuda和cudnn版本需按官方支持版本对应
在这里插入图片描述

  • 检测是否torch-gpu安装成功,依次输入:
python
import tensorflow as tf
tf.__version__
tf.test.is_gpu_available()

输出结果为true,安装成功
如图:
在这里插入图片描述在这里插入图片描述

总结

1.服务器未安装驱动时可以跳过手动安装显卡驱动环境,直接安装cuda(安装cuda时会默认安装对应版本显卡驱动)

2.安装anconda时基本默认安装即可(安装路径可自行修改)

3.安装tensorflow库时,需注意到官网查看对应cuda版本信息,以免不兼容(不兼容时可用使用多cuda切换的方式,其实也就是安装多个版本cuda,在需要时通过修改配置文件切换对应版本)。

参考:
https://blog.csdn.net/wuzhongqiang/article/details/109703047
https://blog.csdn.net/xiao_xian_/article/details/109054598
https://blog.csdn.net/wanzhen4330/article/details/81699769

这篇关于【深度学习服务器环境配置】显卡驱动、CUDA11、CUDNN及torch、tensorflow安装的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/374380

相关文章

mybatis映射器配置小结

《mybatis映射器配置小结》本文详解MyBatis映射器配置,重点讲解字段映射的三种解决方案(别名、自动驼峰映射、resultMap),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定... 目录select中字段的映射问题使用SQL语句中的别名功能使用mapUnderscoreToCame

Linux下MySQL数据库定时备份脚本与Crontab配置教学

《Linux下MySQL数据库定时备份脚本与Crontab配置教学》在生产环境中,数据库是核心资产之一,定期备份数据库可以有效防止意外数据丢失,本文将分享一份MySQL定时备份脚本,并讲解如何通过cr... 目录备份脚本详解脚本功能说明授权与可执行权限使用 Crontab 定时执行编辑 Crontab添加定

Java使用jar命令配置服务器端口的完整指南

《Java使用jar命令配置服务器端口的完整指南》本文将详细介绍如何使用java-jar命令启动应用,并重点讲解如何配置服务器端口,同时提供一个实用的Web工具来简化这一过程,希望对大家有所帮助... 目录1. Java Jar文件简介1.1 什么是Jar文件1.2 创建可执行Jar文件2. 使用java

SpringBoot 多环境开发实战(从配置、管理与控制)

《SpringBoot多环境开发实战(从配置、管理与控制)》本文详解SpringBoot多环境配置,涵盖单文件YAML、多文件模式、MavenProfile分组及激活策略,通过优先级控制灵活切换环境... 目录一、多环境开发基础(单文件 YAML 版)(一)配置原理与优势(二)实操示例二、多环境开发多文件版

Vite 打包目录结构自定义配置小结

《Vite打包目录结构自定义配置小结》在Vite工程开发中,默认打包后的dist目录资源常集中在asset目录下,不利于资源管理,本文基于Rollup配置原理,本文就来介绍一下通过Vite配置自定义... 目录一、实现原理二、具体配置步骤1. 基础配置文件2. 配置说明(1)js 资源分离(2)非 JS 资

使用docker搭建嵌入式Linux开发环境

《使用docker搭建嵌入式Linux开发环境》本文主要介绍了使用docker搭建嵌入式Linux开发环境,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面... 目录1、前言2、安装docker3、编写容器管理脚本4、创建容器1、前言在日常开发全志、rk等不同

MySQL8 密码强度评估与配置详解

《MySQL8密码强度评估与配置详解》MySQL8默认启用密码强度插件,实施MEDIUM策略(长度8、含数字/字母/特殊字符),支持动态调整与配置文件设置,推荐使用STRONG策略并定期更新密码以提... 目录一、mysql 8 密码强度评估机制1.核心插件:validate_password2.密码策略级

ShardingProxy读写分离之原理、配置与实践过程

《ShardingProxy读写分离之原理、配置与实践过程》ShardingProxy是ApacheShardingSphere的数据库中间件,通过三层架构实现读写分离,解决高并发场景下数据库性能瓶... 目录一、ShardingProxy技术定位与读写分离核心价值1.1 技术定位1.2 读写分离核心价值二

深度解析Python中递归下降解析器的原理与实现

《深度解析Python中递归下降解析器的原理与实现》在编译器设计、配置文件处理和数据转换领域,递归下降解析器是最常用且最直观的解析技术,本文将详细介绍递归下降解析器的原理与实现,感兴趣的小伙伴可以跟随... 目录引言:解析器的核心价值一、递归下降解析器基础1.1 核心概念解析1.2 基本架构二、简单算术表达

深度解析Java @Serial 注解及常见错误案例

《深度解析Java@Serial注解及常见错误案例》Java14引入@Serial注解,用于编译时校验序列化成员,替代传统方式解决运行时错误,适用于Serializable类的方法/字段,需注意签... 目录Java @Serial 注解深度解析1. 注解本质2. 核心作用(1) 主要用途(2) 适用位置3