解决AWS Deep Learning AMI (Ubantu) 中的GPU不可用问题

2024-01-01 20:48

本文主要是介绍解决AWS Deep Learning AMI (Ubantu) 中的GPU不可用问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:光环云 田帆

在AWS众多官方AMI中有一个比较特殊的版本就是适用于机器学习的操作系统Deep Learning AMI, 它内部预先集成了很多机器学习的框架,比如TensorFlow, Mxnet等。如下图展示为中国区的Deep Learning AMI Ubantu。
在这里插入图片描述
此系统为了方便客户进行机器学习,免除了安装所需框架的步骤。方便客户去直接进行机器学的操作。让客户能够把精力都聚焦在业务上。结合AWS提供的GPU实例,能够省去客户在机器学习前的安装、部署、搭建框架的繁复操作。但是,根据AWS官方的推荐,此系统更加适合于一次性机器学习任务。换句话说,如果您已经准备好大量的数据源,准备临时或者批次性的跑机器学习的任务,这个系统搭配GPU的实例可是实现快速的开始执行机器学习任务。下图为正常情况下Deep Learning AMI中预装的机器学习环境。
在这里插入图片描述
您可以选择您需要的环境,然后输入后面相应的命令之后就可以进入环境。非常简单方便。
不过,在客户的实际生产应用中会遇到一些问题,我们需要特别注意。由于AWS 的AMI都是由AWS后台来进行维护的,所以在重启或者停机之后再启动实例时,有可能会遇到使用此AMI的实例无法加载GPU的情况。正常情况当选择好环境后会看到GPU相关的信息,如下图:
在这里插入图片描述
当我们遇到下列错误提示时,说明此实例的GPU显卡没有加载成功:

ubuntu@ip-172-31-17-216:~$ nvidia-smi 
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

错误提示表示为GPU的驱动没有加载。那么是什么原因造成的这种情况呢?Amazon Deep Learning AMI 是由AWS后台来进行维护,为了众多的环境兼容和稳定,当实例重启或者停止之后会更新系统的内核版本。而中国区此AMI自带的GPU驱动版本比较老,所以在内核更新之后会无法识别老的GPU驱动,造成GPU显卡无法加载。
那么解决此问题只需要手动的更新GPU驱动即可。下面介绍更新驱动的步骤。
我们可以写一个更新GPU版本驱动的脚本:
#!/bin/bash

set -xversion=$1
#version=410.79
#version=410.104wget http://us.download.nvidia.com/tesla/${version}/NVIDIA-Linux-x86_64-${version}.run 
sudo sh ./NVIDIA-Linux-x86_64-${version}.run --no-drm --disable-nouveau --dkms --silent --install-libglvnd 

此脚本中我们会从NVIDIA官网下载不同版本的驱动并进行安装。在执行时后面带上需要的GPU版本为脚本传参。

$ sudo ./install.sh 410.104

之后查看更新后的显卡模块版本:

$ modinfo nvidia | head -7
filename: /lib/modules/4.4.0-1077-aws/updates/dkms/nvidia.ko
alias: char-major-195-*
version: 410.104
supported: external
license: NVIDIA
srcversion: 3B812B02678A6B43A294F17
alias: pci:v000010DEd00000E00sv*sd*bc04sc80i00*

加载显卡模块:

$ sudo modprobe nvidia

启动GPU,查看是否已经正常工作:

$ nvidia-smi

至此,我们的实例应该已经可以正常使用GPU显卡了,但是前提是保证在内核不更新的情况下,可以正常加载GPU。如果在内核更新而且GPU的驱动再次过老之后依然会出现这个现象。所以,如果想一劳永逸的避免这种情况,只能手动关闭系统内核的更新机制来解决。不过,由于此AMI的初衷是提供给客户方便灵活的进行一次性机器任务的,所以不推荐客户长时间利用此AMI进行生产的部署,如果需要请自行搭建机器学习平台或者模型运行的环境。
此外,在AWS global 区域已经推出最新的Deep Learning (Ubantu) 23.0版本(如下图),不会出现类似问题。
在这里插入图片描述


光环云数据有限公司(简称“光环云”)是由光环新网科技股份有限公司与管理团队于2018年5月联合发起设立。光环新网获得亚马逊通授权,独立运营AWS中国(北京)区域云服务。
作为光环新网附属企业,光环云专注于AWS云服务在中国的市场推广与销售、完善和提升网络交付与服务能力、丰富AWS云服务应用市场,为中国企业全面实现云转型升级、供给侧改革和双创事业提供下一代IT基础设施。
在这里插入图片描述

这篇关于解决AWS Deep Learning AMI (Ubantu) 中的GPU不可用问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/560472

相关文章

Linux虚拟机不显示IP地址的解决方法(亲测有效)

《Linux虚拟机不显示IP地址的解决方法(亲测有效)》本文主要介绍了通过VMware新装的Linux系统没有IP地址的解决方法,主要步骤包括:关闭虚拟机、打开VM虚拟网络编辑器、还原VMnet8或修... 目录前言步骤0.问题情况1.关闭虚拟机2.China编程打开VM虚拟网络编辑器3.1 方法一:点击还原VM

Flask解决指定端口无法生效问题

《Flask解决指定端口无法生效问题》文章讲述了在使用PyCharm开发Flask应用时,启动地址与手动指定的IP端口不一致的问题,通过修改PyCharm的运行配置,将Flask项目的运行模式从Fla... 目录android问题重现解决方案问题重现手动指定的IP端口是app.run(host='0.0.

Android WebView无法加载H5页面的常见问题和解决方法

《AndroidWebView无法加载H5页面的常见问题和解决方法》AndroidWebView是一种视图组件,使得Android应用能够显示网页内容,它基于Chromium,具备现代浏览器的许多功... 目录1. WebView 简介2. 常见问题3. 网络权限设置4. 启用 JavaScript5. D

Seata之分布式事务问题及解决方案

《Seata之分布式事务问题及解决方案》:本文主要介绍Seata之分布式事务问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Seata–分布式事务解决方案简介同类产品对比环境搭建1.微服务2.SQL3.seata-server4.微服务配置事务模式1

mysql关联查询速度慢的问题及解决

《mysql关联查询速度慢的问题及解决》:本文主要介绍mysql关联查询速度慢的问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录mysql关联查询速度慢1. 记录原因1.1 在一次线上的服务中1.2 最终发现2. 解决方案3. 具体操作总结mysql

Python中Windows和macOS文件路径格式不一致的解决方法

《Python中Windows和macOS文件路径格式不一致的解决方法》在Python中,Windows和macOS的文件路径字符串格式不一致主要体现在路径分隔符上,这种差异可能导致跨平台代码在处理文... 目录方法 1:使用 os.path 模块方法 2:使用 pathlib 模块(推荐)方法 3:统一使

一文教你解决Python不支持中文路径的问题

《一文教你解决Python不支持中文路径的问题》Python是一种广泛使用的高级编程语言,然而在处理包含中文字符的文件路径时,Python有时会表现出一些不友好的行为,下面小编就来为大家介绍一下具体的... 目录问题背景解决方案1. 设置正确的文件编码2. 使用pathlib模块3. 转换路径为Unicod

Spring MVC跨域问题及解决

《SpringMVC跨域问题及解决》:本文主要介绍SpringMVC跨域问题及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录跨域问题不同的域同源策略解决方法1.CORS2.jsONP3.局部解决方案4.全局解决方法总结跨域问题不同的域协议、域名、端口

SpringBoot项目启动错误:找不到或无法加载主类的几种解决方法

《SpringBoot项目启动错误:找不到或无法加载主类的几种解决方法》本文主要介绍了SpringBoot项目启动错误:找不到或无法加载主类的几种解决方法,具有一定的参考价值,感兴趣的可以了解一下... 目录方法1:更改IDE配置方法2:在Eclipse中清理项目方法3:使用Maven命令行在开发Sprin

SpringBoot自定义注解如何解决公共字段填充问题

《SpringBoot自定义注解如何解决公共字段填充问题》本文介绍了在系统开发中,如何使用AOP切面编程实现公共字段自动填充的功能,从而简化代码,通过自定义注解和切面类,可以统一处理创建时间和修改时间... 目录1.1 问题分析1.2 实现思路1.3 代码开发1.3.1 步骤一1.3.2 步骤二1.3.3