解决[Unable to determine the device handle for GPU...: Unknown Error]问题

2023-11-02 13:04

本文主要是介绍解决[Unable to determine the device handle for GPU...: Unknown Error]问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

服务器环境

环境
操作系统Ubuntu-22.04
内核Linux 6.2.0-36-generic
显卡NVIDIA GeForce RTX 3090(2张)

问题描述

跑一个大模型模块的训练时,发现GPU莫名奇妙地挂了,执行nvidia-smi报了如下错误:

Unable to determine the device handle for GPU0000:01:00.0: Unknown Error

而在重启之后,又能执行nvidia-smi显示所有显卡的信息,通过lspci命令查看Linux是否能正常读取PCI总线上挂载的设备,可以看到开机后,两个显卡的信息都是能读取的:

01:00.0 VGA compatible controller: NVIDIA Corporation GA102 [GeForce RTX 3090] (rev a1)
01:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller (rev a1)
02:00.0 VGA compatible controller: NVIDIA Corporation GA102 [GeForce RTX 3090] (rev a1)
02:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller (rev a1)

其中需要注意到后面rev a1信息都是正常的,当发生上诉错误后(即显卡爆出一个未知的错误),其中被使用的显卡,也就显卡1中的rev a1变成了rev ff,无法正常读取

分析

首先考虑的是驱动问题,毕竟一般设备识别不出来,多半是驱动有点小bug。先去检查了原来的驱动,发现装的驱动版本是 535.86.05,比较新的一个版本。按照个人习惯,会选择比当前最新的版本退两三个版本(其实就是怕麻烦,旧一些的版本遇到问题可以从网上找到更多例子,而新版本可能还得官方指定网站去寻求答案),参照网上的安装流程成功地把原有驱动卸载了并装回了525.147.05版本,并尝试继续跑算法,但是没能解决问题。在这里还遇到了另一个问题,也就是图形界面无法正常启动/渲染了,强制重启也没法进入系统了。个人猜测,主要是我更换驱动没做好配套工作,遇到这样的情况,我首先尝试在进入系统前利用ctrl+alt+F1~F10 组合键进入到命令行界面,将现有驱动卸载了并装回原有驱动,成功进入界面(这里只有两个建议 1. 装显卡驱动一定要小心,多看文档再实操;2.备份驱动)。如果还是没法解决,可能就得重装系统了。

随后开始进一步分析问题,从被使用的显卡的版本信息由rev a1-> rev ff知道显卡是在运行时被关闭了,在参考文章1列举的多种问题中,我大致猜到是GPU功率与电源相关的问题了,并从中跳转到了英伟达官网网站对应issue2词条下,发现利用执行如下命令暂时禁掉显卡1后能够执行nvidia-smi获取显卡2的信息了:

$ sudo nvidia-smi drain -p 0000:01:00.0 -m 1

这里的 -m 是指GPU的计算模式,默认是0,即default,;1是指PROHIBITED,即禁止任务在它上面执行。

再利用sudo nvidia-bug-report.sh命令收集显卡的bug信息,从中查找到了与该Issue一致的问题:

Xid (...): 79, pid='<unknown>', name=<unknown>, GPU has fallen off the bus

其中一位大佬提到原因如下:

Running ML workloads will cause heavy spikes in power usage, so rather get a better PSU.

在相关Issue3找到了解决方案,在该issue中大佬提到:

One of the gpus is shutting down. Since it’s not always the same one, I guess they’re not damaged but either overheating or lack of power occurs. Please monitor temperatures, check PSU.

简单来说就是: 多半是过热、缺电。对应的解决方案在下一节给出,也是上面的大佬提到的。

如果你想问PSU是什么,参考文章4

解决方案

执行如下命令调整显卡的时钟速度(实际就是锁住其最大功率):

$ sudo nvidia-smi -lgc 300,1500

-lgc的作用:

    -lgc  --lock-gpu-clocks=    Specifies <minGpuClock,maxGpuClock> clocks as apair (e.g. 1500,1500) that defines the range of desired locked GPU clock speed in MHz.Setting this will supercede application clocksand take effect regardless if an app is running.Input can also be a singular desired clock value(e.g. <GpuClockValue>).

该命令只是临时的,服务器重启后需要重新设置。可以往/etc/rc.local开机自启配置文件,新增这一条命令。

如果没有这个文件,建议根据指定ubuntu 2204、开机自启等关键词从网上查找对应解决方案寻求答案。

参考文章


  1. NVIDIA显卡BUG解决 Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error-CSDN博客 ↩︎

  2. Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error - Graphics / Linux / Linux - NVIDIA Developer Forums ↩︎

  3. GPU fans go to max and graphics drivers hang - Graphics / Linux / Linux - NVIDIA Developer Forums ↩︎

  4. 电源供应器 - 维基百科,自由的百科全书 (wikipedia.org) ↩︎

这篇关于解决[Unable to determine the device handle for GPU...: Unknown Error]问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/330793

相关文章

判断PyTorch是GPU版还是CPU版的方法小结

《判断PyTorch是GPU版还是CPU版的方法小结》PyTorch作为当前最流行的深度学习框架之一,支持在CPU和GPU(NVIDIACUDA)上运行,所以对于深度学习开发者来说,正确识别PyTor... 目录前言为什么需要区分GPU和CPU版本?性能差异硬件要求如何检查PyTorch版本?方法1:使用命

Redis 热 key 和大 key 问题小结

《Redis热key和大key问题小结》:本文主要介绍Redis热key和大key问题小结,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、什么是 Redis 热 key?热 key(Hot Key)定义: 热 key 常见表现:热 key 的风险:二、

IntelliJ IDEA 中配置 Spring MVC 环境的详细步骤及问题解决

《IntelliJIDEA中配置SpringMVC环境的详细步骤及问题解决》:本文主要介绍IntelliJIDEA中配置SpringMVC环境的详细步骤及问题解决,本文分步骤结合实例给大... 目录步骤 1:创建 Maven Web 项目步骤 2:添加 Spring MVC 依赖1、保存后执行2、将新的依赖

Spring 中的循环引用问题解决方法

《Spring中的循环引用问题解决方法》:本文主要介绍Spring中的循环引用问题解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录什么是循环引用?循环依赖三级缓存解决循环依赖二级缓存三级缓存本章来聊聊Spring 中的循环引用问题该如何解决。这里聊

Spring Boot中JSON数值溢出问题从报错到优雅解决办法

《SpringBoot中JSON数值溢出问题从报错到优雅解决办法》:本文主要介绍SpringBoot中JSON数值溢出问题从报错到优雅的解决办法,通过修改字段类型为Long、添加全局异常处理和... 目录一、问题背景:为什么我的接口突然报错了?二、为什么会发生这个错误?1. Java 数据类型的“容量”限制

关于MongoDB图片URL存储异常问题以及解决

《关于MongoDB图片URL存储异常问题以及解决》:本文主要介绍关于MongoDB图片URL存储异常问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录MongoDB图片URL存储异常问题项目场景问题描述原因分析解决方案预防措施js总结MongoDB图

SpringBoot项目中报错The field screenShot exceeds its maximum permitted size of 1048576 bytes.的问题及解决

《SpringBoot项目中报错ThefieldscreenShotexceedsitsmaximumpermittedsizeof1048576bytes.的问题及解决》这篇文章... 目录项目场景问题描述原因分析解决方案总结项目场景javascript提示:项目相关背景:项目场景:基于Spring

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

《解决Maven项目idea找不到本地仓库jar包问题以及使用mvninstall:install-file》:本文主要介绍解决Maven项目idea找不到本地仓库jar包问题以及使用mvnin... 目录Maven项目idea找不到本地仓库jar包以及使用mvn install:install-file基

最详细安装 PostgreSQL方法及常见问题解决

《最详细安装PostgreSQL方法及常见问题解决》:本文主要介绍最详细安装PostgreSQL方法及常见问题解决,介绍了在Windows系统上安装PostgreSQL及Linux系统上安装Po... 目录一、在 Windows 系统上安装 PostgreSQL1. 下载 PostgreSQL 安装包2.

usb接口驱动异常问题常用解决方案

《usb接口驱动异常问题常用解决方案》当遇到USB接口驱动异常时,可以通过多种方法来解决,其中主要就包括重装USB控制器、禁用USB选择性暂停设置、更新或安装新的主板驱动等... usb接口驱动异常怎么办,USB接口驱动异常是常见问题,通常由驱动损坏、系统更新冲突、硬件故障或电源管理设置导致。以下是常用解决