解决[Unable to determine the device handle for GPU...: Unknown Error]问题

2023-11-02 13:04

本文主要是介绍解决[Unable to determine the device handle for GPU...: Unknown Error]问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

服务器环境

环境
操作系统Ubuntu-22.04
内核Linux 6.2.0-36-generic
显卡NVIDIA GeForce RTX 3090(2张)

问题描述

跑一个大模型模块的训练时,发现GPU莫名奇妙地挂了,执行nvidia-smi报了如下错误:

Unable to determine the device handle for GPU0000:01:00.0: Unknown Error

而在重启之后,又能执行nvidia-smi显示所有显卡的信息,通过lspci命令查看Linux是否能正常读取PCI总线上挂载的设备,可以看到开机后,两个显卡的信息都是能读取的:

01:00.0 VGA compatible controller: NVIDIA Corporation GA102 [GeForce RTX 3090] (rev a1)
01:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller (rev a1)
02:00.0 VGA compatible controller: NVIDIA Corporation GA102 [GeForce RTX 3090] (rev a1)
02:00.1 Audio device: NVIDIA Corporation GA102 High Definition Audio Controller (rev a1)

其中需要注意到后面rev a1信息都是正常的,当发生上诉错误后(即显卡爆出一个未知的错误),其中被使用的显卡,也就显卡1中的rev a1变成了rev ff,无法正常读取

分析

首先考虑的是驱动问题,毕竟一般设备识别不出来,多半是驱动有点小bug。先去检查了原来的驱动,发现装的驱动版本是 535.86.05,比较新的一个版本。按照个人习惯,会选择比当前最新的版本退两三个版本(其实就是怕麻烦,旧一些的版本遇到问题可以从网上找到更多例子,而新版本可能还得官方指定网站去寻求答案),参照网上的安装流程成功地把原有驱动卸载了并装回了525.147.05版本,并尝试继续跑算法,但是没能解决问题。在这里还遇到了另一个问题,也就是图形界面无法正常启动/渲染了,强制重启也没法进入系统了。个人猜测,主要是我更换驱动没做好配套工作,遇到这样的情况,我首先尝试在进入系统前利用ctrl+alt+F1~F10 组合键进入到命令行界面,将现有驱动卸载了并装回原有驱动,成功进入界面(这里只有两个建议 1. 装显卡驱动一定要小心,多看文档再实操;2.备份驱动)。如果还是没法解决,可能就得重装系统了。

随后开始进一步分析问题,从被使用的显卡的版本信息由rev a1-> rev ff知道显卡是在运行时被关闭了,在参考文章1列举的多种问题中,我大致猜到是GPU功率与电源相关的问题了,并从中跳转到了英伟达官网网站对应issue2词条下,发现利用执行如下命令暂时禁掉显卡1后能够执行nvidia-smi获取显卡2的信息了:

$ sudo nvidia-smi drain -p 0000:01:00.0 -m 1

这里的 -m 是指GPU的计算模式,默认是0,即default,;1是指PROHIBITED,即禁止任务在它上面执行。

再利用sudo nvidia-bug-report.sh命令收集显卡的bug信息,从中查找到了与该Issue一致的问题:

Xid (...): 79, pid='<unknown>', name=<unknown>, GPU has fallen off the bus

其中一位大佬提到原因如下:

Running ML workloads will cause heavy spikes in power usage, so rather get a better PSU.

在相关Issue3找到了解决方案,在该issue中大佬提到:

One of the gpus is shutting down. Since it’s not always the same one, I guess they’re not damaged but either overheating or lack of power occurs. Please monitor temperatures, check PSU.

简单来说就是: 多半是过热、缺电。对应的解决方案在下一节给出,也是上面的大佬提到的。

如果你想问PSU是什么,参考文章4

解决方案

执行如下命令调整显卡的时钟速度(实际就是锁住其最大功率):

$ sudo nvidia-smi -lgc 300,1500

-lgc的作用:

    -lgc  --lock-gpu-clocks=    Specifies <minGpuClock,maxGpuClock> clocks as apair (e.g. 1500,1500) that defines the range of desired locked GPU clock speed in MHz.Setting this will supercede application clocksand take effect regardless if an app is running.Input can also be a singular desired clock value(e.g. <GpuClockValue>).

该命令只是临时的,服务器重启后需要重新设置。可以往/etc/rc.local开机自启配置文件,新增这一条命令。

如果没有这个文件,建议根据指定ubuntu 2204、开机自启等关键词从网上查找对应解决方案寻求答案。

参考文章


  1. NVIDIA显卡BUG解决 Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error-CSDN博客 ↩︎

  2. Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error - Graphics / Linux / Linux - NVIDIA Developer Forums ↩︎

  3. GPU fans go to max and graphics drivers hang - Graphics / Linux / Linux - NVIDIA Developer Forums ↩︎

  4. 电源供应器 - 维基百科,自由的百科全书 (wikipedia.org) ↩︎

这篇关于解决[Unable to determine the device handle for GPU...: Unknown Error]问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/330793

相关文章

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

Spring事务中@Transactional注解不生效的原因分析与解决

《Spring事务中@Transactional注解不生效的原因分析与解决》在Spring框架中,@Transactional注解是管理数据库事务的核心方式,本文将深入分析事务自调用的底层原理,解释为... 目录1. 引言2. 事务自调用问题重现2.1 示例代码2.2 问题现象3. 为什么事务自调用会失效3

mysql出现ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10061)的解决方法

《mysql出现ERROR2003(HY000):Can‘tconnecttoMySQLserveron‘localhost‘(10061)的解决方法》本文主要介绍了mysql出现... 目录前言:第一步:第二步:第三步:总结:前言:当你想通过命令窗口想打开mysql时候发现提http://www.cpp

SpringBoot启动报错的11个高频问题排查与解决终极指南

《SpringBoot启动报错的11个高频问题排查与解决终极指南》这篇文章主要为大家详细介绍了SpringBoot启动报错的11个高频问题的排查与解决,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一... 目录1. 依赖冲突:NoSuchMethodError 的终极解法2. Bean注入失败:No qu

springboot报错Invalid bound statement (not found)的解决

《springboot报错Invalidboundstatement(notfound)的解决》本文主要介绍了springboot报错Invalidboundstatement(not... 目录一. 问题描述二.解决问题三. 添加配置项 四.其他的解决方案4.1 Mapper 接口与 XML 文件不匹配

MySQL新增字段后Java实体未更新的潜在问题与解决方案

《MySQL新增字段后Java实体未更新的潜在问题与解决方案》在Java+MySQL的开发中,我们通常使用ORM框架来映射数据库表与Java对象,但有时候,数据库表结构变更(如新增字段)后,开发人员可... 目录引言1. 问题背景:数据库与 Java 实体不同步1.1 常见场景1.2 示例代码2. 不同操作

Python中ModuleNotFoundError: No module named ‘timm’的错误解决

《Python中ModuleNotFoundError:Nomodulenamed‘timm’的错误解决》本文主要介绍了Python中ModuleNotFoundError:Nomodulen... 目录一、引言二、错误原因分析三、解决办法1.安装timm模块2. 检查python环境3. 解决安装路径问题

如何解决mysql出现Incorrect string value for column ‘表项‘ at row 1错误问题

《如何解决mysql出现Incorrectstringvalueforcolumn‘表项‘atrow1错误问题》:本文主要介绍如何解决mysql出现Incorrectstringv... 目录mysql出现Incorrect string value for column ‘表项‘ at row 1错误报错

如何解决Spring MVC中响应乱码问题

《如何解决SpringMVC中响应乱码问题》:本文主要介绍如何解决SpringMVC中响应乱码问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Spring MVC最新响应中乱码解决方式以前的解决办法这是比较通用的一种方法总结Spring MVC最新响应中乱码解

Java报NoClassDefFoundError异常的原因及解决

《Java报NoClassDefFoundError异常的原因及解决》在Java开发过程中,java.lang.NoClassDefFoundError是一个令人头疼的运行时错误,本文将深入探讨这一问... 目录一、问题分析二、报错原因三、解决思路四、常见场景及原因五、深入解决思路六、预http://www