Nvidia显卡Failed to initialize NVML Driver/library version mismatch错误解决方案

本文主要是介绍Nvidia显卡Failed to initialize NVML Driver/library version mismatch错误解决方案,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近GPT比较火,开始折腾了一下gpu,用来跑项目:
https://github.com/OpenTalker/SadTalker
今天运行程序突然发现用不了,经排查应该是由于NVIDIA内核驱动版本与系统驱动版本不一致导致的。

下面简单总结了这个错误的解决方案。

问题复现

在这里插入图片描述
查看系统驱动日志
cat /var/log/dpkg.log | grep nvidia
在这里插入图片描述## 问题原因分析
NVIDIA内核驱动版本与系统驱动版本不匹配。
##查看显卡驱动内核版本
cat /proc/driver/nvidia/version
NVRM version: NVIDIA UNIX x86_64 Kernel Module 470.223.02 Thu May 11 11:46:56 UTC 2023
GCC version: gcc version 11.4.0 (Ubuntu 11.4.0-1ubuntu1~22.04)
查看已安装驱动程序

dpkg --list | grep nvidia-*
在这里插入图片描述
经排查英伟达显卡驱动自动更新了,导致程序运行失败。

下面是版本回退操作,
解决方案
卸载现有驱动,重新安装
sudo /usr/bin/nvidia-uninstall
sudo apt-get --purge remove nvidia-*
sudo apt-get purge nvidia*
sudo apt-get purge libnvidia*
直到命令不输出任何内容
sudo dpkg --list | grep nvidia-*重新安装
sudo chmod a+x NVIDIA-Linux-x86_64-470.199.02.run
sudo ./NVIDIA-Linux-x86_64-470.199.02.run -no-x-check -no-nouveau-check -no-opengl-files–no-opengl-files 只安装驱动文件,不安装OpenGL文件–no-x-check 安装驱动时不检查X服务–no-nouveau-check 安装驱动时不检查nouveau

报错处理:
一,
在这里插入图片描述

1.下载官方驱动程序
清除之前残留的nvidia驱动

apt-get remove --purge nvidia*

  1. 禁止集成的nouveau驱动

Ubuntu系统集成的显卡驱动程序是nouveau,它是第三方为NVIDIA开发的开源驱动,我们需要先将其屏蔽才能安装NVIDIA官方驱动。
将驱动添加到黑名单blacklist.conf中,但是由于该文件的属性不允许修改。所以需要先修改文件属性。

创建文件:
cat /etc/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
options nouveau modeset=0
blacklist rivafb
blacklist vga16fb
blacklist nouveau
blacklist nvidiafb
blacklist rivatv

卸载之前安装的残留文件
sudo apt-get remove --purge xserver-xorg-video-nouveau
sudo apt-get --purge remove nvidia-*

3-0 安装依赖
sudo apt update
sudo apt install dkms build-essential linux-headers-generic

3.开始安装
安装驱动程序
$sudo chmod a+x NVIDIA-Linux-x86_64-xxx.run
$sudo sh NVIDIA-Linux-x86_64-xxx.run
#–no-x-check 关闭X服务
#–no-nouveau-check 禁用nouveau
#–no-opengl-files 不安装OpenGL文件
4-0 安装完成后
sudo update-initramfs -u 内核更新
sudo reboot

卸载残留:

要强制卸载这两个模块,你可以使用dpkg命令来操作。请按照以下步骤进行:

  1. 打开终端,以管理员权限登录到你的系统。

  2. 运行以下命令来卸载linux-modules-nvidia-450-server-6.2.0-35-generic模块:

    sudo dpkg --purge linux-modules-nvidia-450-server-6.2.0-35-generic
    ```
  3. 运行以下命令来卸载linux-objects-nvidia-450-server-6.2.0-35-generic模块:

    sudo dpkg --purge linux-objects-nvidia-450-server-6.2.0-35-generic
    ```注意:在命令中替换版本号和架构(amd64)为你系统中实际安装的版本。
  4. 当命令执行完成后,这两个模块应该已被强制卸载。

最终效果:
在这里插入图片描述其他命令:

升级显卡驱动命令
输入如下指令查看系统推荐的驱动版本:
sudo ubuntu-drivers devices

auturemove命令
在Ubuntu中,你可以使用autoremove命令来自动删除不再需要的软件包和依赖项。这些软件包通常是由于你升级或删除其他软件包而变得不再需要的。

要使用autoremove命令,请按照以下步骤进行:

  1. 打开终端。

  2. 以管理员权限登录到你的系统。

  3. 运行以下命令来使用autoremove

    sudo apt autoremove
    ```
  4. 命令将扫描系统中不再需要的软件包和依赖项,并提示你确认是否删除它们。请仔细阅读删除列表上的软件包,确保你不再需要它们。

  5. 如果你确认要删除这些软件包,请输入"Y"或"yes",然后按回车键。

  6. autoremove命令将自动删除这些不再需要的软件包和依赖项。

请注意,使用autoremove命令时要小心,确保你了解要删除的软件包以及其对系统的影响。建议在执行之前先进行备份,并定期进行系统维护和清理。

tips:
为避免麻烦关闭自动更新显卡驱动

1.禁止自动升级

修改配置文件/etc/apt/apt.conf.d/10periodic
#0是关闭,1是开启,将所有值改为0
vi etc/apt/apt.conf.d/10periodic
APT::Periodic::Update-Package-Lists “0”;
APT::Periodic::Download-Upgradeable-Packages “0”;
APT::Periodic::AutocleanInterval “0”;

在这里插入图片描述

执行命令:
sudo apt-mark hold linux-image-generic linux-headers-generic
在这里插入图片描述
2 使用 apt-mark hold

apt-mark hold 命令可以帮助我们锁定某个软件包的版本,这样就可以防止 Ubuntu 自动更新该软件包。在这种情况下,我们可以使用 apt-mark hold 命令来锁定显卡驱动软件包的版本,从而防止 Ubuntu 自动更新显卡驱动。具体操作步骤如下:

打开终端,使用以下命令来查看当前安装的显卡驱动软件包:
dpkg -l | grep -i nvidia
执行以下命令将该软件包的版本锁定:
sudo apt-mark hold
其中, 表示需要锁定的显卡驱动软件包的名称,例如:nvidia-driver-450。

如果需要解除锁定,我们可以使用以下命令:
sudo apt-mark unhold
需要注意的是,该方法只会禁止 Ubuntu 自动更新显卡驱动,如果我们需要安装更新版本的显卡驱动,则需要手动执行 apt-get update 和 apt-get upgrade 命令

这篇关于Nvidia显卡Failed to initialize NVML Driver/library version mismatch错误解决方案的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/366342

相关文章

C/C++错误信息处理的常见方法及函数

《C/C++错误信息处理的常见方法及函数》C/C++是两种广泛使用的编程语言,特别是在系统编程、嵌入式开发以及高性能计算领域,:本文主要介绍C/C++错误信息处理的常见方法及函数,文中通过代码介绍... 目录前言1. errno 和 perror()示例:2. strerror()示例:3. perror(

Go标准库常见错误分析和解决办法

《Go标准库常见错误分析和解决办法》Go语言的标准库为开发者提供了丰富且高效的工具,涵盖了从网络编程到文件操作等各个方面,然而,标准库虽好,使用不当却可能适得其反,正所谓工欲善其事,必先利其器,本文将... 目录1. 使用了错误的time.Duration2. time.After导致的内存泄漏3. jsO

Linux samba共享慢的原因及解决方案

《Linuxsamba共享慢的原因及解决方案》:本文主要介绍Linuxsamba共享慢的原因及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux samba共享慢原因及解决问题表现原因解决办法总结Linandroidux samba共享慢原因及解决

找不到Anaconda prompt终端的原因分析及解决方案

《找不到Anacondaprompt终端的原因分析及解决方案》因为anaconda还没有初始化,在安装anaconda的过程中,有一行是否要添加anaconda到菜单目录中,由于没有勾选,导致没有菜... 目录问题原因问http://www.chinasem.cn题解决安装了 Anaconda 却找不到 An

Spring定时任务只执行一次的原因分析与解决方案

《Spring定时任务只执行一次的原因分析与解决方案》在使用Spring的@Scheduled定时任务时,你是否遇到过任务只执行一次,后续不再触发的情况?这种情况可能由多种原因导致,如未启用调度、线程... 目录1. 问题背景2. Spring定时任务的基本用法3. 为什么定时任务只执行一次?3.1 未启用

MySQL新增字段后Java实体未更新的潜在问题与解决方案

《MySQL新增字段后Java实体未更新的潜在问题与解决方案》在Java+MySQL的开发中,我们通常使用ORM框架来映射数据库表与Java对象,但有时候,数据库表结构变更(如新增字段)后,开发人员可... 目录引言1. 问题背景:数据库与 Java 实体不同步1.1 常见场景1.2 示例代码2. 不同操作

Python中ModuleNotFoundError: No module named ‘timm’的错误解决

《Python中ModuleNotFoundError:Nomodulenamed‘timm’的错误解决》本文主要介绍了Python中ModuleNotFoundError:Nomodulen... 目录一、引言二、错误原因分析三、解决办法1.安装timm模块2. 检查python环境3. 解决安装路径问题

如何解决mysql出现Incorrect string value for column ‘表项‘ at row 1错误问题

《如何解决mysql出现Incorrectstringvalueforcolumn‘表项‘atrow1错误问题》:本文主要介绍如何解决mysql出现Incorrectstringv... 目录mysql出现Incorrect string value for column ‘表项‘ at row 1错误报错

java常见报错及解决方案总结

《java常见报错及解决方案总结》:本文主要介绍Java编程中常见错误类型及示例,包括语法错误、空指针异常、数组下标越界、类型转换异常、文件未找到异常、除以零异常、非法线程操作异常、方法未定义异常... 目录1. 语法错误 (Syntax Errors)示例 1:解决方案:2. 空指针异常 (NullPoi

使用DrissionPage控制360浏览器的完美解决方案

《使用DrissionPage控制360浏览器的完美解决方案》在网页自动化领域,经常遇到需要保持登录状态、保留Cookie等场景,今天要分享的方案可以完美解决这个问题:使用DrissionPage直接... 目录完整代码引言为什么要使用已有用户数据?核心代码实现1. 导入必要模块2. 关键配置(重点!)3.