Dell R730 2U服务器实践3:安装英伟达上代专业AI训练Nvidia P4计算卡

本文主要是介绍Dell R730 2U服务器实践3:安装英伟达上代专业AI训练Nvidia P4计算卡,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Dell R730是一款非常流行的服务器,2U的机箱可以放入两张显卡,这次先用一张英伟达上代专业级AI训练卡:P4卡做实验,本文记录安装过程。


简洁步骤:

  1. 打开机箱
  2. 将P4显卡插在4号槽位
  3. 关闭机箱
  4. 安装驱动

详细步骤:

对于新手来说,步步为坑,有很多小细节需要注意。

了解硬件情况

首先了解到,R730号称可以装两块显卡
打开机箱,发现pci扩展槽上有4567四个插槽。
其中4号槽位是PCI-E3×16 ,其它三个槽位是PCI-E3×8 ,因此决定将P4插在4号槽。 另外要注意的是4号槽对应CPU2 ,因此单CPU是不能用这个插槽的。

我的这台机器4号槽位还有个插槽保护部件插在上面,怎么拿下来也是尝试了一小会儿。

第一次装显卡,插卡的免螺丝固定部分,有个塑料件,安装前需要先用手扳上来,实在难住了我,多次尝试才找到发力点,话说Dell的免螺丝设计还是挺不错的。插好P4后,再把那个塑料固定件按下去固定显卡。

装好之后,在ESXi下,找PCI设备,将P4卡设置为直通。

这样p4卡的硬件部分就安装完成了!

安装系统ESXi+Ubuntu22.0

原系统是raid0,改成了raid1。

重新安装ESXi,然后再创建Ubuntu虚拟机,装Ubuntu22.0版本,确认将P4卡在ESXi里设为设为直通。

注意,设为直通后,就要设置“保留内存”选项,也就是设置了多少内存就要保留多少内存,否则虚拟机报错无法启动。参见:Dell R730 2U服务器实践2:VMWare ESXi安装-CSDN博客

P4驱动安装

安装驱动比较顺手了,先

从官网下载驱动再手动安装。

用nvidia-smi验证驱动是否安装好了,碰到了问题:

报错:couldn't communicate with the NVIDIA

使用从官网下驱动,手动安装的方式,结果安装后运行nvidia-smi报错:不能与nvidia驱动通信。

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

换一种方法,

使用 ubuntu-drivers 安装驱动

执行:

sudo ubuntu-drivers devices # 查看可以装的驱动

sudo ubuntu-drivers autoinstall  # 安装驱动

结果还是显示无法与nvidia驱动通信....

使用dkms安装驱动

网上建议用dkms安装驱动,执行:

sudo apt install dkms

sudo dkms install -m nvidia -v 525.147.05

这样由dkms安装驱动,非常简单方便。我记得这里的驱动需要从前面sudo ubuntu-drivers devices显示的驱动里面选。

安装驱动的时候提示重启之后需要密码验证。(我没看见验证啊)

问题没有解决。

apt install安装驱动

先看有哪些驱动

sudo nvidia-drivers device

vendor   : NVIDIA Corporation
model    : GP104GL [Tesla P4]
driver   : nvidia-driver-390 - distro non-free
driver   : nvidia-driver-450-server - distro non-free
driver   : nvidia-driver-470 - distro non-free recommended
driver   : nvidia-driver-470-server - distro non-free
driver   : nvidia-driver-418-server - distro non-free
driver   : xserver-xorg-video-nouveau - distro free builtin

然后使用apt安装:sudo apt install nvidia-driver-470-server

apt 安装也还是不行。

skywalk@ub22:~$ sudo modprobe nvidia
modprobe: ERROR: could not insert 'nvidia': Operation not permitted

ubuntu 已经说了推荐nvidia-driver-470,再来一次:

sudo apt install nvidia-driver-470

照旧。

其实上面四种安装驱动的方法都是可行的,但是为什么会报错呢? 原来是因为有个地方没有设置对!

设置 关闭 UEFI 安全引导

看到这篇文章里ESXI8.0下直通NVIDIA Tesla P4显卡给Ubuntu22.04系统中Docker容器里的Jellyfin使用 - 哔哩哔哩 (bilibili.com)讲到“是否为此虚拟机启用 UEFI 安全引导” 这里要关掉。

关掉试试,再执行nvidia-smi,哇,成功拉!

安装pytorch和飞桨paddlepaddle

到各自的官网,通过官网指引进行pip或conda安装,AI训练环境搞定!

总结

使用ESXi虚拟机在Ubuntu安装P4计算卡有几个注意的细节:

1 ESXi里虚拟机ubuntu的内存设置里需要勾选“保留内存”

2 在ESXi里设置P4计算卡为“直通”

3 ESXi里虚拟机ubuntu的启动设置里关闭“是否为此虚拟机启用 UEFI 安全引导”

其它地方就跟我们平时使用一样了。

前一篇:Dell R730 2U服务器实践2:VMWare ESXi安装-CSDN博客

这篇关于Dell R730 2U服务器实践3:安装英伟达上代专业AI训练Nvidia P4计算卡的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/766447

相关文章

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Linux系统中卸载与安装JDK的详细教程

《Linux系统中卸载与安装JDK的详细教程》本文详细介绍了如何在Linux系统中通过Xshell和Xftp工具连接与传输文件,然后进行JDK的安装与卸载,安装步骤包括连接Linux、传输JDK安装包... 目录1、卸载1.1 linux删除自带的JDK1.2 Linux上卸载自己安装的JDK2、安装2.1

Spring Boot 配置文件之类型、加载顺序与最佳实践记录

《SpringBoot配置文件之类型、加载顺序与最佳实践记录》SpringBoot的配置文件是灵活且强大的工具,通过合理的配置管理,可以让应用开发和部署更加高效,无论是简单的属性配置,还是复杂... 目录Spring Boot 配置文件详解一、Spring Boot 配置文件类型1.1 applicatio

Linux卸载自带jdk并安装新jdk版本的图文教程

《Linux卸载自带jdk并安装新jdk版本的图文教程》在Linux系统中,有时需要卸载预装的OpenJDK并安装特定版本的JDK,例如JDK1.8,所以本文给大家详细介绍了Linux卸载自带jdk并... 目录Ⅰ、卸载自带jdkⅡ、安装新版jdkⅠ、卸载自带jdk1、输入命令查看旧jdkrpm -qa

tomcat多实例部署的项目实践

《tomcat多实例部署的项目实践》Tomcat多实例是指在一台设备上运行多个Tomcat服务,这些Tomcat相互独立,本文主要介绍了tomcat多实例部署的项目实践,具有一定的参考价值,感兴趣的可... 目录1.创建项目目录,测试文China编程件2js.创建实例的安装目录3.准备实例的配置文件4.编辑实例的

MySQL Workbench 安装教程(保姆级)

《MySQLWorkbench安装教程(保姆级)》MySQLWorkbench是一款强大的数据库设计和管理工具,本文主要介绍了MySQLWorkbench安装教程,文中通过图文介绍的非常详细,对大... 目录前言:详细步骤:一、检查安装的数据库版本二、在官网下载对应的mysql Workbench版本,要是

Python 中的异步与同步深度解析(实践记录)

《Python中的异步与同步深度解析(实践记录)》在Python编程世界里,异步和同步的概念是理解程序执行流程和性能优化的关键,这篇文章将带你深入了解它们的差异,以及阻塞和非阻塞的特性,同时通过实际... 目录python中的异步与同步:深度解析与实践异步与同步的定义异步同步阻塞与非阻塞的概念阻塞非阻塞同步

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

Linux安装MySQL的教程

《Linux安装MySQL的教程》:本文主要介绍Linux安装MySQL的教程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux安装mysql1.Mysql官网2.我的存放路径3.解压mysql文件到当前目录4.重命名一下5.创建mysql用户组和用户并修