Dell R730 2U服务器实践3:安装英伟达上代专业AI训练Nvidia P4计算卡

本文主要是介绍Dell R730 2U服务器实践3:安装英伟达上代专业AI训练Nvidia P4计算卡,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Dell R730是一款非常流行的服务器,2U的机箱可以放入两张显卡,这次先用一张英伟达上代专业级AI训练卡:P4卡做实验,本文记录安装过程。


简洁步骤:

  1. 打开机箱
  2. 将P4显卡插在4号槽位
  3. 关闭机箱
  4. 安装驱动

详细步骤:

对于新手来说,步步为坑,有很多小细节需要注意。

了解硬件情况

首先了解到,R730号称可以装两块显卡
打开机箱,发现pci扩展槽上有4567四个插槽。
其中4号槽位是PCI-E3×16 ,其它三个槽位是PCI-E3×8 ,因此决定将P4插在4号槽。 另外要注意的是4号槽对应CPU2 ,因此单CPU是不能用这个插槽的。

我的这台机器4号槽位还有个插槽保护部件插在上面,怎么拿下来也是尝试了一小会儿。

第一次装显卡,插卡的免螺丝固定部分,有个塑料件,安装前需要先用手扳上来,实在难住了我,多次尝试才找到发力点,话说Dell的免螺丝设计还是挺不错的。插好P4后,再把那个塑料固定件按下去固定显卡。

装好之后,在ESXi下,找PCI设备,将P4卡设置为直通。

这样p4卡的硬件部分就安装完成了!

安装系统ESXi+Ubuntu22.0

原系统是raid0,改成了raid1。

重新安装ESXi,然后再创建Ubuntu虚拟机,装Ubuntu22.0版本,确认将P4卡在ESXi里设为设为直通。

注意,设为直通后,就要设置“保留内存”选项,也就是设置了多少内存就要保留多少内存,否则虚拟机报错无法启动。参见:Dell R730 2U服务器实践2:VMWare ESXi安装-CSDN博客

P4驱动安装

安装驱动比较顺手了,先

从官网下载驱动再手动安装。

用nvidia-smi验证驱动是否安装好了,碰到了问题:

报错:couldn't communicate with the NVIDIA

使用从官网下驱动,手动安装的方式,结果安装后运行nvidia-smi报错:不能与nvidia驱动通信。

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

换一种方法,

使用 ubuntu-drivers 安装驱动

执行:

sudo ubuntu-drivers devices # 查看可以装的驱动

sudo ubuntu-drivers autoinstall  # 安装驱动

结果还是显示无法与nvidia驱动通信....

使用dkms安装驱动

网上建议用dkms安装驱动,执行:

sudo apt install dkms

sudo dkms install -m nvidia -v 525.147.05

这样由dkms安装驱动,非常简单方便。我记得这里的驱动需要从前面sudo ubuntu-drivers devices显示的驱动里面选。

安装驱动的时候提示重启之后需要密码验证。(我没看见验证啊)

问题没有解决。

apt install安装驱动

先看有哪些驱动

sudo nvidia-drivers device

vendor   : NVIDIA Corporation
model    : GP104GL [Tesla P4]
driver   : nvidia-driver-390 - distro non-free
driver   : nvidia-driver-450-server - distro non-free
driver   : nvidia-driver-470 - distro non-free recommended
driver   : nvidia-driver-470-server - distro non-free
driver   : nvidia-driver-418-server - distro non-free
driver   : xserver-xorg-video-nouveau - distro free builtin

然后使用apt安装:sudo apt install nvidia-driver-470-server

apt 安装也还是不行。

skywalk@ub22:~$ sudo modprobe nvidia
modprobe: ERROR: could not insert 'nvidia': Operation not permitted

ubuntu 已经说了推荐nvidia-driver-470,再来一次:

sudo apt install nvidia-driver-470

照旧。

其实上面四种安装驱动的方法都是可行的,但是为什么会报错呢? 原来是因为有个地方没有设置对!

设置 关闭 UEFI 安全引导

看到这篇文章里ESXI8.0下直通NVIDIA Tesla P4显卡给Ubuntu22.04系统中Docker容器里的Jellyfin使用 - 哔哩哔哩 (bilibili.com)讲到“是否为此虚拟机启用 UEFI 安全引导” 这里要关掉。

关掉试试,再执行nvidia-smi,哇,成功拉!

安装pytorch和飞桨paddlepaddle

到各自的官网,通过官网指引进行pip或conda安装,AI训练环境搞定!

总结

使用ESXi虚拟机在Ubuntu安装P4计算卡有几个注意的细节:

1 ESXi里虚拟机ubuntu的内存设置里需要勾选“保留内存”

2 在ESXi里设置P4计算卡为“直通”

3 ESXi里虚拟机ubuntu的启动设置里关闭“是否为此虚拟机启用 UEFI 安全引导”

其它地方就跟我们平时使用一样了。

前一篇:Dell R730 2U服务器实践2:VMWare ESXi安装-CSDN博客

这篇关于Dell R730 2U服务器实践3:安装英伟达上代专业AI训练Nvidia P4计算卡的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/766447

相关文章

Go语言开发实现查询IP信息的MCP服务器

《Go语言开发实现查询IP信息的MCP服务器》随着MCP的快速普及和广泛应用,MCP服务器也层出不穷,本文将详细介绍如何在Go语言中使用go-mcp库来开发一个查询IP信息的MCP... 目录前言mcp-ip-geo 服务器目录结构说明查询 IP 信息功能实现工具实现工具管理查询单个 IP 信息工具的实现服

Spring Boot 整合 SSE的高级实践(Server-Sent Events)

《SpringBoot整合SSE的高级实践(Server-SentEvents)》SSE(Server-SentEvents)是一种基于HTTP协议的单向通信机制,允许服务器向浏览器持续发送实... 目录1、简述2、Spring Boot 中的SSE实现2.1 添加依赖2.2 实现后端接口2.3 配置超时时

最详细安装 PostgreSQL方法及常见问题解决

《最详细安装PostgreSQL方法及常见问题解决》:本文主要介绍最详细安装PostgreSQL方法及常见问题解决,介绍了在Windows系统上安装PostgreSQL及Linux系统上安装Po... 目录一、在 Windows 系统上安装 PostgreSQL1. 下载 PostgreSQL 安装包2.

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

Maven如何手动安装依赖到本地仓库

《Maven如何手动安装依赖到本地仓库》:本文主要介绍Maven如何手动安装依赖到本地仓库问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、下载依赖二、安装 JAR 文件到本地仓库三、验证安装四、在项目中使用该依赖1、注意事项2、额外提示总结一、下载依赖登

springboot上传zip包并解压至服务器nginx目录方式

《springboot上传zip包并解压至服务器nginx目录方式》:本文主要介绍springboot上传zip包并解压至服务器nginx目录方式,具有很好的参考价值,希望对大家有所帮助,如有错误... 目录springboot上传zip包并解压至服务器nginx目录1.首先需要引入zip相关jar包2.然

将Java项目提交到云服务器的流程步骤

《将Java项目提交到云服务器的流程步骤》所谓将项目提交到云服务器即将你的项目打成一个jar包然后提交到云服务器即可,因此我们需要准备服务器环境为:Linux+JDK+MariDB(MySQL)+Gi... 目录1. 安装 jdk1.1 查看 jdk 版本1.2 下载 jdk2. 安装 mariadb(my

Java Optional的使用技巧与最佳实践

《JavaOptional的使用技巧与最佳实践》在Java中,Optional是用于优雅处理null的容器类,其核心目标是显式提醒开发者处理空值场景,避免NullPointerExce... 目录一、Optional 的核心用途二、使用技巧与最佳实践三、常见误区与反模式四、替代方案与扩展五、总结在 Java

Spring Boot循环依赖原理、解决方案与最佳实践(全解析)

《SpringBoot循环依赖原理、解决方案与最佳实践(全解析)》循环依赖指两个或多个Bean相互直接或间接引用,形成闭环依赖关系,:本文主要介绍SpringBoot循环依赖原理、解决方案与最... 目录一、循环依赖的本质与危害1.1 什么是循环依赖?1.2 核心危害二、Spring的三级缓存机制2.1 三

如何在Mac上安装并配置JDK环境变量详细步骤

《如何在Mac上安装并配置JDK环境变量详细步骤》:本文主要介绍如何在Mac上安装并配置JDK环境变量详细步骤,包括下载JDK、安装JDK、配置环境变量、验证JDK配置以及可选地设置PowerSh... 目录步骤 1:下载JDK步骤 2:安装JDK步骤 3:配置环境变量1. 编辑~/.zshrc(对于zsh