【硬件相关】Mellanox网络配置及参数优化

2024-03-05 03:12

本文主要是介绍【硬件相关】Mellanox网络配置及参数优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 一、前言
      • 1、硬件配置
      • 2、网卡信息
    • 二、驱动安装
      • 1、驱动介绍
      • 2、软件架构
        • 2.1、mlx4 VPI Driver
        • 2.2、mlx5 Driver
      • 3、驱动安装
        • 3.1、常规安装
        • 3.2、驱动编译
          • 方法一
          • 方法二
      • 4、RDMA配置
    • 三、交换机配置
    • 四、mlnx-tools管理工具
      • 1、软件安装
      • 2、软件使用
        • ibdev2netdev
          • a、说明
          • b、用法

一、前言

本文主要介绍Mellanox网络配置、部署管理及相关调优手段,用于后续部署实践参考使用

1、硬件配置

序号配件名称配件型号
1100GE 双口网卡Mellanox MCX456A-ECAT
2100GE 以太网DAC线缆Mellanox MCP1600-C003
3100GE 以太网交换机Asterfusion CX532P-NT-AC

2、网卡信息

NVIDIA ConnectX InfiniBand网卡介绍
NVIDIA ConnectX-4 InfiniBand/Ethernet Adapter Cards User Manual

  • 网卡端口:双口(Dual-port QSFP28)
  • 网卡速率:InfiniBand: SDR/DDR/QDR/FDR/EDREthernet: 10/25/40/50/100 Gb/s
  • PCIe版本:8.0GT/s(PCIe 3.0)
  • 插槽宽度:x16 lanes
  • 网卡驱动:mlx5_core
[root@node154 ~]# lspci | grep Eth | grep Mellanox
3b:00.0 Ethernet controller: Mellanox Technologies MT27700 Family [ConnectX-4]
3b:00.1 Ethernet controller: Mellanox Technologies MT27700 Family [ConnectX-4][root@node154 ~]# lspci -vvv -s 3b:00.0 | grep -E '(LnkCap:|LnkSta:)'LnkCap: Port #0, Speed 8GT/s, Width x16, ASPM not supported, Exit Latency L0s unlimited, L1 <4usLnkSta: Speed 8GT/s, Width x16, TrErr- Train- SlotClk+ DLActive- BWMgmt- ABWMgmt-

二、驱动安装

1、驱动介绍

MLNX_OFED Introduction

Mellanox OFED是一个单一的虚拟协议互连(Virtual Protocol Interconnect,VPI)软件栈,可以在所有Mellanox网络适配器解决方案中运行,支持以下到服务器的上行链路:

网卡类别网卡驱动上行速率
ConnectX®-3/ ConnectX®-3 Promlx4InfiniBand: SDR, QDR, FDR10, FDR
Ethernet: 10GigE, 40GigE and 56GigE
ConnectX®-4mlx5InfiniBand: SDR, QDR, FDR, FDR10, EDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, 56GigE1, and 100GigE
ConnectX®-4 Lxmlx5Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, and 50GigE
ConnectX®-5mlx5InfiniBand: SDR, QDR, FDR, FDR10, EDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE
ConnectX®-5 Exmlx5InfiniBand: SDR, QDR, FDR, FDR10, EDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE
ConnectX®-6mlx5InfiniBand: SDR, EDR, HDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE
Innova™ IPsec ENmlx5Ethernet: 10GigE, 40GigE
Connect-IB®mlx5InfiniBand: SDR, QDR, FDR10, FDR

2、软件架构

Mellanox OFED协议栈的示意参考如下,展示了上层协议如何与硬件、内核和用户空间通信

在这里插入图片描述

2.1、mlx4 VPI Driver

mlx4是Mellanox设计的ConnectX®系列适配器的低级驱动程序实现。ConnectX®-3适配器可以作为ib适配器或以太网网卡使用。OFED驱动支持Infiniband和Ethernet网卡配置。为了适应支持的配置,驱动程序被分成以下模块:

  • mlx4_core

处理低级功能,如设备初始化和固件命令处理,控制资源分配,使ib和以太网功能可以共享设备而不相互干扰

  • mlx4_ib

处理InfiniBand的专用功能

  • mlx4_en

处理Ethernet的专用功能

2.2、mlx5 Driver

mlx5是Mellanox设计的Connect-IB®和ConnectX®-4适配器的低级驱动程序实现。Connect-IB®作为InfiniBand适配器运行,而ConnectX®-4作为VPI适配器(InfiniBand和Ethernet)运行。mlx5驱动程序由以下内核模块组成:

  • mlx5_core

作为Connect-IB®和ConnectX®-4适配器卡所需的常用函数库(例如,复位后初始化设备),mlx5_core驱动程序还实现了ConnectX®-4的以太网接口。与mlx4_en/core不同,mlx5驱动程序不需要mlx5_en模块,因为以太网功能内置在mlx5_core模块中。

  • mlx5_ib

处理InfiniBand的专用功能

  • libmlx5

Libmlx5是实现特定于硬件的用户空间功能的提供程序库。如果固件和驱动程序之间不兼容,驱动程序将无法加载,并且将在dmesg中打印一条消息

3、驱动安装

驱动下载地址:NVIDIA MLNX_OFED
驱动安装说明:Installing MLNX_OFED

3.1、常规安装

用于Ethernet和Infiniband网络的Linux驱动程序在所有主流操作系统发行版本都可以使用,如kylin、openEuler、UOS、CentOS、Ubuntu等,可以根据操作系统、硬件架构选择不同驱动版本包下载

  • 根据当前操作系统版本及硬件架构,选择下载对应驱动软件包(MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64.tgz)

在这里插入图片描述

  • 对于主流发行系统版本,在不升级默认内核版本情况下,mlnx_ofed提供了预构建RPM包,直接执行驱动软件安装即可
    注:
    执行mlnxofedinstall安装脚本,程序会自动检测当前安装的内核版本,卸载不匹配的软件包,安装MLNX-OFED二进制驱动程序包,标识当前Infiniband和Ethernet网络适配器,并自动升级固件(如需安装自定义固件版本,则使用./mlnxofedinstall --fw-image-dir /tmp/my_fw_bin_files
    安装完成后,会在tmp目录生成对应安装日志文件(如/tmp/MLNX_OFED_LINUX.1713584.logs/general.log
tar -zxvf MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64.tgz
cd MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64/
./mlnxofedinstall --all --force
3.2、驱动编译
#当前环境信息如下
[root@node88 ~]# cat /etc/.productinfo
Kylin Linux Advanced Server
release V10 (8.2) /(Sun)-aarch64-Build03/20210903[root@node88 ~]# cat /etc/.kyinfo
[dist]
name=Kylin
milestone=Server-V10-SP3-2309a-Release-S5000C-20231025
arch=arm64
beta=False
time=2023-10-25 17:40:45
dist_id=Kylin-Server-V10-SP3-2309a-Release-S5000C-20231025-arm64-2023-10-25 17:40:45[servicekey]
key=0320031[os]
to=
term=2025-01-23[root@node88 ~]# cat /etc/redhat-release
Red Hat Enterprise Linux Server release 8.2 (Ootpa)[root@node88 ~]# uname -a
Linux node88 5.15.0-1.10.6.v2307.ky10h.aarch64 #1 SMP Sun Oct 15 14:14:45 CST 2023 aarch64 aarch64 aarch64 GNU/Linux

在执行上一步安装如出现Current operation system is not supported!,则表明Mellanox预先编译的程序包无法在当前内核版本下运行,需要基于当前环境重新编译tgz软件包,再次执行软件安装即可

方法一
./mlnxofedinstall --all --force  --add-kernel-support
dracut -f
方法二

How to install MLNX_OFED for customized OS

通常情况下,如果针对操作系统做了一些自定义修改,有可能导致安装脚本无法识别操作系统发行版本号,导致安装失败,提示Current operation system is not supported!
对于这类情况,需要手动编译MLNX-OFED驱动包,使用重新编译的驱动包进行安装

  • 参照当前系统的基础操作系统版本,下载对应发行版本原始驱动包压缩包,解压缩进入对应目录

在这里插入图片描述

wget https://www.mellanox.com/page/mlnx_ofed_eula?mtag=linux_sw_drivers&mrequest=downloads&mtype=ofed&mver=MLNX_OFED-5.8-4.1.5.0&mname=MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64.tgz
tar -zxvf MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64.tgz
cd MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64/
  • 基于当前系统重新编译驱动包
    注:编译过程如出现Error: One or more required packages for installing OFED-internal are missing.依赖错误,则按照提示信息安装对应依赖软件包即可
  • -m 用于指定原始驱动包的目录
  • –make-tgz 表示以tgz压缩包方式打包
  • -t 用于指定存放重新编译驱动包的目录
  • –distro 用于指定当前系统发行版本,示例为kylin10
./mlnx_add_kernel_support.sh -m /home/mlx5/MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64/ --make-tgz -t /tmp  --distro kylin10 
  • 执行编译操作后,会在/tmp目录下生成当前内核的驱动包压缩包,解压缩进入目录,执行以下安装命令即可
  • –skip-distro-check 表示不进行当前OS的发布版本号检查
./mlnxofedinstall --skip-distro-check --force

4、RDMA配置

所有节点执行RDMA相关配置优化,参考如下

[root@node154 ~]# cat RDMA.sh
#!/bin/bash
for mlx_dev in $(ibdev2netdev | awk '{print $1}')
doif_dev=$(ibdev2netdev | grep $mlx_dev | awk '{print $5}')ifconfig "${if_dev}" mtu 9000.cma_roce_tos -d "${mlx_dev}" -t 120mlnx_qos -i "${if_dev}" --trust dscpmlnx_qos -i "${if_dev}" --pfc 0,0,0,1,0,0,0,0mlnx_qos -i ${if_dev} --dscp2prio set,30,3echo 48 >/sys/class/net/${if_dev}/ecn/roce_np/cnp_dscpecho 1 >/sys/class/net/${if_dev}/ecn/roce_np/enable/3echo 1 >/sys/class/net/${if_dev}/ecn/roce_rp/enable/3cma_roce_mode -d ${mlx_dev} -p 1 -m 2sysctl -w net.ipv4.tcp_ecn=1echo 120 > /sys/class/infiniband/"${mlx_dev}"/tc/1/traffic_class
done
[root@node154 ~]# sh RDMA.sh

三、交换机配置

与10Gb交换机有所不同,服务器直接连接到交换机网络是没法通信的,100Gb交换机需要针对网络端口划分vlan,同一个网络环境不同网络端口划分到同一个vlan之后,服务器之间网络方可正常通信。
交换机出厂内置队列、拥塞等参数配置,故交换机端针对RDMA无需做任何特殊配置。

现有交换机vlan配置如下:

物理端口逻辑网口vlan标签
0~90/0~0/32vlan100
10~200/36~0/76vlan200

注:交换机逻辑网口以4的倍数递增,如物理端口0对应0/0,物理端口1对应0/4,以此类推

笔记本通过USB转RJ45串口线连接至交换机COM口,协议选择SERIAL,波特率选择115200,参考配置命令如下:
注:默认账号密码为admin/asteros

sonic@sonic:~$ sudo config cli-mode cli
sonic@sonic:~$ sudo sonic-cli
sonic# configure terminal
sonic(config)# vlan 100
sonic(config-vlan-100)# vlan 200
sonic(config-vlan-200)# interface ethernet 0/0
sonic(config-if-0/0)# switchport access vlan 100
sonic(config-if-0/0)# interface ethernet 0/4
sonic(config-if-0/4)# switchport access vlan 100
sonic(config-if-0/4)# interface ethernet 0/80
sonic(config-if-0/112)# switchport access vlan 200
sonic(config-if-0/112)# interface ethernet 0/84
sonic(config-if-0/116)# switchport access vlan 200
sonic(config-if-0/120)# end
sonic#write 
save running-config...
Existing files will be overwritten, continue? [y/N]:y

四、mlnx-tools管理工具

1、软件安装

mlnx-tools

若当前操作系统未安装MLNX_OFED驱动,则需要安装mlnx-tools工具,否则无法使用cma_roce_tos、ibdev2netdev等命令行工具
mlnx-tools是Mellanox提供的一个用户界面工具和脚本,用于管理Mellanox网络配置

  • 安装mlnx-tools的utils工具
wget https://github.com/Mellanox/mlnx-tools/archive/refs/tags/v5.1.3.tar.gz
tar -zxvf mlnx-tools-5.1.3.tar.gz
cd mlnx-tools-5.1.3/ofed_scripts/utils/
python3 setup.py install
  • 安装mlnx-tools的script脚本
[root@node88 mlx5]# cd mlnx-tools-5.1.3/ofed_scripts/
[root@node88 ofed_scripts]# ll
total 92
-rwxrwxr-x 1 root root  2566 Oct  3  2020 cma_roce_mode
-rwxrwxr-x 1 root root  2483 Oct  3  2020 cma_roce_tos
-rwxrwxr-x 1 root root  3696 Oct  3  2020 common_irq_affinity.sh
-rwxrwxr-x 1 root root  7726 Oct  3  2020 ibdev2netdev
-rwxrwxr-x 1 root root  8321 Oct  3  2020 mlnx_affinity
-rwxrwxr-x 1 root root   453 Oct  3  2020 mlnx-post-hlk
-rwxrwxr-x 1 root root  1023 Oct  3  2020 mlnx-pre-hlk
-rwxrwxr-x 1 root root  2411 Oct  3  2020 odp_stat.sh
-rwxrwxr-x 1 root root 11065 Oct  3  2020 roce_config.sh
-rwxrwxr-x 1 root root  3015 Oct  3  2020 set_irq_affinity_bynode.sh
-rwxrwxr-x 1 root root  2493 Oct  3  2020 set_irq_affinity_cpulist.sh
-rwxrwxr-x 1 root root  2997 Oct  3  2020 set_irq_affinity.sh
-rw-rw-r-- 1 root root  2216 Oct  3  2020 setup_mr_cache.sh
-rw-rw-r-- 1 root root  1367 Oct  3  2020 show_counters
-rwxrwxr-x 1 root root  2939 Oct  3  2020 show_gids
-rwxrwxr-x 1 root root  1349 Oct  3  2020 show_irq_affinity_hints.sh
-rwxrwxr-x 1 root root  1369 Oct  3  2020 show_irq_affinity.sh
-rwxrwxr-x 1 root root  2489 Oct  3  2020 sysctl_perf_tuning
drwxrwxr-x 3 root root   276 Jan 10 09:48 utils
[root@node88 ofed_scripts]# cp * /usr/sbin/

2、软件使用

linux-driver-solutions

ibdev2netdev
a、说明

ibdev2netdev是MLNX-OFED提供的脚本,用于展示适配器端口和网卡的映射关系及当前状态信息

b、用法
  • 查看适配器端口和网卡映射关系及连接状态:ibdev2netdev -v
[root@node88 ~]# ibdev2netdev -v
0000:01:00.0 rocep1s0f0 (MT4115 -            )                 fw 12.28.2006 port 1 (ACTIVE) ==> enp1s0f0np0 (Up)
0000:01:00.1 rocep1s0f1 (MT4115 -            )                 fw 12.28.2006 port 1 (DOWN  ) ==> enp1s0f1np1 (Down)
  • 检查Infiniband链路状态:hca_self_test.ofed
[root@node154 ~]# hca_self_test.ofed
---- Performing Adapter Device Self Test ----
Number of CAs Detected ................. 2
PCI Device Check ....................... PASS
Kernel Arch ............................ x86_64
Host Driver Version .................... MLNX_OFED_LINUX-5.7-1.0.2.0 (OFED-5.7-1.0.2): 4.14.113-1.el7.x86_64
Host Driver RPM Check .................. PASS
Firmware on CA #0 NIC .................. v12.28.2006
Firmware on CA #1 NIC .................. v12.28.2006
Host Driver Initialization ............. PASS
Number of CA Ports Active .............. 1
Port State of Port #1 on CA #0 (NIC)..... UP 4X EDR (Ethernet)
Port State of Port #1 on CA #1 (NIC)..... DOWN (Ethernet)
Error Counter Check on CA #0 (NIC)...... PASS
Error Counter Check on CA #1 (NIC)...... PASS
Kernel Syslog Check .................... PASS
Node GUID on CA #0 (NIC) ............... 24:8a:07:03:00:27:d2:40
Node GUID on CA #1 (NIC) ............... 24:8a:07:03:00:27:d2:41
------------------ DONE ---------------------

这篇关于【硬件相关】Mellanox网络配置及参数优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/775150

相关文章

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

SpringBoot+MyBatis-Flex配置ProxySQL的实现步骤

《SpringBoot+MyBatis-Flex配置ProxySQL的实现步骤》本文主要介绍了SpringBoot+MyBatis-Flex配置ProxySQL的实现步骤,文中通过示例代码介绍的非常详... 目录 目标 步骤 1:确保 ProxySQL 和 mysql 主从同步已正确配置ProxySQL 的

Spring Boot整合log4j2日志配置的详细教程

《SpringBoot整合log4j2日志配置的详细教程》:本文主要介绍SpringBoot项目中整合Log4j2日志框架的步骤和配置,包括常用日志框架的比较、配置参数介绍、Log4j2配置详解... 目录前言一、常用日志框架二、配置参数介绍1. 日志级别2. 输出形式3. 日志格式3.1 PatternL

Deepseek使用指南与提问优化策略方式

《Deepseek使用指南与提问优化策略方式》本文介绍了DeepSeek语义搜索引擎的核心功能、集成方法及优化提问策略,通过自然语言处理和机器学习提供精准搜索结果,适用于智能客服、知识库检索等领域... 目录序言1. DeepSeek 概述2. DeepSeek 的集成与使用2.1 DeepSeek API

配置springboot项目动静分离打包分离lib方式

《配置springboot项目动静分离打包分离lib方式》本文介绍了如何将SpringBoot工程中的静态资源和配置文件分离出来,以减少jar包大小,方便修改配置文件,通过在jar包同级目录创建co... 目录前言1、分离配置文件原理2、pom文件配置3、使用package命令打包4、总结前言默认情况下,

Java通过反射获取方法参数名的方式小结

《Java通过反射获取方法参数名的方式小结》这篇文章主要为大家详细介绍了Java如何通过反射获取方法参数名的方式,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1、前言2、解决方式方式2.1: 添加编译参数配置 -parameters方式2.2: 使用Spring的内部工具类 -

Tomcat高效部署与性能优化方式

《Tomcat高效部署与性能优化方式》本文介绍了如何高效部署Tomcat并进行性能优化,以确保Web应用的稳定运行和高效响应,高效部署包括环境准备、安装Tomcat、配置Tomcat、部署应用和启动T... 目录Tomcat高效部署与性能优化一、引言二、Tomcat高效部署三、Tomcat性能优化总结Tom

解读Redis秒杀优化方案(阻塞队列+基于Stream流的消息队列)

《解读Redis秒杀优化方案(阻塞队列+基于Stream流的消息队列)》该文章介绍了使用Redis的阻塞队列和Stream流的消息队列来优化秒杀系统的方案,通过将秒杀流程拆分为两条流水线,使用Redi... 目录Redis秒杀优化方案(阻塞队列+Stream流的消息队列)什么是消息队列?消费者组的工作方式每

VScode连接远程Linux服务器环境配置图文教程

《VScode连接远程Linux服务器环境配置图文教程》:本文主要介绍如何安装和配置VSCode,包括安装步骤、环境配置(如汉化包、远程SSH连接)、语言包安装(如C/C++插件)等,文中给出了详... 目录一、安装vscode二、环境配置1.中文汉化包2.安装remote-ssh,用于远程连接2.1安装2