【硬件相关】Mellanox网络配置及参数优化

2024-03-05 03:12

本文主要是介绍【硬件相关】Mellanox网络配置及参数优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 一、前言
      • 1、硬件配置
      • 2、网卡信息
    • 二、驱动安装
      • 1、驱动介绍
      • 2、软件架构
        • 2.1、mlx4 VPI Driver
        • 2.2、mlx5 Driver
      • 3、驱动安装
        • 3.1、常规安装
        • 3.2、驱动编译
          • 方法一
          • 方法二
      • 4、RDMA配置
    • 三、交换机配置
    • 四、mlnx-tools管理工具
      • 1、软件安装
      • 2、软件使用
        • ibdev2netdev
          • a、说明
          • b、用法

一、前言

本文主要介绍Mellanox网络配置、部署管理及相关调优手段,用于后续部署实践参考使用

1、硬件配置

序号配件名称配件型号
1100GE 双口网卡Mellanox MCX456A-ECAT
2100GE 以太网DAC线缆Mellanox MCP1600-C003
3100GE 以太网交换机Asterfusion CX532P-NT-AC

2、网卡信息

NVIDIA ConnectX InfiniBand网卡介绍
NVIDIA ConnectX-4 InfiniBand/Ethernet Adapter Cards User Manual

  • 网卡端口:双口(Dual-port QSFP28)
  • 网卡速率:InfiniBand: SDR/DDR/QDR/FDR/EDREthernet: 10/25/40/50/100 Gb/s
  • PCIe版本:8.0GT/s(PCIe 3.0)
  • 插槽宽度:x16 lanes
  • 网卡驱动:mlx5_core
[root@node154 ~]# lspci | grep Eth | grep Mellanox
3b:00.0 Ethernet controller: Mellanox Technologies MT27700 Family [ConnectX-4]
3b:00.1 Ethernet controller: Mellanox Technologies MT27700 Family [ConnectX-4][root@node154 ~]# lspci -vvv -s 3b:00.0 | grep -E '(LnkCap:|LnkSta:)'LnkCap: Port #0, Speed 8GT/s, Width x16, ASPM not supported, Exit Latency L0s unlimited, L1 <4usLnkSta: Speed 8GT/s, Width x16, TrErr- Train- SlotClk+ DLActive- BWMgmt- ABWMgmt-

二、驱动安装

1、驱动介绍

MLNX_OFED Introduction

Mellanox OFED是一个单一的虚拟协议互连(Virtual Protocol Interconnect,VPI)软件栈,可以在所有Mellanox网络适配器解决方案中运行,支持以下到服务器的上行链路:

网卡类别网卡驱动上行速率
ConnectX®-3/ ConnectX®-3 Promlx4InfiniBand: SDR, QDR, FDR10, FDR
Ethernet: 10GigE, 40GigE and 56GigE
ConnectX®-4mlx5InfiniBand: SDR, QDR, FDR, FDR10, EDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, 56GigE1, and 100GigE
ConnectX®-4 Lxmlx5Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, and 50GigE
ConnectX®-5mlx5InfiniBand: SDR, QDR, FDR, FDR10, EDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE
ConnectX®-5 Exmlx5InfiniBand: SDR, QDR, FDR, FDR10, EDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE
ConnectX®-6mlx5InfiniBand: SDR, EDR, HDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE
Innova™ IPsec ENmlx5Ethernet: 10GigE, 40GigE
Connect-IB®mlx5InfiniBand: SDR, QDR, FDR10, FDR

2、软件架构

Mellanox OFED协议栈的示意参考如下,展示了上层协议如何与硬件、内核和用户空间通信

在这里插入图片描述

2.1、mlx4 VPI Driver

mlx4是Mellanox设计的ConnectX®系列适配器的低级驱动程序实现。ConnectX®-3适配器可以作为ib适配器或以太网网卡使用。OFED驱动支持Infiniband和Ethernet网卡配置。为了适应支持的配置,驱动程序被分成以下模块:

  • mlx4_core

处理低级功能,如设备初始化和固件命令处理,控制资源分配,使ib和以太网功能可以共享设备而不相互干扰

  • mlx4_ib

处理InfiniBand的专用功能

  • mlx4_en

处理Ethernet的专用功能

2.2、mlx5 Driver

mlx5是Mellanox设计的Connect-IB®和ConnectX®-4适配器的低级驱动程序实现。Connect-IB®作为InfiniBand适配器运行,而ConnectX®-4作为VPI适配器(InfiniBand和Ethernet)运行。mlx5驱动程序由以下内核模块组成:

  • mlx5_core

作为Connect-IB®和ConnectX®-4适配器卡所需的常用函数库(例如,复位后初始化设备),mlx5_core驱动程序还实现了ConnectX®-4的以太网接口。与mlx4_en/core不同,mlx5驱动程序不需要mlx5_en模块,因为以太网功能内置在mlx5_core模块中。

  • mlx5_ib

处理InfiniBand的专用功能

  • libmlx5

Libmlx5是实现特定于硬件的用户空间功能的提供程序库。如果固件和驱动程序之间不兼容,驱动程序将无法加载,并且将在dmesg中打印一条消息

3、驱动安装

驱动下载地址:NVIDIA MLNX_OFED
驱动安装说明:Installing MLNX_OFED

3.1、常规安装

用于Ethernet和Infiniband网络的Linux驱动程序在所有主流操作系统发行版本都可以使用,如kylin、openEuler、UOS、CentOS、Ubuntu等,可以根据操作系统、硬件架构选择不同驱动版本包下载

  • 根据当前操作系统版本及硬件架构,选择下载对应驱动软件包(MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64.tgz)

在这里插入图片描述

  • 对于主流发行系统版本,在不升级默认内核版本情况下,mlnx_ofed提供了预构建RPM包,直接执行驱动软件安装即可
    注:
    执行mlnxofedinstall安装脚本,程序会自动检测当前安装的内核版本,卸载不匹配的软件包,安装MLNX-OFED二进制驱动程序包,标识当前Infiniband和Ethernet网络适配器,并自动升级固件(如需安装自定义固件版本,则使用./mlnxofedinstall --fw-image-dir /tmp/my_fw_bin_files
    安装完成后,会在tmp目录生成对应安装日志文件(如/tmp/MLNX_OFED_LINUX.1713584.logs/general.log
tar -zxvf MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64.tgz
cd MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64/
./mlnxofedinstall --all --force
3.2、驱动编译
#当前环境信息如下
[root@node88 ~]# cat /etc/.productinfo
Kylin Linux Advanced Server
release V10 (8.2) /(Sun)-aarch64-Build03/20210903[root@node88 ~]# cat /etc/.kyinfo
[dist]
name=Kylin
milestone=Server-V10-SP3-2309a-Release-S5000C-20231025
arch=arm64
beta=False
time=2023-10-25 17:40:45
dist_id=Kylin-Server-V10-SP3-2309a-Release-S5000C-20231025-arm64-2023-10-25 17:40:45[servicekey]
key=0320031[os]
to=
term=2025-01-23[root@node88 ~]# cat /etc/redhat-release
Red Hat Enterprise Linux Server release 8.2 (Ootpa)[root@node88 ~]# uname -a
Linux node88 5.15.0-1.10.6.v2307.ky10h.aarch64 #1 SMP Sun Oct 15 14:14:45 CST 2023 aarch64 aarch64 aarch64 GNU/Linux

在执行上一步安装如出现Current operation system is not supported!,则表明Mellanox预先编译的程序包无法在当前内核版本下运行,需要基于当前环境重新编译tgz软件包,再次执行软件安装即可

方法一
./mlnxofedinstall --all --force  --add-kernel-support
dracut -f
方法二

How to install MLNX_OFED for customized OS

通常情况下,如果针对操作系统做了一些自定义修改,有可能导致安装脚本无法识别操作系统发行版本号,导致安装失败,提示Current operation system is not supported!
对于这类情况,需要手动编译MLNX-OFED驱动包,使用重新编译的驱动包进行安装

  • 参照当前系统的基础操作系统版本,下载对应发行版本原始驱动包压缩包,解压缩进入对应目录

在这里插入图片描述

wget https://www.mellanox.com/page/mlnx_ofed_eula?mtag=linux_sw_drivers&mrequest=downloads&mtype=ofed&mver=MLNX_OFED-5.8-4.1.5.0&mname=MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64.tgz
tar -zxvf MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64.tgz
cd MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64/
  • 基于当前系统重新编译驱动包
    注:编译过程如出现Error: One or more required packages for installing OFED-internal are missing.依赖错误,则按照提示信息安装对应依赖软件包即可
  • -m 用于指定原始驱动包的目录
  • –make-tgz 表示以tgz压缩包方式打包
  • -t 用于指定存放重新编译驱动包的目录
  • –distro 用于指定当前系统发行版本,示例为kylin10
./mlnx_add_kernel_support.sh -m /home/mlx5/MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64/ --make-tgz -t /tmp  --distro kylin10 
  • 执行编译操作后,会在/tmp目录下生成当前内核的驱动包压缩包,解压缩进入目录,执行以下安装命令即可
  • –skip-distro-check 表示不进行当前OS的发布版本号检查
./mlnxofedinstall --skip-distro-check --force

4、RDMA配置

所有节点执行RDMA相关配置优化,参考如下

[root@node154 ~]# cat RDMA.sh
#!/bin/bash
for mlx_dev in $(ibdev2netdev | awk '{print $1}')
doif_dev=$(ibdev2netdev | grep $mlx_dev | awk '{print $5}')ifconfig "${if_dev}" mtu 9000.cma_roce_tos -d "${mlx_dev}" -t 120mlnx_qos -i "${if_dev}" --trust dscpmlnx_qos -i "${if_dev}" --pfc 0,0,0,1,0,0,0,0mlnx_qos -i ${if_dev} --dscp2prio set,30,3echo 48 >/sys/class/net/${if_dev}/ecn/roce_np/cnp_dscpecho 1 >/sys/class/net/${if_dev}/ecn/roce_np/enable/3echo 1 >/sys/class/net/${if_dev}/ecn/roce_rp/enable/3cma_roce_mode -d ${mlx_dev} -p 1 -m 2sysctl -w net.ipv4.tcp_ecn=1echo 120 > /sys/class/infiniband/"${mlx_dev}"/tc/1/traffic_class
done
[root@node154 ~]# sh RDMA.sh

三、交换机配置

与10Gb交换机有所不同,服务器直接连接到交换机网络是没法通信的,100Gb交换机需要针对网络端口划分vlan,同一个网络环境不同网络端口划分到同一个vlan之后,服务器之间网络方可正常通信。
交换机出厂内置队列、拥塞等参数配置,故交换机端针对RDMA无需做任何特殊配置。

现有交换机vlan配置如下:

物理端口逻辑网口vlan标签
0~90/0~0/32vlan100
10~200/36~0/76vlan200

注:交换机逻辑网口以4的倍数递增,如物理端口0对应0/0,物理端口1对应0/4,以此类推

笔记本通过USB转RJ45串口线连接至交换机COM口,协议选择SERIAL,波特率选择115200,参考配置命令如下:
注:默认账号密码为admin/asteros

sonic@sonic:~$ sudo config cli-mode cli
sonic@sonic:~$ sudo sonic-cli
sonic# configure terminal
sonic(config)# vlan 100
sonic(config-vlan-100)# vlan 200
sonic(config-vlan-200)# interface ethernet 0/0
sonic(config-if-0/0)# switchport access vlan 100
sonic(config-if-0/0)# interface ethernet 0/4
sonic(config-if-0/4)# switchport access vlan 100
sonic(config-if-0/4)# interface ethernet 0/80
sonic(config-if-0/112)# switchport access vlan 200
sonic(config-if-0/112)# interface ethernet 0/84
sonic(config-if-0/116)# switchport access vlan 200
sonic(config-if-0/120)# end
sonic#write 
save running-config...
Existing files will be overwritten, continue? [y/N]:y

四、mlnx-tools管理工具

1、软件安装

mlnx-tools

若当前操作系统未安装MLNX_OFED驱动,则需要安装mlnx-tools工具,否则无法使用cma_roce_tos、ibdev2netdev等命令行工具
mlnx-tools是Mellanox提供的一个用户界面工具和脚本,用于管理Mellanox网络配置

  • 安装mlnx-tools的utils工具
wget https://github.com/Mellanox/mlnx-tools/archive/refs/tags/v5.1.3.tar.gz
tar -zxvf mlnx-tools-5.1.3.tar.gz
cd mlnx-tools-5.1.3/ofed_scripts/utils/
python3 setup.py install
  • 安装mlnx-tools的script脚本
[root@node88 mlx5]# cd mlnx-tools-5.1.3/ofed_scripts/
[root@node88 ofed_scripts]# ll
total 92
-rwxrwxr-x 1 root root  2566 Oct  3  2020 cma_roce_mode
-rwxrwxr-x 1 root root  2483 Oct  3  2020 cma_roce_tos
-rwxrwxr-x 1 root root  3696 Oct  3  2020 common_irq_affinity.sh
-rwxrwxr-x 1 root root  7726 Oct  3  2020 ibdev2netdev
-rwxrwxr-x 1 root root  8321 Oct  3  2020 mlnx_affinity
-rwxrwxr-x 1 root root   453 Oct  3  2020 mlnx-post-hlk
-rwxrwxr-x 1 root root  1023 Oct  3  2020 mlnx-pre-hlk
-rwxrwxr-x 1 root root  2411 Oct  3  2020 odp_stat.sh
-rwxrwxr-x 1 root root 11065 Oct  3  2020 roce_config.sh
-rwxrwxr-x 1 root root  3015 Oct  3  2020 set_irq_affinity_bynode.sh
-rwxrwxr-x 1 root root  2493 Oct  3  2020 set_irq_affinity_cpulist.sh
-rwxrwxr-x 1 root root  2997 Oct  3  2020 set_irq_affinity.sh
-rw-rw-r-- 1 root root  2216 Oct  3  2020 setup_mr_cache.sh
-rw-rw-r-- 1 root root  1367 Oct  3  2020 show_counters
-rwxrwxr-x 1 root root  2939 Oct  3  2020 show_gids
-rwxrwxr-x 1 root root  1349 Oct  3  2020 show_irq_affinity_hints.sh
-rwxrwxr-x 1 root root  1369 Oct  3  2020 show_irq_affinity.sh
-rwxrwxr-x 1 root root  2489 Oct  3  2020 sysctl_perf_tuning
drwxrwxr-x 3 root root   276 Jan 10 09:48 utils
[root@node88 ofed_scripts]# cp * /usr/sbin/

2、软件使用

linux-driver-solutions

ibdev2netdev
a、说明

ibdev2netdev是MLNX-OFED提供的脚本,用于展示适配器端口和网卡的映射关系及当前状态信息

b、用法
  • 查看适配器端口和网卡映射关系及连接状态:ibdev2netdev -v
[root@node88 ~]# ibdev2netdev -v
0000:01:00.0 rocep1s0f0 (MT4115 -            )                 fw 12.28.2006 port 1 (ACTIVE) ==> enp1s0f0np0 (Up)
0000:01:00.1 rocep1s0f1 (MT4115 -            )                 fw 12.28.2006 port 1 (DOWN  ) ==> enp1s0f1np1 (Down)
  • 检查Infiniband链路状态:hca_self_test.ofed
[root@node154 ~]# hca_self_test.ofed
---- Performing Adapter Device Self Test ----
Number of CAs Detected ................. 2
PCI Device Check ....................... PASS
Kernel Arch ............................ x86_64
Host Driver Version .................... MLNX_OFED_LINUX-5.7-1.0.2.0 (OFED-5.7-1.0.2): 4.14.113-1.el7.x86_64
Host Driver RPM Check .................. PASS
Firmware on CA #0 NIC .................. v12.28.2006
Firmware on CA #1 NIC .................. v12.28.2006
Host Driver Initialization ............. PASS
Number of CA Ports Active .............. 1
Port State of Port #1 on CA #0 (NIC)..... UP 4X EDR (Ethernet)
Port State of Port #1 on CA #1 (NIC)..... DOWN (Ethernet)
Error Counter Check on CA #0 (NIC)...... PASS
Error Counter Check on CA #1 (NIC)...... PASS
Kernel Syslog Check .................... PASS
Node GUID on CA #0 (NIC) ............... 24:8a:07:03:00:27:d2:40
Node GUID on CA #1 (NIC) ............... 24:8a:07:03:00:27:d2:41
------------------ DONE ---------------------

这篇关于【硬件相关】Mellanox网络配置及参数优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/775150

相关文章

Linux使用fdisk进行磁盘的相关操作

《Linux使用fdisk进行磁盘的相关操作》fdisk命令是Linux中用于管理磁盘分区的强大文本实用程序,这篇文章主要为大家详细介绍了如何使用fdisk进行磁盘的相关操作,需要的可以了解下... 目录简介基本语法示例用法列出所有分区查看指定磁盘的区分管理指定的磁盘进入交互式模式创建一个新的分区删除一个存

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

windos server2022的配置故障转移服务的图文教程

《windosserver2022的配置故障转移服务的图文教程》本文主要介绍了windosserver2022的配置故障转移服务的图文教程,以确保服务和应用程序的连续性和可用性,文中通过图文介绍的非... 目录准备环境:步骤故障转移群集是 Windows Server 2022 中提供的一种功能,用于在多个

windos server2022里的DFS配置的实现

《windosserver2022里的DFS配置的实现》DFS是WindowsServer操作系统提供的一种功能,用于在多台服务器上集中管理共享文件夹和文件的分布式存储解决方案,本文就来介绍一下wi... 目录什么是DFS?优势:应用场景:DFS配置步骤什么是DFS?DFS指的是分布式文件系统(Distr

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

MySQL中时区参数time_zone解读

《MySQL中时区参数time_zone解读》MySQL时区参数time_zone用于控制系统函数和字段的DEFAULTCURRENT_TIMESTAMP属性,修改时区可能会影响timestamp类型... 目录前言1.时区参数影响2.如何设置3.字段类型选择总结前言mysql 时区参数 time_zon

关于Maven生命周期相关命令演示

《关于Maven生命周期相关命令演示》Maven的生命周期分为Clean、Default和Site三个主要阶段,每个阶段包含多个关键步骤,如清理、编译、测试、打包等,通过执行相应的Maven命令,可以... 目录1. Maven 生命周期概述1.1 Clean Lifecycle1.2 Default Li

关于Maven中pom.xml文件配置详解

《关于Maven中pom.xml文件配置详解》pom.xml是Maven项目的核心配置文件,它描述了项目的结构、依赖关系、构建配置等信息,通过合理配置pom.xml,可以提高项目的可维护性和构建效率... 目录1. POM文件的基本结构1.1 项目基本信息2. 项目属性2.1 引用属性3. 项目依赖4. 构

C#实现获取电脑中的端口号和硬件信息

《C#实现获取电脑中的端口号和硬件信息》这篇文章主要为大家详细介绍了C#实现获取电脑中的端口号和硬件信息的相关方法,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 我们经常在使用一个串口软件的时候,发现软件中的端口号并不是普通的COM1,而是带有硬件信息的。那么如果我们使用C#编写软件时候,如

numpy求解线性代数相关问题

《numpy求解线性代数相关问题》本文主要介绍了numpy求解线性代数相关问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 在numpy中有numpy.array类型和numpy.mat类型,前者是数组类型,后者是矩阵类型。数组