【硬件相关】Mellanox网络配置及参数优化

2024-03-05 03:12

本文主要是介绍【硬件相关】Mellanox网络配置及参数优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 一、前言
      • 1、硬件配置
      • 2、网卡信息
    • 二、驱动安装
      • 1、驱动介绍
      • 2、软件架构
        • 2.1、mlx4 VPI Driver
        • 2.2、mlx5 Driver
      • 3、驱动安装
        • 3.1、常规安装
        • 3.2、驱动编译
          • 方法一
          • 方法二
      • 4、RDMA配置
    • 三、交换机配置
    • 四、mlnx-tools管理工具
      • 1、软件安装
      • 2、软件使用
        • ibdev2netdev
          • a、说明
          • b、用法

一、前言

本文主要介绍Mellanox网络配置、部署管理及相关调优手段,用于后续部署实践参考使用

1、硬件配置

序号配件名称配件型号
1100GE 双口网卡Mellanox MCX456A-ECAT
2100GE 以太网DAC线缆Mellanox MCP1600-C003
3100GE 以太网交换机Asterfusion CX532P-NT-AC

2、网卡信息

NVIDIA ConnectX InfiniBand网卡介绍
NVIDIA ConnectX-4 InfiniBand/Ethernet Adapter Cards User Manual

  • 网卡端口:双口(Dual-port QSFP28)
  • 网卡速率:InfiniBand: SDR/DDR/QDR/FDR/EDREthernet: 10/25/40/50/100 Gb/s
  • PCIe版本:8.0GT/s(PCIe 3.0)
  • 插槽宽度:x16 lanes
  • 网卡驱动:mlx5_core
[root@node154 ~]# lspci | grep Eth | grep Mellanox
3b:00.0 Ethernet controller: Mellanox Technologies MT27700 Family [ConnectX-4]
3b:00.1 Ethernet controller: Mellanox Technologies MT27700 Family [ConnectX-4][root@node154 ~]# lspci -vvv -s 3b:00.0 | grep -E '(LnkCap:|LnkSta:)'LnkCap: Port #0, Speed 8GT/s, Width x16, ASPM not supported, Exit Latency L0s unlimited, L1 <4usLnkSta: Speed 8GT/s, Width x16, TrErr- Train- SlotClk+ DLActive- BWMgmt- ABWMgmt-

二、驱动安装

1、驱动介绍

MLNX_OFED Introduction

Mellanox OFED是一个单一的虚拟协议互连(Virtual Protocol Interconnect,VPI)软件栈,可以在所有Mellanox网络适配器解决方案中运行,支持以下到服务器的上行链路:

网卡类别网卡驱动上行速率
ConnectX®-3/ ConnectX®-3 Promlx4InfiniBand: SDR, QDR, FDR10, FDR
Ethernet: 10GigE, 40GigE and 56GigE
ConnectX®-4mlx5InfiniBand: SDR, QDR, FDR, FDR10, EDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, 56GigE1, and 100GigE
ConnectX®-4 Lxmlx5Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, and 50GigE
ConnectX®-5mlx5InfiniBand: SDR, QDR, FDR, FDR10, EDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE
ConnectX®-5 Exmlx5InfiniBand: SDR, QDR, FDR, FDR10, EDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE
ConnectX®-6mlx5InfiniBand: SDR, EDR, HDR
Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE
Innova™ IPsec ENmlx5Ethernet: 10GigE, 40GigE
Connect-IB®mlx5InfiniBand: SDR, QDR, FDR10, FDR

2、软件架构

Mellanox OFED协议栈的示意参考如下,展示了上层协议如何与硬件、内核和用户空间通信

在这里插入图片描述

2.1、mlx4 VPI Driver

mlx4是Mellanox设计的ConnectX®系列适配器的低级驱动程序实现。ConnectX®-3适配器可以作为ib适配器或以太网网卡使用。OFED驱动支持Infiniband和Ethernet网卡配置。为了适应支持的配置,驱动程序被分成以下模块:

  • mlx4_core

处理低级功能,如设备初始化和固件命令处理,控制资源分配,使ib和以太网功能可以共享设备而不相互干扰

  • mlx4_ib

处理InfiniBand的专用功能

  • mlx4_en

处理Ethernet的专用功能

2.2、mlx5 Driver

mlx5是Mellanox设计的Connect-IB®和ConnectX®-4适配器的低级驱动程序实现。Connect-IB®作为InfiniBand适配器运行,而ConnectX®-4作为VPI适配器(InfiniBand和Ethernet)运行。mlx5驱动程序由以下内核模块组成:

  • mlx5_core

作为Connect-IB®和ConnectX®-4适配器卡所需的常用函数库(例如,复位后初始化设备),mlx5_core驱动程序还实现了ConnectX®-4的以太网接口。与mlx4_en/core不同,mlx5驱动程序不需要mlx5_en模块,因为以太网功能内置在mlx5_core模块中。

  • mlx5_ib

处理InfiniBand的专用功能

  • libmlx5

Libmlx5是实现特定于硬件的用户空间功能的提供程序库。如果固件和驱动程序之间不兼容,驱动程序将无法加载,并且将在dmesg中打印一条消息

3、驱动安装

驱动下载地址:NVIDIA MLNX_OFED
驱动安装说明:Installing MLNX_OFED

3.1、常规安装

用于Ethernet和Infiniband网络的Linux驱动程序在所有主流操作系统发行版本都可以使用,如kylin、openEuler、UOS、CentOS、Ubuntu等,可以根据操作系统、硬件架构选择不同驱动版本包下载

  • 根据当前操作系统版本及硬件架构,选择下载对应驱动软件包(MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64.tgz)

在这里插入图片描述

  • 对于主流发行系统版本,在不升级默认内核版本情况下,mlnx_ofed提供了预构建RPM包,直接执行驱动软件安装即可
    注:
    执行mlnxofedinstall安装脚本,程序会自动检测当前安装的内核版本,卸载不匹配的软件包,安装MLNX-OFED二进制驱动程序包,标识当前Infiniband和Ethernet网络适配器,并自动升级固件(如需安装自定义固件版本,则使用./mlnxofedinstall --fw-image-dir /tmp/my_fw_bin_files
    安装完成后,会在tmp目录生成对应安装日志文件(如/tmp/MLNX_OFED_LINUX.1713584.logs/general.log
tar -zxvf MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64.tgz
cd MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64/
./mlnxofedinstall --all --force
3.2、驱动编译
#当前环境信息如下
[root@node88 ~]# cat /etc/.productinfo
Kylin Linux Advanced Server
release V10 (8.2) /(Sun)-aarch64-Build03/20210903[root@node88 ~]# cat /etc/.kyinfo
[dist]
name=Kylin
milestone=Server-V10-SP3-2309a-Release-S5000C-20231025
arch=arm64
beta=False
time=2023-10-25 17:40:45
dist_id=Kylin-Server-V10-SP3-2309a-Release-S5000C-20231025-arm64-2023-10-25 17:40:45[servicekey]
key=0320031[os]
to=
term=2025-01-23[root@node88 ~]# cat /etc/redhat-release
Red Hat Enterprise Linux Server release 8.2 (Ootpa)[root@node88 ~]# uname -a
Linux node88 5.15.0-1.10.6.v2307.ky10h.aarch64 #1 SMP Sun Oct 15 14:14:45 CST 2023 aarch64 aarch64 aarch64 GNU/Linux

在执行上一步安装如出现Current operation system is not supported!,则表明Mellanox预先编译的程序包无法在当前内核版本下运行,需要基于当前环境重新编译tgz软件包,再次执行软件安装即可

方法一
./mlnxofedinstall --all --force  --add-kernel-support
dracut -f
方法二

How to install MLNX_OFED for customized OS

通常情况下,如果针对操作系统做了一些自定义修改,有可能导致安装脚本无法识别操作系统发行版本号,导致安装失败,提示Current operation system is not supported!
对于这类情况,需要手动编译MLNX-OFED驱动包,使用重新编译的驱动包进行安装

  • 参照当前系统的基础操作系统版本,下载对应发行版本原始驱动包压缩包,解压缩进入对应目录

在这里插入图片描述

wget https://www.mellanox.com/page/mlnx_ofed_eula?mtag=linux_sw_drivers&mrequest=downloads&mtype=ofed&mver=MLNX_OFED-5.8-4.1.5.0&mname=MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64.tgz
tar -zxvf MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64.tgz
cd MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64/
  • 基于当前系统重新编译驱动包
    注:编译过程如出现Error: One or more required packages for installing OFED-internal are missing.依赖错误,则按照提示信息安装对应依赖软件包即可
  • -m 用于指定原始驱动包的目录
  • –make-tgz 表示以tgz压缩包方式打包
  • -t 用于指定存放重新编译驱动包的目录
  • –distro 用于指定当前系统发行版本,示例为kylin10
./mlnx_add_kernel_support.sh -m /home/mlx5/MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64/ --make-tgz -t /tmp  --distro kylin10 
  • 执行编译操作后,会在/tmp目录下生成当前内核的驱动包压缩包,解压缩进入目录,执行以下安装命令即可
  • –skip-distro-check 表示不进行当前OS的发布版本号检查
./mlnxofedinstall --skip-distro-check --force

4、RDMA配置

所有节点执行RDMA相关配置优化,参考如下

[root@node154 ~]# cat RDMA.sh
#!/bin/bash
for mlx_dev in $(ibdev2netdev | awk '{print $1}')
doif_dev=$(ibdev2netdev | grep $mlx_dev | awk '{print $5}')ifconfig "${if_dev}" mtu 9000.cma_roce_tos -d "${mlx_dev}" -t 120mlnx_qos -i "${if_dev}" --trust dscpmlnx_qos -i "${if_dev}" --pfc 0,0,0,1,0,0,0,0mlnx_qos -i ${if_dev} --dscp2prio set,30,3echo 48 >/sys/class/net/${if_dev}/ecn/roce_np/cnp_dscpecho 1 >/sys/class/net/${if_dev}/ecn/roce_np/enable/3echo 1 >/sys/class/net/${if_dev}/ecn/roce_rp/enable/3cma_roce_mode -d ${mlx_dev} -p 1 -m 2sysctl -w net.ipv4.tcp_ecn=1echo 120 > /sys/class/infiniband/"${mlx_dev}"/tc/1/traffic_class
done
[root@node154 ~]# sh RDMA.sh

三、交换机配置

与10Gb交换机有所不同,服务器直接连接到交换机网络是没法通信的,100Gb交换机需要针对网络端口划分vlan,同一个网络环境不同网络端口划分到同一个vlan之后,服务器之间网络方可正常通信。
交换机出厂内置队列、拥塞等参数配置,故交换机端针对RDMA无需做任何特殊配置。

现有交换机vlan配置如下:

物理端口逻辑网口vlan标签
0~90/0~0/32vlan100
10~200/36~0/76vlan200

注:交换机逻辑网口以4的倍数递增,如物理端口0对应0/0,物理端口1对应0/4,以此类推

笔记本通过USB转RJ45串口线连接至交换机COM口,协议选择SERIAL,波特率选择115200,参考配置命令如下:
注:默认账号密码为admin/asteros

sonic@sonic:~$ sudo config cli-mode cli
sonic@sonic:~$ sudo sonic-cli
sonic# configure terminal
sonic(config)# vlan 100
sonic(config-vlan-100)# vlan 200
sonic(config-vlan-200)# interface ethernet 0/0
sonic(config-if-0/0)# switchport access vlan 100
sonic(config-if-0/0)# interface ethernet 0/4
sonic(config-if-0/4)# switchport access vlan 100
sonic(config-if-0/4)# interface ethernet 0/80
sonic(config-if-0/112)# switchport access vlan 200
sonic(config-if-0/112)# interface ethernet 0/84
sonic(config-if-0/116)# switchport access vlan 200
sonic(config-if-0/120)# end
sonic#write 
save running-config...
Existing files will be overwritten, continue? [y/N]:y

四、mlnx-tools管理工具

1、软件安装

mlnx-tools

若当前操作系统未安装MLNX_OFED驱动,则需要安装mlnx-tools工具,否则无法使用cma_roce_tos、ibdev2netdev等命令行工具
mlnx-tools是Mellanox提供的一个用户界面工具和脚本,用于管理Mellanox网络配置

  • 安装mlnx-tools的utils工具
wget https://github.com/Mellanox/mlnx-tools/archive/refs/tags/v5.1.3.tar.gz
tar -zxvf mlnx-tools-5.1.3.tar.gz
cd mlnx-tools-5.1.3/ofed_scripts/utils/
python3 setup.py install
  • 安装mlnx-tools的script脚本
[root@node88 mlx5]# cd mlnx-tools-5.1.3/ofed_scripts/
[root@node88 ofed_scripts]# ll
total 92
-rwxrwxr-x 1 root root  2566 Oct  3  2020 cma_roce_mode
-rwxrwxr-x 1 root root  2483 Oct  3  2020 cma_roce_tos
-rwxrwxr-x 1 root root  3696 Oct  3  2020 common_irq_affinity.sh
-rwxrwxr-x 1 root root  7726 Oct  3  2020 ibdev2netdev
-rwxrwxr-x 1 root root  8321 Oct  3  2020 mlnx_affinity
-rwxrwxr-x 1 root root   453 Oct  3  2020 mlnx-post-hlk
-rwxrwxr-x 1 root root  1023 Oct  3  2020 mlnx-pre-hlk
-rwxrwxr-x 1 root root  2411 Oct  3  2020 odp_stat.sh
-rwxrwxr-x 1 root root 11065 Oct  3  2020 roce_config.sh
-rwxrwxr-x 1 root root  3015 Oct  3  2020 set_irq_affinity_bynode.sh
-rwxrwxr-x 1 root root  2493 Oct  3  2020 set_irq_affinity_cpulist.sh
-rwxrwxr-x 1 root root  2997 Oct  3  2020 set_irq_affinity.sh
-rw-rw-r-- 1 root root  2216 Oct  3  2020 setup_mr_cache.sh
-rw-rw-r-- 1 root root  1367 Oct  3  2020 show_counters
-rwxrwxr-x 1 root root  2939 Oct  3  2020 show_gids
-rwxrwxr-x 1 root root  1349 Oct  3  2020 show_irq_affinity_hints.sh
-rwxrwxr-x 1 root root  1369 Oct  3  2020 show_irq_affinity.sh
-rwxrwxr-x 1 root root  2489 Oct  3  2020 sysctl_perf_tuning
drwxrwxr-x 3 root root   276 Jan 10 09:48 utils
[root@node88 ofed_scripts]# cp * /usr/sbin/

2、软件使用

linux-driver-solutions

ibdev2netdev
a、说明

ibdev2netdev是MLNX-OFED提供的脚本,用于展示适配器端口和网卡的映射关系及当前状态信息

b、用法
  • 查看适配器端口和网卡映射关系及连接状态:ibdev2netdev -v
[root@node88 ~]# ibdev2netdev -v
0000:01:00.0 rocep1s0f0 (MT4115 -            )                 fw 12.28.2006 port 1 (ACTIVE) ==> enp1s0f0np0 (Up)
0000:01:00.1 rocep1s0f1 (MT4115 -            )                 fw 12.28.2006 port 1 (DOWN  ) ==> enp1s0f1np1 (Down)
  • 检查Infiniband链路状态:hca_self_test.ofed
[root@node154 ~]# hca_self_test.ofed
---- Performing Adapter Device Self Test ----
Number of CAs Detected ................. 2
PCI Device Check ....................... PASS
Kernel Arch ............................ x86_64
Host Driver Version .................... MLNX_OFED_LINUX-5.7-1.0.2.0 (OFED-5.7-1.0.2): 4.14.113-1.el7.x86_64
Host Driver RPM Check .................. PASS
Firmware on CA #0 NIC .................. v12.28.2006
Firmware on CA #1 NIC .................. v12.28.2006
Host Driver Initialization ............. PASS
Number of CA Ports Active .............. 1
Port State of Port #1 on CA #0 (NIC)..... UP 4X EDR (Ethernet)
Port State of Port #1 on CA #1 (NIC)..... DOWN (Ethernet)
Error Counter Check on CA #0 (NIC)...... PASS
Error Counter Check on CA #1 (NIC)...... PASS
Kernel Syslog Check .................... PASS
Node GUID on CA #0 (NIC) ............... 24:8a:07:03:00:27:d2:40
Node GUID on CA #1 (NIC) ............... 24:8a:07:03:00:27:d2:41
------------------ DONE ---------------------

这篇关于【硬件相关】Mellanox网络配置及参数优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/775150

相关文章

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

Zookeeper安装和配置说明

一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境; ■ 伪集群模式:就是在一台物理机上运行多个Zookeeper 实例; ■ 集群模式:Zookeeper运行于一个集群上,适合生产环境,这个计算机集群被称为一个“集合体”(ensemble) Zookeeper通过复制来实现

CentOS7安装配置mysql5.7 tar免安装版

一、CentOS7.4系统自带mariadb # 查看系统自带的Mariadb[root@localhost~]# rpm -qa|grep mariadbmariadb-libs-5.5.44-2.el7.centos.x86_64# 卸载系统自带的Mariadb[root@localhost ~]# rpm -e --nodeps mariadb-libs-5.5.44-2.el7

HDFS—存储优化(纠删码)

纠删码原理 HDFS 默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。 Hadoop3.x 引入了纠删码,采用计算的方式,可以节省约50%左右的存储空间。 此种方式节约了空间,但是会增加 cpu 的计算。 纠删码策略是给具体一个路径设置。所有往此路径下存储的文件,都会执行此策略。 默认只开启对 RS-6-3-1024k

hadoop开启回收站配置

开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。 开启回收站功能参数说明 (1)默认值fs.trash.interval = 0,0表示禁用回收站;其他值表示设置文件的存活时间。 (2)默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。

NameNode内存生产配置

Hadoop2.x 系列,配置 NameNode 内存 NameNode 内存默认 2000m ,如果服务器内存 4G , NameNode 内存可以配置 3g 。在 hadoop-env.sh 文件中配置如下。 HADOOP_NAMENODE_OPTS=-Xmx3072m Hadoop3.x 系列,配置 Nam

使用opencv优化图片(画面变清晰)

文章目录 需求影响照片清晰度的因素 实现降噪测试代码 锐化空间锐化Unsharp Masking频率域锐化对比测试 对比度增强常用算法对比测试 需求 对图像进行优化,使其看起来更清晰,同时保持尺寸不变,通常涉及到图像处理技术如锐化、降噪、对比度增强等 影响照片清晰度的因素 影响照片清晰度的因素有很多,主要可以从以下几个方面来分析 1. 拍摄设备 相机传感器:相机传

wolfSSL参数设置或配置项解释

1. wolfCrypt Only 解释:wolfCrypt是一个开源的、轻量级的、可移植的加密库,支持多种加密算法和协议。选择“wolfCrypt Only”意味着系统或应用将仅使用wolfCrypt库进行加密操作,而不依赖其他加密库。 2. DTLS Support 解释:DTLS(Datagram Transport Layer Security)是一种基于UDP的安全协议,提供类似于

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

sqlite3 相关知识

WAL 模式 VS 回滚模式 特性WAL 模式回滚模式(Rollback Journal)定义使用写前日志来记录变更。使用回滚日志来记录事务的所有修改。特点更高的并发性和性能;支持多读者和单写者。支持安全的事务回滚,但并发性较低。性能写入性能更好,尤其是读多写少的场景。写操作会造成较大的性能开销,尤其是在事务开始时。写入流程数据首先写入 WAL 文件,然后才从 WAL 刷新到主数据库。数据在开始