大模型时代，交换机技术演变、性能分析、衡量指标

本文主要是介绍大模型时代，交换机技术演变、性能分析、衡量指标，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

OSI协议及在高性能计算中向RDMA的过渡

协议是为计算机网络内的数据交换而建立的一组规则、标准或协议。在法律层面，OSI七层协议被视为国际标准。该协议于20世纪80年代引入，旨在通过其七层网络模型标准化计算机间通信，以满足开放网络的要求。

物理层规定硬件之间的通信方式，并为物理设备（包括接口类型和传输速率）建立了标准，便于传输比特流（由0和1表示的数据）。

数据链路层主要负责帧编码和错误控制。它将来自物理层的数据封装成帧并传输到上层。此外它可以将来自网络层的数据拆分为比特流，以便传输到物理层，并通过校验和机制实现错误检测和纠正。

网络层在节点之间创建逻辑电路，利用IP地址解析（每个节点都有一个IP地址）并以数据包传输数据。

传输层监控两个节点之间数据传输的质量，确保正确顺序，并处理丢失、重复和拥塞控制等问题。

会话层管理网络设备中的会话连接，提供会话控制和同步，协调不同设备之间的通信。

表示层负责数据格式转换和加密/解密操作，确保不同设备上的应用程序正确解释和处理数据。

应用层向用户提供直接的网络服务和应用接口，涵盖电子邮件、文件传输和远程登录等各种应用程序。

这些层共同构成了OSI七层模型，每个层具有特定的功能和意义，促进计算机之间的通信和数据交换。

需要注意的是，现实中的网络协议可能会偏离OSI模型，这些协议是根据实际需求和网络架构进行设计和实现的。比如TCP/IP协议，它是一个由各种协议组成的协议套件，大致分为四层：应用层、传输层、网络层和数据链路层。TCP/IP相当于是七层协议的优化版。

在高性能计算（HPC）领域，由于对高吞吐量和低延迟的需求，传统的TCP/IP协议已逐渐被远程直接内存访问（RDMA）技术所取代。TCP/IP同时也存在一些缺陷，如引入延迟和因多个上下文切换、CPU封装导致的显著CPU开销。

RDMA作为一种技术允许通过网络接口直接访问内存数据，无需操作系统的参与。它可实现高吞吐量、低延迟的网络通信，非常适用于大规模并行计算集群。虽然RDMA并没有规定整个协议栈，但它对特定传输方式提出严格的要求，如最小的数据包丢失、高吞吐量和低延迟。基于以太网的RDMA技术有多种变种，如InfiniBand、ROCE和iWARP，每个变种都有其技术细节和成本考虑。

在这里插入图片描述

叶脊架构与传统的三层网络架构比较

交换机和网关在不同网络层上运行。交换机在数据链路层工作，利用MAC地址进行设备标识并执行数据包转发。它促进了不同设备之间的通信。而网关在网络层操作，通过使用IP地址连接各种子网络来实现连接。

传统的数据中心通常采用三层架构，包括接入层、汇集层和核心层。接入层通常直接连接服务器，常用的接入交换机是TOR交换机。汇聚层层作为接入层和核心层之间的中间层。核心交换机处理进出数据中心的流量，并与汇聚层建立连接。

然而，在云计算的发展背景下，传统的三层网络架构的缺陷变得越来越明显：

带宽浪费：每个L2交换机组管理一个POD，每个POD具有独立的VLAN网络。使用生成树协议（STP）通常会导致VLAN网络只有一个可活动的L2交换机，其他交换机被阻塞。这阻碍了汇聚层的横向扩展。
故障域过大：由于STP算法，网络拓扑变化在其收敛过程中可能导致潜在网络中断。
高延迟：随着数据中心的扩展，东西向流量的增加导致延迟显著增加。在三层网络架构中，服务器之间的通信经过多个交换机，提升L1和L2交换机的性能也会增加使用成本。

相比之下，叶脊架构提供了显著的优势，包括扁平化设计、低延迟和高带宽。在叶脊网络中，叶交换机代替传统L3交换机，而脊交换机则充当L1交换机。

在这里插入图片描述

脊和叶交换机使用等价成本多路径（ECMP）动态选择多条路径。在叶层的接入端口和上行链路没有瓶颈的情况下，这种架构可以实现无阻塞性能。由于每个叶交换机都可以连接到每个脊交换机，如果某个脊交换机出现问题，只会导致数据中心吞吐性能轻微下降。

英伟达（NVIDIA）SuperPOD架构的深入探讨

SuperPOD是指通过连接多个计算节点实现高吞吐性能的服务器集群。以英伟达（NVIDIA）DGX A100 SuperPOD为例，推荐配置QM8790交换机，可提供40个端口，每个端口的速率为200G。

其采用的架构遵循一个无阻塞结构。在初始层中，DGX A100服务器配备了8个接口，每个接口连接到8个叶交换机其中的一个。一个SuperPOD架构由20台服务器组成，形成一个SU。因此总共需要8台SU服务器。在第二层架构中，由于网络是无阻塞的且端口速率是统一的，脊交换机上行端口的数量应大于或等于叶交换机下行端口的数量。因此1个SU对应8个叶交换机和5个脊交换机，2个SU对应16个叶交换机和10个脊交换机，以此类推，当SU的数量超过6个时，建议添加一个L1交换机。

在这里插入图片描述

对于DGX A100 SuperPOD，计算网络的服务器与交换机的比例约为1:1.17（基于7个SU）。然而考虑到存储和网络管理的需求，DGX A100 SuperPOD和DGX H100 SuperPOD的服务器与交换机的比例分别约为1:1.34和1:0.50。

从端口来看，DGX H100交换机的推荐配置每个SU配备31台服务器。DGX H100交换机设计4个接口，使用QM9700交换机，可提供64个端口，每个端口速率为400G。

从交换机性能来看，DGX H100 SuperPOD的推荐配置中的QM9700交换机引入了Sharp技术。该技术利用聚合管理器在物理拓扑中构建了流聚合树（SAT）。树中的多个交换机进行并行计算，从而降低延迟并提高网络性能。QM8700/8790+CX6交换机支持最多2个SAT，而QM9700/9790+CX7支持最多64个SAT。随着端口数量的增加，交换机数量减少。

交换机选择：以太网、InfiniBand和RoCE的比较

以太网交换机和InfiniBand交换机之间的根本区别在于TCP/IP协议和RDMA之间的差异。目前以太网交换机更常用于传统数据中心，而InfiniBand交换机在存储网络和高性能计算（HPC）应用环境中更为常见。无论是以太网交换机还是InfiniBand交换机，都可实现400G的最大带宽。

RoCE vs InfiniBand vs TCP/IP
在这里插入图片描述

关键考虑因素：

高可扩展性：交换机中的三种网络协议都具有高可扩展性，其中InfiniBand展现了最高的可扩展性。一个单独的InfiniBand子网可以支持数以万计的节点，提供相对可扩展的架构，与InfiniBand路由器相比，可以实现几乎无限的集群规模。
高性能：TCP/IP引入了额外的CPU处理开销和延迟，导致相对较低的性能。通过利用现有的以太网基础设施，RoCE提高了数据中心的速率和效率。然而InfiniBand交换机以串行方式逐位传输数据，并利用交换结构，在更快、更高效的通信方面表现出色。
管理便利性：虽然RoCE和InfiniBand的延迟较低、性能较高，但TCP/IP通常更易于部署和管理。在网络管理中使用TCP/IP进行设备和网络连接即可实现集中管理，节省人力成本。
成本效益：对于注重预算的企业来说，InfiniBand可能带来挑战，因为它依赖于昂贵的IB交换机端口来处理大量的应用程序负载，从而增加了计算和维护成本。相比之下利用以太网交换机的RoCE和TCP/IP提供了更具成本效益的解决方案。
网络设备：RoCE和TCP/IP利用以太网交换机进行数据传输，而InfiniBand利用专用的IB交换机来传输应用程序。IB交换机通常需要与支持IB协议的设备进行互连，使它们相对封闭且难以替换。

现代数据中心对底层互连的带宽和延迟要求非常高。在这种情况下，传统的TCP/IP网络协议表现不佳，引入了CPU可以实现开销处理和较高的延迟。

对于在RoCE和InfiniBand之间进行选择的企业来说，需仔细考虑其个性化需求和成本因素。优先考虑高性能网络连接的企业可能会更倾向于选择InfiniBand，而追求出色性能、易于管理和成本效益的企业则可能选择RoCE来构建数据中心。