InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE)

2024-09-08 11:20

本文主要是介绍InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在超算网络环境中,InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 是两种重要的网络技术,它们旨在提供高性能、低延迟的数据传输能力,适用于大规模并行计算任务。下面是对这两个技术的具体名词解释和应用场景的详细说明。

InfiniBand (IB)

名词解释
  • InfiniBand (IB):InfiniBand 是一种高性能计算和企业数据中心中的网络互连技术,它提供极高的带宽和极低的延迟,特别适合于需要大量数据传输和快速响应的应用场景。InfiniBand 采用基于消息传递的协议栈,而不是传统的 TCP/IP,这使其在高性能计算集群中表现出色。
应用场景
  1. 高性能计算 (HPC)

    • 科学计算:例如天气预报、气候建模、分子动力学模拟等,这些应用需要大量的数据处理和快速的节点间通信。
    • 大数据处理:如基因组学研究、图像处理等,这些应用通常需要处理海量数据集,并要求高效的数据传输。
  2. 云和数据中心

    • 虚拟化环境:InfiniBand 提供的高性能和低延迟特性使其非常适合虚拟化环境中的数据传输,特别是在需要高性能存储和网络的场合。
    • 存储区域网络 (SAN):InfiniBand 可以作为高性能的存储网络,提供快速的数据访问和高可用性。
  3. 人工智能和机器学习

    • 分布式训练:深度学习模型的训练通常需要多个 GPU 之间的高效通信,InfiniBand 可以显著提高训练效率。

RDMA over Converged Ethernet (RoCE)

名词解释
  • RDMA over Converged Ethernet (RoCE)
  • RoCE 是一种基于以太网的远程直接内存访问 (RDMA) 协议,旨在通过以太网网络实现高性能、低延迟的数据传输。RoCE v1 作为链路层协议运行,要求通信双方在同一以太网广播域(VLAN)中。RoCE v2 作为网络层协议运行,使得 RoCE v2 协议数据包可以在第三层进行路由,提供了更好的可扩展性。
    远程直接内存访问 (RDMA):允许数据在不涉及主机 CPU 的情况下从一台计算机的内存传输到另一台计算机的内存。这种方式降低了传统 TCP/IP 协议栈的开销,提高了数据传输效率。
应用场景
  1. 云和数据中心

    • 虚拟化环境:RoCE 可以在标准以太网基础设施上实现高性能的虚拟化网络,降低网络延迟并提高性能。
    • 存储区域网络 (SAN):RoCE 可以用于构建高性能的存储网络,特别是在需要低成本和易于管理的情况下。
  2. 高性能计算 (HPC)

    • 小型集群:对于规模较小的 HPC 集群,RoCE 可以提供类似于 InfiniBand 的性能,同时利用现有的以太网设备。
    • 边缘计算:在边缘计算环境中,RoCE 可以实现高性能的数据传输,满足低延迟的需求。
  3. 人工智能和机器学习

    • 分布式训练:RoCE 可以在标准以太网上实现多 GPU 之间的高效通信,适用于分布式深度学习训练。

对比与选择

  • 性能:InfiniBand 通常提供更高的带宽和更低的延迟,特别是在大规模集群中。RoCE 则在标准以太网上提供了接近 InfiniBand 的性能,但在某些情况下可能不如 InfiniBand 稳定。
  • 成本:RoCE 通常更加经济实惠,因为它可以利用现有的以太网基础设施。InfiniBand 设备通常更昂贵,但提供了更好的性能。
  • 易用性:RoCE 更容易部署和管理,因为它使用标准的以太网设备。InfiniBand 需要专门的硬件和网络配置。
  • 适用场景:InfiniBand 更适合大规模高性能计算集群,而 RoCE 更适合中小规模集群或需要高性能但预算有限的情况。

总之,选择 InfiniBand 还是 RoCE 取决于具体的应用需求、预算和技术背景。在高性能计算环境中,InfiniBand 仍然是首选方案,而在成本敏感的场景下,RoCE 可以提供良好的替代方案。

这篇关于InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1147973

相关文章

配置InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 网络

配置InfiniBand (IB) 和 RDMA over Converged Ethernet (RoCE) 网络 服务器端配置 在服务器端,你需要确保安装了必要的驱动程序和软件包,并且正确配置了网络接口。 安装 OFED 首先,安装 Open Fabrics Enterprise Distribution (OFED),它包含了 InfiniBand 所需的驱动程序和库。 sudo

RDMA技术详解

1 DMA概念 传统方式 假设IO设备是普通网卡,网卡对数据包封装前,需要拿到数据。首先网卡通过总线告知CPU数据请求,CPU无法直接对内存数据处理;所以,CPU首先将内存缓冲区的数据复制到自己内部的寄存器中,然后复制到IO设备的存储空间中。即传统内存访问需要CPUcopy移动数据,CPU将内存中Buffer1移动到Buffer2,需要进行两次移动操作。当通信数据量比较大是,CPU则忙于搬移数

ubuntu上通过openvswitch卸载实现roce over vxlan

环境 操作系统: uname -aLinux 5.4.0-187-generic #207-Ubuntu SMP Mon Jun 10 08:16:10 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux Mellanox网卡: ethtool -i ens6np0driver: mlx5_coreversion: 23.10-2.1.3firmw

RDMA over Ethernet用于Meta规模的分布式AI训练

摘要: 近年来,AI模型的计算密度和规模迅速增长,推动了构建高效可靠专用网络基础设施的需求。本文介绍了Meta公司基于RDMA over Converged Ethernet(RoCE)的分布式AI训练网络的设计、实施和运营。 我们的设计原则涉及对工作负载的深入理解,并将这些见解转化为各种网络组件的设计:网络拓扑 - 为支持AI硬件平台的世代快速演进,我们将基于GPU的训练分离到专门的"后端"

【RoCE】Flow Control

概览 RoCE可以实现lossless无损网络环境,在二层网络上做到可靠网络传输,从而对原本在光纤网络环境下的应用在以太网环境下提供相同的服务,而不必对应用逻辑和上层协议更改。实现无损的方法有Global Pause, PFC, Dropless Receive Queue。 1.什么是802.3x Flow Control(Global Pause)? 以太网标准(802.3)设计

【RoCE】拥塞控制机制(ECN, DC-QCN)

1.网络拥塞问题 在网络交换机中,当入口流量大于出口流量的带宽时会发生网络拥塞。典型的例子是多个发送方同时向同一个目的地发送网络数据。交换机的缓存可以处理暂时的拥塞,但是当拥塞太久时,交换机的缓存就会过载。当交换机缓存过载时,下一个收到的新的数据包就会被丢弃。丢包会降低应用性能,因为重传和传输协议的复杂性会带来延迟。无损网络实现了流控制机制,它可以在缓存溢出前暂停入口流量,阻止了丢包现象。然而,

RDMA技术详解——RDMA优缺点

1.1. RDMA的优势         传统的TCP/IP技术在数据包处理过程中,要经过操作系统及其他软件层,需要占用大量的服务器资源和内存总线带宽,数据在系统内存、处理器缓存和网络控制器缓存之间来回进行复制移动,给服务器的CPU和内存造成了沉重负担。尤其是网络带宽、处理器速度与内存带宽三者的严重"不匹配性",更加剧了网络延迟效应。         RDMA技术,最大的突破是将网络层和传输层

RDMA技术详解——RDMA的三种实现方式

RDMA作为一种host-offload, host-bypass技术,使低延迟、高带宽的直接的内存到内存的数据通信成为了可能。目前支持RDMA的网络协议有: 1、InfiniBand(IB): 从一开始就支持RDMA的新一代网络协议。由于这是一种新的网络技术,因此需要支持该技术的网卡和交换机。 2、RDMA过融合以太网(RoCE): 即RDMA over Ethernet, 允许通过以太网执

RDMA技术详解——DMA和RDMA概念

1.1 DMA DMA(Direct Memory Access,直接内存访问)是一种能力,允许在计算机主板上的设备直接把数据发送到内存中去,数据搬运不需要CPU的参与。如下图所示         红线部分为传统内存访问,需要通过CPU进行数据copy来移动数据,通过CPU将内存中的Buffer1移动到Buffer2中。在DMA模式:可以同DMA Engine之间通过硬件将数据从Buffe

Ethernet 测试系列(1)-- 物理层测试::IOP Test::Link-up time

车载以太网物理层IOP测试,即互操作性测试(Interop- erability Tests),用于验证车载以太网PHY(通常也称为收发器)的可靠性和检查PHY能否在给定的有限时间内建立稳定的链路;还用于车载以太网PHY的诊断,如信号质量指数(SQI)和线束故障的检测。模拟车载以太网远、近端的开、短路故障作为Link Partner,与DUT建立连接,获取两者之间的Link Up时间(精度可达1m