RDMA技术详解

2024-09-04 22:52
文章标签 技术 详解 rdma

本文主要是介绍RDMA技术详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 DMA概念

传统方式

假设IO设备是普通网卡,网卡对数据包封装前,需要拿到数据。首先网卡通过总线告知CPU数据请求,CPU无法直接对内存数据处理;所以,CPU首先将内存缓冲区的数据复制到自己内部的寄存器中,然后复制到IO设备的存储空间中。即传统内存访问需要CPUcopy移动数据,CPU将内存中Buffer1移动到Buffer2,需要进行两次移动操作。当通信数据量比较大是,CPU则忙于搬移数据,占用较多内存与时间资源

DMA方式

DMA(直接内存访问)允许计算机主板上设备直接把数据发送到内存中,数据搬运不需要CPU参与

DMA:通过DMA Engine之间通过硬件将数据从Buffer1移动到Buffer2,不需要CPU参与,降低CPUcopy开销。

img

2 RDMA

1 背景

为了消除传统网络通信给计算任务的瓶颈,希望更快与更轻量级通信。

2 传统TCP通信

socket通信示意图

img

传统socket套接字网络中,应用程序向操作系统申请网络资源时,通过特定API管理程序的行为。

TCP/IP/Ethernet是一种面向字节流的传输方式,信息以字节的形式在套接字应用程序之间传递。

img

过程如下:

  1. 数据发送方将数据从用户空间Buffer复制到内核空间的SocketBuffer中

  2. 从内核空间添加数据报头,进行数据封装。通过一系列多层网络协议的数据包处理工作,协议包括传输控制协议、用户数据报协议、互联网协议以及互联网控制消息协议。经过这些步骤,数据才能被push到NIC的Buffer中进行网络传输

  3. 消息接收方要从NICBuffer拷贝至SocketBuffer中

  4. 经过一系列协议对数据包解析,解析后的数据被复制到相应用户空间应用程序的Buffer中。此时,系统上下文切换,用户程序被调用。

传统方式存在的问题

TCP/IP存在的主要问题是IO瓶颈问题。在高速的网络环境下与网络I/O相关的主机处理的高开销(数据移动操作和复制操作)限制了机器之间的传输带宽。

传输的TCP/IP网络通信是通过内核发送信息。通过内核传输信息机制会导致性能低和灵活性差。

  • 性能低主要原因是由于网络通过内核传递,需要在内核中频繁进行协议封装和解封操作,造成很大的数据移动和数据复制开销。
  • 灵活性差的原因是:是因为网络通信协议在内核中处理,这种方式很难支持新的网络协议和新的消息通信协议及发送和接收接口。

3 RDMA技术通信

RDMA技术特点

RDMA通信示意图:

img

RDMA仅仅使用操作系统建立一个通道,然后在不需要操作系统参与的情况下,应用系统之间进行直接的消息传递,这使得网卡远程直接访问内存资源。

两个多个计算机通信时使用DMA,从一个主机内存直接访问另一个主机的内存。RDMA利用栈旁路与零拷贝技术,提供低延迟的特性,通过减少CPU的负担,提供较大的吞吐量。

img

img

采用RDMA技术的协议

RDMA技术采用host-offload, host-bypass技术,实现通信网络的低延迟、高带宽。现有多种协议支持RDMA,主流的协议有以下三种

  1. InfiniBand(IB): 支持RDMA的新一代网络协议。交换机需要支持对IB网络层协议的解析,因此需要配备专用的交换机与网卡。由于这种限制,应用的情景有限
  2. RDMA过融合以太网(RoCE): 即RDMA over Ethernet, 允许通过以太网执行RDMA的网络协议。这允许在标准以太网基础架构(交换机)上使用RDMA,只需要网卡必须支持RoCE的特殊的NIC。
  3. 互联网广域RDMA协议(iWARP): 即RDMA over TCP, 允许通过TCP执行RDMA的网络协议。这允许在标准以太网基础架构(交换机)上使用RDMA,只不过网卡要求是支持iWARP(如果使用CPU offload的话)的NIC。否则,所有iWARP栈都可以在软件中实现,但是失去了大部分的RDMA性能优势。

img

Rocev2在使用Ethernet/IP/UDP协议的基础上对RDMA数据包封装,具有更好的通用性。谷歌、微软等公司均部署Roce协议。

RDMA技术相关概念

RDMA是一种host-offload、host-bypass技术,允许应用程序(包括存储)在它们内存空间之间直接做数据传输。具有RDMA引擎的以太网卡(RNIC)(而不是host)负责管理源和目标之间的可靠连接。RDMA通信操作与传统通信方式存在着较大差异。RDMA通信过程中诸多需要理解的概念,着重介绍RDMA涉及的操作和概念。

一对RDMA的连接由工作队列表示,即队列对(Queue Pair,QP)。QP由维持在网卡硬件中的发送队列与接收队列构成。当应用产生发送或者接收操作时(在RDMA中称为原语),它将工作队列中的元素(Work Queue Element,WQE)[工作队列可以是发送队列,也可以是接收队列]放入至相关队列。每个QP维持完成队列(Complement Queue,CQ)通知应用层完成操作的信息。当WQE完成后,完成队列的元素(Complement Queue Element)也将置入CQ中。

RDMA中原语基本分为四种:Read、Write、Send、Receive。其中,Send与Receive成对出现。

使用RNIC的应用程序之间使用专注的QP与CQ通讯

  1. 发送请求(SR)

    SR定义了数据的发送量、从哪里、发送方式、是否通过RDMA、到哪里。结构ibv_send_wr描述SR

  2. 接收请求(RR)

    RR定义用来放置通过RDMA操作接收到的数据缓冲区

  3. 完成队列(CQ)

RDMA传输流程

在Rocev2协议中,RDMA从应用层获取的数据切割成大小相同的数据段,每个数据段封装为UDP/IP/Ethernet数据包,传输至网络中。UDP源端口号是任意的,对于不同的数据流端口号不同,因此,可以通过UDP端口号区分不同的数据流,从而完成整个网络的负载均衡。每个数据包带有RDMA数据包头,包头中包含数据的序列号,即Packet Sequence Number,PSN。在一条数据流中,PSN是连续的,因此接收端可以根据PSN将数据流拼接出来。此外,接收端会产生ACK或者NagativeACK(NACK)通知接收端是否成功接收数据包。

3RDMA技术通信协议

参考链接

  1. https://zhuanlan.zhihu.com/p/55142557
  2. https://zhuanlan.zhihu.com/p/649468433
  3. https://mp.weixin.qq.com/s/oDzAUDoRWWFmNZK-mkpROQ

这篇关于RDMA技术详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1137266

相关文章

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

OpenHarmony鸿蒙开发( Beta5.0)无感配网详解

1、简介 无感配网是指在设备联网过程中无需输入热点相关账号信息,即可快速实现设备配网,是一种兼顾高效性、可靠性和安全性的配网方式。 2、配网原理 2.1 通信原理 手机和智能设备之间的信息传递,利用特有的NAN协议实现。利用手机和智能设备之间的WiFi 感知订阅、发布能力,实现了数字管家应用和设备之间的发现。在完成设备间的认证和响应后,即可发送相关配网数据。同时还支持与常规Sof

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

金融业开源技术 术语

金融业开源技术  术语 1  范围 本文件界定了金融业开源技术的常用术语。 本文件适用于金融业中涉及开源技术的相关标准及规范性文件制定和信息沟通等活动。

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)

K8S(Kubernetes)开源的容器编排平台安装步骤详解

K8S(Kubernetes)是一个开源的容器编排平台,用于自动化部署、扩展和管理容器化应用程序。以下是K8S容器编排平台的安装步骤、使用方式及特点的概述: 安装步骤: 安装Docker:K8S需要基于Docker来运行容器化应用程序。首先要在所有节点上安装Docker引擎。 安装Kubernetes Master:在集群中选择一台主机作为Master节点,安装K8S的控制平面组件,如AP

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

系统架构设计师: 信息安全技术

简简单单 Online zuozuo: 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo 简简单单 Online zuozuo :本心、输入输出、结果 简简单单 Online zuozuo : 文章目录 系统架构设计师: 信息安全技术前言信息安全的基本要素:信息安全的范围:安全措施的目标:访问控制技术要素:访问控制包括:等保

嵌入式Openharmony系统构建与启动详解

大家好,今天主要给大家分享一下,如何构建Openharmony子系统以及系统的启动过程分解。 第一:OpenHarmony系统构建      首先熟悉一下,构建系统是一种自动化处理工具的集合,通过将源代码文件进行一系列处理,最终生成和用户可以使用的目标文件。这里的目标文件包括静态链接库文件、动态链接库文件、可执行文件、脚本文件、配置文件等。      我们在编写hellowor

LabVIEW FIFO详解

在LabVIEW的FPGA开发中,FIFO(先入先出队列)是常用的数据传输机制。通过配置FIFO的属性,工程师可以在FPGA和主机之间,或不同FPGA VIs之间进行高效的数据传输。根据具体需求,FIFO有多种类型与实现方式,包括目标范围内FIFO(Target-Scoped)、DMA FIFO以及点对点流(Peer-to-Peer)。 FIFO类型 **目标范围FIFO(Target-Sc