RDMA技术详解

2024-09-04 22:52
文章标签 技术 详解 rdma

本文主要是介绍RDMA技术详解,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 DMA概念

传统方式

假设IO设备是普通网卡,网卡对数据包封装前,需要拿到数据。首先网卡通过总线告知CPU数据请求,CPU无法直接对内存数据处理;所以,CPU首先将内存缓冲区的数据复制到自己内部的寄存器中,然后复制到IO设备的存储空间中。即传统内存访问需要CPUcopy移动数据,CPU将内存中Buffer1移动到Buffer2,需要进行两次移动操作。当通信数据量比较大是,CPU则忙于搬移数据,占用较多内存与时间资源

DMA方式

DMA(直接内存访问)允许计算机主板上设备直接把数据发送到内存中,数据搬运不需要CPU参与

DMA:通过DMA Engine之间通过硬件将数据从Buffer1移动到Buffer2,不需要CPU参与,降低CPUcopy开销。

img

2 RDMA

1 背景

为了消除传统网络通信给计算任务的瓶颈,希望更快与更轻量级通信。

2 传统TCP通信

socket通信示意图

img

传统socket套接字网络中,应用程序向操作系统申请网络资源时,通过特定API管理程序的行为。

TCP/IP/Ethernet是一种面向字节流的传输方式,信息以字节的形式在套接字应用程序之间传递。

img

过程如下:

  1. 数据发送方将数据从用户空间Buffer复制到内核空间的SocketBuffer中

  2. 从内核空间添加数据报头,进行数据封装。通过一系列多层网络协议的数据包处理工作,协议包括传输控制协议、用户数据报协议、互联网协议以及互联网控制消息协议。经过这些步骤,数据才能被push到NIC的Buffer中进行网络传输

  3. 消息接收方要从NICBuffer拷贝至SocketBuffer中

  4. 经过一系列协议对数据包解析,解析后的数据被复制到相应用户空间应用程序的Buffer中。此时,系统上下文切换,用户程序被调用。

传统方式存在的问题

TCP/IP存在的主要问题是IO瓶颈问题。在高速的网络环境下与网络I/O相关的主机处理的高开销(数据移动操作和复制操作)限制了机器之间的传输带宽。

传输的TCP/IP网络通信是通过内核发送信息。通过内核传输信息机制会导致性能低和灵活性差。

  • 性能低主要原因是由于网络通过内核传递,需要在内核中频繁进行协议封装和解封操作,造成很大的数据移动和数据复制开销。
  • 灵活性差的原因是:是因为网络通信协议在内核中处理,这种方式很难支持新的网络协议和新的消息通信协议及发送和接收接口。

3 RDMA技术通信

RDMA技术特点

RDMA通信示意图:

img

RDMA仅仅使用操作系统建立一个通道,然后在不需要操作系统参与的情况下,应用系统之间进行直接的消息传递,这使得网卡远程直接访问内存资源。

两个多个计算机通信时使用DMA,从一个主机内存直接访问另一个主机的内存。RDMA利用栈旁路与零拷贝技术,提供低延迟的特性,通过减少CPU的负担,提供较大的吞吐量。

img

img

采用RDMA技术的协议

RDMA技术采用host-offload, host-bypass技术,实现通信网络的低延迟、高带宽。现有多种协议支持RDMA,主流的协议有以下三种

  1. InfiniBand(IB): 支持RDMA的新一代网络协议。交换机需要支持对IB网络层协议的解析,因此需要配备专用的交换机与网卡。由于这种限制,应用的情景有限
  2. RDMA过融合以太网(RoCE): 即RDMA over Ethernet, 允许通过以太网执行RDMA的网络协议。这允许在标准以太网基础架构(交换机)上使用RDMA,只需要网卡必须支持RoCE的特殊的NIC。
  3. 互联网广域RDMA协议(iWARP): 即RDMA over TCP, 允许通过TCP执行RDMA的网络协议。这允许在标准以太网基础架构(交换机)上使用RDMA,只不过网卡要求是支持iWARP(如果使用CPU offload的话)的NIC。否则,所有iWARP栈都可以在软件中实现,但是失去了大部分的RDMA性能优势。

img

Rocev2在使用Ethernet/IP/UDP协议的基础上对RDMA数据包封装,具有更好的通用性。谷歌、微软等公司均部署Roce协议。

RDMA技术相关概念

RDMA是一种host-offload、host-bypass技术,允许应用程序(包括存储)在它们内存空间之间直接做数据传输。具有RDMA引擎的以太网卡(RNIC)(而不是host)负责管理源和目标之间的可靠连接。RDMA通信操作与传统通信方式存在着较大差异。RDMA通信过程中诸多需要理解的概念,着重介绍RDMA涉及的操作和概念。

一对RDMA的连接由工作队列表示,即队列对(Queue Pair,QP)。QP由维持在网卡硬件中的发送队列与接收队列构成。当应用产生发送或者接收操作时(在RDMA中称为原语),它将工作队列中的元素(Work Queue Element,WQE)[工作队列可以是发送队列,也可以是接收队列]放入至相关队列。每个QP维持完成队列(Complement Queue,CQ)通知应用层完成操作的信息。当WQE完成后,完成队列的元素(Complement Queue Element)也将置入CQ中。

RDMA中原语基本分为四种:Read、Write、Send、Receive。其中,Send与Receive成对出现。

使用RNIC的应用程序之间使用专注的QP与CQ通讯

  1. 发送请求(SR)

    SR定义了数据的发送量、从哪里、发送方式、是否通过RDMA、到哪里。结构ibv_send_wr描述SR

  2. 接收请求(RR)

    RR定义用来放置通过RDMA操作接收到的数据缓冲区

  3. 完成队列(CQ)

RDMA传输流程

在Rocev2协议中,RDMA从应用层获取的数据切割成大小相同的数据段,每个数据段封装为UDP/IP/Ethernet数据包,传输至网络中。UDP源端口号是任意的,对于不同的数据流端口号不同,因此,可以通过UDP端口号区分不同的数据流,从而完成整个网络的负载均衡。每个数据包带有RDMA数据包头,包头中包含数据的序列号,即Packet Sequence Number,PSN。在一条数据流中,PSN是连续的,因此接收端可以根据PSN将数据流拼接出来。此外,接收端会产生ACK或者NagativeACK(NACK)通知接收端是否成功接收数据包。

3RDMA技术通信协议

参考链接

  1. https://zhuanlan.zhihu.com/p/55142557
  2. https://zhuanlan.zhihu.com/p/649468433
  3. https://mp.weixin.qq.com/s/oDzAUDoRWWFmNZK-mkpROQ

这篇关于RDMA技术详解的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1137266

相关文章

Mysql 中的多表连接和连接类型详解

《Mysql中的多表连接和连接类型详解》这篇文章详细介绍了MySQL中的多表连接及其各种类型,包括内连接、左连接、右连接、全外连接、自连接和交叉连接,通过这些连接方式,可以将分散在不同表中的相关数据... 目录什么是多表连接?1. 内连接(INNER JOIN)2. 左连接(LEFT JOIN 或 LEFT

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

Linux内核之内核裁剪详解

《Linux内核之内核裁剪详解》Linux内核裁剪是通过移除不必要的功能和模块,调整配置参数来优化内核,以满足特定需求,裁剪的方法包括使用配置选项、模块化设计和优化配置参数,图形裁剪工具如makeme... 目录简介一、 裁剪的原因二、裁剪的方法三、图形裁剪工具四、操作说明五、make menuconfig

详解Java中的敏感信息处理

《详解Java中的敏感信息处理》平时开发中常常会遇到像用户的手机号、姓名、身份证等敏感信息需要处理,这篇文章主要为大家整理了一些常用的方法,希望对大家有所帮助... 目录前后端传输AES 对称加密RSA 非对称加密混合加密数据库加密MD5 + Salt/SHA + SaltAES 加密平时开发中遇到像用户的

Springboot使用RabbitMQ实现关闭超时订单(示例详解)

《Springboot使用RabbitMQ实现关闭超时订单(示例详解)》介绍了如何在SpringBoot项目中使用RabbitMQ实现订单的延时处理和超时关闭,通过配置RabbitMQ的交换机、队列和... 目录1.maven中引入rabbitmq的依赖:2.application.yml中进行rabbit

C语言线程池的常见实现方式详解

《C语言线程池的常见实现方式详解》本文介绍了如何使用C语言实现一个基本的线程池,线程池的实现包括工作线程、任务队列、任务调度、线程池的初始化、任务添加、销毁等步骤,感兴趣的朋友跟随小编一起看看吧... 目录1. 线程池的基本结构2. 线程池的实现步骤3. 线程池的核心数据结构4. 线程池的详细实现4.1 初

Python绘制土地利用和土地覆盖类型图示例详解

《Python绘制土地利用和土地覆盖类型图示例详解》本文介绍了如何使用Python绘制土地利用和土地覆盖类型图,并提供了详细的代码示例,通过安装所需的库,准备地理数据,使用geopandas和matp... 目录一、所需库的安装二、数据准备三、绘制土地利用和土地覆盖类型图四、代码解释五、其他可视化形式1.

SpringBoot使用Apache POI库读取Excel文件的操作详解

《SpringBoot使用ApachePOI库读取Excel文件的操作详解》在日常开发中,我们经常需要处理Excel文件中的数据,无论是从数据库导入数据、处理数据报表,还是批量生成数据,都可能会遇到... 目录项目背景依赖导入读取Excel模板的实现代码实现代码解析ExcelDemoInfoDTO 数据传输

如何用Java结合经纬度位置计算目标点的日出日落时间详解

《如何用Java结合经纬度位置计算目标点的日出日落时间详解》这篇文章主详细讲解了如何基于目标点的经纬度计算日出日落时间,提供了在线API和Java库两种计算方法,并通过实际案例展示了其应用,需要的朋友... 目录前言一、应用示例1、天安门升旗时间2、湖南省日出日落信息二、Java日出日落计算1、在线API2

使用Spring Cache时设置缓存键的注意事项详解

《使用SpringCache时设置缓存键的注意事项详解》在现代的Web应用中,缓存是提高系统性能和响应速度的重要手段之一,Spring框架提供了强大的缓存支持,通过​​@Cacheable​​、​​... 目录引言1. 缓存键的基本概念2. 默认缓存键生成器3. 自定义缓存键3.1 使用​​@Cacheab