DPU特征结构系列(二)一种DPU参考设计

2024-03-06 10:10

本文主要是介绍DPU特征结构系列(二)一种DPU参考设计,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

为了满足数据为中心的设计理念,本节给出一个通用的DPU参考设计。目前DPU架构的演化比较快,DPU既可以呈现为一个被动设备作为CPU的协处理器,也可以作为一个主动设备,承接Hypervisor的一些功能。尤其是容器技术、虚拟化技术的广泛采用,DPU的角色已经不仅仅是一个协处理器,而是呈现出更多的HOST的特征,比如运行Hypervisor,做跨节点的资源整合,为裸金属和虚拟机提供虚拟网络,数据安全,热迁移等支撑。宏观来看,DPU架构至少可以分为以下几个核心组成部分:

 DPU架构参考设计

一、控制平面

负责管理、配置,通常由通用处理器核来实现。控制平台负责DPU设备运行管理,以及计算任务和计算资源的配置。运行管理通常包含设备的安全管理和实时监控两个主要功能。在安全管理方面支持支持如信任根、安全启动、安全固件升级以及基于身份验证的容器和应用的生命周期管理等。在设备实时监控方面,对DPU各子系统、数据平面中各处理核动态监测,实时观察设备是否可用、设备中流量是否正常,周期性生成报表,记录设备访问日志核配置修改日志。

计算任务和计算资源配置方面,根据计算任务实施配置数据平面中处理单元间的通路,以及各处理单元参数。根据资源利用情况实时进行任务调度以及在计算单元的映射和部署。同时DPU上层同时会支持多个虚拟机,控制平面在任务部署时还要进行虚拟设备的管理,考虑虚拟机间数据和资源隔离,记录运行状态协助虚拟机热迁移。最后,当DPU集成第三方计算平台,如GPUFPGA等,还需要参与部分卸载任务调度。

由于控制平面任务多样,灵活性要求较高,算力要求较低,通常由通用处理器核来实现,比如ARMMIPS等核心。为便于用户统一管理和配置DPU设备,提供较好的可编程性,通常会运行标准Linux应用程序。并且控制平面与数据平面数据交互驱动程序需要进行深度优化,来提升控制平面与数据平面有效地交互,任务调度效率。

二、IO子系统

主要分为三个大类:

1)系统IO,负责DPU和其他处理平台(如X86ARM处理器、GPUFPGA等)或高速外部设备(如SSD)的集成。系统IO通常传输数据量较大对带宽有着极高的要求,因此多基于PCIe来实现。系统IO接口分为两大类:EPEndpoint类和RCRoot Complex)类。

EP类接口负责将DPU作为从设备与X86ARM等处理平台相连接。为了充分利用DPU上的内部资源,此类接口要支持强大的硬件设备虚拟化功能,比如SR-IOVVirtIO。并且可以灵活地支持多种类型的设备,如NICStorageCompute设备等。

RC类接口负责将DPU作为主设备与加速平台(如GPUFPGA)或外设(SSD)相连接。通过此种方式将部分数据处理卸载到第三方加速平台GPUFPGA中处理,通常数据量较大,需要支持较强的DMA方案。

2)网络IO,负责DPU与高速网络相连接,主要是以太网或者FC为主。为了能应对急剧增加的网络带宽,DPU中通常辅以专门的网络协议处理核来加速网络包的处理。包括L2/L3/L4层的ARP/IP/TCP/UDP网络协议处理、RDMA、数据包交换协议、基本网络虚拟化协议等,可以实现100G以上的网络包线速处理。

3)主存IO,负责缓存网络IO和系统IO输入输出数据,以及数据平面中间数据结果。也可作为共享内存,实现不同处理核之间的数据通信。目前主存IO主要包含DDRHBM接口类型,两类接口,DDR可以提供比较大的存储容量,可以提供512GB以上的存储容量;HBM可以提供比较大的存储带宽,可以提供500GB/s以上的带宽。两种存储接口相结合可以满足不同存储容量和带宽的需求,但是需要精细的数据管理,这块也是DPU设计中比较有挑战的。

三、数据平面

主要负责高速数据通路的功能单元的集成,通常集成多个处理核。数据平面的功能主要分为五类:

1)高速数据包处理,主要对接收到的网络数据包进行如OvS(开放式虚拟交换机)解析、匹配和处理,以及RDMA远程数据传输加速等操作,和之前的网络处理器NP功能类似,但是在性能上有更高的要求,处理带宽线速要达到100G200G甚至400G。同时,在进行有状态数据处理时也有着更高的要求,如TCP协议,要求硬件记录各连接信息,并能实现多连接间无缝切换。

2)虚拟化协议加速,支持SR-IOVVirtIO PV(Para-Virtualization)等虚拟化。支持网络虚拟化VxLANGeneve Overlay卸载和VTEP等协议卸载。

3)安全加密,在线IPSecTLS加密加速,以及多种标准加解密算法和国密算法。并且对于安全算法的处理性能有较高的要求,要达到网络线速,从而不影响其它正在运行的加速操作。

4)流量压缩,对网络数据包,或者要存储的数据,进行实时地数据压缩/解压缩处理,压缩过程中还要完成地址的转换和重映射等操作。或者在线完成数据流变换处理,如面向多媒体流、CDN(内容分发网络)4K/8K IP视频的 Packet Pacing流量整形加速等。

5)其他算法加速。除了上述网络、安全协议外还要支持NVMe等存储协议,业务相关的处理卸载也呈增长趋势,如大数据分析SQL加速。

四、DPU设计的关键

数据平面是整个DPU设计的关键,也是DPU设计中最有挑战的模块。主要面临四个挑战:

1)数据中心的工作负载复杂多样,数据平面支持的处理核种类要足够多,不仅包括网络、存储、安全虚拟化等基础设施服务,另外业务相关的处理也在加速向DPU平台卸载。

2)高并发性数据处理,数据中心承载的业务多且复杂,多虚拟机多种类业务并发要求数据平面集成足够数量的核心,规模要达到几百个核心规模。随着数据中心数据量的不断增加,对处理性能提出越来越多的挑战,DPU数据平面在处理核规模上要具有非常强的可扩展性。

3)复杂的片上互联系统,随着DPU数据平面处理核数量的增加,再加之高并发处理线程运行,同时还要兼顾好数据平面数据处理的灵活,这就要求处理核之间的数据交互既要灵活又要兼顾高带宽。处理核之间的数据互联,以及核间的数据一致性成为另一设计难题。

4)高效简易的编程方式,数据中心业务的复杂多变决定了DPU数据平台可编程性的硬性需求。一方面要兼顾计算效率,必须直观表达出并发处理任务,充分利用计算资源。另一方面要兼顾DPU的易用性,尽量采用高级语言进行编程,易于设计、开发维护。

总之,DPU数据平面需要一种大规模敏捷异构的计算架构。这一部分的实现也处在百家争鸣的阶段,各家的实现方式差别较大,有基于通用处理器核的方式,有基于可编程门阵列FPGA的方式,也有基于异构众核的方式,还有待探索。

这篇关于DPU特征结构系列(二)一种DPU参考设计的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/779712

相关文章

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

结构体和联合体的区别及说明

《结构体和联合体的区别及说明》文章主要介绍了C语言中的结构体和联合体,结构体是一种自定义的复合数据类型,可以包含多个成员,每个成员可以是不同的数据类型,联合体是一种特殊的数据结构,可以在内存中共享同一... 目录结构体和联合体的区别1. 结构体(Struct)2. 联合体(Union)3. 联合体与结构体的

PostgreSQL如何查询表结构和索引信息

《PostgreSQL如何查询表结构和索引信息》文章介绍了在PostgreSQL中查询表结构和索引信息的几种方法,包括使用`d`元命令、系统数据字典查询以及使用可视化工具DBeaver... 目录前言使用\d元命令查看表字段信息和索引信息通过系统数据字典查询表结构通过系统数据字典查询索引信息查询所有的表名可

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

usaco 1.3 Mixing Milk (结构体排序 qsort) and hdu 2020(sort)

到了这题学会了结构体排序 于是回去修改了 1.2 milking cows 的算法~ 结构体排序核心: 1.结构体定义 struct Milk{int price;int milks;}milk[5000]; 2.自定义的比较函数,若返回值为正,qsort 函数判定a>b ;为负,a<b;为0,a==b; int milkcmp(const void *va,c

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

怎么让1台电脑共享给7人同时流畅设计

在当今的创意设计与数字内容生产领域,图形工作站以其强大的计算能力、专业的图形处理能力和稳定的系统性能,成为了众多设计师、动画师、视频编辑师等创意工作者的必备工具。 设计团队面临资源有限,比如只有一台高性能电脑时,如何高效地让七人同时流畅地进行设计工作,便成为了一个亟待解决的问题。 一、硬件升级与配置 1.高性能处理器(CPU):选择多核、高线程的处理器,例如Intel的至强系列或AMD的Ry

自定义类型:结构体(续)

目录 一. 结构体的内存对齐 1.1 为什么存在内存对齐? 1.2 修改默认对齐数 二. 结构体传参 三. 结构体实现位段 一. 结构体的内存对齐 在前面的文章里我们已经讲过一部分的内存对齐的知识,并举出了两个例子,我们再举出两个例子继续说明: struct S3{double a;int b;char c;};int mian(){printf("%zd\n",s