星融元加入超以太网联盟(UEC),推动智算网络创新实践

本文主要是介绍星融元加入超以太网联盟(UEC),推动智算网络创新实践,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

近日,星融元正式加入超以太网联盟(Ultra Ethernet Consortium,UEC),该联盟是在 Linux 基金会的牵头下由多家全球头部科技企业联合成立,目标是突破传统以太网性能瓶颈,使其适用于人工智能(AI)和高性能计算(HPC)网络。

星融元加入UEC,将参与到制定以太网的下一代通信堆栈架构的进程中,推动以太网在人工智能和高性能计算领域的应用,为用户提供更高效、更强大的网络解决方案。

随着AI大模型规模的扩大以及通信模式和计算方法的多样化,传统基于 RoCE(RDMA over Converged Ethernet)的 RDMA方案存在拥塞控制算法阻碍等问题,造成运维困难;AI和HPC 对分布式计算资源的规模和有效利用需求高度相似,都对时延要求高。

UEC致力于改造以太网上的RDMA(Remote Direct Memory Access,远程直接内存访问)操作来优化AI和HPC工作负载,从物理层、链路层、传输层、软件层不断提升以太网的转发性能。超以太网传输工作组 (UEC Transport ,UET)通过多种创新来实现更高的网络利用率和更低的尾部延迟,从而减少AI和HPC作业完成时间。

针对上述问题,星融元正和UEC成员们基于端点的可靠性和拥塞控制的成熟路径,提供AI和HPC应用所需的性能,同时保留以太网/IP生态系统的优势,构建成本可控、运维简化、更易扩展的未来网络。

以下是超以太网传输工作组 (UET) 实现UEC1.0白皮书中规定的关键目标:

1.多路径和报文散传:

  • 传统以太网网络基于生成树,确保从源到目的地的一条路径,以避免网络中的环路。
  • UET 引入了多路径和报文散传技术,充分利用高带宽通信网络,无需负载平衡算法。这使得数据包可以同时使用到达目的地的所有路径,从而更平衡地利用网络资源。

2.灵活传递顺序:

  • 传统的数据包排序方式限制了数据包的效率,UET 支持灵活的传递顺序,有效地完成数据包传输。
  • 在 AI 工作负载中,这对于高吞吐量的集合操作(如 All-Reduce 和 All-to-All)至关重要。

3.现代拥塞控制机制:

  • UET 引入了现代拥塞控制算法,以更好地管理网络拥塞。
  • 这些算法考虑了从发送方到接收方的多个链路上的拥塞情况,以实现更高效的数据传输。

4.端到端遥测:

  • UET 利用端到端遥测方案,从网络源头获取拥塞信息,以实现更快的拥塞控制响应。

总之,UET通过保留IP协议、支持多路径、改进数据包排序和拥塞控制,满足不断增长的工作负载需求,为未来的AI和HPC网络提供更简单、更高效的RDMA互连。

星融元的AI/HPC网络中的创新实践

面对AI/HPC对网络环境的高要求,星融元通过提供以太网络无损方案,支撑大规模算力集群建设:

  • 发布星智AI网络解决方案(Rail-only fabric),在不损失训练性能的前提下,削减服务器间链路,单pod里用更少交换机连接了更多GPU服务器,便于扩展规模,整体降低TCO。
  • 简化运维,推出“一键RoCE”方案,一键便可启用PFC和ECN,完成无损网络配置,还能快速定位无损网络的瓶颈与故障。
  • 基于超低时延交换机,面向分布式存储和HPC应用上的时延优化,现场测试中,端到端时延媲美IB。

作为领先的开放网络解决方案提供商,未来星融元将与UEC共同致力于为下一代AI和HPC网络提供优化的传输解决方案,帮助各行业用户构建AI时代中立、透明、高性价比的基础网络。

关注vx公号“星融元Asterfusion”,获取更多技术分享和最新产品动态。

这篇关于星融元加入超以太网联盟(UEC),推动智算网络创新实践的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/939909

相关文章

Nginx实现高并发的项目实践

《Nginx实现高并发的项目实践》本文主要介绍了Nginx实现高并发的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录使用最新稳定版本的Nginx合理配置工作进程(workers)配置工作进程连接数(worker_co

Spring Retry 实现乐观锁重试实践记录

《SpringRetry实现乐观锁重试实践记录》本文介绍了在秒杀商品SKU表中使用乐观锁和MybatisPlus配置乐观锁的方法,并分析了测试环境和生产环境的隔离级别对乐观锁的影响,通过简单验证,... 目录一、场景分析 二、简单验证 2.1、可重复读 2.2、读已提交 三、最佳实践 3.1、配置重试模板

mac安装nvm(node.js)多版本管理实践步骤

《mac安装nvm(node.js)多版本管理实践步骤》:本文主要介绍mac安装nvm(node.js)多版本管理的相关资料,NVM是一个用于管理多个Node.js版本的命令行工具,它允许开发者在... 目录NVM功能简介MAC安装实践一、下载nvm二、安装nvm三、安装node.js总结NVM功能简介N

Spring Boot 3 整合 Spring Cloud Gateway实践过程

《SpringBoot3整合SpringCloudGateway实践过程》本文介绍了如何使用SpringCloudAlibaba2023.0.0.0版本构建一个微服务网关,包括统一路由、限... 目录引子为什么需要微服务网关实践1.统一路由2.限流防刷3.登录鉴权小结引子当前微服务架构已成为中大型系统的标

Java调用DeepSeek API的最佳实践及详细代码示例

《Java调用DeepSeekAPI的最佳实践及详细代码示例》:本文主要介绍如何使用Java调用DeepSeekAPI,包括获取API密钥、添加HTTP客户端依赖、创建HTTP请求、处理响应、... 目录1. 获取API密钥2. 添加HTTP客户端依赖3. 创建HTTP请求4. 处理响应5. 错误处理6.

golang内存对齐的项目实践

《golang内存对齐的项目实践》本文主要介绍了golang内存对齐的项目实践,内存对齐不仅有助于提高内存访问效率,还确保了与硬件接口的兼容性,是Go语言编程中不可忽视的重要优化手段,下面就来介绍一下... 目录一、结构体中的字段顺序与内存对齐二、内存对齐的原理与规则三、调整结构体字段顺序优化内存对齐四、内

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

C++实现封装的顺序表的操作与实践

《C++实现封装的顺序表的操作与实践》在程序设计中,顺序表是一种常见的线性数据结构,通常用于存储具有固定顺序的元素,与链表不同,顺序表中的元素是连续存储的,因此访问速度较快,但插入和删除操作的效率可能... 目录一、顺序表的基本概念二、顺序表类的设计1. 顺序表类的成员变量2. 构造函数和析构函数三、顺序表

python实现简易SSL的项目实践

《python实现简易SSL的项目实践》本文主要介绍了python实现简易SSL的项目实践,包括CA.py、server.py和client.py三个模块,文中通过示例代码介绍的非常详细,对大家的学习... 目录运行环境运行前准备程序实现与流程说明运行截图代码CA.pyclient.pyserver.py参

使用C++实现单链表的操作与实践

《使用C++实现单链表的操作与实践》在程序设计中,链表是一种常见的数据结构,特别是在动态数据管理、频繁插入和删除元素的场景中,链表相比于数组,具有更高的灵活性和高效性,尤其是在需要频繁修改数据结构的应... 目录一、单链表的基本概念二、单链表类的设计1. 节点的定义2. 链表的类定义三、单链表的操作实现四、