Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

站点精选

2025-06-18

关注星融元

站点精选

收藏备查!精要解读超以太网联盟(UEC)1.0 规范(2025Q2)

2025-06-18

UEC(Ultra Ethernet Consortium) 在 Linux 联合开发基金会 (JDF) 下运营,并作为标准开发组织运作。UEC 主要基于以太网,同时借鉴了其他一些规范或行业经验来构建规范标准。

超以太网(Ultra Ethernet)系统概览

一个超级以太网系统的组成如下。一个集群(Cluster)由节点(Node)和网络(Fabric)组成,节点通过 Fabric Interface 连接到 UEC 网卡,一个网卡中可以有多个逻辑的网络端点(Fabric End Point,FEP)。网络由若干平面(Plane)组成,每个平面是多个 FEP 的集合,通常通过交换机互联。

uec

集群可以两种不同的模式来工作,分别是并行作业模型(下图左)和客户端/服务器模式(下图右),两者可以共存;job 代表一组分布在多个端点上的协作进程,虽然功能上与 VXLAN 类似,但它利用的是 UEC 网卡内的交换端点 (FEP) 来实现。

uecuec

超以太网网络结构使用等价多路径(ECMP)路由进行负载平衡,其中熵值由 UET (超以太网传输层)拥塞管理子层(CMS)管理。CMS 希望UE交换机支持 IETF RFC 3168中规定的显式拥塞通知(ECN),但有一个额外的限制,即在 dequeuing 而不是 enqueuing 时标记拥塞的数据包。

流量类型(Traffic Class)体现在网卡和交换机内用于区分数据包传输的不同机制和资源(例如队列、缓冲区、调度器),并且依此进行优先级排序。超以太网主要依靠 IP 报头中的 DSCP 字段来识别所接收数据包的流量类别,下图即展示了从应用程序请求的流量类别,到网卡和交换机上链路层可用的流量类别之间的映射关系。

uec

超以太网协议栈概览

根据下图协议栈框架,我们将按照自顶向下的顺序,分层挑出重点介绍。

对比去年年底的UEC草案框架,可以明显看到超以太网 1.0 版本删去了“在网集合通信”(INC, In-Network Collectives)、物理层的多通道200Gb/s传输(因为并非官方标准)。

揭秘超以太网联盟(UEC)1.0 规范最新进展(2024Q4)

uec

01 软件层

超以太网软件层的一个关键构建模块是开放架构接口 (Open Fabric Interfaces),也称 LibFabric。

Libfabric 定义了一套面向高性能并行和分布式应用程序的通信 API,其主要目标是提供一个统一的接口,让开发者能够方便地构建应用,而无需关心底层具体的传输协议和硬件细节。现有的 LibFabric 已经可对接 AI 或 HPC 集群所需的各类高性能通信库,例如 NCCL(来自 Nvidia)、RCCL(来自 AMD)、MPI(原始超级计算并行通信)、Open SHMEM(共享内存)和 UD(不可靠数据报)。

uec

UEC 1.0 规范中确定的 Libfabric API 基线版本是 v2.0 ,并将与 Libfabric 社区保持合作,允许集群中的Endpoint(网卡)与 AI 框架和 HPC 工作负载进行交互;此外一些规范内的可选功能还需要交换机支持(例如数据包修剪),为此,网络操作系统(NOS)需要对应新增扩展。

  • 在网卡侧运行的软件栈: 在操作系统内核态实现网卡驱动,在用户态基于Libfabric扩展实现支持上层的xCCL、MPI、SHMEM等应用。

uec

  • 支持超以太网功能的交换机软件栈:可以看到大体是继承了SONiC的架构。这部分的主要关注在于控制平面上对控制器的支持,数据平面升级 SAI(Switch Abstraction Interface)API以支持增强的芯片级的超以太网特性。

uec

超以太网兼容交换机在两种类型的物理网络中运行:

  1. 数据平面网络:通过超以太网兼容的交换机将FEP彼此连接的网络。该网络承载各种工作负载的应用流量,并针对本规范进行了优化。
  2. 交换机管理网络:每个交换机至少提供一个专用以太网端口,用于连接如SDN控制器、Fabric管理器、遥测采集器、SNMP服务器和其他负责管理基础设施的设备。该网络对延迟不敏感,通常对带宽要求较低。

02 传输层(UET)

传输层是超以太网协议栈的核心,它分为了以下几个子层。

uecuec

语义子层 (SES)

SES子层旨在通过 Libfabric 映射集成到广泛部署的 A I框架和 HPC 库中,是 UET 和 Libfabric 之间的主要接口。它使用 Libfabric 的应用程序通过网络交换消息,并使用流行的零拷贝技术将这些消息直接放入彼此的缓冲存储器中。

数据包传输子层(PDS)

通过UET分层模型和相关库,应用程序可以选择最适合其需求的传输协议功能。PDS子层定义了一种具有多种操作模式的协议,提供可靠无序RUD、可靠有序(ROD)、幂等可靠无序(RUDI)、不可靠无序(UUD)几种组合模式的数据包传输服务。

拥塞控制子层(CMS)

UET 定义了一种端到端的拥塞管理解决方案 UET-CC(UET Congestion Control),用于解决有损以太网中的数据包缓冲区拥塞问题。其目标是实现较高的网络效率,减少数据包丢失,并确保竞争流之间的合理公平性。

拥塞管理可分为以下几个部分,由端侧硬件和交换机配合完成。

  • 网络遥测: 确定端侧和网络路径上的拥塞状态;该信息可在发起方、网络路径上的交换机节点或目的处收集和使用。
  • 基于发送方的窗口: 控制最大未确认数据量,以字节为单位。
  • 接收侧的Credit拥塞控制: 根据接收方的能力通知发送方调整速率。控制向特定目标传输数据的速率,以更直接地控制传输中断。
  • 多路径路径选择: 利用自适应的数据包喷洒修改数据包的传输路径,重新路由到其它路径上,绕过拥塞点。

传输安全子层(TSS):

UET采用了新的密钥管理机制,允许在参与作业的大量计算节点之间高效共享密钥。推荐的加密算法是后量子(post-quantum) DES 密码。

03 网络层

超以太网的网络层功能规范是可选模块,没有对网络层进行任何更改(依然是运行IP网络),该部分主要讨论的是数据包修剪(Packet Trimming)。

网络交换机在繁忙的端口转发数据包之前,会将其存储在缓冲区中,且受到芯片面积的限制。如果缓冲区无法容纳到达的数据包,交换机要么丢弃数据包,要么向上游端口发出暂停流量信号。众所周知,这两种解决方案都存在性能问题。

数据包修剪功能即是超以太网定义的一种应对交换机缓冲区不足的机制,是拥塞通知的一种附加机制,用于在网络过载时减少数据负载。

简言之是允许交换机截断有争议的数据包,修改截断数据包的 DSCP 字段,并将截断数据包作为拥塞信号转发到目的地。数据包修剪提供的拥塞信息比ECN多得多。对于交换机来说,数据包修剪是可选的,而对于 FEP 来说,接收修剪后的数据包则是必须的。

修剪后的数据包通常由上层协议消耗,以确保快速重传丢失的数据包。因此,在启用修剪功能时,这些协议必须具有修剪感知能力,并且必须能够根据收到的修剪数据包识别出原始数据包。

数据包

所以,其中有个关键的 MIN_TRIM_SIZE 必须配置为一个合适的值,以确保在修剪后不影响下一步操作。这个值需要交换机根据每个数据包的封装类型动态地确定,设置为足够保留所有相关传输头所需的大小。

04 链路层

超以太网规定的链路层旨在通过链路级的数据包替换和交换机之间的流量控制来提升整体性能链路层,这些都是可选功能,并且距离完全支持这些功能的产品得以商用还需要较长的时间。

链路层重试(LLR)

LLR 机制基于帧。该机制下,从 MAC 客户端发出的的每个帧都要进行评估。如果 MAC 客户端不希望对帧进行 LLR,或该帧被归类为不符合 LLR 条件,那么该帧将作为标准以太网帧发送。如果帧符合 LLR 条件,则会被分配一个序列号,并存储在重传缓冲区中,以便在对端未收到帧时进行快速重传。

基于Credit的流量控制(CBFC)

UE 传输(UET)层的定义是利用从源端重传数据包,支持无序到达和拥塞控制等组件,来提供有损网络下的端到端可靠数据包传送(而逐跳链路是尽力而为的,允许因拥塞而丢弃数据包)。在许多情况下,按优先级进行链路层的无损数据包传送也很有用,例如小型网络和较低负载的场景由此可以简化网络管理和端侧配置及其缓冲区要求。

CBFC 是在逐跳基础上实现无损数据包传输的一种方法,可以消除端到端重传的可能以及与之相关的延迟,其大致机制是:发送方以credit为单位跟踪接收方的可用缓冲空间,只有当接收方有足够的缓冲空间时,发送方的数据包调度器才可以从无损 VC 队列中调度数据包进行传输。

uec

超以太网链路协商

该规范提倡使用描述所需和可选功能的“配置文件”,从而在所有网络实体之间检测、发现和达成共识,以便与配置文件支持的功能进行互操作。

05 物理层

规范中主要推荐遵循802.3/db/ck/df规范的多通道100Gb以太网,建议使用多个100Gb以太网通道,并遵循IEEE 802.3/db/ck/df标准。

星融元 与 UEC

作为 UEC 成员单位,星融元提供的超低时延数据中心交换机(CX-N系列)采用高性能的25G-800G 端口速率规格网络硬件,搭载为生产环境深度调优的企业级SONiC发行版和多项 EasyRoCE 特性,提供灵活、广大的升级空间,未来将平滑演进与新一代以太网标准保持同步。

RoCE

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2