星融元加入超以太网联盟（UEC），推动智算网络创新实践

2024-04-19

近日，星融元正式加入超以太网联盟(Ultra Ethernet Consortium,UEC)，该联盟是在 Linux 基金会的牵头下由多家全球头部科技企业联合成立，目标是突破传统以太网性能瓶颈，使其适用于人工智能（AI）和高性能计算（HPC）网络。

星融元加入UEC，将参与到制定以太网的下一代通信堆栈架构的进程中，推动以太网在人工智能和高性能计算领域的应用，为用户提供更高效、更强大的网络解决方案。

UEC-Contributor-Member

随着AI大模型规模的扩大以及通信模式和计算方法的多样化，传统基于 RoCE（RDMA over Converged Ethernet）的 RDMA方案存在拥塞控制算法阻碍等问题，造成运维困难；AI和HPC 对分布式计算资源的规模和有效利用需求高度相似，都对时延要求高。

UEC致力于改造以太网上的RDMA（Remote Direct Memory Access，远程直接内存访问）操作来优化AI和HPC工作负载,从物理层、链路层、传输层、软件层不断提升以太网的转发性能。超以太网传输工作组 (UEC Transport ，UET）通过多种创新来实现更高的网络利用率和更低的尾部延迟，从而减少AI和HPC作业完成时间。

UET主要模块

针对上述问题，星融元正和UEC成员们基于端点的可靠性和拥塞控制的成熟路径，提供AI和HPC应用所需的性能，同时保留以太网/IP生态系统的优势，构建成本可控、运维简化、更易扩展的未来网络。

以下是超以太网传输工作组 (UET) 实现UEC1.0白皮书中规定的关键目标：

1.多路径和报文散传：

传统以太网网络基于生成树，确保从源到目的地的一条路径，以避免网络中的环路。
UET 引入了多路径和报文散传技术，充分利用高带宽通信网络，无需负载平衡算法。这使得数据包可以同时使用到达目的地的所有路径，从而更平衡地利用网络资源。

2.灵活传递顺序：

传统的数据包排序方式限制了数据包的效率，UET 支持灵活的传递顺序，有效地完成数据包传输。
在 AI 工作负载中，这对于高吞吐量的集合操作（如 All-Reduce 和 All-to-All）至关重要。

3.现代拥塞控制机制：

UET 引入了现代拥塞控制算法，以更好地管理网络拥塞。
这些算法考虑了从发送方到接收方的多个链路上的拥塞情况，以实现更高效的数据传输。

4.端到端遥测：

UET 利用端到端遥测方案，从网络源头获取拥塞信息，以实现更快的拥塞控制响应。

总之，UET通过保留IP协议、支持多路径、改进数据包排序和拥塞控制，满足不断增长的工作负载需求，为未来的AI和HPC网络提供更简单、更高效的RDMA互连。

星融元的AI/HPC网络中的创新实践

面对AI/HPC对网络环境的高要求，星融元通过提供以太网络无损方案，支撑大规模算力集群建设：

发布星智AI网络解决方案（Rail-only fabric），在不损失训练性能的前提下，削减服务器间链路，单pod里用更少交换机连接了更多GPU服务器，便于扩展规模，整体降低TCO。
简化运维，推出“一键RoCE”方案，一键便可启用PFC和ECN，完成无损网络配置，还能快速定位无损网络的瓶颈与故障。
基于超低时延交换机，面向分布式存储和HPC应用上的时延优化，现场测试中，端到端时延媲美IB。

Asterfusion vs IB