-
基于CX7/6(-N系列)数据中心交换机,搭建400G/200G网络连接GPU集群
-
基于CX6/5(-N系列)数据中心交换机,搭建200G/100G网络连接存储集群
-
CX-N全系列数据中心交换机标配RoCEv2、BGP EVPN、VXLAN、容器网络能力,400G/200G标配智能负载均衡能力
-
基于CX5/3(-N系列)数据中心交换机,搭建100G/25G网络连接CPU集群
-
基于CX2(-M系列)云化园区交换机,搭建25G/1G网络,管理集群和网络的所有设备
-
CX-M全系列云化园区交换机支持全三层、无广播、超堆叠,搭建新架构的管理网
开放、中立的AI/ML网络
星融元AI/ML网络解决方案的开放性确保用户能够重用已有的系统(K8s、Prometheus等)对网络进行管理,无需重复投入;星融元以“中立的网络供应商参与AI生态”的理念为用户提供专业的网络方案,帮助用户规避“全栈方案锁定”的风险。
提升大模型训练效率
CX-N数据中心交换机的单机转发时延(400ns)低至业界平均水平的1/4~1/5,将网络时延在AI/ML应用端到端时延中的占比降至最低,同时多维度的高可靠设计确保网络在任何时候都不中断,帮助大模型的训练大幅度降低训练时间、提升整体效率。
大幅度降低TCO
与业界其他方案不同的是,CX-N系列数据中心交换机标配了全端口支持RoCEv2、智能负载均衡、BGP/EVPN、VXLAN等AI/ML网络必须的能力,并且在大规模运营网络中经过了充分的验证,用户无需再为这些能力支付额外的License费用。
一站式AI/ML网络
采用星融元的“AsterNOS网络操作系统 + CX-N数据中心交换机 + CX-M云化园区交换机”搭建承载AI/ML环境的所有网络模块,统一的软硬件系统、统一的部署逻辑、统一的运维逻辑,用户无需再为来自多供应商的网络支付额外的学习成本。
面向未来的投资保护
为了确保用户网络与最领先的以太网技术保持同步,星融元提供前后向兼容的200G/400G/800G网络能力,已加入超以太网联盟(UEC)并率先支持UEC定义的当前规范,积极参与新一代AI以太网规范的讨论与制定。
方案亮点
400ns超低时延
基于业界领先性能的商用以太网交换芯片,星融元开发分布式的二三层转发算法,有效提升系统的整体转发性能,使得CX-N系列数据中心交换机的单机转发时延可以降低到400ns,将AI/ML应用的端到端时延提升到了与IB相当的水平。
全线标配RoCEv2
RoCEv2是以太网承载AI/ML、HPC、分布式存储等应用的基石性功能。星融元的CX-N系列数据中心交换机全线标配RoCEv2能力,并且为了帮助用户轻松使用,星融元还开发了Easy RoCE功能,帮助用户快速部署和高效监控AI/ML网络。
智能负载均衡技术
对标AI/ML对网络提出的新需求,超以太网联盟正在定义一系列的规范以帮助以太网快速进化。星融元通过“对交换芯片基础能力二次编程”的方式开发了智能负载均衡等支持UEC当前规范的功能,并且支持在未来平滑演进到UEC标准规范。
最佳实践
计算需求
初期需要8台GPU服务器(8块GPU卡,每张网卡单口400G,总计8个400G接口),用于AI模型训练。后期,AI算力服务器增加到100台+,每台GPU服务器需要8*400G连计算网络。
网络需求
实现任意两台GPU服务器间400Gb/s的通信速度,整网无收敛,设备支持高性能计算、超低时延网络。此次实验网不考虑多归网络,针对AIGC场景进行性能测试,可随集群的整体规模升级扩容。
测试结果
在本次以Asterfusion CX-N超低时延云交换机搭建的AIGC场景性能测试中,交换机侧完成无损网络配置保证流量不会发生丢包。AIGC场景性能测试结果如下:
E2E转发测试
- 本次E2E场景测试方案,测试结果服务器网卡直连带宽392.95Gb/s,时延1.95us。
- 服务器网卡跨交换机带宽392.96Gb/s,时延2.51us,交换机时延560ns。
NCCL测试
- 本次NCCL场景测试方案,测试结果服务器网卡直连双机16卡NCCL测试Busbw带宽371.27GB/s。
- 服务器网卡跨交换机双机16卡NCCL测试Busbw带宽368.99GB/s,CX-N交换机在跨卡测试中端口利用率95%。