传统网络方案的不足
随着智算GPU从千卡到万卡,通过传统网络方案组建万卡网络,需要多层CLOS,并且考虑到所有服务器都会同时对外产生流量,网络1:1无收敛,并且组建成功后存在以下问题:
- 全Full Mesh网络成本高
- 跨 Leaf 交换机,转发路径有 3 跳,跨POD流量跳数更多,极大的增加了业务时延
- 网络结构复杂,运维以及故障排查困难
以32768个GPU,128端口交换机组网为例:
- CLOS层数:3层
- 交换机需要:1280台=((64+64)*8)+256
- 光发射器数量:196608
架构 | 两层胖树架构 | 三层胖树架构 |
---|---|---|
同GPU卡号转发条数 | 1跳 | 3跳 |
不同GPU卡号转发条数(无优化情况) | 3跳 | 5跳 |
Asterfusion星智AI网络解决方案
与传统方案相比,星智AI网络消除了跨GPU服务器不同GPU卡号之间的连接,只保留了与GPU相连的Leaf层交换机,将原本用于上连Spine的端口全部用于下连GPU,进一步提高Leaf交换机连接效率,并且这种网络架构仍然可以通过转发实现不同HB域之间的通信。
轻松组建智算中心万卡网络
-
在不影响数据传输性能的情况下,精简网络架构,极大降低用户网络建设成本;
-
将网络转发路径跳数降低至1跳,大大减少业务时延;
-
简化网络结构,降低运维以及故障排查难度。
方案优势
优势1
在AI竞备如火如荼的当下,“星智AI网络”解决方案, “Rail-only”网络架构理想情况下单层即可构建32000个LLM训练GPU集群,所需的交换机总数为256个,最大可减少75%的成本,帮助用户降低AI承载网络的建设成本,让用户能够随心所欲的构建自己所需的AI网络。
优势2
独特的网络架构与全球时延最低以太网交换机形成的“星智AI网络”解决方案,可优化跨GPU集群带来的多跳、高时延以及头端拥塞等问题,从而降低AI/ML通信开销,提高数据传输效率。针对AI/ML在不同部署场景、不同业务阶段的需求,星融元为用户提供弹性、灵活的“星智AI网络”解决方案,允许用户根据实际需求和增长趋势,逐步扩展其网络基础设施,以应对不断增长的业务需求。