Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

星智AI网络—基于LLM大模型的Rail Only网络



传统网络方案的不足

用于文章的配图

随着智算GPU从千卡到万卡,通过传统网络方案组建万卡网络,需要多层CLOS,并且考虑到所有服务器都会同时对外产生流量,网络1:1无收敛,并且组建成功后存在以下问题:

  • 全Full Mesh网络成本高
  • 跨 Leaf 交换机,转发路径有 3 跳,跨POD流量跳数更多,极大的增加了业务时延
  • 网络结构复杂,运维以及故障排查困难

以32768个GPU,128端口交换机组网为例:

  • CLOS层数:3层
  • 交换机需要:1280台=((64+64)*8)+256
  • 光发射器数量:196608
架构两层胖树架构三层胖树架构
同GPU卡号转发条数1跳3跳
不同GPU卡号转发条数(无优化情况)3跳5跳

Asterfusion星智AI网络解决方案

与传统方案相比,星智AI网络消除了跨GPU服务器不同GPU卡号之间的连接,只保留了与GPU相连的Leaf层交换机,将原本用于上连Spine的端口全部用于下连GPU,进一步提高Leaf交换机连接效率,并且这种网络架构仍然可以通过转发实现不同HB域之间的通信。

轻松组建智算中心万卡网络

  • 在不影响数据传输性能的情况下,精简网络架构,极大降低用户网络建设成本;

  • 将网络转发路径跳数降低至1跳,大大减少业务时延;

  • 简化网络结构,降低运维以及故障排查难度。

Rail-only架构图
以32768个GPU,128端口交换机组网为例:
  • CLOS层数:1层(Rail Only)
  • 交换机需要:256台
  • 光发射器数量:65536
  • 网络成本最大可降低:75%

方案优势

增加网卡数量

提升单机网络带宽

  1. 增加网卡的数量,初期业务量少,可以考虑CPU和GPU共用,后期给CPU准备单独的1到2张网卡,给GPU准备4或8张网卡;
  2. 提升单机网卡带宽,同时需要匹配主机PCle带宽和网络交换机带宽,星融元200G、400G以太网交换机将配合网卡确保数据传输高带宽。
网卡速率40G100G200G400G
PCIe3.0*83.0*164.0*164.0或5.0*16
交换机Serdes4*10G4*25G4*50G8*50G
借用RDMA技术

应用RDMA网络(RoCE)

  1. 借助RDMA技术减少GPU通信过程中的数据复制次数,优化通信路径,降低通信时延。
  2. 通过Easy RoCE一件下发复杂的RoCE相关配置(PFC、ECN等),帮助用户降低运维复杂度。
用于文章的配图

减少网络拥塞

  1. 减少网络侧时延提高GPU使用效率:超低时延~400ns;
  2. 通过DCB协议组减少网络拥塞:PFC、PFC WatchDog、ECN构建全以太网零丢包低时延网络;
  3. 双网分流: CPU的流量与GPU流量彻底分离开,减少不同网络流量的占用和干扰;

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2