Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

星智AI网络—基于LLM大模型的Rail Only网络

传统网络方案的不足

用于文章的配图

随着智算GPU从千卡到万卡,通过传统网络方案组建万卡网络,需要多层CLOS,并且考虑到所有服务器都会同时对外产生流量,网络1:1无收敛,并且组建成功后存在以下问题:

  • 全Full Mesh网络成本高
  • 跨 Leaf 交换机,转发路径有 3 跳,跨POD流量跳数更多,极大的增加了业务时延
  • 网络结构复杂,运维以及故障排查困难

以32768个GPU,128端口交换机组网为例:

  • CLOS层数:3层
  • 交换机需要:1280台=((64+64)*8)+256
  • 光发射器数量:196608
架构两层胖树架构三层胖树架构
同GPU卡号转发条数1跳3跳
不同GPU卡号转发条数(无优化情况)3跳5跳

Asterfusion星智AI网络解决方案

与传统方案相比,星智AI网络消除了跨GPU服务器不同GPU卡号之间的连接,只保留了与GPU相连的Leaf层交换机,将原本用于上连Spine的端口全部用于下连GPU,进一步提高Leaf交换机连接效率,并且这种网络架构仍然可以通过转发实现不同HB域之间的通信。

轻松组建智算中心万卡网络

  • 在不影响数据传输性能的情况下,精简网络架构,极大降低用户网络建设成本;

  • 将网络转发路径跳数降低至1跳,大大减少业务时延;

  • 简化网络结构,降低运维以及故障排查难度。

Rail-only-架构图

方案优势

优势1

在AI竞备如火如荼的当下,“星智AI网络”解决方案, “Rail-only”网络架构理想情况下单层即可构建32000个LLM训练GPU集群,所需的交换机总数为256个,最大可减少75%的成本,帮助用户降低AI承载网络的建设成本,让用户能够随心所欲的构建自己所需的AI网络。

Rail-only 优势

优势2

独特的网络架构与全球时延最低以太网交换机形成的“星智AI网络”解决方案,可优化跨GPU集群带来的多跳、高时延以及头端拥塞等问题,从而降低AI/ML通信开销,提高数据传输效率。针对AI/ML在不同部署场景、不同业务阶段的需求,星融元为用户提供弹性、灵活的“星智AI网络”解决方案,允许用户根据实际需求和增长趋势,逐步扩展其网络基础设施,以应对不断增长的业务需求。

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2