Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

星融元AI智算推理网络

面向MoE 架构的LLM推理集群(如DeepSeek)优化的无阻塞高性能AI推理网络,提升高并发场景下的业务表现,实现高吞吐量和低延迟之间的平衡


方案亮点

图标

Token生成速率提升27.5%

Token生成率(TGR)随着并发用户数的增加而稳步提升;经测试,当并发数达到100,TGR 相比 InfiniBand 可提升27.5%。

图标

减少推理延迟

极致优化网络转发延迟,与 InfiniBand 相比,每个token的平均推理时间减少了 20.4%。

图标

先进的拥塞管理手段

基于 Flowlet 的自适应路由(ARS)、INT驱动的动态负载均衡(ALB)/加权多路径路由(WCMP)协同工作,避免 RoCE 网络拥塞

图标

开放网络架构

搭载企业级SONiC(AsterNOS网络操作系统),其开放的容器化架构和丰富的管理面接口,天然支持与AI集群管理调度平台(AIOS)无缝融合

面向RoCE网络的部署运维工具集

EasyRoCE Toolkit

  • 完全依托开源、开放的网络架构与技术
  • 覆盖前期规划实施到日常运维监控全流程
  • 具备二次开发与集成能力
  • 签约客户免费使用,无额外收费

测试数据

双机16卡(NVIDIA H20 GPU卡 + 4 张 400G CX-7 NIC)部署 DeepSeek 671B 大模型,采用 CX864E-N 组网进行推理业务测试,并使用循环测试脚本设定多并发的场景,持续周期性发起标准对话型提示语请求;同等条件下的对比机型为 IB QM9700。

test
并发推理时延优化

90% 点位的推理延迟(P90 ITL)

在不同的并发推理请求场景下(20~100),使用 Asterfusion RoCE 交换机的推理延迟始终低于使用 InfiniBand(IB)交换机。具体而言,在 50 个并发请求下,90% 推理延迟降低了 20.4%

test
并发推理效率

Token 生成速率(TGR)

对于 20 到 100 个并发推理请求,星融元Asterfusion 的 RoCE 交换机始终提供比 InfiniBand (IB) 交换机更高的Token 生成速率。随着并发请求数量的增加,增长幅度进一步扩大,在 100 个请求时,TGR 提升了 27.5%

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2