方案亮点

Token生成速率提升27.5%
Token生成率(TGR)随着并发用户数的增加而稳步提升;经测试,当并发数达到100,TGR 相比 InfiniBand 可提升27.5%。
减少推理延迟
极致优化网络转发延迟,与 InfiniBand 相比,每个token的平均推理时间减少了 20.4%。
先进的拥塞管理手段
基于 Flowlet 的自适应路由(ARS)、INT驱动的动态负载均衡(ALB)/加权多路径路由(WCMP)协同工作,避免 RoCE 网络拥塞
开放网络架构
搭载企业级SONiC(AsterNOS网络操作系统),其开放的容器化架构和丰富的管理面接口,天然支持与AI集群管理调度平台(AIOS)无缝融合
面向RoCE网络的部署运维工具集
EasyRoCE Toolkit
- 完全依托开源、开放的网络架构与技术
- 覆盖前期规划实施到日常运维监控全流程
- 具备二次开发与集成能力
- 签约客户免费使用,无额外收费
测试数据
双机16卡(NVIDIA H20 GPU卡 + 4 张 400G CX-7 NIC)部署 DeepSeek 671B 大模型,采用 CX864E-N 组网进行推理业务测试,并使用循环测试脚本设定多并发的场景,持续周期性发起标准对话型提示语请求;同等条件下的对比机型为 IB QM9700。

并发推理时延优化
90% 点位的推理延迟(P90 ITL)
在不同的并发推理请求场景下(20~100),使用 Asterfusion RoCE 交换机的推理延迟始终低于使用 InfiniBand(IB)交换机。具体而言,在 50 个并发请求下,90% 推理延迟降低了 20.4%

并发推理效率
Token 生成速率(TGR)
对于 20 到 100 个并发推理请求,星融元Asterfusion 的 RoCE 交换机始终提供比 InfiniBand (IB) 交换机更高的Token 生成速率。随着并发请求数量的增加,增长幅度进一步扩大,在 100 个请求时,TGR 提升了 27.5%。
新闻动态
-
2025-08-12
-
2025-08-07
-
2025-07-15
-
2025-04-22