Skip to main content

星融元AI智算推理网络

面向MoE 架构的LLM推理集群（如DeepSeek）优化的无阻塞高性能AI推理网络，提升高并发场景下的业务表现，实现高吞吐量和低延迟之间的平衡

方案架构

800G

CX-N系列超低时延云交换机

星融元Asterfusion自主开发的面向数据中心网络的超低时延交换机，可为云数据中心中的高性…

AsterNOS

以SONiC为内核、依托容器化的系统架构，AsterNOS支持开放的网络生态、灵活的交付模式，…

方案亮点

Token生成速率提升27.5%

Token生成率（TGR）随着并发用户数的增加而稳步提升；经测试，当并发数达到100，TGR 相比 InfiniBand 可提升27.5%。

减少推理延迟

极致优化网络转发延迟，与 InfiniBand 相比，每个token的平均推理时间减少了 20.4%。

先进的拥塞管理手段

基于 Flowlet 的自适应路由（ARS）、INT驱动的动态负载均衡（ALB）/加权多路径路由（WCMP）协同工作，避免 RoCE 网络拥塞

开放网络架构

搭载企业级SONiC（AsterNOS网络操作系统），其开放的容器化架构和丰富的管理面接口，天然支持与AI集群管理调度平台（AIOS）无缝融合

EasyRoCE概览

面向RoCE网络的部署运维工具集

EasyRoCE Toolkit

完全依托开源、开放的网络架构与技术
覆盖前期规划实施到日常运维监控全流程
具备二次开发与集成能力
签约客户免费使用，无额外收费

测试数据

双机16卡（NVIDIA H20 GPU卡 + 4 张 400G CX-7 NIC）部署 DeepSeek 671B 大模型，采用 CX864E-N 组网进行推理业务测试，并使用循环测试脚本设定多并发的场景，持续周期性发起标准对话型提示语请求；同等条件下的对比机型为 IB QM9700。

test

并发推理时延优化

90% 点位的推理延迟（P90 ITL）

在不同的并发推理请求场景下（20~100），使用 Asterfusion RoCE 交换机的推理延迟始终低于使用 InfiniBand（IB）交换机。具体而言，在 50 个并发请求下，90% 推理延迟降低了 20.4%

test

并发推理效率

Token 生成速率（TGR）

对于 20 到 100 个并发推理请求，星融元Asterfusion 的 RoCE 交换机始终提供比 InfiniBand (IB) 交换机更高的Token 生成速率。随着并发请求数量的增加，增长幅度进一步扩大，在 100 个请求时，TGR 提升了 27.5%。

市场技术文章

新闻动态

星融元完成新一轮融资，携手产业资本加速AI网络市场布局

2026-01-16
DaoCloud 与星融元达成战略合作｜走向高效、开放的算力集群建设

2025-08-12
一个很有必要的 WAIC 2025 复盘

2025-08-07
AI智算网络新标杆，WAIC2025现场见！

2025-07-15

相关资料

更多资料请前往资源中心

对星融元产品感兴趣？

立即联系！

返回顶部

如何联系我们？

400-098-9811

产品中心

快速导航

订阅我们获取最新资讯。

订阅邮件

关注星融元

企业二维码

© 星融元数据技术（苏州）有限公司苏ICP备17070048号-2