Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

EasyRoCE 上新:RoCE网卡参数配置工具

告别低效的手动运维,星融元EasyRoCE-NC助您轻松完成网卡批量部署。

智算中心场景中,GPU分布式训练的性能很大程度取决于底层网络的通信效率,其中RoCE网络对网卡参数配置的一致性、准确性要求极高,配置偏差会直接引发网络丢包、拥塞死锁、训练性能骤降甚至任务中断。

手动配置难以为继

  • 传统手动配置方式在智算集群运维中存在很多痛点,难以适配大规模集群的管理需求:
  • 效率极低:数百台规模的集群需运维人员逐台登录服务器配置,费时费力
  • 一致性差:人工配置失误导致集群RoCE配置不统一,引发网络性能不均,且问题定位难度极大
  • 无环境预检:配置前无法批量验证服务器驱动、固件和RDMA组件的完整性,导致配置中途频繁失败
  • 缺乏持久化保障:手动配置没有标准化开机自启方案,一旦服务器重启后配置丢失,需要低效的重复操作

网卡参数配置工具 EasyRoCE-NC

星融元 EasyRoCE Toolkit 新推出的网卡参数配置工具(Network Configurator,NC)专为智算中心网络打造,通过实现规模集群 RoCE 网卡的一键式配置,解决上述传统运维方式带来的核心痛点。

  • 标准化配置:基于统一规划,一键完成全集群RoCE网卡参数配置,保证集群服务器参数一致
  • 环境预检:配置前自动完成集群网卡环境检查,提前规避风险
  • 低门槛易操作:无需运维人员精通RoCE底层技术,一键执行即可完成配置,降低运维门槛
  • 支持配置持久化:根据需求选择RoCE配置是否持久化,避免服务器重启后配置丢失

实现原理

NC 工具通过从数据源(EasyRoCE-AID工具,AI基础设施蓝图)中自动解析到集群服务器网卡规划与RoCE参数,完成网卡环境预检、标准化配置脚本生成和批量执行动作。

此外,NC工具可与EasyRoCE-UG平台无缝打通。配置完成后即可通过 NE、TM、TG、DP 等组件(参阅开源开放生态下的RDMA网络监控实践),实现网卡状态、光模块健康、网络拓扑和交换机硬件的全维度可视化监控。

RoCE网卡参数配置工具的实现原理

安装步骤概览与效果

环境和工具准备

1、服务器要求

NC工具运行在集群的监控服务器上,该服务器需安装 Mellanox OFED 版本驱动,驱动与网卡固件版本匹配,已开启SSH服务并配置免密登录,管理网IP与监控节点网络互通。

2、数据源

NIC Configurator(NC) 工具以 EasyRoCE-AID 为核心数据源,用户需提前在服务器上安装该工具,并按用户指导文档修改文件路径和名称。

[root@server1 EasyRoCE]# cat config.ini 
[GRAFANA]
GRAFANA_URL =
API_KEY =
DIRECTORY_NAME = 
[COMMANDS]
AID_path = /root/EasyRoCE
AID_file = EasyRoCE-AID-v1.8.xlsm
prometheus_uid = 

3、NIC Configurator (NC)工具包

用户可通过星融元官网EasyRoCE:网卡参数配置(NC)或项目销售人员获取最新版本NC工具包。

安装NC工具

将NC工具包上传到监控服务器的EasyRoCE工具目录下。解压后,执行EasyRoCE-NC.py启动脚本即可完成配置和环境预检(配置失败的GPU服务器会跳过,并告知未通过项)。

 [root@localhost EasyRoCE-NC]# python3 EasyRoCE-NC.py 
文件路径:./roce_server_config.json
成功生成 2 台服务器的配置
============================================================
开始环境预检,共 2 台服务器(并发数: 10)
============================================================
❌GPU-Server02: 未通过项: 
ib_dev:mlx5_10, ib_dev:mlx5_12, netdev_map:mlx5_10, netdev_map:mlx5_12
ib_dev:mlx5_10: mlx5_10 不在 /sys/class/infiniband/,当前设备: 无
⚠ib_dev:mlx5_12: mlx5_12 不在 /sys/class/infiniband/,当前设备: 无
⚠netdev_map:mlx5_10: mlx5_10 在 ibdev2netdev 输出中无映射,脚本执行时将跳过该设备
⚠netdev_map:mlx5_12: mlx5_12 在 ibdev2netdev 输出中无映射,脚本执行时将跳过该设备
✅GPU-Server01 (10.230.1.12): 所有检查通过

============================================================
❌ 预检未通过,以下服务器存在问题:
-GPU-Server02
请修复上述问题后重新运行
============================================================ 

最终效果

正确完成 NC 工具的上述安装配置流程,并协同 EasyRoCE-NE工具(网卡状态采集),用户就可在EasyRoCE-UG 监控面板上直观地查看集群服务器集群网卡的详细信息。

 监控面板上展示的网卡配置与状态采集协同运行。


产品型号: 星融元(Asterfusion)CX864E-N (64 x 800G OSFP)
功能特性:RoCEv2, PFC, ECN, DCBX ……
应用场景:GPU算力集群,分布式存储
最后更新:2026-05-18



产品型号: 星融元(Asterfusion)CX664D-N(64 x 200G QSFP56/QSFP28/QSFP+)
功能特性:RoCEv2, PFC, ECN, DCBX ……
应用场景:分布式存储,数据中心,GPU算力集群
最后更新:2026-05-26
相关文章

星融元数据技术有限公司是领先的开放网络解决方案提供商,产品包括网络操作系统、数据中心交换机、AI智算交换机、园区交换机、开放式企业级路由和新一代网络可视化产品等。为行业企业、数据中心和云运营商提供基于通用解耦硬件和 SONiC 软件框架的全场景交钥匙网络解决方案,帮助用户构建AI时代中立、透明,易于运维、高性价比的基础网络。

🔺关注 @星融元Asterfusion 微信公众号 WeChat QR Code

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2