EasyRoCE 上新:RoCE网卡参数配置工具
告别低效的手动运维,星融元EasyRoCE-NC助您轻松完成网卡批量部署。
智算中心场景中,GPU分布式训练的性能很大程度取决于底层网络的通信效率,其中RoCE网络对网卡参数配置的一致性、准确性要求极高,配置偏差会直接引发网络丢包、拥塞死锁、训练性能骤降甚至任务中断。
手动配置难以为继
- 传统手动配置方式在智算集群运维中存在很多痛点,难以适配大规模集群的管理需求:
- 效率极低:数百台规模的集群需运维人员逐台登录服务器配置,费时费力
- 一致性差:人工配置失误导致集群RoCE配置不统一,引发网络性能不均,且问题定位难度极大
- 无环境预检:配置前无法批量验证服务器驱动、固件和RDMA组件的完整性,导致配置中途频繁失败
- 缺乏持久化保障:手动配置没有标准化开机自启方案,一旦服务器重启后配置丢失,需要低效的重复操作
网卡参数配置工具 EasyRoCE-NC
星融元 EasyRoCE Toolkit 新推出的网卡参数配置工具(Network Configurator,NC)专为智算中心网络打造,通过实现规模集群 RoCE 网卡的一键式配置,解决上述传统运维方式带来的核心痛点。
- 标准化配置:基于统一规划,一键完成全集群RoCE网卡参数配置,保证集群服务器参数一致
- 环境预检:配置前自动完成集群网卡环境检查,提前规避风险
- 低门槛易操作:无需运维人员精通RoCE底层技术,一键执行即可完成配置,降低运维门槛
- 支持配置持久化:根据需求选择RoCE配置是否持久化,避免服务器重启后配置丢失
实现原理
NC 工具通过从数据源(EasyRoCE-AID工具,AI基础设施蓝图)中自动解析到集群服务器网卡规划与RoCE参数,完成网卡环境预检、标准化配置脚本生成和批量执行动作。
此外,NC工具可与EasyRoCE-UG平台无缝打通。配置完成后即可通过 NE、TM、TG、DP 等组件(参阅开源开放生态下的RDMA网络监控实践),实现网卡状态、光模块健康、网络拓扑和交换机硬件的全维度可视化监控。
安装步骤概览与效果
环境和工具准备
1、服务器要求
NC工具运行在集群的监控服务器上,该服务器需安装 Mellanox OFED 版本驱动,驱动与网卡固件版本匹配,已开启SSH服务并配置免密登录,管理网IP与监控节点网络互通。
2、数据源
NIC Configurator(NC) 工具以 EasyRoCE-AID 为核心数据源,用户需提前在服务器上安装该工具,并按用户指导文档修改文件路径和名称。
[root@server1 EasyRoCE]# cat config.ini [GRAFANA] GRAFANA_URL = API_KEY = DIRECTORY_NAME = [COMMANDS] AID_path = /root/EasyRoCE AID_file = EasyRoCE-AID-v1.8.xlsm prometheus_uid =
3、NIC Configurator (NC)工具包
用户可通过星融元官网EasyRoCE:网卡参数配置(NC)或项目销售人员获取最新版本NC工具包。
安装NC工具
将NC工具包上传到监控服务器的EasyRoCE工具目录下。解压后,执行EasyRoCE-NC.py启动脚本即可完成配置和环境预检(配置失败的GPU服务器会跳过,并告知未通过项)。
[root@localhost EasyRoCE-NC]# python3 EasyRoCE-NC.py 文件路径:./roce_server_config.json 成功生成 2 台服务器的配置 ============================================================ 开始环境预检,共 2 台服务器(并发数: 10) ============================================================ ❌GPU-Server02: 未通过项: ib_dev:mlx5_10, ib_dev:mlx5_12, netdev_map:mlx5_10, netdev_map:mlx5_12 ib_dev:mlx5_10: mlx5_10 不在 /sys/class/infiniband/,当前设备: 无 ⚠ib_dev:mlx5_12: mlx5_12 不在 /sys/class/infiniband/,当前设备: 无 ⚠netdev_map:mlx5_10: mlx5_10 在 ibdev2netdev 输出中无映射,脚本执行时将跳过该设备 ⚠netdev_map:mlx5_12: mlx5_12 在 ibdev2netdev 输出中无映射,脚本执行时将跳过该设备 ✅GPU-Server01 (10.230.1.12): 所有检查通过 ============================================================ ❌ 预检未通过,以下服务器存在问题: -GPU-Server02 请修复上述问题后重新运行 ============================================================
最终效果
正确完成 NC 工具的上述安装配置流程,并协同 EasyRoCE-NE工具(网卡状态采集),用户就可在EasyRoCE-UG 监控面板上直观地查看集群服务器集群网卡的详细信息。
产品型号: 星融元(Asterfusion)CX864E-N (64 x 800G OSFP)
功能特性:RoCEv2, PFC, ECN, DCBX ……
应用场景:GPU算力集群,分布式存储
最后更新:2026-05-18
产品型号: 星融元(Asterfusion)CX664D-N(64 x 200G QSFP56/QSFP28/QSFP+)
功能特性:RoCEv2, PFC, ECN, DCBX ……
应用场景:分布式存储,数据中心,GPU算力集群
最后更新:2026-05-26
星融元数据技术有限公司是领先的开放网络解决方案提供商,产品包括网络操作系统、数据中心交换机、AI智算交换机、园区交换机、开放式企业级路由和新一代网络可视化产品等。为行业企业、数据中心和云运营商提供基于通用解耦硬件和 SONiC 软件框架的全场景交钥匙网络解决方案,帮助用户构建AI时代中立、透明,易于运维、高性价比的基础网络。

