Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

站点精选

2025-10-23

关注星融元

站点精选

EasyRoCE工具上新:RoCE监控再升级,网卡状态也采集

2025-10-23

在数据中心智算场景中,除了 GPU 本身的性能和调度算法,集群的整体性能很大程度上还取决于底层通信栈的效率。

智算集群的底层通信机制可分为机内通信和机间通信两大类。机内通信指在一台服务器内部,各个计算部件之间的数据交换,最典型的就是一台AI服务器内部,多个GPU(例如8张A100/H100卡)之间、GPU与CPU之间的高速通信。机间通信,则是让成百上千台AI服务器通过高性能网卡和交换机实现互联(scale-out网络)进行数据交换和协同工作,将算力规模成倍放大。

从“机内通信”的 NVLink/PCIE 通道,到“机间通信”所经过的网卡、交换机的每个端口,以及每个无损传输队列,都必须完成精密高效的协同运作,任何一个环节成为瓶颈都会导致昂贵的计算资源(GPU)处于“等待数据”的空闲状态,极大降低整个集群的算力利用率。

跨节点通信的全环节监控

作为IB网络强有力的竞争者,RoCEv2拥有高性能、兼容标准以太网生态、成本可控、扩展性强、支持多租户与虚拟化等优点,但其对网络无损有严格要求,配置不当很可能会放大拥塞,例如 PFC、ECN、Buffer 滞留等RoCE参数配置不合适,对外都是笼统表现为通信异常,网络性能下降,而逐项排查的操作相当繁琐。

为解决 RoCE 网络监控运维上的不便,此前我们已发布用于监控星融元 RoCE 交换机各项网络配置和状态指标的 AsterNOS Exporter 和 RoCE exporter以及配套的一系列高效运维工具。参考阅读:一文解读开源开放生态下的RDMA网络监控实践

现在我们新推出了 EasyRoCE-NE (NIC Exporter)网卡状态采集工具,不光是交换机和光模块, 服务器网卡信息也可一并纳入统一监控平台。

网卡状态采集工具(NE)

NE 是 EasyRoCE 工具集中针对服务器网络监控部分的组件,主要分为 Exporter 客户端(NIC Exporter)code>和监控面板自动化创建程序(NIC Generator)两部分。

NiC-eporter

NIC Exporter 运行在 GPU 服务器内部,主要工作是采集服务器网卡(例如 Mellanox NIC )的配置以及流量状况,将其转换为 Prometheus 能理解的标准格式并通过 HTTP 接口暴露。

NIC Generator 运行在部署管理节点(安装了星融元 EasyRoCE Toolkit 的服务器),该程序从EasyRoCE-AID(配套的数据库组件,什么是AID工具?)读取GPU服务器的IP信息,自动在EasyRoCE-UG(Unified Glancer创建可视化监控面板,把客户端采集的信息一站式展示出来。

NIC Exporter

  • 网卡配置:网卡驱动固件版本、名称,运行状态
  • RoCE配置:DSCP, TOS, ECN, PFC, CNP 报文DSCP值
  • 网卡流量:网口带宽,收发速率,丢包统计
  • ECN标记数,CNP收发统计,PFC收发帧数统计

安装配置步骤

下载 EasyRoCE-NE 工具包

nic_exporter.tgz、nic_exporter,请联系销售/售前人员获取。

在AID中完成配置信息

用户需要事先通过EasyRoCE-AID完成网络规划,并将其上传到服务器的EasyRoCE Toolkit目录下。

安装客户端nic_exporter

nic_exporter上传到GPU服务器中并后台启动,默认监听9105端口。

chmod +x nic_exporter
nohup ./ nic_exporter &

安装自动化脚本

nic_exporter.tgz上传到服务器的 EasyRoCE Toolkit 目录下并解压,解压后目录结构如下:

.
├── ne_dashboard.json #UG面板文件
├── nic_generator.py #启动脚本
└── requirements.txt #依赖

为了避免影响服务器自身的python环境,推荐使用venv 作资源隔离:

python -m venv .venv
source .venv/bin/activate

安装依赖

pip install -r requirement.txt

启动NE工具

./nic_generator.py

打印如下即成功创建面板:

Pushing dashboard to Grafana...
Dashboard pushed successfully: {'id':116, 'slug': 'gpuserver8',
'status': 'success', 'uid': 'easyroce-ne-gpu-server8',
'url': '/d/easyroce-ne-gpu-server8/gpu-server8', 'version':
4}All dashboards processed. Total: 8.
Url: http://10.106.219.5:3000/dashboards/f/XXXXXXX

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2