Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

站点精选

2026-01-06

关注星融元

站点精选

摒弃传统DPI,EasyRoCE 新年上新!基于INT的网络拥塞监控和告警工具

2026-01-06

前言:基于 INT 技术,星融元开发了 EasyRoCE-CMA( Congestion Monitoring & Alert,拥塞监控与告警) 工具实现纳秒级的采集精度,一站式呈现交换机端口队列级的拥塞丢包异常状态,辅助网络快速调优

INT 带来的革新

在网络监控演进中,Pull与Push是两种传统的基础范式。

Pull 模式由监控服务器主动向被管设备发起数据采集,例如通过 SNMPGet或 ICMPPing 定期轮询设备状态。该方式便于集中控制,适合指标趋势分析,但实时性依赖轮询间隔,且高频率采集会增加服务器与网络负担。

Push 模式则由被管设备主动将数据发送至监控服务器,例如设备通过 SNMP Trap 或 Syslog 主动上报故障事件,其优势在于实时性较强,但信息孤立。

带内网络遥测(In-band Network Telemetry)区别于传统网络监控运维的最大差异,是从“外部观测”到“数据自述”的革命性转变——不只是基于事件的 Push,而且还让网络数据包自身成为探针,在转发路径中“自行记录”网络状态,同时做到最高纳秒级的实时性与路径级的可视化,完美捕捉网络中偶发的、微突发(Micro-burst)的问题。

CMA

INT 技术的实现由交换机底层硬件支持,在数据平面芯片内部进行采集,通过在业务数据包内嵌入指令,使交换机在转发时动态插入本地的精准遥测数据(如设备ID、队列时延、拥塞状态等),最终由接收端(如服务器或其他网络边缘设备)解析并上报这些信息。

基于 INT 的 HDC 和 BDC 信息

服务于AI智算等大规模复杂流量环境的 EasyRoCE- CMA工具主要借助了星融元交换机基于 INT 特性生成的 High Delay Capture(高延迟捕获) Buffer Drop Capture(缓冲区丢包捕获) 信息。

Buffer Drop Capture(缓冲区丢包捕获)

BDC 专注于捕获和分析与交换机 Buffer 相关的问题。

CMA

当数据包因缓冲区容量限制被丢弃时,交换设备会为该丢弃数据包添加元数据,并将原始数据包前150字节,连同元数据打包作为 BDC 数据包发送至远端收集器或者本地交换设备CPU——通过收集BDC报文中包含的报文节点ID、队列缓冲区大小和QP(Queue Pair)队列等信息,我们可以识别出潜在的缓冲区溢出和数据丢失情况,由此网络工程师可快速采取措施优化缓冲区配置,提高通信性能。

High Delay Capture(高延迟捕获)

HDC 则专注于捕获和分析网络中的高延迟问题。

CMA

交换机设备会捕获所有超过用户设定阈值的延迟数据包,并将原始数据包的前 150 字节连同元数据打包成 HDC数据包发送至远端收集器或者本地交换设备CPU,同时原始数据包仍保持正常传输——通过监测 HDC 报文中的节点ID、累计时延和丢包数量等关键字段,帮助工程师识别出网络延迟的根本原因,辅助系统优化或排障。

EasyRoCE-CMA 工具介绍

EasyRoCE-CMA( Congestion Monitoring & Alert,拥塞监控与告警) 运行在安装有 EasyRoCE Toolkit 相关组件的服务器上,该服务器连接到所有被监控交换机的 INT 接口(星融元交换机大多拥有额外的两个10G口用于传输此类网络遥测数据,不影响生产网络)。

CMA

CMA工具主要分为控制面与业务监控面两部分。

启用工具时,CMA控制面会先从EasyRoCE-AID工具读取到交换机的基础信息,此后用户可在相应界面图形化地设置交换机 HDC/BDC功能的启停状态;

业务监控面则负责解析收到的 HDC 和 BDC报文,并将各交换机的流量运行状况和异常流量的详细报文信息导出到后端监控平台,做可视化呈现,比如 EasyRoCE-UG;除此之外,CMA 所采集到的信息也可以用于 EasyRoCE- RPA 工具的参数优化。

CMA 主要界面示例

CMA 本次发布的1.0版本主要包含以下几个功能界面。

CMA 首页

CMA 首页可以通览所有交换机的网络拥塞和丢包状态,默认情况下,CMA在5分钟内收到某个交换机的HDC/BDC报文,监控状态一栏相应状态会显示变红。

CMA

CMA 配置

首页点击交换机名称进入该设备的配置面板,进入该页面时,CMA会实时从交换机同步 INT 配置的开关和具体参数情况,如需修改编辑参数先要关闭 CMA 开关。

CMA

CMA 监控 – 全局监控

CMA 首页点击全局监控按钮后可在一个页面上查看被监控的所有交换机发出最近1000条 HDC 和 BDC 报文信息,其中包含报文相关的上下行设备和该报文所关联的业务报文详情。

CMA

CMA 监控 – 设备详情

CMA 首页点击设备所在行会展示指定设备上所有接口,以及接口上所有8个队列的拥塞/丢包状态,此表下方附有该交换机发出的所有 BDC/HDC 报文详情。

CMA

相关阅读:

EasyRoCE:AI基础设施蓝图规划 AI Infrastructure Descriptor (AID)
INT-based Routing:AI时代的智能路由

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2