Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

一文读懂!INT技术之IPT如何实现端到端路径质量的精准监控

赋能大模型训练:基于 IPT 技术的超大规模 GPU 集群时延与队列监控

随着AI大模型训练、分布式计算等高性能应用的快速发展,智算网络对端到端路径质量的监控需求日益提升。近年来 INT(In-band Network Telemetry,带内网络遥测)作为新一代网络质量分析技术,也已从前瞻性学术研究领域走向了真实网络环境下的应用。

星融元现有方案中应用到的 INT 技术包含 BDC、HDC 以及 IPT 。其中 BDC 和 HDC 相关技术和工具应用我们之前已有专题文章介绍,📖 请参阅:基于INT的网络拥塞监控和告警工具

INT 技术对比

方案 BDC HDC IPT
触发条件 队列缓冲区超限丢包 队列转发时延达到设定阈值
遥测信息 队列占用情况 转发时延 队列深度及转发时延
采样机制 概率捕获、微突发捕获 概率捕获、微突发捕获 概率捕获
聚焦场景 缓冲区丢包捕获与报告 无损网络的高延迟异常诊断 大型网络中的问题定位,全路径质量监控

什么是IPT?

IPT,全称 In-band Path Telemetry,带内路径遥测。

通过前文的对比表格可以看到,作为 INT 技术的标准方案之一,IPT 侧重于实现端到端路径质量的精准监控。

IPT 报文由多层头部构成,包含外层L2/L3封装、GRE头部、IPT Shim头部、探针标记(Probe Marker),IPT Base Header,及各节点统计信息(IPT Hop Information)等字段。

IPT报文构成

在遥测域的每个交换节点之间(包括入口和出口节点),每跳统计信息都会被插入到IPT 探测数据包中,以下是记录统计信息的报文格式和字段描述。

IPT Hop Information

  • Switch ID 节点设备
  • Dev Class 识别设备芯片的唯一编码,用于解码数据包中的信息。
  • Queue Size Info 报文转发时队列实时占用大小队列占用大小
  • Dinfo 2IPT 数据包从该跳节点转发出去的出口队列信息。
  • Dinfo 1IPT 数据包从该跳节点转发出去的出接口信息
  • Egress Timestamp InfoIPT 数据包从该跳节点转发出去的时间戳信息
  • SinfoIPT 数据包进入该跳节点的入接口信息
  • Ingress Timestamp InfoIPT 数据包进入该跳节点的时间戳信息

IPT 的工作原理

IPT工作流程图

IPT 通过在遥测域内配置入口节点、出口节点及传输节点,利用探针标记(Probe Marker)唯一标识遥测域,沿原始路径生成探测数据包并收集各节点统计信息,最终封装至收集器,为网络运维提供整网路径质量的多维分析能力。

我们可以将其工作流程简要拆解如下:

入口节点(Ingress Node)

这是 IPT 技术的核心环节,重点在于流量采样、复制与探测包构造。

  1. 识别与采样:通过采样或者配置DSCP来指定队列的方式识别目标流量,而非对所有流量进行复制。
  2. 复制与截断:克隆原始业务报文,保留报文的二三层首部(Header),并截断原始负载(Payload),以降低遥测流量对带宽的占用。
  3. 探测包封装:在 UDP 或 TCP 首部的 前 16 字节之后 插入 IPT 专有字段。
  4. 插入标记与头信息:包含 探针标记(Probe Marker) 用于后续节点识别、IPT Base Header(标识版本和跳数等)以及该入口节点的统计信息。
  5. 同路径转发:探测包被赋予与原始报文相同的转发特征,确保它在网络中走过完全一致的路径。

传输节点 (Transit Node)

中间节点不再需要处理庞大的业务流量,只需专注处理探测包,对其进行识别、追加与透传。

  1. 精准识别:节点通过识别报文特定偏移位置的 Probe Marker,迅速判定该报文为 IPT 探测包。
  2. 元数据追加:在不改变报文原有结构的基础上,将本节点的路径统计信息(如设备 ID、入/出接口、实时时延等)追加到 IPT 数据段中。
  3. 硬件透传:利用硬件转发面的能力,确保探测包的累加处理不会引入额外的计算开销,从而保证时延数据的真实性。

出口节点 (Egress Node)

当探测包到达 IPT 域的出口节点,将会执行最终节点的数据收集与路径遥测数据的封装转发。

信息补全:写入最后一个节点的元数据,形成完整的端到端路径视图。

探测包终结和封装:出节点不再转发该探测包,而是将其从业务转发路径中“摘除”将收集到的全路径元数据封装并发送给采集器(Collector)。

由于探测包已经包含了原始报文的首部信息,分析平台可以轻松地将遥测数据与对应的业务流关联起来。

方案优势

与直接修改业务报文的“染色”方式相比,基于采样和生成独立的探测报文的遥测方式,实现遥测流量与业务流量的分离,同时又能真实模拟业务报文在网络中的转发行为。

  • 业务零干扰:由于修改的是复制出的探测包,即便遥测逻辑出现异常,也不会影响原始业务数据的完整传输。
  • 低带宽压力:通过截断 Payload,极大减小了探测包的体积,适合大规模部署。
  • 部署灵活性:在不支持 IPT 的设备上,探测包可以作为普通报文透传,而在支持的节点上则进行数据采集,具备更好的兼容性。

典型应用场景

在某超千卡GPU集群的大模型训练场景中,集群依赖高性能网络实现节点间数据同步(如All Reduce操作),路径质量直接影响训练效率。IPT技术可在以下环节优化路径性能:

端到端路径时延监控

如下图所示,训练过程中,梯度数据需经多台Leaf/Spine交换机转发。IPT通过探测数据包采集各节点转发时延,结合入口到出口的总时延,定位高延迟节点(如某Spine交换机转发时延异常升高),辅助调整流量转发路径,避免因单节点延迟导致整体训练效率下降。

IPT技术辅助定位高延迟节点

队列状态动态感知

如图所示,当多台GPU服务器通过同一交换机端口发送数据时,出方向队列可能因流量激增出现拥塞。IPT探测数据包携带队列占用大小、QP(Queue Pair)等信息,运维人员可快速识别拥塞队列,调整缓冲区分配策略(如增加突发流量处理容量),保障数据同步稳定性。

IPT技术辅助快速识别拥塞队列

可视化呈现

基于IPT技术的EasyRoCE小工具即将发布,敬请期待。

基于IPT技术的小工具界面截图


产品型号:星融元(Asterfusion)CX864E-N (64 x 800G OSFP)
功能特性:RoCEv2, PFC, ECN, DCBX ……
应用场景:GPU算力集群,分布式存储
最后更新:2026-04-17


相关文章

星融元数据技术有限公司是领先的开放网络解决方案提供商,产品包括网络操作系统、数据中心交换机、AI智算交换机、园区交换机、开放式企业级路由和新一代网络可视化产品等。为行业企业、数据中心和云运营商提供基于通用解耦硬件和 SONiC 软件框架的全场景交钥匙网络解决方案,帮助用户构建AI时代中立、透明,易于运维、高性价比的基础网络。

🔺关注 @星融元Asterfusion 微信公众号 WeChat QR Code

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2