Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

站点精选

2026-04-17

关注星融元

站点精选

一文读懂!INT技术之IPT如何实现端到端路径质量的精准监控

2026-04-17

随着AI大模型训练、分布式计算等高性能应用的快速发展,智算网络对端到端路径质量的监控需求日益提升。近年来 INT(In-band Network Telemetry,带内网络遥测)作为新一代网络质量分析技术,也已从前瞻性学术研究领域走向了真实网络环境下的应用。

星融元现有方案中应用到的 INT 技术包含 BDC、HDC 以及 IPT 。其中 BDC 和 HDC 相关技术和工具应用我们之前已有专题文章介绍,请参阅:EasyRoCE 新年上新!基于INT的网络拥塞监控和告警工具

INT 技术对比

int

什么是IPT?

IPT,全称 In-band Path Telemetry,带内路径遥测。

通过前文的对比表格可以看到,作为 INT 技术的标准方案之一,IPT 侧重于实现端到端路径质量的精准监控。

IPT 报文由多层头部构成,包含外层L2/L3封装、GRE头部、IPT Shim头部、探针标记(Probe Marker),IPT Base Header,及各节点统计信息(IPT Hop Information)等字段。

INT

在遥测域的每个交换节点之间(包括入口和出口节点),每跳统计信息都会被插入到IPT 探测数据包中,以下是记录统计信息的报文格式和字段描述。

INT

Switch ID 节点设备
Dev Class 识别设备芯片的唯一编码,用于解码数据包中的信息。
Queue Size Info 报文转发时队列实时占用大小队列占用大小
Dinfo 2IPT数据包从该跳节点转发出去的出口队列信息。
Dinfo 1IPT数据包从该跳节点转发出去的出接口信息
Egress Timestamp InfoIPT数据包从该跳节点转发出去的时间戳信息
SinfoIPT数据包进入该跳节点的入接口信息
Ingress Timestamp InfoIPT数据包进入该跳节点的时间戳信息

IPT 的工作原理

INT


IPT工作流程图

IPT 通过在遥测域内配置入口节点、出口节点及传输节点,利用探针标记(Probe Marker)唯一标识遥测域,沿原始路径生成探测数据包并收集各节点统计信息,最终封装至收集器,为网络运维提供整网路径质量的多维分析能力。

我们可以将其工作流程简要拆解如下:

入口节点(Ingress Node):

这是 IPT 技术的核心环节,重点在于流量采样、复制与探测包构造。

  1. 识别与采样:通过采样或者配置DSCP来指定队列的方式识别目标流量,而非对所有流量进行复制。
  2. 复制与截断:克隆原始业务报文,保留报文的二三层首部(Header),并截断原始负载(Payload),以降低遥测流量对带宽的占用。
  3. 探测包封装:在 UDP 或 TCP 首部的 前 16 字节之后 插入 IPT 专有字段。
  4. 插入标记与头信息:包含 探针标记(Probe Marker) 用于后续节点识别、IPT Base Header(标识版本和跳数等)以及该入口节点的统计信息。
  5. 同路径转发:探测包被赋予与原始报文相同的转发特征,确保它在网络中走过完全一致的路径。

传输节点 (Transit Node):

中间节点不再需要处理庞大的业务流量,只需专注处理探测包,对其进行识别、追加与透传。

  1. 精准识别:节点通过识别报文特定偏移位置的 Probe Marker,迅速判定该报文为 IPT 探测包。
  2. 元数据追加:在不改变报文原有结构的基础上,将本节点的路径统计信息(如设备 ID、入/出接口、实时时延等)追加到 IPT 数据段中。
  3. 硬件透传:利用硬件转发面的能力,确保探测包的累加处理不会引入额外的计算开销,从而保证时延数据的真实性。

出口节点 (Egress Node):

当探测包到达 IPT 域的出口节点,将会执行最终节点的数据收集与路径遥测数据的封装转发。

信息补全:写入最后一个节点的元数据,形成完整的端到端路径视图。

探测包终结和封装:出节点不再转发该探测包,而是将其从业务转发路径中“摘除”将收集到的全路径元数据封装并发送给采集器(Collector)。

由于探测包已经包含了原始报文的首部信息,分析平台可以轻松地将遥测数据与对应的业务流关联起来。

方案优势

与直接修改业务报文的“染色”方式相比,基于采样和生成独立的探测报文的遥测方式,实现遥测流量与业务流量的分离,同时又能真实模拟业务报文在网络中的转发行为。

  • 业务零干扰:由于修改的是复制出的探测包,即便遥测逻辑出现异常,也不会影响原始业务数据的完整传输。
  • 低带宽压力:通过截断 Payload,极大减小了探测包的体积,适合大规模部署。
  • 部署灵活性:在不支持 IPT 的设备上,探测包可以作为普通报文透传,而在支持的节点上则进行数据采集,具备更好的兼容性。

典型应用场景

在某超千卡GPU集群的大模型训练场景中,集群依赖高性能网络实现节点间数据同步(如All Reduce操作),路径质量直接影响训练效率。IPT技术可在以下环节优化路径性能:

端到端路径时延监控

如下图所示,训练过程中,梯度数据需经多台Leaf/Spine交换机转发。IPT通过探测数据包采集各节点转发时延,结合入口到出口的总时延,定位高延迟节点(如某Spine交换机转发时延异常升高),辅助调整流量转发路径,避免因单节点延迟导致整体训练效率下降。

INT
-case

队列状态动态感知

如图8所示,当多台GPU服务器通过同一交换机端口发送数据时,出方向队列可能因流量激增出现拥塞。IPT探测数据包携带队列占用大小、QP(Queue Pair)等信息,运维人员可快速识别拥塞队列,调整缓冲区分配策略(如增加突发流量处理容量),保障数据同步稳定性。

INT

可视化呈现

基于IPT技术的EasyRoCE小工具即将发布,敬请期待。

INT

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2