一文读懂!INT技术之IPT如何实现端到端路径质量的精准监控
随着AI大模型训练、分布式计算等高性能应用的快速发展,智算网络对端到端路径质量的监控需求日益提升。近年来 INT(In-band Network Telemetry,带内网络遥测)作为新一代网络质量分析技术,也已从前瞻性学术研究领域走向了真实网络环境下的应用。
星融元现有方案中应用到的 INT 技术包含 BDC、HDC 以及 IPT 。其中 BDC 和 HDC 相关技术和工具应用我们之前已有专题文章介绍,请参阅:EasyRoCE 新年上新!基于INT的网络拥塞监控和告警工具
INT 技术对比
什么是IPT?
IPT,全称 In-band Path Telemetry,带内路径遥测。
通过前文的对比表格可以看到,作为 INT 技术的标准方案之一,IPT 侧重于实现端到端路径质量的精准监控。
IPT 报文由多层头部构成,包含外层L2/L3封装、GRE头部、IPT Shim头部、探针标记(Probe Marker),IPT Base Header,及各节点统计信息(IPT Hop Information)等字段。
在遥测域的每个交换节点之间(包括入口和出口节点),每跳统计信息都会被插入到IPT 探测数据包中,以下是记录统计信息的报文格式和字段描述。
Switch ID 节点设备Dev Class 识别设备芯片的唯一编码,用于解码数据包中的信息。Queue Size Info 报文转发时队列实时占用大小队列占用大小Dinfo 2IPT数据包从该跳节点转发出去的出口队列信息。Dinfo 1IPT数据包从该跳节点转发出去的出接口信息Egress Timestamp InfoIPT数据包从该跳节点转发出去的时间戳信息SinfoIPT数据包进入该跳节点的入接口信息Ingress Timestamp InfoIPT数据包进入该跳节点的时间戳信息
IPT 的工作原理
IPT工作流程图
IPT 通过在遥测域内配置入口节点、出口节点及传输节点,利用探针标记(Probe Marker)唯一标识遥测域,沿原始路径生成探测数据包并收集各节点统计信息,最终封装至收集器,为网络运维提供整网路径质量的多维分析能力。
我们可以将其工作流程简要拆解如下:
入口节点(Ingress Node):
这是 IPT 技术的核心环节,重点在于流量采样、复制与探测包构造。
- 识别与采样:通过采样或者配置DSCP来指定队列的方式识别目标流量,而非对所有流量进行复制。
- 复制与截断:克隆原始业务报文,保留报文的二三层首部(Header),并截断原始负载(Payload),以降低遥测流量对带宽的占用。
- 探测包封装:在 UDP 或 TCP 首部的 前 16 字节之后 插入 IPT 专有字段。
- 插入标记与头信息:包含 探针标记(Probe Marker) 用于后续节点识别、IPT Base Header(标识版本和跳数等)以及该入口节点的统计信息。
- 同路径转发:探测包被赋予与原始报文相同的转发特征,确保它在网络中走过完全一致的路径。
传输节点 (Transit Node):
中间节点不再需要处理庞大的业务流量,只需专注处理探测包,对其进行识别、追加与透传。
- 精准识别:节点通过识别报文特定偏移位置的 Probe Marker,迅速判定该报文为 IPT 探测包。
- 元数据追加:在不改变报文原有结构的基础上,将本节点的路径统计信息(如设备 ID、入/出接口、实时时延等)追加到 IPT 数据段中。
- 硬件透传:利用硬件转发面的能力,确保探测包的累加处理不会引入额外的计算开销,从而保证时延数据的真实性。
出口节点 (Egress Node):
当探测包到达 IPT 域的出口节点,将会执行最终节点的数据收集与路径遥测数据的封装转发。
信息补全:写入最后一个节点的元数据,形成完整的端到端路径视图。
探测包终结和封装:出节点不再转发该探测包,而是将其从业务转发路径中“摘除”将收集到的全路径元数据封装并发送给采集器(Collector)。
由于探测包已经包含了原始报文的首部信息,分析平台可以轻松地将遥测数据与对应的业务流关联起来。
方案优势
与直接修改业务报文的“染色”方式相比,基于采样和生成独立的探测报文的遥测方式,实现遥测流量与业务流量的分离,同时又能真实模拟业务报文在网络中的转发行为。
- 业务零干扰:由于修改的是复制出的探测包,即便遥测逻辑出现异常,也不会影响原始业务数据的完整传输。
- 低带宽压力:通过截断 Payload,极大减小了探测包的体积,适合大规模部署。
- 部署灵活性:在不支持 IPT 的设备上,探测包可以作为普通报文透传,而在支持的节点上则进行数据采集,具备更好的兼容性。
典型应用场景
在某超千卡GPU集群的大模型训练场景中,集群依赖高性能网络实现节点间数据同步(如All Reduce操作),路径质量直接影响训练效率。IPT技术可在以下环节优化路径性能:
端到端路径时延监控
如下图所示,训练过程中,梯度数据需经多台Leaf/Spine交换机转发。IPT通过探测数据包采集各节点转发时延,结合入口到出口的总时延,定位高延迟节点(如某Spine交换机转发时延异常升高),辅助调整流量转发路径,避免因单节点延迟导致整体训练效率下降。
队列状态动态感知
如图8所示,当多台GPU服务器通过同一交换机端口发送数据时,出方向队列可能因流量激增出现拥塞。IPT探测数据包携带队列占用大小、QP(Queue Pair)等信息,运维人员可快速识别拥塞队列,调整缓冲区分配策略(如增加突发流量处理容量),保障数据同步稳定性。
可视化呈现
基于IPT技术的EasyRoCE小工具即将发布,敬请期待。






