一文读懂!INT技术之IPT如何实现端到端路径质量的精准监控
赋能大模型训练:基于 IPT 技术的超大规模 GPU 集群时延与队列监控
随着AI大模型训练、分布式计算等高性能应用的快速发展,智算网络对端到端路径质量的监控需求日益提升。近年来 INT(In-band Network Telemetry,带内网络遥测)作为新一代网络质量分析技术,也已从前瞻性学术研究领域走向了真实网络环境下的应用。
星融元现有方案中应用到的 INT 技术包含 BDC、HDC 以及 IPT 。其中 BDC 和 HDC 相关技术和工具应用我们之前已有专题文章介绍,📖 请参阅:基于INT的网络拥塞监控和告警工具
INT 技术对比
| 方案 | BDC | HDC | IPT |
| 触发条件 | 队列缓冲区超限丢包 | 队列转发时延达到设定阈值 | 无 |
| 遥测信息 | 队列占用情况 | 转发时延 | 队列深度及转发时延 |
| 采样机制 | 概率捕获、微突发捕获 | 概率捕获、微突发捕获 | 概率捕获 |
| 聚焦场景 | 缓冲区丢包捕获与报告 | 无损网络的高延迟异常诊断 | 大型网络中的问题定位,全路径质量监控 |
什么是IPT?
IPT,全称 In-band Path Telemetry,带内路径遥测。
通过前文的对比表格可以看到,作为 INT 技术的标准方案之一,IPT 侧重于实现端到端路径质量的精准监控。
IPT 报文由多层头部构成,包含外层L2/L3封装、GRE头部、IPT Shim头部、探针标记(Probe Marker),IPT Base Header,及各节点统计信息(IPT Hop Information)等字段。
在遥测域的每个交换节点之间(包括入口和出口节点),每跳统计信息都会被插入到IPT 探测数据包中,以下是记录统计信息的报文格式和字段描述。
Switch ID节点设备Dev Class识别设备芯片的唯一编码,用于解码数据包中的信息。Queue Size Info报文转发时队列实时占用大小队列占用大小Dinfo 2IPT数据包从该跳节点转发出去的出口队列信息。Dinfo 1IPT数据包从该跳节点转发出去的出接口信息Egress Timestamp InfoIPT数据包从该跳节点转发出去的时间戳信息SinfoIPT数据包进入该跳节点的入接口信息Ingress Timestamp InfoIPT数据包进入该跳节点的时间戳信息
IPT 的工作原理
IPT 通过在遥测域内配置入口节点、出口节点及传输节点,利用探针标记(Probe Marker)唯一标识遥测域,沿原始路径生成探测数据包并收集各节点统计信息,最终封装至收集器,为网络运维提供整网路径质量的多维分析能力。
我们可以将其工作流程简要拆解如下:
入口节点(Ingress Node)
这是 IPT 技术的核心环节,重点在于流量采样、复制与探测包构造。
- 识别与采样:通过采样或者配置DSCP来指定队列的方式识别目标流量,而非对所有流量进行复制。
- 复制与截断:克隆原始业务报文,保留报文的二三层首部(Header),并截断原始负载(Payload),以降低遥测流量对带宽的占用。
- 探测包封装:在 UDP 或 TCP 首部的 前 16 字节之后 插入 IPT 专有字段。
- 插入标记与头信息:包含 探针标记(Probe Marker) 用于后续节点识别、IPT Base Header(标识版本和跳数等)以及该入口节点的统计信息。
- 同路径转发:探测包被赋予与原始报文相同的转发特征,确保它在网络中走过完全一致的路径。
传输节点 (Transit Node)
中间节点不再需要处理庞大的业务流量,只需专注处理探测包,对其进行识别、追加与透传。
- 精准识别:节点通过识别报文特定偏移位置的 Probe Marker,迅速判定该报文为 IPT 探测包。
- 元数据追加:在不改变报文原有结构的基础上,将本节点的路径统计信息(如设备 ID、入/出接口、实时时延等)追加到 IPT 数据段中。
- 硬件透传:利用硬件转发面的能力,确保探测包的累加处理不会引入额外的计算开销,从而保证时延数据的真实性。
出口节点 (Egress Node)
当探测包到达 IPT 域的出口节点,将会执行最终节点的数据收集与路径遥测数据的封装转发。
信息补全:写入最后一个节点的元数据,形成完整的端到端路径视图。
探测包终结和封装:出节点不再转发该探测包,而是将其从业务转发路径中“摘除”将收集到的全路径元数据封装并发送给采集器(Collector)。
由于探测包已经包含了原始报文的首部信息,分析平台可以轻松地将遥测数据与对应的业务流关联起来。
方案优势
与直接修改业务报文的“染色”方式相比,基于采样和生成独立的探测报文的遥测方式,实现遥测流量与业务流量的分离,同时又能真实模拟业务报文在网络中的转发行为。
- 业务零干扰:由于修改的是复制出的探测包,即便遥测逻辑出现异常,也不会影响原始业务数据的完整传输。
- 低带宽压力:通过截断 Payload,极大减小了探测包的体积,适合大规模部署。
- 部署灵活性:在不支持 IPT 的设备上,探测包可以作为普通报文透传,而在支持的节点上则进行数据采集,具备更好的兼容性。
典型应用场景
在某超千卡GPU集群的大模型训练场景中,集群依赖高性能网络实现节点间数据同步(如All Reduce操作),路径质量直接影响训练效率。IPT技术可在以下环节优化路径性能:
端到端路径时延监控
如下图所示,训练过程中,梯度数据需经多台Leaf/Spine交换机转发。IPT通过探测数据包采集各节点转发时延,结合入口到出口的总时延,定位高延迟节点(如某Spine交换机转发时延异常升高),辅助调整流量转发路径,避免因单节点延迟导致整体训练效率下降。
队列状态动态感知
如图所示,当多台GPU服务器通过同一交换机端口发送数据时,出方向队列可能因流量激增出现拥塞。IPT探测数据包携带队列占用大小、QP(Queue Pair)等信息,运维人员可快速识别拥塞队列,调整缓冲区分配策略(如增加突发流量处理容量),保障数据同步稳定性。
可视化呈现
基于IPT技术的EasyRoCE小工具即将发布,敬请期待。
产品型号:星融元(Asterfusion)CX864E-N (64 x 800G OSFP)
功能特性:RoCEv2, PFC, ECN, DCBX ……
应用场景:GPU算力集群,分布式存储
最后更新:2026-04-17
星融元数据技术有限公司是领先的开放网络解决方案提供商,产品包括网络操作系统、数据中心交换机、AI智算交换机、园区交换机、开放式企业级路由和新一代网络可视化产品等。为行业企业、数据中心和云运营商提供基于通用解耦硬件和 SONiC 软件框架的全场景交钥匙网络解决方案,帮助用户构建AI时代中立、透明,易于运维、高性价比的基础网络。





