Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

标签: 技术分享

A-Lab | 网工提效利器!面向 AI 场景的“向导式” 综合性规划工具


关注星融元


A-Lab 是星融元服务于新一代网络运维工程师的资讯专栏,你可以在这里找到各类基于开放网络技术架构的配置指导和技术分享。访问地址:https://asterfusion.com/alab-for-netdevops/

今天我们介绍的是一套专为大规模 AI 网络环境搭建打造的综合性规划工具 EasyRoCE-AID (AI基础设施蓝图规划,AI Infrastructure Descriptor)。

它致力于为复杂的 AI 基础设施建设梳理脉络、把控全局,其核心价值在于通过系统性规划与整合,让抽象的网络架构和设备布局直观呈现,为技术人员提供清晰、精准的行动指南。


EasyRoCE Toolkit 是星融元依托开源、开放的网络架构与技术,为AI 智算、超算等场景的RoCE网络提供的一系列实用特性和小工具,如一键配置RoCE,高精度流量监控等…所有功能对签约客户免费开放。

详情访问:https://asterfusion.com/easyroce/


EasyRoCE

帮助网络架构师快速梳理智算环境的复杂需求,一站式规划参数、存储、业务管理和带外管理四张网

借助实用组网设计模板,自动计算并生成组网方案、设备互联关系和网络配置

一键导出 JSON 格式的设备互联关系数据,加速部署其他 EasyRoCE 系列工具插件,如GPU 节点内部路由规划(IRM)主动路径规划(PPD)多租户网络(MVD)以及实现与统一监控面板等(UG)相关的可视化呈现功能。

下面我们就逐步梳理一个典型智算中心基础网络的通用流程,来看 AID 工具是如何一步步引导用户完成高效且规范的部署动作。

步骤1:获取各类服务器基础信息

智算环境下的服务主要有 GPU 服务器、存储服务器、业务管理服务器三类,这一步需要手动向 AID 录入所有服务器硬件的设备名称、型号、功率、高度等等硬件信息。

服务器的网口数量和带宽规格,是后续规划网络的关键信息,另有部分信息(例如名称、高度)会作为 AID 中其他规划模块的引用对象。

步骤2:根据模板自动设计组网方案

有了上一步提供的服务器硬件信息,此时我们就可以根据集群规模大小,选择合适的“组网模板设计工具”(二层或三层,一般二层网络可满足大多数建网需求)。该设计工具本质上是从用户填写的 GPU 服务器、存储服务器、管理服务器和交换机规格信息,自动计算出每层所需的交换机数量。EasyRoCE Toolkit

EasyRoCE Toolkit

根据生成的组网方案,此时便可到AID对应位置去补充每台交换机的名称、型号、设备功率、设备高度、出厂序列号等信息。其中最大功率、设备高度等是后续规划设备分布的重要参数。

步骤3:确定机柜布局

该步骤依据设备性能特点、散热需求及数据交互逻辑,为实施规划人员制定机柜内部的最优空间分布方案提供参考。

机柜的布局信息包括机柜所在的园区、楼栋、楼层、房间、排/列、机柜编码、U#、设备名称。

点击左侧按钮展开,可以看到这排机柜的情况,其中机柜中每台设备的名称都引用于已填写的表格信息。

EasyRoCE Toolkit

步骤4:生成网络规划配置

经过上述步骤,智算环境下各个设备的互联关系也基本确定了。此时用户可运行 AID 内含的宏程序自动生成连接关系、自动填充互联 IP、服务器 Bond 口 IP、带外管理口 IP 等信息,快速完成参数网、存储网、业务管理网、带外管理网的规划配置,免去了人工计算的低效和潜在的错误风险。

EasyRoCE Toolkit

步骤5:与 EasyRoCE 工具模块对接

由AID规划配置的模块主要有,GPU Node内部路由规划器(IRM)、端到端路径规划(EPS)、主动路径规划(PPD)、多租户网络部署(MVD)等。

以主动路径规划工具(PPD)为例,我们使用 AID 工具规划交换机的设备名称、设备型号、设备角色、上行端口序号、下行端口序号、实例 ID、实例描述信息、下行 IP 列表、管理口地址、管理地址掩码、交换机的帐号密码.

其中除了实例 ID 和实例描述信息需要人为规划,其他字段都可以点击“填充设备信息”按钮完成自动填充。

EasyRoCE Toolkit

AID还可以联动基于 Prometheus+Grafana 的监控面板,辅助实现 RDMA 网络在大屏的可视化呈现功能。

参阅:一文解读开源开放生态下的RDMA网络监控实践

  • 拓扑自动呈现(TG)深度协同,依据设备互联信息,一键自动生成涵盖机柜内部、跨机柜乃至跨机房的完整网络拓扑图,精准展现设备层级关系、链路连接状态,以直观图形界面助力运维人员实时把控全网架构,迅速定位故障节点

云网扩容

  • 借助 光模块地图(TM),细致呈现光模块分布,明确各条光纤链路所用光模块状态信息,为光模块故障快速定位和提前预警提供重要参考

光模块地图

  • 联动 链路分布地图(LM),实时映射数据链路流量走向与负载分布,以动态可视化形式展现 AI 训练、推理等任务引发的流量潮汐变化,辅助优化网络资源分配,及时发现并化解拥塞风险

链路地图

更多AI智算网络技术分享,请持续关注星融元

产品与方案咨询:400-098-9811

动态感知+智能决策,一文解读 AI 场景组网下的动态智能选路技术


关注星融元


1. AI时代的网络进化

1.1 传统网络为何无法承载AI流量?

拓扑

在传统数据中心网络中,数量众多的小流使得基于流的负载均衡技术,即使不感知网络的实际状态,仍能实现较好的负载均衡和拥塞避免效果。

而AI场景流量特征的巨大差异(高带宽利用率、少数大象流等)导致传统负载均衡技术失效,从而出现极端的负载分担不均衡,而且这种不均衡一旦引发网络丢包,就会对整体 AI 模型的任务完成时间带来显著的负面影响。因此业界越来越重视 AI 场景组网的负载均衡算法优化方案,以实现流量更加均衡的负载在多条路径中。

1.2 动态感知与智能决策的融合

动态智能选路技术是一种基于感知路由的负载均衡技术,通过使用组网中交换机感知到的路径质量,来调整本地交换机的路径选择,并支持动态加权负载均衡方式平衡流量负载。

考虑到数据中心以及运营商已经习惯使用 BGP 作为数据中心网络的底层路由协议,动态智能选路技术以 BGP 为基础,通过 BGP 扩展能力,定义了一个新的扩展社区属性,基于多维度高精度测量值综合评价路径质量,通过 BGP 协议的扩展社区属性进行传递,用于指导后续业务流量的转发,提高整网负载均衡效率,减少应用响应时间。

2. 如何实现智能流量调度

当前网络均衡的主流技术有以下三种:

  • 逐流 ECMP 均衡,是当前最为常用的负载均衡算法,基于流量的五元组进行 HASH 负载均衡,在流链接数量较多的场景下适用,它优势在于无乱序,劣势在于流数量较少时,例如AI训练场景下,存在 HASH 冲突问题,网络均衡效果不佳。
  • 基于子流 flowlet 均衡技术,它依赖于子流之间时间间隔 GAP 值的正确配置来实现均衡,但如果网络中全局路径级时延信息不可知,因此 GAP 值无法准确配置。
  • 逐包 ECMP 均衡,理论上均衡度最好,但实际在接收端侧存在大量乱序问题。

星融元CX-N系列RoCE交换机(SONiC-Based)选用的动态智能选路创新方案结合了逐流 ECMP 均衡和基于子流 flowlet 均衡提出动态WCMP(Weighted Cost Multipath)和基于flowlet 的 ALB(Auto Load Balancing),下面将介绍具体相关技术。

2.1 路径质量测量

基于过去在用户生产网 AI 集群的长期实践与观察,动态智能选路技术引入带宽使用情况、队列使用情况、转发时延等在AI集群网络中影响较大的参数,作为计算因子用于网络路径质量综合评价。

2.1.1 统计计数

带宽使用情况、队列使用情况基于 ASIC 硬件寄存器统计计数,精度可达百毫秒级。ASIC 硬件寄存器实时统计端口转发计数和队列转发计数,控制面 SONiC 软件系统通过 SAI 接口以亚秒级的精度读取 ASIC 计数并存入 redis 数据库,如下图所示。

统计计数

动态智能选路控制面程序使用 ASIC 统计计数进行接口质量衡量,并将结果通过 BGP 宣告出去。如果按照统计计数的亚秒级精度进行 BGP 宣告则整网控制面压力较大,所以目前使用秒级间隔进行 BGP 宣告,端口转发计数和队列转发计数均选取多个数据点进行加权平均(越靠近计算时间点的数据权重越高)。

2.1.2 带内遥测

转发时延计算因子基于INT(In-band Network Telemetry)技术,精度可达纳秒级。HDC(High Delay Capture)是一种能捕获 ASIC 中经历高延迟的数据包信息的 INT 技术。

通过使用 HDC,星融元交换机能够捕获任何超过用户指定延迟阈值的数据包的延迟信息,并将原始数据包的前150字节连同元数据(包含出入端口、时延等关键信息)作为 HDC 数据包发送到收集器。

INT

动态智能选路技术在星融元交换机上开启 HDC 功能,并将 CPU 作为 HDC 的收集分析器,通过分析 HDC 报文实现高精度测量交换机转发时延,并将时延信息作为路径质量评价因子,提高路径质量评价精度。

HDC

命令行配置 HDC 功能控制INT进程运行,之后通过 socket 连接进行收包循环,将收取到的报文进行解析并将关键信息(出入端口、转发时延等)写入数据库。

2.2 路径质量同步

动态智能选路技术以 BGP 为基础,通过 BGP 扩展能力,使用一个新的扩展社区属性(Path Bandwidth Extended Community),用来指示通往目的路径的质量和。该扩展社区属性扩展类型字段高八位的值为 0x00(暂未使用),低八位的值为 0x05。在Value Field字段中,Global Administrator 子字段的值表示 AS 号。路径质量使用4个字节,以 IEEE 浮点格式,单位为GB/s。

路径质量同步算法逻辑如下图所示:

算法逻辑

当 NIC1 与 NIC2 通信时,NIC2 首先将自身IP宣告给 Leaf2,Leaf2 携带对应链路质量(指向 NIC2 的链路质量乘以 Leaf2 下行口权重)将 NIC2 IP 宣告给 Spine,Spine 携带对应链路质量(指向Leaf2的链路质量乘以 Spine 权重加上路由信息中已经携带的值)将 NIC2 IP 宣告给 Leaf1,Leaf1 汇总路径质量并生成路由指导转发。

动态智能选路技术将两层 Leaf-Spine 组网中的交换机端口分为了三类:Leaf 上行口、Leaf 下行口和 Spine口,每种类型端口赋予不同的计算系数,且每种端口的计算系数可配。

2.3 动态WCMP

负载分担(Load Balance)是指网络节点在转发流量时,将负载(流量)分摊到多条链路上进行转发,要在网络中存在多条路径的情况下,比如all-to-all流量模型下,实现无损以太网络,达成无丢包损失、无时延损失、无吞吐损失,需要引入该机制。数据中心中常用的负载分担机制为等价多路径路由 ECMP。

WCMP 能够将流量按照比例在不同链路上进行转发,ECMP是它的特例。在动态智能选路技术中,WCMP 根据路径质量来动态调整路由的权重,从而实现更为灵活的负载均衡。

WCMP

如上图所示,当NIC1与NIC2通信存在两条路径时,假设根据 [2.2路径质量同步] 中的算法逻辑在 Leaf1 中计算出指向NIC2的红色路径综合质量为38,指向NIC2的绿色路径综合质量为80,最终下发WCMP时两条路径的权重比为3:7。

同时随着整网流量不停的变化,路径质量也会随之变化,这些变化最终都会转变成路径质量通过 BGP 汇总到每一台 Leaf,从而在 Leaf 上生成动态 WCMP 路由指导流量转发。

2.4 异常路径剔除

当路径的综合质量小于约定的系数时,我们认为该条路径在 AI 场景下不再可用,判定为异常路径,需要剔除,剩余路径继续实现动态 WCMP 进行流量转发,当路径综合质量正常后,恢复这⼀路径。剔除短期内此路径不可⽤,造成少量浪费,但是避免了异常路径导致的路径拥塞甚至丢包等更为严重的后果。

异常路径剔除

如图所示,当 Leaf1 与 Leaf2 通信存在四条路径时,假设根据 [2.2路径质量同步] 中的算法逻辑在 Leaf1 中计算出四条路径综合质量分别为4.5、55、65和75,此时红色路径会被剔除,剩下的三条路径根据各自路径质量形成 WCMP。

2.5 智能负载均衡

LB技术实现基于 flowlet 的负载分担,ALB 通过在 ASIC 中实时测量不同端口上负载和时延,将 flowlet 路由到负载更⼩或时延更低的链路上,在传统 ECMP 的基础上从⽽实现更精细的流量调度和负载均衡。

ALB

如图所示,通过ALB技术,在出端口感知瞬时、平均负载以及队列的瞬时、平均延迟,并将数据同步给 Ingress,进行出端口的选择。同时 ALB 还支持端口 fail-over,出端口链路故障,会主动触发端口流量的重分配。

2.6 虚拟化

前端⽹络通常要⽀持多租⼾,将不同的 GPU 分配给不同⽤⼾。动态智能选路技术采⽤ VRF 实现多租⼾的隔离,每个用户对应分配一个 VRF。

VRF

如图所示(NIC和GPU一对一,实际 Leaf 与 NIC直连,此处省去 NIC,下同),组网承载两个用户的流量,user1 对应 vrf1,使用1.1.1.0/24和2.2.2.0/24网段对应的两个 GPU,user2 对应 vrf2,使用3.3.3.0/24和4.4.4.0/24网段对应的两个GPU。

通过用户配置将使用的 GPU 对应的网段划分进用户VRF,通过ASIC中的 PRE ACL 对进入交换机的流量进行区分,所有源IP处于 1.1.1.0/24 和 2.2.2.0/24 网段的流量打上 vrf1 的标记,所有源IP处于 3.3.3.0/24 和 4.4.4.0/24 网段的流量打上 vrf2 的标记,使得对应用户流量只能在对应VRF中进行查表转发,实现租户隔离。

3. 应用场景

3.1 动态WCMP如何化解流量洪峰?

以 256 个400G的GPU端口数量为例,整体网络架构采用两层Clos网络架构,按照下行端口与上行端口 1:1 的收敛比设计。在保证网络高吞吐、高带宽的基础上,1:1 的带宽收敛比能够避免因为带宽不对称导致的性能问题。

产品型号可以选择星融元CX864E-N 或 CX732Q-N 两款,CX864E-N 提供更高的端口密度以及扩展性,CX732Q-N 在满足高带宽的接入需求同时,为用户提供更高的性价比。下面以 CX732Q-N 组网为例:

动态ECMP

假设 Server1 的 GPU1 要与 Server17 的GPU1通信,按照传统 ECMP 的逻辑,流量会选择Spine中的一个然后到达 Leaf17,传统 ECMP 不会感知路径实时状态,所以 AI 场景下的少量大象流极易被均衡到同一 Spine 上从而导致 Leaf1 上行端口拥塞甚至出现丢包。

动态WCMP-02

如果交换机开启了动态智能选路技术,当 Server17 将 GPU1 的路由信息通过 Leaf17 向整网通告时,首先 Leaf17 会将自身通往 Server17-GPU1 的路径质量附带在路由通告中发给所有 Spine,然后每个 Spine 将自身通往 Leaf17 的路径质量累积在路由通告中发给 Leaf1,Leaf1 将自身通往 Leaf17 的路径质量继续累积在路由信息中,此时 Leaf1 上有到达 Server17-GPU1 的全路径以及每条路径对应的路径质量,Leaf1 先去掉路径质量异常的路径(如质量较低路径认为不适合进行流量转发),再根据综合路径质量计算剩余路径的权重,形成 WCMP,指导流量转发。

3.2 Flowlet级负载均衡

以上述 256 个 400G 的 GPU 组网为例,如果使用了动态智能选路技术,但是不是每台设备都适合使用动态 WCMP,则交换机会动态选择基于 flowlet 的 ALB 进行流量的负载均衡。整网形成 ECMP 之后,ASIC的 ALB 功能会实时测量 ECMP 组中不同链路上负载和时延,将 flowlet 路由到负载更⼩或时延更低的链路上。

Flowlet 负载均衡

如图所示,Leaf1 上的多个指向Spine的链路同时负载流量,当红色接口负载流量较高,转发时延过长,此时 ASIC 基于 flowlet 做 ECMP 时,会自动跳过红色路径对应的出口,直到该出口负载和转发时延恢复正常值之后,ECMP 才会再选中该端口进行流量转发。

更多AI智算网络技术分享,请持续关注星融元
产品与方案咨询:400-098-9811

高效转发+智能管理:MPLS技术如何应对多业务挑战?

近期文章


随着现代企业园区网络和运营商级基础设施的不断发展,多协议标签交换 (MPLS) 已成为一项基础技术,这要归功于其高效的数据包转发、高级流量工程功能以及对多租户环境的强大支持。

什么是MPLS?

MPLS(多协议标签交换,Multiprotocol Label Switching)是一种基于标签的转发技术,结合了二层交换的简捷性与三层路由的灵活性。通过预分配的标签(Label)替代传统IP路由的逐跳查表,提升转发效率。

MPLS起源于IPv4(Internet Protocol version 4),其核心技术可扩展到多种网络协议,包括IPv6(Internet Protocol version 6)、IPX(Internet Packet Exchange)和CLNP(Connectionless Network Protocol)等。MPLS中的“Multiprotocol”指的就是支持多种网络协议。

由此可见,MPLS并不是一种业务或者应用,它实际上是一种隧道技术。这种技术不仅支持多种高层协议与业务,而且在一定程度上可以保证信息传输的安全性。

核心组件:LER(标签边缘路由器)、LSR(标签交换路由器)、FEC(转发等价类)。

工作原理

  1. 标签分配:入口路由器(LER)为数据包分配标签,标签对应转发路径(LSP)。
  2. 标签交换:中间路由器(LSR)根据标签转发表(LFIB)快速转发,无需解析IP头部。
  3. 标签移除:出口路由器(LER)剥离标签,恢复原始IP数据包。

MPLS工作原理

标签结构

MPLS 标签是一个紧凑的 32 位报头,包含四个关键字段:

MPLS标签结构

  • 标签 (20 位) — 标识通过 MPLS 网络的路径 (LSP)
  • EXP(3 位)— 用于 QoS(服务质量)标记或流量优先级
  • S (1 bit) – 堆栈标志的底部;指示这是否是堆栈中的最后一个标签
  • TTL(8 位)– 生存时间;通过限制数据包的生命周期来防止路由循环

为什么需要MPLS?

在传统IP网络架构中,基于三层路由的转发机制逐渐暴露很多问题。

首先,转发效率低下的问题尤为突出,由于每台路由器都需要逐跳解析IP报文头部并查询路由表,这种反复查表的机制在大流量场景下会产生显著延迟,难以满足数据中心或运营商核心网的高吞吐需求。

其次,传统路由技术对路径控制能力薄弱,完全依赖OSPF、BGP等动态路由协议自动选路,既无法主动规避拥塞链路,也无法为特定业务指定优化路径,导致网络资源利用率低下。

更棘手的是多业务隔离难题,VLAN受限于4096个ID的规模上限,ACL策略管理复杂度随业务增长呈指数级上升,这种基于二层的隔离方案难以支撑跨地域、多租户的现代组网需求。

MPLS技术的核心功能

服务质量(QoS)

MPLS在QoS中的应用主要体现在其对网络流量优先级管理的精细化能力上,而EXP字段(Experimental Bits,后更名为Traffic Class字段)是两者结合的核心纽带。MPLS如何实现QoS保障?在MPLS网络入口(LER),根据业务类型(如语音、视频、普通数据)为流量分配EXP值,可通过手动配置或自动映射(如将IP层的DSCP值转换为EXP值)。LSR根据EXP值分为不同优先级队列,优先转发低延迟流量(SP)和按比例分配剩余带宽(WFQ)。当链路拥塞时,低EXP值的流量可能被丢弃(如TCP流量),而高EXP值的流量(如VoIP)始终保障带宽,此外,再结合RSVP-TE等协议实现关键业务(如语音、实时视频)的带宽保障和低抖动传输,构建起从转发效率到业务体验的全方位优化体系。

流量工程(TE)

TE通过MPLS技术解决了传统IP网络无法实现的精细化流量控制需求,通过显式路径(Explicit Path)手动或策略驱动流量走向,均衡负载或避开瓶颈链路,从而优化网络性能。

业务隔离与VPN

传统VPN一般是通过GRE(Generic Routing Encapsulation)、L2TP(Layer 2 Tunneling Protocol)、PPTP(Point to Point Tunneling Protocol)等隧道协议来实现私有网络间数据在公网上的传送,而MPLS LSP是通过标签交换形成的隧道,数据报文不再经过封装或者加密,因此,用MPLS实现VPN具有天然的优势。

基于MPLS的VPN通过LSP将私有网络的不同分支联结起来,形成一个统一的网络,如图所示。基于MPLS的VPN还支持对不同VPN间的互通控制。这对于企业和运营商网络至关重要。

  • CE(Customer Edge)是用户边缘设备,可以是路由器,也可以是交换机或主机。
  • PE(Provider Edge)是IP/MPLS骨干网的边缘设备。
  • P(Provider)是IP/MPLS骨干网的骨干设备,不与CE直接相连。P设备只需要具备基本MPLS转发能力,不维护VPN信息。

业务隔离与VPN

如何基于业务场景与技术特性选择最优网络方案?
对比维度MPLS传统IP路由SD-WANSegment Routing
转发效率高(标签快速交换)低(逐跳查表)中(依赖隧道封装)高(类似MPLS)
路径控制支持显式路径和流量工程依赖动态路由协议动态智能选路灵活源路由
多业务隔离通过VPN实现逻辑隔离VLAN/ACL,扩展性差有限(依赖Overlay)需结合其他技术(如VXLAN)
部署成本高(依赖专用设备和运营商专线)低(利用互联网链路)中(需升级硬件支持)
适用场景企业专网、运营商核心网中小型园区网络跨地域互联、云访问优化数据中心、大规模骨干网
服务质量(QoS)强(基于EXP/DSCP优先级标记)中(依赖链路质量监测)中(需策略配合)

AsterNOS:软件定义架构下的MPLS转发技术革新

SONiC(Software for Open Networking in the Cloud) 是开源社区的网络操作系统,其核心目标是构建开放、解耦的云数据中心网络架构。作为全球首个完全开源的网络操作系统,SONiC基于Linux内核设计,支持标准化硬件(如白盒交换机)与容器化微服务架构,通过模块化组件(如SAI——交换机抽象接口)实现灵活的功能扩展。其开源特性吸引了全球云服务商、运营商及企业的广泛参与,逐步成为云原生网络的事实标准。

尽管社区版 SONiC 通过模块化设计为云数据中心提供了开放灵活的基础架构,但其在复杂协议支持上的短板始终制约着企业级场景的深度应用。以MPLS为例,社区版本需依赖第三方扩展或定制化开发,导致功能碎片化、性能不稳定,难以满足金融专网、跨云互联等高可靠性需求。

AsterNOS基于 SONiC 的开放式园区交换机的完整产品组合现在完全支持 MPLS,它提高了数据包转发速度,支持精细的流量控制,并支持多协议环境,使其成为电信、企业 WAN 和云数据中心中的大规模网络不可或缺的工具。

这种“开源基因+商业级能力”的融合,使得AsterNOS既能继承开源生态的灵活性,又能以超前技术布局填补开源生态与商业需求间的鸿沟。

返回资源中心

最新动态

实时解析和可视化呈现 GPU 集合通信路径


关注星融元


“黑盒”状态的集合通信

智算集群通常都是以GPU服务器为最小单位构建的,服务器内部安装了若干块GPU计算单元,在此之上会有CUDA、NCCL、PyTorch等软件系统协同构建AI大模型的训练/推理任务的基础环境。NCCL

目前最广泛应用的是英伟达的开源集合通信库 NCCL(NVIDIA Collective Communication Library),可以在英伟达的 GPU 芯片之间进行高效的数据交换和协同工作。其他云和 GPU 厂商也推出了一批 xCCLs,例如 HCCL、ACCL、TCCL 和 oneCCL 等

大模型的训练调优过程中,我们经常会遇到例如集群性能表现不如预期、训练任务中断现象,其原因除了来自模型自身或 GPU 服务器内部配置问题等等,还有可能是网络层面的数据传输。

然而,集合通信库位于开发框架之下,对于 GPU 集群的使用者来说,集合通信路径是透明无感知的黑盒状态

EPS 是什么?

EasyRoCE – EPS (E2E Path Scheduler,端到端路径规划)的主要功能是把集合通信库运行时不对外展示的各项关键信息,例如数据通信路径、任务中选用的 GPU、网卡状态等呈现给用户,帮助 GPU 集群的使用者快速定位问题,更好地利用集群的硬件资源,并基于此进行最佳路由规划。

对于 EPS 给出的推荐路由配置,用户可以自行决定是否下发。若确认选用推荐路由,EPS 可以调用 星融元 RoCE 交换机 提供的 REST API 完成配置自动下发。

  • 通信环可视化:自动解析通信链路信息,透传底层状态
  • 路由自动生成:算法和路径相关的路由推荐机制,配置自动下发
  • 辅助决策:底层通信信息集中到统一面板展示

EPS-EasyRoCE

如何使用 EPS?

本文提供的演示环境下,EPS 工具将会被部署在集群的 Master 节点(即产生 NCCL 日志文件的位置),并以 systemd 守护进程的方式在后台实时监控日志文件——每当日志更新,EPS 自动会解析最新的信息,转换为便于阅读和理解的形式推送到统一监控面板(如 EasyRoCE-UG )中集中呈现。

EPS 是星融元 EasyRoCE Toolkit 之一,以下仅展示基础功能,完整功能和最新版本请联系项目销售/售前人员。

1. 安装配置EPS

演示环境中的 Master 节点为一台独立的 CentOS 服务器,项目指定的工作目录为 /home/admin/EPS

安装配置EPS

2. 配置监控面板

演示使用 EasyRoCE Toolkit 内的统一监控面板(UG,Unified Glancer),在此之前需要提前完成该平台的部署,请参阅:一文解读开源开放生态下的RDMA网络监控实践 中的“监控平台配置”部分。

我们只需要为 UG 再添加一个呈现 HTML 的 Pannel,并完成 HTML 源的配置(如下图所示),EPS 解析出来的集合通信环信息就将作为各类 RDMA 网络相关监控指标信息的补充,辅助集群设施调优决策。

配置

完成以上所有步骤,我们就可以在 UG 看到实时更新的集合通信库运行信息,手动更新NCCL 日志文件,可以看到 UG 中呈现的解析信息也同步刷新。

配置

INT-based Routing:AI时代的智能路由


关注星融元


AI时代,传统路由不堪重任

在AI技术蓬勃发展的今天,互联网发生天翻地覆的变革。作为整个互联网演进的重要缩影,路由技术不可避免的卷入这一变革的洪流之中。

底层原因是,AI引发了网络流量的阶跃式变革:

  • 网络流量形态千变万化。在AI数据中心中,从对延迟极端敏感的老鼠流到对带宽要求极高的大象流,前所未有的混杂在同一个网络之中。
  • 网络流量剧烈震荡。由AI并行计算驱动,网络流量发生周期性剧烈震荡,其流量、振幅和频率都是前所未见。一个训练epoch就能产生相当于整个互联网2-3天的流量,一次典型的AI推理需要每秒2万次以上的通信。
  • 网路拥塞空前严重。伴随剧烈震荡的网络流量,网络拥塞,尤其是In-cast拥塞达到了目前技术难以克服的程度,成为制约AI发展的瓶颈。
  • 网络应用日新月异。AI模型一日千里,AI Agent遍地开花,新的模型、新的应用不断对网络带来新的冲击。
  • 流量转发技术更新换代。为了适应AI带来的新流量,一些新的流量转发技术已经被逐步部署,如flowlet, packet spray等,以替代过时的基于流的ECMP和拥塞控制等。

为了应对这些空前的变化,作为网络控制平面核心的路由技术,将不得不迎接新的挑战。从最早的静态配置,到今天高度智能化、自适应、实时响应,我们可以大致把路由协议的发展分为以下几个阶段:

一、静态路由阶段(Static Routing)

1960s–1970s。手动配置每条路由,适用于小规模网络(如ARPANET)。不具备动态拓扑变化的应对能力。

二、动态路由阶段(Dynamic Routing)

1989年,OSPF和BGPv1分别发布。它们能够动态感知网络拓扑的变化,并基于拓扑信息(如OSPF的链路带宽,BGP的AS PATH)计算最佳路径。为了适应更复杂的需求,它们也逐步添加了各种路由策略和负载分担技术。

三、SDN路由探索阶段

2008年后,由于网络设备的内嵌CPU处理能力有限,老的路由协议难以应对网络业务的动态变化,SDN路由兴起。它部署在集中式的通用服务器上,用全局视角来观察网络拓扑,并根据业务需求灵活调度流量。然而由于它与网络设备分离,很难及时跟踪网络拓扑和流量的变化,调度策略赶不上流量的变化,并没有达到取代动态路由协议的目标。

四、动态路由与控制器协同阶段

2012年后,为了解决数据中心内多租户的主机间路由问题,提出了BGP EVPN overlay路由技术;2013年后,为了解决传统路由难以灵活调度流量的难题,提出了SR(Segment Routing)等技术,叠加TI-LFA(Topology-Independent Loop-Free Alternate)技术还可以提供备份路由。这些技术的共同特点是与控制器能良好协同,实现流量的更精细化的调度。如BGP EVPN与云管理器协同,自动化部署虚拟网络,实现虚机间的流量转发;SR与网路管理器协同,实现流量工程等。

从上面的发展历程,我们可以看出,路由技术的发展是流量驱动的,但受到对网络的感知和计算能力的制约,从静态、到感知拓扑,再到感知流量,逐步向更智能和更自动化的方向发展。

INT-based Routing—新一代智能路由技术

那么,如果网络具备了更高级的感知能力和计算能力,是否能解决AI时代的流量调度难题呢?

答案是肯定的,这就是星融元研发的INT-based Routing(In-band Network Telemetry based Routing,基于在网遥测的路由),作为全新一代的动态路由技术,它不仅感知网络拓扑的变化,还能动态感知网络流量和设备负载的变化,是真正全动态的智能路由技术。

01、INT——动态感知网络流量

INT(In-band Network Telemetry)是现代网络自感知、自优化演进中一个关键的里程碑。它是“P4可编程数据面 + 遥测驱动网络”兴起的自然产物,2014年由Barefoot Networks提出,随着P4生态的发展和主流交换ASIC芯片的支持,它逐步在大型数据中心得到广泛应用。

相比传统的网络测量技术,INT技术的特点有:

  • 自记录。INT的基本思想是,在真实业务包中“嵌入”一段 metadata,沿路记录下关键节点的状态。从而减小测量误差。
  • 实时。INT可以实现逐包级别的遥测,从而达到μs级的测量间隔,配合PTP(Precision Time Protocol),测量精度更是能达到10ns级。
  • 丰富的元信息。INT metadata记录了丰富的可选信息,如Node ID, Interface ID, Timestamp, Hop Latency, Queue Depth, Buffer Occupancy, Egress interface Tx utilization等。

为支持以上能力,INT需要通过ASIC、DPU或服务器级别的CPU实现。在主流的交换ASIC芯片中,Marvell的Teralynx在INT支持方面表现突出,提供了全面的P4 -INT支持和高级遥测功能。Broadcom 的 Trident 系列通过 IFA 2.0 等技术也提供了强大的遥测能力。NVIDIA 的 Spectrum 系列则实现了类似INT 的 WJH (What Just Happened)技术,增强了网络事件的可视性和诊断能力。

总之,INT用“包内自记录”的方式彻底改变了网络感知能力,是从“监控网络”到“网络自我感知”的技术飞跃。

02、精细的流量调度粒度

传统网络中,流量调度的单位是“路由”,也就是一个网络地址段,去往这个目的网络地址段的流量都遵循同样的转发路径。随后出现了基于“流”的调度技术,如策略路由、ECMP等。一个“流”对应了传输层的一个会话,如IP五元组(源地址、目的地址、源端口、目的端口、协议号)。在此基础上,上层应用可以假设去往同一流的所有包沿着同样的路径,遵循严格的顺序,相应的流控技术(如TCP流控)也在据此构建。

(以太网流控机制看这一篇:解锁AI数据中心潜力:网络利用率如何突破90%?

“流”这个调度粒度仍嫌不足,因为网络中出现了大量“长连接”的流,如视音频、分布式存储、AI训练等。因此近年出现了两个分支技术,包喷洒flowlet

包喷洒技术允许将同一个流的不同包转发到不同路径上。由于这种方式会导致目的地接收到的报文乱序,因此需要修改传输协议,在目的地重新组装为完整的消息,带来了额外开销。

Flowlet技术是根据流中的“空闲”时间间隔将一个流划分为若干片段。不同的flowlet转发到不同路径上,但又保证了报文不会乱序到达,传输层无需修改。

可以看到,随着网络设备(包括交换机和网卡)计算能力的逐步增强,更精细粒度的流量调度成为可能。但由谁来决定如何将这些单位流量调度到不同的路径上呢?

03、基于遥测的智能路由

考虑到 flowlet 或数据包的数量和频率,实现手动的策略显然不可行。

有些人又回到了SDN的思路,让一个“上帝”来指导每个 flowlet 或者数据包的调度,但考虑到网络流量变化如此迅速,高高在上的SDN控制器根本来不及感知网络流量和设备负载的实时变化,无法承担这一重任。

又有些人尝试在主机侧的SmartNIC上实现流量调度,虽然它们可以通过遥测技术获得网络转发路径的一些信息,但由于它们不感知网络拓扑,也不能与网络设备协作,仅能够在网卡有限的几个端口上实现流量调度或控制,无法充分利用网络内部的链路和带宽。

反观网络交换机,随着INT技术的普及,具备了感知网络拓扑、网络流量和设备负载的全面能力,将这些信息汇总到交换机的大脑——NOS(Network Operation System)中,在日益强大的控制CPU/DPU的加持下,足以实时处理大量的INT信息,从而计算出最佳的流量调度方案。这种计算虽然是分布式的,但由于交换机之间通过动态路由协议和INT相互交换了信息,每个交换机都具备全网感知能力,这样它们计算的结果不仅仅是局部最优的,同时也是全局最优的

AsterNOS正是这样做的。

它结合OSPF、BGP和在网遥测(INT)技术,为网络中任意一对节点之间计算多条路径,每个路径的开销是通过INT测量的路径延迟等网络负载信息。OSPF擅长在链路级别感知网络拓扑,BGP则擅长在AS级别感知网络拓扑,它们的结合让交换机具备宏观视野,又不失微观洞察。但仅仅基于相对静态的网络拓扑来实现动态流量的调度是不够的。INT通过逐跳嵌入元数据,彻底解决了原来单个交换机无法动态感知整个路径上流量和负载的问题。它们的结合释放出强大的流量调度能力。

以一个典型的Spine-Leaf拓扑的数据中心网络为例。

INT Routing

如上图所示,Server0和Server1分别连接到两个Leaf交换机,这一对Leaf交换机间存在4个路径。

在Server侧看不到这4个路径,因此智能网卡无法实现流量调度。

在Leaf交换机上,如果仅依赖OSPF,能看到4条静态的等价路径,但它们的负载实际上是不同的。

如果借助INT的感知能力,Leaf1交换机上现在就能够知道去往Server0有4条时延不相等的路径。这样Leaf1交换将能够选择更优的策略将流量分配到这4条路径上,如最小时延路径或者WCMP(Weighted Cost Multiple Path),从而实现完全自适应的路由,让网络流量和网络负载完全匹配,最大化网络的吞吐量、最小化尾部延迟,最大化网络利用率。

INT-Based Routing可以与Packet Spray和flowlet结合,实现逐包级别或逐flowlet级别的流量调度。借助OSPF和BGP的拓扑发现能力,它能够在任意拓扑的网络上应用。

相比传统的ECMP技术,INT-Based Routing可将网络利用率提升到90%以上,网络吞吐量提升20~45%, P99 tail latency 降低50%以上,从而显著提高AI训练的作业完成时间(JCT)。

新路由范式将带来新一轮网络设备升级

AI的发展告诉我们,当我们做更多更有效率的分布式计算,就可以改变世界。网络本身又何尝不是如此。当我们在交换机中对网络拓扑、网络流量和设备负载进行实时分布式计算后,我们就能大幅改善网络的性能。

然而,要实现这一点,我们需要对网络设备进行新一轮升级,让它不仅仅具备强大的转发能力,也要具备强大的计算能力,并有机的将这两个能力结合 在一起。这就是星融元近期推出一系列Smart Switch(智能交换机)背后的逻辑。

Smart Switch的基本构成是“可编程的ASIC数据平面 + DPU化的控制平面 + 控制平面到控制平面的高速数据通道”。

INT-Routing

例如,星融元CX864E-N采用了Marvell Teralynx 10可编程ASIC,支持Flowlet,P4-INT,WCMP,PTP,Multicast Replication等高级特性。控制平面则采用了服务器级别的Intel XEON处理器,在AsterNOS中支持ePBF/DPDK/VPP等DPU技术,让它能够以毫秒级别感知网络并计算最新的流量调度方案;更可以通过M.2接口扩展支持AI加速模块,对网络流量进行AI分析和预测,让调度更加精准。在控制平面和数据平面间,采用DMA和高速以太网通道来传递数据,使得它们紧密联系成为一个整体。

关于星融元 CX864E-N:51.2T 800G AI智算交换机软硬件系统设计全揭秘

即将推出的 CX306P-N 数据中心Leaf交换机则采用了Marvell Falcon可编程ASIC和Marvell OCTEON 10 DPU,并通过2 x 100G以太网将两者互联,在AsterNOS + VPP的调度下,实现INT-based Routing和集中式vRouter,vFirewall等新一代AIDC特性。

总之,Smart Switch 是“网络智能化”的结构性演进。它不再依赖主机上的智能网卡、也不依赖集中控制器,而是将 “实时感知 + 智能调度” 嵌入网络最核心的物理单元Switch中,使网络成为分布式计算平台,具备自感知、自调度能力,从而自适应处理毫秒级的流量变化,是网络应对AI时代的关键变革。

在此基础上,INT-Based Routing应运而生,推动网络控制面进一步走向智能化,是路由技术的最新范式。它把AIDC的网络利用率提升到90%以上,进一步释放AI集群的计算潜力。可以说,INT-Based Routing 是为AI而生的智能路由!

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2