Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

站点精选

2025-04-24

关注星融元

站点精选

INT-based Routing:AI时代的智能路由

2025-04-24

AI时代,传统路由不堪重任

在AI技术蓬勃发展的今天,互联网发生天翻地覆的变革。作为整个互联网演进的重要缩影,路由技术不可避免的卷入这一变革的洪流之中。

底层原因是,AI引发了网络流量的阶跃式变革:

  • 网络流量形态千变万化。在AI数据中心中,从对延迟极端敏感的老鼠流到对带宽要求极高的大象流,前所未有的混杂在同一个网络之中。
  • 网络流量剧烈震荡。由AI并行计算驱动,网络流量发生周期性剧烈震荡,其流量、振幅和频率都是前所未见。一个训练epoch就能产生相当于整个互联网2-3天的流量,一次典型的AI推理需要每秒2万次以上的通信。
  • 网路拥塞空前严重。伴随剧烈震荡的网络流量,网络拥塞,尤其是In-cast拥塞达到了目前技术难以克服的程度,成为制约AI发展的瓶颈。
  • 网络应用日新月异。AI模型一日千里,AI Agent遍地开花,新的模型、新的应用不断对网络带来新的冲击。
  • 流量转发技术更新换代。为了适应AI带来的新流量,一些新的流量转发技术已经被逐步部署,如flowlet, packet spray等,以替代过时的基于流的ECMP和拥塞控制等。

为了应对这些空前的变化,作为网络控制平面核心的路由技术,将不得不迎接新的挑战。从最早的静态配置,到今天高度智能化、自适应、实时响应,我们可以大致把路由协议的发展分为以下几个阶段:

一、静态路由阶段(Static Routing)

1960s–1970s。手动配置每条路由,适用于小规模网络(如ARPANET)。不具备动态拓扑变化的应对能力。

二、动态路由阶段(Dynamic Routing)

1989年,OSPF和BGPv1分别发布。它们能够动态感知网络拓扑的变化,并基于拓扑信息(如OSPF的链路带宽,BGP的AS PATH)计算最佳路径。为了适应更复杂的需求,它们也逐步添加了各种路由策略和负载分担技术。

三、SDN路由探索阶段

2008年后,由于网络设备的内嵌CPU处理能力有限,老的路由协议难以应对网络业务的动态变化,SDN路由兴起。它部署在集中式的通用服务器上,用全局视角来观察网络拓扑,并根据业务需求灵活调度流量。然而由于它与网络设备分离,很难及时跟踪网络拓扑和流量的变化,调度策略赶不上流量的变化,并没有达到取代动态路由协议的目标。

四、动态路由与控制器协同阶段

2012年后,为了解决数据中心内多租户的主机间路由问题,提出了BGP EVPN overlay路由技术;2013年后,为了解决传统路由难以灵活调度流量的难题,提出了SR(Segment Routing)等技术,叠加TI-LFA(Topology-Independent Loop-Free Alternate)技术还可以提供备份路由。这些技术的共同特点是与控制器能良好协同,实现流量的更精细化的调度。如BGP EVPN与云管理器协同,自动化部署虚拟网络,实现虚机间的流量转发;SR与网路管理器协同,实现流量工程等。

从上面的发展历程,我们可以看出,路由技术的发展是流量驱动的,但受到对网络的感知和计算能力的制约,从静态、到感知拓扑,再到感知流量,逐步向更智能和更自动化的方向发展。

INT-based Routing—新一代智能路由技术

那么,如果网络具备了更高级的感知能力和计算能力,是否能解决AI时代的流量调度难题呢?

答案是肯定的,这就是星融元研发的INT-based Routing(In-band Network Telemetry based Routing,基于在网遥测的路由),作为全新一代的动态路由技术,它不仅感知网络拓扑的变化,还能动态感知网络流量和设备负载的变化,是真正全动态的智能路由技术。

01、INT——动态感知网络流量

INT(In-band Network Telemetry)是现代网络自感知、自优化演进中一个关键的里程碑。它是“P4可编程数据面 + 遥测驱动网络”兴起的自然产物,2014年由Barefoot Networks提出,随着P4生态的发展和主流交换ASIC芯片的支持,它逐步在大型数据中心得到广泛应用。

相比传统的网络测量技术,INT技术的特点有:

  • 自记录。INT的基本思想是,在真实业务包中“嵌入”一段 metadata,沿路记录下关键节点的状态。从而减小测量误差。
  • 实时。INT可以实现逐包级别的遥测,从而达到μs级的测量间隔,配合PTP(Precision Time Protocol),测量精度更是能达到10ns级。
  • 丰富的元信息。INT metadata记录了丰富的可选信息,如Node ID, Interface ID, Timestamp, Hop Latency, Queue Depth, Buffer Occupancy, Egress interface Tx utilization等。

为支持以上能力,INT需要通过ASIC、DPU或服务器级别的CPU实现。在主流的交换ASIC芯片中,Marvell的Teralynx在INT支持方面表现突出,提供了全面的P4 -INT支持和高级遥测功能。Broadcom 的 Trident 系列通过 IFA 2.0 等技术也提供了强大的遥测能力。NVIDIA 的 Spectrum 系列则实现了类似INT 的 WJH (What Just Happened)技术,增强了网络事件的可视性和诊断能力。

总之,INT用“包内自记录”的方式彻底改变了网络感知能力,是从“监控网络”到“网络自我感知”的技术飞跃。

02、精细的流量调度粒度

传统网络中,流量调度的单位是“路由”,也就是一个网络地址段,去往这个目的网络地址段的流量都遵循同样的转发路径。随后出现了基于“流”的调度技术,如策略路由、ECMP等。一个“流”对应了传输层的一个会话,如IP五元组(源地址、目的地址、源端口、目的端口、协议号)。在此基础上,上层应用可以假设去往同一流的所有包沿着同样的路径,遵循严格的顺序,相应的流控技术(如TCP流控)也在据此构建。

(以太网流控机制看这一篇:解锁AI数据中心潜力:网络利用率如何突破90%?

“流”这个调度粒度仍嫌不足,因为网络中出现了大量“长连接”的流,如视音频、分布式存储、AI训练等。因此近年出现了两个分支技术,包喷洒flowlet

包喷洒技术允许将同一个流的不同包转发到不同路径上。由于这种方式会导致目的地接收到的报文乱序,因此需要修改传输协议,在目的地重新组装为完整的消息,带来了额外开销。

Flowlet技术是根据流中的“空闲”时间间隔将一个流划分为若干片段。不同的flowlet转发到不同路径上,但又保证了报文不会乱序到达,传输层无需修改。

可以看到,随着网络设备(包括交换机和网卡)计算能力的逐步增强,更精细粒度的流量调度成为可能。但由谁来决定如何将这些单位流量调度到不同的路径上呢?

03、基于遥测的智能路由

考虑到 flowlet 或数据包的数量和频率,实现手动的策略显然不可行。

有些人又回到了SDN的思路,让一个“上帝”来指导每个 flowlet 或者数据包的调度,但考虑到网络流量变化如此迅速,高高在上的SDN控制器根本来不及感知网络流量和设备负载的实时变化,无法承担这一重任。

又有些人尝试在主机侧的SmartNIC上实现流量调度,虽然它们可以通过遥测技术获得网络转发路径的一些信息,但由于它们不感知网络拓扑,也不能与网络设备协作,仅能够在网卡有限的几个端口上实现流量调度或控制,无法充分利用网络内部的链路和带宽。

反观网络交换机,随着INT技术的普及,具备了感知网络拓扑、网络流量和设备负载的全面能力,将这些信息汇总到交换机的大脑——NOS(Network Operation System)中,在日益强大的控制CPU/DPU的加持下,足以实时处理大量的INT信息,从而计算出最佳的流量调度方案。这种计算虽然是分布式的,但由于交换机之间通过动态路由协议和INT相互交换了信息,每个交换机都具备全网感知能力,这样它们计算的结果不仅仅是局部最优的,同时也是全局最优的

AsterNOS正是这样做的。

它结合OSPF、BGP和在网遥测(INT)技术,为网络中任意一对节点之间计算多条路径,每个路径的开销是通过INT测量的路径延迟等网络负载信息。OSPF擅长在链路级别感知网络拓扑,BGP则擅长在AS级别感知网络拓扑,它们的结合让交换机具备宏观视野,又不失微观洞察。但仅仅基于相对静态的网络拓扑来实现动态流量的调度是不够的。INT通过逐跳嵌入元数据,彻底解决了原来单个交换机无法动态感知整个路径上流量和负载的问题。它们的结合释放出强大的流量调度能力。

以一个典型的Spine-Leaf拓扑的数据中心网络为例。

INT Routing

如上图所示,Server0和Server1分别连接到两个Leaf交换机,这一对Leaf交换机间存在4个路径。

在Server侧看不到这4个路径,因此智能网卡无法实现流量调度。

在Leaf交换机上,如果仅依赖OSPF,能看到4条静态的等价路径,但它们的负载实际上是不同的。

如果借助INT的感知能力,Leaf1交换机上现在就能够知道去往Server0有4条时延不相等的路径。这样Leaf1交换将能够选择更优的策略将流量分配到这4条路径上,如最小时延路径或者WCMP(Weighted Cost Multiple Path),从而实现完全自适应的路由,让网络流量和网络负载完全匹配,最大化网络的吞吐量、最小化尾部延迟,最大化网络利用率。

INT-Based Routing可以与Packet Spray和flowlet结合,实现逐包级别或逐flowlet级别的流量调度。借助OSPF和BGP的拓扑发现能力,它能够在任意拓扑的网络上应用。

相比传统的ECMP技术,INT-Based Routing可将网络利用率提升到90%以上,网络吞吐量提升20~45%, P99 tail latency 降低50%以上,从而显著提高AI训练的作业完成时间(JCT)。

新路由范式将带来新一轮网络设备升级

AI的发展告诉我们,当我们做更多更有效率的分布式计算,就可以改变世界。网络本身又何尝不是如此。当我们在交换机中对网络拓扑、网络流量和设备负载进行实时分布式计算后,我们就能大幅改善网络的性能。

然而,要实现这一点,我们需要对网络设备进行新一轮升级,让它不仅仅具备强大的转发能力,也要具备强大的计算能力,并有机的将这两个能力结合 在一起。这就是星融元近期推出一系列Smart Switch(智能交换机)背后的逻辑。

Smart Switch的基本构成是“可编程的ASIC数据平面 + DPU化的控制平面 + 控制平面到控制平面的高速数据通道”。

INT-Routing

例如,星融元CX864E-N采用了Marvell Teralynx 10可编程ASIC,支持Flowlet,P4-INT,WCMP,PTP,Multicast Replication等高级特性。控制平面则采用了服务器级别的Intel XEON处理器,在AsterNOS中支持ePBF/DPDK/VPP等DPU技术,让它能够以毫秒级别感知网络并计算最新的流量调度方案;更可以通过M.2接口扩展支持AI加速模块,对网络流量进行AI分析和预测,让调度更加精准。在控制平面和数据平面间,采用DMA和高速以太网通道来传递数据,使得它们紧密联系成为一个整体。

关于星融元 CX864E-N:51.2T 800G AI智算交换机软硬件系统设计全揭秘

即将推出的 CX306P-N 数据中心Leaf交换机则采用了Marvell Falcon可编程ASIC和Marvell OCTEON 10 DPU,并通过2 x 100G以太网将两者互联,在AsterNOS + VPP的调度下,实现INT-based Routing和集中式vRouter,vFirewall等新一代AIDC特性。

总之,Smart Switch 是“网络智能化”的结构性演进。它不再依赖主机上的智能网卡、也不依赖集中控制器,而是将 “实时感知 + 智能调度” 嵌入网络最核心的物理单元Switch中,使网络成为分布式计算平台,具备自感知、自调度能力,从而自适应处理毫秒级的流量变化,是网络应对AI时代的关键变革。

在此基础上,INT-Based Routing应运而生,推动网络控制面进一步走向智能化,是路由技术的最新范式。它把AIDC的网络利用率提升到90%以上,进一步释放AI集群的计算潜力。可以说,INT-Based Routing 是为AI而生的智能路由!

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2