Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

标签: 技术分享

高效转发+智能管理:MPLS技术如何应对多业务挑战?

近期文章


随着现代企业园区网络和运营商级基础设施的不断发展,多协议标签交换 (MPLS) 已成为一项基础技术,这要归功于其高效的数据包转发、高级流量工程功能以及对多租户环境的强大支持。

什么是MPLS?

MPLS(多协议标签交换,Multiprotocol Label Switching)是一种基于标签的转发技术,结合了二层交换的简捷性与三层路由的灵活性。通过预分配的标签(Label)替代传统IP路由的逐跳查表,提升转发效率。

MPLS起源于IPv4(Internet Protocol version 4),其核心技术可扩展到多种网络协议,包括IPv6(Internet Protocol version 6)、IPX(Internet Packet Exchange)和CLNP(Connectionless Network Protocol)等。MPLS中的“Multiprotocol”指的就是支持多种网络协议。

由此可见,MPLS并不是一种业务或者应用,它实际上是一种隧道技术。这种技术不仅支持多种高层协议与业务,而且在一定程度上可以保证信息传输的安全性。

核心组件:LER(标签边缘路由器)、LSR(标签交换路由器)、FEC(转发等价类)。

工作原理

  1. 标签分配:入口路由器(LER)为数据包分配标签,标签对应转发路径(LSP)。
  2. 标签交换:中间路由器(LSR)根据标签转发表(LFIB)快速转发,无需解析IP头部。
  3. 标签移除:出口路由器(LER)剥离标签,恢复原始IP数据包。

MPLS工作原理

标签结构

MPLS 标签是一个紧凑的 32 位报头,包含四个关键字段:

MPLS标签结构

  • 标签 (20 位) — 标识通过 MPLS 网络的路径 (LSP)
  • EXP(3 位)— 用于 QoS(服务质量)标记或流量优先级
  • S (1 bit) – 堆栈标志的底部;指示这是否是堆栈中的最后一个标签
  • TTL(8 位)– 生存时间;通过限制数据包的生命周期来防止路由循环

为什么需要MPLS?

在传统IP网络架构中,基于三层路由的转发机制逐渐暴露很多问题。

首先,转发效率低下的问题尤为突出,由于每台路由器都需要逐跳解析IP报文头部并查询路由表,这种反复查表的机制在大流量场景下会产生显著延迟,难以满足数据中心或运营商核心网的高吞吐需求。

其次,传统路由技术对路径控制能力薄弱,完全依赖OSPF、BGP等动态路由协议自动选路,既无法主动规避拥塞链路,也无法为特定业务指定优化路径,导致网络资源利用率低下。

更棘手的是多业务隔离难题,VLAN受限于4096个ID的规模上限,ACL策略管理复杂度随业务增长呈指数级上升,这种基于二层的隔离方案难以支撑跨地域、多租户的现代组网需求。

MPLS技术的核心功能

服务质量(QoS)

MPLS在QoS中的应用主要体现在其对网络流量优先级管理的精细化能力上,而EXP字段(Experimental Bits,后更名为Traffic Class字段)是两者结合的核心纽带。MPLS如何实现QoS保障?在MPLS网络入口(LER),根据业务类型(如语音、视频、普通数据)为流量分配EXP值,可通过手动配置或自动映射(如将IP层的DSCP值转换为EXP值)。LSR根据EXP值分为不同优先级队列,优先转发低延迟流量(SP)和按比例分配剩余带宽(WFQ)。当链路拥塞时,低EXP值的流量可能被丢弃(如TCP流量),而高EXP值的流量(如VoIP)始终保障带宽,此外,再结合RSVP-TE等协议实现关键业务(如语音、实时视频)的带宽保障和低抖动传输,构建起从转发效率到业务体验的全方位优化体系。

流量工程(TE)

TE通过MPLS技术解决了传统IP网络无法实现的精细化流量控制需求,通过显式路径(Explicit Path)手动或策略驱动流量走向,均衡负载或避开瓶颈链路,从而优化网络性能。

业务隔离与VPN

传统VPN一般是通过GRE(Generic Routing Encapsulation)、L2TP(Layer 2 Tunneling Protocol)、PPTP(Point to Point Tunneling Protocol)等隧道协议来实现私有网络间数据在公网上的传送,而MPLS LSP是通过标签交换形成的隧道,数据报文不再经过封装或者加密,因此,用MPLS实现VPN具有天然的优势。

基于MPLS的VPN通过LSP将私有网络的不同分支联结起来,形成一个统一的网络,如图所示。基于MPLS的VPN还支持对不同VPN间的互通控制。这对于企业和运营商网络至关重要。

  • CE(Customer Edge)是用户边缘设备,可以是路由器,也可以是交换机或主机。
  • PE(Provider Edge)是IP/MPLS骨干网的边缘设备。
  • P(Provider)是IP/MPLS骨干网的骨干设备,不与CE直接相连。P设备只需要具备基本MPLS转发能力,不维护VPN信息。

业务隔离与VPN

如何基于业务场景与技术特性选择最优网络方案?
对比维度MPLS传统IP路由SD-WANSegment Routing
转发效率高(标签快速交换)低(逐跳查表)中(依赖隧道封装)高(类似MPLS)
路径控制支持显式路径和流量工程依赖动态路由协议动态智能选路灵活源路由
多业务隔离通过VPN实现逻辑隔离VLAN/ACL,扩展性差有限(依赖Overlay)需结合其他技术(如VXLAN)
部署成本高(依赖专用设备和运营商专线)低(利用互联网链路)中(需升级硬件支持)
适用场景企业专网、运营商核心网中小型园区网络跨地域互联、云访问优化数据中心、大规模骨干网
服务质量(QoS)强(基于EXP/DSCP优先级标记)中(依赖链路质量监测)中(需策略配合)

AsterNOS:软件定义架构下的MPLS转发技术革新

SONiC(Software for Open Networking in the Cloud) 是开源社区的网络操作系统,其核心目标是构建开放、解耦的云数据中心网络架构。作为全球首个完全开源的网络操作系统,SONiC基于Linux内核设计,支持标准化硬件(如白盒交换机)与容器化微服务架构,通过模块化组件(如SAI——交换机抽象接口)实现灵活的功能扩展。其开源特性吸引了全球云服务商、运营商及企业的广泛参与,逐步成为云原生网络的事实标准。

尽管社区版 SONiC 通过模块化设计为云数据中心提供了开放灵活的基础架构,但其在复杂协议支持上的短板始终制约着企业级场景的深度应用。以MPLS为例,社区版本需依赖第三方扩展或定制化开发,导致功能碎片化、性能不稳定,难以满足金融专网、跨云互联等高可靠性需求。

AsterNOS基于 SONiC 的开放式园区交换机的完整产品组合现在完全支持 MPLS,它提高了数据包转发速度,支持精细的流量控制,并支持多协议环境,使其成为电信、企业 WAN 和云数据中心中的大规模网络不可或缺的工具。

这种“开源基因+商业级能力”的融合,使得AsterNOS既能继承开源生态的灵活性,又能以超前技术布局填补开源生态与商业需求间的鸿沟。

返回资源中心

最新动态

实时解析和可视化呈现 GPU 集合通信路径


关注星融元


“黑盒”状态的集合通信

智算集群通常都是以GPU服务器为最小单位构建的,服务器内部安装了若干块GPU计算单元,在此之上会有CUDA、NCCL、PyTorch等软件系统协同构建AI大模型的训练/推理任务的基础环境。NCCL

目前最广泛应用的是英伟达的开源集合通信库 NCCL(NVIDIA Collective Communication Library),可以在英伟达的 GPU 芯片之间进行高效的数据交换和协同工作。其他云和 GPU 厂商也推出了一批 xCCLs,例如 HCCL、ACCL、TCCL 和 oneCCL 等

大模型的训练调优过程中,我们经常会遇到例如集群性能表现不如预期、训练任务中断现象,其原因除了来自模型自身或 GPU 服务器内部配置问题等等,还有可能是网络层面的数据传输。

然而,集合通信库位于开发框架之下,对于 GPU 集群的使用者来说,集合通信路径是透明无感知的黑盒状态

EPS 是什么?

EasyRoCE – EPS (E2E Path Scheduler,端到端路径规划)的主要功能是把集合通信库运行时不对外展示的各项关键信息,例如数据通信路径、任务中选用的 GPU、网卡状态等呈现给用户,帮助 GPU 集群的使用者快速定位问题,更好地利用集群的硬件资源,并基于此进行最佳路由规划。

对于 EPS 给出的推荐路由配置,用户可以自行决定是否下发。若确认选用推荐路由,EPS 可以调用 星融元 RoCE 交换机 提供的 REST API 完成配置自动下发。

  • 通信环可视化:自动解析通信链路信息,透传底层状态
  • 路由自动生成:算法和路径相关的路由推荐机制,配置自动下发
  • 辅助决策:底层通信信息集中到统一面板展示

EPS-EasyRoCE

如何使用 EPS?

本文提供的演示环境下,EPS 工具将会被部署在集群的 Master 节点(即产生 NCCL 日志文件的位置),并以 systemd 守护进程的方式在后台实时监控日志文件——每当日志更新,EPS 自动会解析最新的信息,转换为便于阅读和理解的形式推送到统一监控面板(如 EasyRoCE-UG )中集中呈现。

EPS 是星融元 EasyRoCE Toolkit 之一,以下仅展示基础功能,完整功能和最新版本请联系项目销售/售前人员。

1. 安装配置EPS

演示环境中的 Master 节点为一台独立的 CentOS 服务器,项目指定的工作目录为 /home/admin/EPS

安装配置EPS

2. 配置监控面板

演示使用 EasyRoCE Toolkit 内的统一监控面板(UG,Unified Glancer),在此之前需要提前完成该平台的部署,请参阅:一文解读开源开放生态下的RDMA网络监控实践 中的“监控平台配置”部分。

我们只需要为 UG 再添加一个呈现 HTML 的 Pannel,并完成 HTML 源的配置(如下图所示),EPS 解析出来的集合通信环信息就将作为各类 RDMA 网络相关监控指标信息的补充,辅助集群设施调优决策。

配置

完成以上所有步骤,我们就可以在 UG 看到实时更新的集合通信库运行信息,手动更新NCCL 日志文件,可以看到 UG 中呈现的解析信息也同步刷新。

配置

INT-based Routing:AI时代的智能路由


关注星融元


AI时代,传统路由不堪重任

在AI技术蓬勃发展的今天,互联网发生天翻地覆的变革。作为整个互联网演进的重要缩影,路由技术不可避免的卷入这一变革的洪流之中。

底层原因是,AI引发了网络流量的阶跃式变革:

  • 网络流量形态千变万化。在AI数据中心中,从对延迟极端敏感的老鼠流到对带宽要求极高的大象流,前所未有的混杂在同一个网络之中。
  • 网络流量剧烈震荡。由AI并行计算驱动,网络流量发生周期性剧烈震荡,其流量、振幅和频率都是前所未见。一个训练epoch就能产生相当于整个互联网2-3天的流量,一次典型的AI推理需要每秒2万次以上的通信。
  • 网路拥塞空前严重。伴随剧烈震荡的网络流量,网络拥塞,尤其是In-cast拥塞达到了目前技术难以克服的程度,成为制约AI发展的瓶颈。
  • 网络应用日新月异。AI模型一日千里,AI Agent遍地开花,新的模型、新的应用不断对网络带来新的冲击。
  • 流量转发技术更新换代。为了适应AI带来的新流量,一些新的流量转发技术已经被逐步部署,如flowlet, packet spray等,以替代过时的基于流的ECMP和拥塞控制等。

为了应对这些空前的变化,作为网络控制平面核心的路由技术,将不得不迎接新的挑战。从最早的静态配置,到今天高度智能化、自适应、实时响应,我们可以大致把路由协议的发展分为以下几个阶段:

一、静态路由阶段(Static Routing)

1960s–1970s。手动配置每条路由,适用于小规模网络(如ARPANET)。不具备动态拓扑变化的应对能力。

二、动态路由阶段(Dynamic Routing)

1989年,OSPF和BGPv1分别发布。它们能够动态感知网络拓扑的变化,并基于拓扑信息(如OSPF的链路带宽,BGP的AS PATH)计算最佳路径。为了适应更复杂的需求,它们也逐步添加了各种路由策略和负载分担技术。

三、SDN路由探索阶段

2008年后,由于网络设备的内嵌CPU处理能力有限,老的路由协议难以应对网络业务的动态变化,SDN路由兴起。它部署在集中式的通用服务器上,用全局视角来观察网络拓扑,并根据业务需求灵活调度流量。然而由于它与网络设备分离,很难及时跟踪网络拓扑和流量的变化,调度策略赶不上流量的变化,并没有达到取代动态路由协议的目标。

四、动态路由与控制器协同阶段

2012年后,为了解决数据中心内多租户的主机间路由问题,提出了BGP EVPN overlay路由技术;2013年后,为了解决传统路由难以灵活调度流量的难题,提出了SR(Segment Routing)等技术,叠加TI-LFA(Topology-Independent Loop-Free Alternate)技术还可以提供备份路由。这些技术的共同特点是与控制器能良好协同,实现流量的更精细化的调度。如BGP EVPN与云管理器协同,自动化部署虚拟网络,实现虚机间的流量转发;SR与网路管理器协同,实现流量工程等。

从上面的发展历程,我们可以看出,路由技术的发展是流量驱动的,但受到对网络的感知和计算能力的制约,从静态、到感知拓扑,再到感知流量,逐步向更智能和更自动化的方向发展。

INT-based Routing—新一代智能路由技术

那么,如果网络具备了更高级的感知能力和计算能力,是否能解决AI时代的流量调度难题呢?

答案是肯定的,这就是星融元研发的INT-based Routing(In-band Network Telemetry based Routing,基于在网遥测的路由),作为全新一代的动态路由技术,它不仅感知网络拓扑的变化,还能动态感知网络流量和设备负载的变化,是真正全动态的智能路由技术。

01、INT——动态感知网络流量

INT(In-band Network Telemetry)是现代网络自感知、自优化演进中一个关键的里程碑。它是“P4可编程数据面 + 遥测驱动网络”兴起的自然产物,2014年由Barefoot Networks提出,随着P4生态的发展和主流交换ASIC芯片的支持,它逐步在大型数据中心得到广泛应用。

相比传统的网络测量技术,INT技术的特点有:

  • 自记录。INT的基本思想是,在真实业务包中“嵌入”一段 metadata,沿路记录下关键节点的状态。从而减小测量误差。
  • 实时。INT可以实现逐包级别的遥测,从而达到μs级的测量间隔,配合PTP(Precision Time Protocol),测量精度更是能达到10ns级。
  • 丰富的元信息。INT metadata记录了丰富的可选信息,如Node ID, Interface ID, Timestamp, Hop Latency, Queue Depth, Buffer Occupancy, Egress interface Tx utilization等。

为支持以上能力,INT需要通过ASIC、DPU或服务器级别的CPU实现。在主流的交换ASIC芯片中,Marvell的Teralynx在INT支持方面表现突出,提供了全面的P4 -INT支持和高级遥测功能。Broadcom 的 Trident 系列通过 IFA 2.0 等技术也提供了强大的遥测能力。NVIDIA 的 Spectrum 系列则实现了类似INT 的 WJH (What Just Happened)技术,增强了网络事件的可视性和诊断能力。

总之,INT用“包内自记录”的方式彻底改变了网络感知能力,是从“监控网络”到“网络自我感知”的技术飞跃。

02、精细的流量调度粒度

传统网络中,流量调度的单位是“路由”,也就是一个网络地址段,去往这个目的网络地址段的流量都遵循同样的转发路径。随后出现了基于“流”的调度技术,如策略路由、ECMP等。一个“流”对应了传输层的一个会话,如IP五元组(源地址、目的地址、源端口、目的端口、协议号)。在此基础上,上层应用可以假设去往同一流的所有包沿着同样的路径,遵循严格的顺序,相应的流控技术(如TCP流控)也在据此构建。

(以太网流控机制看这一篇:解锁AI数据中心潜力:网络利用率如何突破90%?

“流”这个调度粒度仍嫌不足,因为网络中出现了大量“长连接”的流,如视音频、分布式存储、AI训练等。因此近年出现了两个分支技术,包喷洒flowlet

包喷洒技术允许将同一个流的不同包转发到不同路径上。由于这种方式会导致目的地接收到的报文乱序,因此需要修改传输协议,在目的地重新组装为完整的消息,带来了额外开销。

Flowlet技术是根据流中的“空闲”时间间隔将一个流划分为若干片段。不同的flowlet转发到不同路径上,但又保证了报文不会乱序到达,传输层无需修改。

可以看到,随着网络设备(包括交换机和网卡)计算能力的逐步增强,更精细粒度的流量调度成为可能。但由谁来决定如何将这些单位流量调度到不同的路径上呢?

03、基于遥测的智能路由

考虑到 flowlet 或数据包的数量和频率,实现手动的策略显然不可行。

有些人又回到了SDN的思路,让一个“上帝”来指导每个 flowlet 或者数据包的调度,但考虑到网络流量变化如此迅速,高高在上的SDN控制器根本来不及感知网络流量和设备负载的实时变化,无法承担这一重任。

又有些人尝试在主机侧的SmartNIC上实现流量调度,虽然它们可以通过遥测技术获得网络转发路径的一些信息,但由于它们不感知网络拓扑,也不能与网络设备协作,仅能够在网卡有限的几个端口上实现流量调度或控制,无法充分利用网络内部的链路和带宽。

反观网络交换机,随着INT技术的普及,具备了感知网络拓扑、网络流量和设备负载的全面能力,将这些信息汇总到交换机的大脑——NOS(Network Operation System)中,在日益强大的控制CPU/DPU的加持下,足以实时处理大量的INT信息,从而计算出最佳的流量调度方案。这种计算虽然是分布式的,但由于交换机之间通过动态路由协议和INT相互交换了信息,每个交换机都具备全网感知能力,这样它们计算的结果不仅仅是局部最优的,同时也是全局最优的

AsterNOS正是这样做的。

它结合OSPF、BGP和在网遥测(INT)技术,为网络中任意一对节点之间计算多条路径,每个路径的开销是通过INT测量的路径延迟等网络负载信息。OSPF擅长在链路级别感知网络拓扑,BGP则擅长在AS级别感知网络拓扑,它们的结合让交换机具备宏观视野,又不失微观洞察。但仅仅基于相对静态的网络拓扑来实现动态流量的调度是不够的。INT通过逐跳嵌入元数据,彻底解决了原来单个交换机无法动态感知整个路径上流量和负载的问题。它们的结合释放出强大的流量调度能力。

以一个典型的Spine-Leaf拓扑的数据中心网络为例。

INT Routing

如上图所示,Server0和Server1分别连接到两个Leaf交换机,这一对Leaf交换机间存在4个路径。

在Server侧看不到这4个路径,因此智能网卡无法实现流量调度。

在Leaf交换机上,如果仅依赖OSPF,能看到4条静态的等价路径,但它们的负载实际上是不同的。

如果借助INT的感知能力,Leaf1交换机上现在就能够知道去往Server0有4条时延不相等的路径。这样Leaf1交换将能够选择更优的策略将流量分配到这4条路径上,如最小时延路径或者WCMP(Weighted Cost Multiple Path),从而实现完全自适应的路由,让网络流量和网络负载完全匹配,最大化网络的吞吐量、最小化尾部延迟,最大化网络利用率。

INT-Based Routing可以与Packet Spray和flowlet结合,实现逐包级别或逐flowlet级别的流量调度。借助OSPF和BGP的拓扑发现能力,它能够在任意拓扑的网络上应用。

相比传统的ECMP技术,INT-Based Routing可将网络利用率提升到90%以上,网络吞吐量提升20~45%, P99 tail latency 降低50%以上,从而显著提高AI训练的作业完成时间(JCT)。

新路由范式将带来新一轮网络设备升级

AI的发展告诉我们,当我们做更多更有效率的分布式计算,就可以改变世界。网络本身又何尝不是如此。当我们在交换机中对网络拓扑、网络流量和设备负载进行实时分布式计算后,我们就能大幅改善网络的性能。

然而,要实现这一点,我们需要对网络设备进行新一轮升级,让它不仅仅具备强大的转发能力,也要具备强大的计算能力,并有机的将这两个能力结合 在一起。这就是星融元近期推出一系列Smart Switch(智能交换机)背后的逻辑。

Smart Switch的基本构成是“可编程的ASIC数据平面 + DPU化的控制平面 + 控制平面到控制平面的高速数据通道”。

INT-Routing

例如,星融元CX864E-N采用了Marvell Teralynx 10可编程ASIC,支持Flowlet,P4-INT,WCMP,PTP,Multicast Replication等高级特性。控制平面则采用了服务器级别的Intel XEON处理器,在AsterNOS中支持ePBF/DPDK/VPP等DPU技术,让它能够以毫秒级别感知网络并计算最新的流量调度方案;更可以通过M.2接口扩展支持AI加速模块,对网络流量进行AI分析和预测,让调度更加精准。在控制平面和数据平面间,采用DMA和高速以太网通道来传递数据,使得它们紧密联系成为一个整体。

关于星融元 CX864E-N:51.2T 800G AI智算交换机软硬件系统设计全揭秘

即将推出的 CX306P-N 数据中心Leaf交换机则采用了Marvell Falcon可编程ASIC和Marvell OCTEON 10 DPU,并通过2 x 100G以太网将两者互联,在AsterNOS + VPP的调度下,实现INT-based Routing和集中式vRouter,vFirewall等新一代AIDC特性。

总之,Smart Switch 是“网络智能化”的结构性演进。它不再依赖主机上的智能网卡、也不依赖集中控制器,而是将 “实时感知 + 智能调度” 嵌入网络最核心的物理单元Switch中,使网络成为分布式计算平台,具备自感知、自调度能力,从而自适应处理毫秒级的流量变化,是网络应对AI时代的关键变革。

在此基础上,INT-Based Routing应运而生,推动网络控制面进一步走向智能化,是路由技术的最新范式。它把AIDC的网络利用率提升到90%以上,进一步释放AI集群的计算潜力。可以说,INT-Based Routing 是为AI而生的智能路由!

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2