Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

基于路径感知的动态智能选路技术赋能AI智算网络

近期文章


在传统数据中心网络(尤其是Leaf-Spine架构)中,东西向流量的高效调度是核心挑战。传统BGP协议虽能实现路由可达性,但缺乏对路径质量的动态感知能力,导致流量分配不均、高延迟链路未被规避等问题。为提升网络资源利用率,动态智能选路技术应运而生。该技术基于BGP扩展机制,通过实时收集路径质量指标,实现数据流的智能调度,显著优化高吞吐场景(如分布式存储、AI训练)的性能。

BGP扩展能力创新

  • 核心属性:定义 Path Bandwidth Extended Community(路径带宽扩展社区属性),类型字段值固定为 0x0005(高8位0x00保留,低8位0x05标识带宽属性)。
  • 数据结构:1️⃣ Global Administrator:4字节,存储发起路由宣告的AS号,用于标识路径源。2️⃣ 路径质量值:4字节,以 IEEE 754浮点数格式 存储带宽信息,单位为 GB/s,精确表征链路传输能力。

路径质量同步算法流程

算法逻辑

以NIC1与NIC2通信为例:

  1. 终端注册:NIC2向直连交换机Leaf2宣告自身IP地址;
  2. 质量加权:Leaf2计算 NIC2→Leaf2下行链路质量 × Leaf2下行口权重系数,附加至路由信息;
  3. 跨层传递:Leaf2将携带质量值的路由通告至Spine;Spine叠加质量:Spine→Leaf2链路质量 × Spine权重系数 + 已有路径质量值;
  4. 路由汇总:Spine将聚合后的路由通告至Leaf1,Leaf1最终生成含完整路径质量的路由表,指导流量转发。注:权重系数按端口类型动态配置,实现差异化路径评估。
  5. 交换机端口分类与系数配置:为精准量化路径质量,将端口划分为三类并赋予可调系数:

端口类型作用系数意义
Leaf上行口连接Spine影响跨设备链路质量权重
Leaf下行口连接服务器/终端决定终端接入链路质量权重
Spine口连接Leaf控制核心层链路质量聚合权重

灵活性:管理员可根据网络架构需求(如高带宽优先/低延迟优先)动态调整系数。

基于BGP扩展的动态路径优化

  • 精细化路径选择:通过浮点数精确量化带宽,替代传统“跳数”或静态成本值,避免ECMP(等价多路径)在非对称链路中的负载失衡问题。
  • 实时动态优化:链路质量变化(如拥塞、故障)可快速通过BGP更新传递,触发路径重计算,提升网络韧性。
  • 兼容性与扩展性:基于BGP扩展实现,无需改造底层协议,平滑兼容现有网络设备,支持大规模部署。

优化高吞吐场景

  • 分布式计算集群:优化AI训练任务中参数服务器与工作节点的通信路径;
  • 金融交易系统:确保低延迟链路优先承载订单流量;
  • 云数据中心:提升虚拟机迁移和存储复制的吞吐性能。

优化智算中心:动态智能选路新方向

动态智能选路技术通过扩展BGP的路径质量感知能力,解决了传统数据中心网络“只连通、不优化”的痛点。其分层加权算法与可配置端口系数设计,为复杂流量调度场景提供了高适应性解决方案,是构建高性能、自优化数据中心网络的关键演进方向。

【参考文献】
想了解更多智能选路技术,可访问

https://asterfusion.com/a20250528-flowlet-alb/

返回资源中心

最新动态

交换机上的 DHCP 侦听(DHCP Snooping)功能和配置示例

近期文章


什么是 DHCP 侦听

DHCP侦听(DHCP snooping)是一种部署在以太网交换机上的网络安全机制,用于阻止未经授权的 DHCP 服务器为客户端分配 IP 地址。该机制通过检查 DHCP 消息并仅允许来自受信任端口的 DHCP 消息通过,从而防止非法 IP 地址分配,确保网络环境安全稳定。

为什么需要DHCP侦听?

在企业、校园甚至公共网络中,与 DHCP 相关的问题并不少见,而且它们可能会造成严重的网络中断。有时,仅仅是配置错误的设备意外地充当了 DHCP 服务器,分配了错误的 IP 地址,导致连接中断。有时,问题更为严重,例如攻击者设置了恶意 DHCP 服务器,通过虚假网关或 DNS 服务器重新路由用户,从而为中间人攻击打开了方便之门。即使是客户端手动为自己分配静态 IP 地址,也可能造成混乱,引发冲突,并使网络安全管理更加困难。

项目 DHCP 静态 IP
分配方法 由服务器自动分配 手动配置
管理努力 低,适合大规模部署 高,需要单独设置
解决稳定性问题 每次设备连接时可能会发生变化 固定不变
设置效率 快速、即插即用 速度慢,需要手动输入
适合 最终用户设备、动态环境 服务器、打印机、关键设备
安全 需要配合保护机制(例如 DHCP 侦听) 更可控,但有手动配置错误的风险

DHCP 侦听的好处

  • 阻止恶意 DHCP 服务器干扰网络。
  • 确保客户端收到准确的 IP 地址和网络配置。
  • 通过降低攻击风险来增强网络安全。

DHCP 侦听如何工作?

要真正理解DHCP 监听的工作原理,首先必须清楚了解DHCP(动态主机配置协议)的工作原理。当设备加入网络且尚未获得 IP 地址时,它会发起与 DHCP 服务器的对话——这是一个四步握手过程,包括:发现 (Discover )、提供 (Offer)、请求 (Request)和确认 (Acknowledge )。可以将其视为设备和服务器之间获取 IP 身份的快速协商过程。下图详细分析了此动态交换过程中每个步骤的具体细节。

在启用 DHCP Snooping 的网络中,交换机接口分为两个主要角色:可信端口不可信端口。

  • 可信端口:这些端口连接到合法的 DHCP 服务器或上行链路设备(例如路由器或核心交换机),并被允许发送 DHCP 服务器消息(例如 DHCP OFFER、DHCP ACK)。
  • 不受信任的端口:这些端口连接到常规客户端(例如,PC 或打印机),并且仅限于发送 DHCP 客户端消息(例如,DHCP DISCOVER、DHCP REQUEST)。
  • 默认情况下,所有端口都是不受信任的;必须手动配置受信任的端口。

DHCP 消息过滤

  • 来自不受信任端口的 DHCP 服务器消息(例如 DHCP OFFER、DHCP ACK)将被丢弃,以防止恶意 DHCP 服务器运行。
  • 客户端请求(例如,DHCP DISCOVER、DHCP REQUEST)可以来自不受信任的端口,但服务器响应只允许来自受信任的端口。

DHCP绑定表

  • DHCP 侦听维护一个绑定表,其中记录每个客户端的 MAC 地址、分配的 IP 地址、租用期限、VLAN 和端口信息。
  • 该表用于验证后续流量,防止 IP 地址欺骗。

与 IP Source Guard 集成

DHCP 侦听通常与 IP 源防护配合使用,根据绑定表过滤流量,仅允许分配的 IP 地址从客户端发送数据,阻止未经授权的 IP。

支持 DHCP  option 82(可选)

DHCP 侦听可以插入或处理 DHCP option 82(中继代理信息),为 DHCP 服务器提供有关客户端端口和交换机的详细信息,从而实现更精确的 IP 分配。

DHCP 侦听可以防范哪些常见网络攻击

DHCP 侦听可有效缓解以下网络威胁:

恶意 DHCP 服务器攻击

  • 工作原理:攻击者设置未经授权的 DHCP 服务器来分发不正确的 IP 地址、网关或 DNS 服务器。
  • 影响:客户端流量被重定向到攻击者的设备,从而实现 MITM 攻击、流量拦截或 DNS 欺骗。
  • 防御:DHCP 侦听会丢弃来自不受信任端口的服务器消息,仅允许受信任的端口发送 DHCP 响应。

DHCP 饥饿攻击

  • 工作原理:攻击者利用 DHCPDISCOVER 请求淹没网络,耗尽 DHCP 服务器的 IP 地址池。
  • 影响:合法客户端无法获取IP地址,导致网络服务中断。
  • 防御:当与端口安全或每个端口的速率限制 DHCP 请求相结合时,DHCP 侦听可以防止过多的流量压垮服务器。

中间人(MITM)攻击

  • 工作原理:恶意 DHCP 服务器分配虚假网关或 DNS 服务器,通过攻击者的设备路由客户端流量。
  • 影响:攻击者可以监控、修改或重定向客户端通信。
  • 防御:DHCP 侦听确保仅处理受信任的 DHCP 消息,从而阻止恶意配置。

IP欺骗攻击

  • 工作原理:客户端手动配置未经授权的 IP 地址来冒充合法主机。
  • 影响:这可能导致 IP 冲突、网络中断,或成为进一步攻击的垫脚石。
  • 防御:通过与 IP Source Guard 和 DHCP 绑定表集成,DHCP Snooping 可以阻止来自未经授权的 IP 地址的流量。

DHCP 侦听的应用场景

  1. 公共网络:在咖啡店、酒店或共同工作空间等环境中,恶意用户可能会部署恶意 DHCP 服务器来窃取数据或发起攻击。
  2. 企业网络:具有多个部门或 VLAN 的大型网络依靠 DHCP 侦听来确保客户端连接到正确的 DHCP 服务器。
  3. 高安全性环境:在需要遵守数据保护法规和其他有保密等级要求的环境中,DHCP 侦听功能有助于防止未经授权的访问。
  4. 防范 DHCP 欺骗:它减轻了客户端被重定向到恶意网关的风险,增强了整体网络安全性。

配置示例

传统方式-手动配置

configure Terminal #进入系统配置视图
dhcp snooping enable{v4|v6} #启用DHCP Snooping功能,默认禁用。
interface ethernet  interface-id  #进入接口视图
dhcp-snooping enable #启用DHCP Snooping功能,默认禁用。
dhcp-snooping trusted #设置端口的信任状态,默认不信任。

sonic# configure terminal
sonic(config)# dhcp snooping enable v4
sonic(config)# interface ethernet 20
sonic(config-if-20)# dhcp-snooping enable
sonic(config-if-20)# dhcp-snooping trusted

云化配置方式 – 图形化配置

星融元的云化园区网络解决方案,通过一个开源、开放架构(基于OpenWiFi)的网络控制器来为有线无线网络设备下发配置,进行开局配置时在交换机上会默认开启DHCP Snooping,有效防止 DHCP Server 仿冒者攻击,使 DHCP 客户端能够通过合法的DHCP 服务器获取 IP 地址,管理员无需关注不同设备的信任接口与非信任接口,而是通过控制器的拓扑信息自动生成。

ACC

根据当前网络的所需的安全等级,管理员可在控制器界面上自行选择是否还需要开启ARP检测(DAI)和IP源攻击防护(IPSG)功能,该功能主要是通过全局的 DHCP Snooping 表项判断主机是否合法,不仅可以防止恶意主机伪造合法主机访问网络,同时还能确保主机不通过自己指定 IP 地址的方式来访问或攻击网络,造成可能的IP 地址冲突。

更多配置流程请参考:完整流程揭秘:30分钟搞定中大型园区网络业务开通,可行吗?

返回资源中心

最新动态

智算网络路径质量三要素:带宽/队列/时延在智能选路中的协同优化

近期文章


在长期服务于用户AI训练/推理生产网络的实践中,我们深刻观察到传统静态或简单度量(如跳数)的选路策略难以满足高性能AI集群网络的严苛要求。AI工作负载,特别是涉及大规模参数同步(如All-Reduce操作)和RDMA(如RoCEv2)流量时,对网络的带宽可用性、低延迟和极低抖动有着近乎极致的需求。

网络路径上的微小波动,如短暂拥塞导致的队列积压或转发延迟增加,都可能显著拖慢整个训练作业的完成时间,造成昂贵的算力资源浪费。

智能选路的路径质量如何判定?

为了从根本上优化AI流量的传输效率并最大化集群利用率,我们设计并实践了基于多维度网络状态感知的动态智能选路技术。该技术的核心创新在于,聚焦关键影响因子,摒弃单一指标,精准识别并引入在AI集群网络环境中对性能影响最为显著的动态参数作为核心计算因子:

  • 实时带宽利用率:精确测量路径上关键链路的当前可用带宽。避免将高吞吐量的AI流量(如梯度同步)引导至已接近饱和的链路,防止拥塞崩溃和PFC反压风暴。
  • 队列深度/使用情况: 直接监控网络设备(交换机)出口队列的瞬时和平均深度。队列深度是拥塞的先行指标,深度过大意味着数据包排队等待时间(Bufferbloat)增加,直接导致传输延迟上升和抖动加剧,这对依赖确定性的RDMA和集合通信操作是致命的。
  • 转发时延/延迟变化: 不仅测量路径的基础传播延迟,更关键的是持续监测数据包转发处理延迟及其变化(抖动)。这反映了设备本身的处理能力和当前负载状态,高或波动的处理时延会破坏AI流量的同步性。

智能选路中的统计计数:ASIC赋能的高精度数据采集

在动态智能选路系统的实现中,带宽利用率与队列深度这两大关键指标的采集直接依赖于网络设备的ASIC硬件级能力。具体而言:

硬件级实时监测(百毫秒级精度)

ASIC芯片内置的硬件寄存器持续执行线速统计,对每个端口的字节转发计数(Byte Counter) 和各优先级队列的缓存占用计数(Queue Depth Counter) 进行原子级累加。这种基于硅片级电路的计数机制摆脱了软件轮询的延迟与性能开销,可实现百毫秒级精度的数据捕获,精准反映瞬时网络拥塞状态。

控制面高效采集(亚秒级同步)

运行于设备控制面的SONiC网络操作系统,通过标准化的SAI(Switch Abstraction Interface)接口以亚秒级周期(通常为500ms) 主动读取ASIC寄存器的统计快照。此设计确保控制面能够近乎实时地感知转发芯片的状态变化,为动态选路提供高时效性数据输入。
统计计数

流水线式数据处理与存储

采集的原始计数器数据通过以下高效流水线处理:

  • ① 增量计算:SAI层将本次读数与上次读数做差,计算出时间窗口内的实际流量增量(ΔBytes)与队列深度变化值(ΔQueue-Occupancy)。
  • ② Redis高速缓存:处理后的增量数据被写入内存数据库Redis的时序结构(TSDB)中,形成带时间戳的指标序列。此架构满足高吞吐、低延迟的数据存取需求,为后续分析提供支撑。

BGP宣告的优化设计(秒级间隔)​

若按ASIC的亚秒级精度(如每100ms)通过BGP宣告路径质量,会导致控制面压力剧增,频繁生成和传输BGP Update消息,占用CPU和带宽资源。微秒级变化也可能触发不必要的路由更新,影响网络稳定性。所以,采用秒级间隔​(例如每秒1次)向邻居发送BGP Update消息,携带加权平均后的路径质量值。路径质量通过BGP扩展社区属性​(如Path Bandwidth Extended Community)传递,格式为浮点数(单位Gb/s)

纳秒级时延测量:INT与HDC技术负载均衡中的深度应用

转发时延计算因子基于INT(In-band Network Telemetry)技术,精度可达纳秒级。HDC(High Delay Capture)是一种能捕获ASIC中经历高延迟的数据包信息的INT技术。

INT硬件流水线实现原理

数据包进入交换机ASIC时,入口流水线在包头插入INT Shim头部,并记录精确入端口时间戳(基于芯片级高精度时钟,分辨率达纳秒级)。转发过程中,每个流水线阶段(如Ingress/Egress队列)实时追加时延元数据。包离开出口队列时,ASIC计算,此设计消除了交换机基础转发延迟的影响,仅保留队列排队时延这一关键变量。

HDC(高延迟捕获)技术深度解析

HDC是INT的功能扩展,专为捕捉网络中的尾延迟(Tail Latency) 事件设计。只捕获超过用户预设阈值(如10μs)的异常延迟报文,实现靶向抓包而非全量监控。ASIC硬件实时比对报文时延与阈值——当报文在队列/缓存中的滞留时间超过阈值,立即触发抓取动作。并将原始数据包的前150字节连同INT元数据(包含出入端口、时延等关键信息)作为HDC数据包发送到收集器。

INT

动态阈值触发机制

  • 用户可基于业务需求设置多级延迟阈值(如:关键RDMA流:>5μs、普通TCP流:>50μs)
  • ASIC硬件实时比对每个包的实际队列时延与阈值,触发零拷贝抓包。

元数据结构化封装

HDC告警包包含两类关键信息:

  • 原始包摘要:截取L2-L4层头部(150字节),保留五元组、TCP标志位等特征
  • INT元数据:

hdc

落地实践:AI RoCE交换机上的智能选路

动态智能选路技术在星融元交换机上开启HDC功能,并将CPU作为HDC的收集分析器,通过分析HDC报文实现高精度测量交换机转发时延,并将时延信息作为路径质量评价因子,提高路径质量评价精度。

HDC

命令行配置HDC功能控制INT进程运行,之后通过socket连接进行收包循环,将收取到的报文进行解析并将关键信息(出入端口、转发时延等)写入数据库。

RoCE交换机

返回资源中心

最新动态

推理性能提升30%?RoCE vs InfiniBand实测数据大揭秘!

近期文章


在人工智能与大数据技术爆发的时代,算力基础设施的革新成为驱动产业升级的核心引擎。作为 AI 数据中心网络架构的关键枢纽,800G 智能交换机正以其极致的性能、灵活的扩展性和智能化的管理能力,重新定义高速网络的标准。

本文将深度解析 AI 智算场景打造的800G AI RoCE交换机,从外部规格的硬件创新到内部架构的芯片级设计,从企业级操作系统的功能突破到实测数据的性能验证,全方位展现其如何通过领先的技术架构破解 AI 训练与推理中的网络效率瓶颈,助力数据中心在高带宽、低延迟、高可靠性的需求下实现算力资源的最优配置。

算力基础设施—AI 智算RoCE网络交换机

外观展示

这款 800G AI 智能交换机在配备了 64 个 800G OSFP 网络接口,能够支持25G/50G/100G/200G/400G 等多种速率,可灵活适配不同的网络环境需求。

配图

管理接口提供了 RJ45 MGMT Port、USB 2.0 Port 以及 RJ45 Console Port,为设备的管理和配置提供了丰富的选择。还具备 2 个 10G 端口,可作为 INT 端口用于其他管理功能,为设备的扩展应用提供了可能。

交换机设有 6 个 LED 指示灯,左侧的 LED 指示灯(LINK/ACT)用于展示管理口的网络链路状态和数据活动情况,右侧的 LED 指示灯(SYS)则显示系统整体状态,此外还有 BMC(面板管理控制器状态)、P(电源模块状态)、F(风扇模块状态)和 L(定位指示灯,用于维护期间识别设备),通过这些指示灯,运维人员可以快速了解设备的运行状况。

采用 1+1 热插拔电源设计,每个电源额定功率 3200W,且符合 80Plus 钛金能效标准,确保了设备供电的稳定和高效。同时,配备 3+1 个热插拔风扇模块,为设备的散热提供了可靠保障。

内部架构

配图

采用了 Marvell Teralynx 10 ASIC(以下简称TL10),这是一款 5 纳米单芯片可编程处理器,能提供 51.2Tbps 带宽和约 560 纳秒的端口转发时延,在业内处于领先水平。更详细的内部架构请参见:51.2T 800G AI智算交换机软硬件系统设计全揭秘

散热设计上,采用 3D 均热风冷散热,这种高效的风冷设计使系统在 2180W 满负荷运行时仍能有效控制温度和噪音,即便在高负荷使用状态下,风扇转速仅为 60%,保证了设备的稳定运行和良好的工作环境。

精确时间协议 PTP 模块支持热插拔,PTP 和 SyncE 同步精度高达 10 纳秒,为对时间同步要求高的应用场景提供了有力支持。

COMe 模块由 x86 英特尔至强处理器和 AsterNOS 驱动,为先进的数据中心 / 人工智能路由提供智能控制平面。面板管理控制器(BMC)模块采用可插拔式设计,适用于模块化、可升级的带外管理,支持性能升级扩展,增强了设备的可扩展性和灵活性。

AI RoCE 交换机操作系统(AsterNOS)

基于企业级SONiC的增强特性

  • 超高速以太网优化:通过动态流量整形和优先级队列技术,实现网络利用率超90%,较传统以太网提升30%。
  • AI场景专属功能:flowlet级负载均衡:根据GPU集群负载动态分配流量,减少数据拥塞。INT+WCMP路由:结合带内遥测与加权多路径算法,训练任务延迟降低20.4%,token生成速率提升27.5%。

配图

  • EasyRoCE EasyRoCE 是星融元依托开源、开放的网络架构与技术,为AI 智算、高性能计算等场景的RDMA 融合以太网(RoCE)提供的一系列实用特性和小工具。从前期规划实施到日常运维监控, EasyRoCE 简化了各环节的复杂度并改善了操作体验,更提供二次开发和集成空间,供网络架构师充分利用开放网络的最新技术成果。(RE)RoCE Exporter:以容器的方式运行在AsterNOS网络操作系统内,从运行AsterNOS的交换机设备上导出RoCE网络相关监控指标(到自定义HTTP端口),供统一监控平台进行可视化呈现。

  • 接口收发带宽和速率
  • RoCE、PFC、ECN、DSCP配置状态信息
  • 拥塞控制信息(ECN标记包,PFC帧数等)
  • 队列Buffer信息
  • ……

企业版 SONiC vs 社区版

SONiCSONiCSONiC

AsterNOS 同时支持 Linux Bash 和思科风格命令行界面(Klish),这种双风格命令行界面帮助网络工程师轻松适应并快速部署,提升了操作的便利性和效率。

AsterNOS

800G 数据中心交换机(TL10平台)实测数据

实测数据

CX864E-N蛇形吞吐测试

实测数据

CX864E-N的端口转发时延

实测数据展示了该交换机在不同测试场景下的出色表现,各项指标均达到较高水平,验证了其性能的稳定性和可靠性。

DeepSeek模型推理指标对比:IB vs RoCE

  • 推理时延:90% token 间隔延迟,指 90% token 间隔时间的最大值,用以衡量模型连续生成 token 的稳定性和连贯性。推理时延越低,系统的稳定性越高。
  • Token 平均生成速率(Token Generation Rate):单位为 token 每秒(tokens/s)。反映了模型推理的整体吞吐能力,TGR 越高,表示系统单位时间内处理能力越强。

推理时延

Token生成速率

与IB网络场景下数据对比可见,星融元RoCEv2组网,推理时延明显优于IB,token 连贯性更好;token生成速度、中文字符速度明显优于IB。

800G AI智能交换机通过硬件革新与AsterNOS软件协同,为AI算力集群与超大规模数据中心提供“高吞吐、低时延、易运维”的一站式解决方案。其模块化设计、企业级SONiC支持及RoCEv2性能优势,正加速AI基础设施向开放解耦、智能高效的下一代架构演进。

返回资源中心

最新动态

高效转发+智能管理:MPLS技术如何应对多业务挑战?

近期文章


随着现代企业园区网络和运营商级基础设施的不断发展,多协议标签交换 (MPLS) 已成为一项基础技术,这要归功于其高效的数据包转发、高级流量工程功能以及对多租户环境的强大支持。

什么是MPLS?

MPLS(多协议标签交换,Multiprotocol Label Switching)是一种基于标签的转发技术,结合了二层交换的简捷性与三层路由的灵活性。通过预分配的标签(Label)替代传统IP路由的逐跳查表,提升转发效率。

MPLS起源于IPv4(Internet Protocol version 4),其核心技术可扩展到多种网络协议,包括IPv6(Internet Protocol version 6)、IPX(Internet Packet Exchange)和CLNP(Connectionless Network Protocol)等。MPLS中的“Multiprotocol”指的就是支持多种网络协议。

由此可见,MPLS并不是一种业务或者应用,它实际上是一种隧道技术。这种技术不仅支持多种高层协议与业务,而且在一定程度上可以保证信息传输的安全性。

核心组件:LER(标签边缘路由器)、LSR(标签交换路由器)、FEC(转发等价类)。

工作原理

  1. 标签分配:入口路由器(LER)为数据包分配标签,标签对应转发路径(LSP)。
  2. 标签交换:中间路由器(LSR)根据标签转发表(LFIB)快速转发,无需解析IP头部。
  3. 标签移除:出口路由器(LER)剥离标签,恢复原始IP数据包。

MPLS工作原理

标签结构

MPLS 标签是一个紧凑的 32 位报头,包含四个关键字段:

MPLS标签结构

  • 标签 (20 位) — 标识通过 MPLS 网络的路径 (LSP)
  • EXP(3 位)— 用于 QoS(服务质量)标记或流量优先级
  • S (1 bit) – 堆栈标志的底部;指示这是否是堆栈中的最后一个标签
  • TTL(8 位)– 生存时间;通过限制数据包的生命周期来防止路由循环

为什么需要MPLS?

在传统IP网络架构中,基于三层路由的转发机制逐渐暴露很多问题。

首先,转发效率低下的问题尤为突出,由于每台路由器都需要逐跳解析IP报文头部并查询路由表,这种反复查表的机制在大流量场景下会产生显著延迟,难以满足数据中心或运营商核心网的高吞吐需求。

其次,传统路由技术对路径控制能力薄弱,完全依赖OSPF、BGP等动态路由协议自动选路,既无法主动规避拥塞链路,也无法为特定业务指定优化路径,导致网络资源利用率低下。

更棘手的是多业务隔离难题,VLAN受限于4096个ID的规模上限,ACL策略管理复杂度随业务增长呈指数级上升,这种基于二层的隔离方案难以支撑跨地域、多租户的现代组网需求。

MPLS技术的核心功能

服务质量(QoS)

MPLS在QoS中的应用主要体现在其对网络流量优先级管理的精细化能力上,而EXP字段(Experimental Bits,后更名为Traffic Class字段)是两者结合的核心纽带。MPLS如何实现QoS保障?在MPLS网络入口(LER),根据业务类型(如语音、视频、普通数据)为流量分配EXP值,可通过手动配置或自动映射(如将IP层的DSCP值转换为EXP值)。LSR根据EXP值分为不同优先级队列,优先转发低延迟流量(SP)和按比例分配剩余带宽(WFQ)。当链路拥塞时,低EXP值的流量可能被丢弃(如TCP流量),而高EXP值的流量(如VoIP)始终保障带宽,此外,再结合RSVP-TE等协议实现关键业务(如语音、实时视频)的带宽保障和低抖动传输,构建起从转发效率到业务体验的全方位优化体系。

流量工程(TE)

TE通过MPLS技术解决了传统IP网络无法实现的精细化流量控制需求,通过显式路径(Explicit Path)手动或策略驱动流量走向,均衡负载或避开瓶颈链路,从而优化网络性能。

业务隔离与VPN

传统VPN一般是通过GRE(Generic Routing Encapsulation)、L2TP(Layer 2 Tunneling Protocol)、PPTP(Point to Point Tunneling Protocol)等隧道协议来实现私有网络间数据在公网上的传送,而MPLS LSP是通过标签交换形成的隧道,数据报文不再经过封装或者加密,因此,用MPLS实现VPN具有天然的优势。

基于MPLS的VPN通过LSP将私有网络的不同分支联结起来,形成一个统一的网络,如图所示。基于MPLS的VPN还支持对不同VPN间的互通控制。这对于企业和运营商网络至关重要。

  • CE(Customer Edge)是用户边缘设备,可以是路由器,也可以是交换机或主机。
  • PE(Provider Edge)是IP/MPLS骨干网的边缘设备。
  • P(Provider)是IP/MPLS骨干网的骨干设备,不与CE直接相连。P设备只需要具备基本MPLS转发能力,不维护VPN信息。

业务隔离与VPN

如何基于业务场景与技术特性选择最优网络方案?
对比维度MPLS传统IP路由SD-WANSegment Routing
转发效率高(标签快速交换)低(逐跳查表)中(依赖隧道封装)高(类似MPLS)
路径控制支持显式路径和流量工程依赖动态路由协议动态智能选路灵活源路由
多业务隔离通过VPN实现逻辑隔离VLAN/ACL,扩展性差有限(依赖Overlay)需结合其他技术(如VXLAN)
部署成本高(依赖专用设备和运营商专线)低(利用互联网链路)中(需升级硬件支持)
适用场景企业专网、运营商核心网中小型园区网络跨地域互联、云访问优化数据中心、大规模骨干网
服务质量(QoS)强(基于EXP/DSCP优先级标记)中(依赖链路质量监测)中(需策略配合)

AsterNOS:软件定义架构下的MPLS转发技术革新

SONiC(Software for Open Networking in the Cloud) 是开源社区的网络操作系统,其核心目标是构建开放、解耦的云数据中心网络架构。作为全球首个完全开源的网络操作系统,SONiC基于Linux内核设计,支持标准化硬件(如白盒交换机)与容器化微服务架构,通过模块化组件(如SAI——交换机抽象接口)实现灵活的功能扩展。其开源特性吸引了全球云服务商、运营商及企业的广泛参与,逐步成为云原生网络的事实标准。

尽管社区版 SONiC 通过模块化设计为云数据中心提供了开放灵活的基础架构,但其在复杂协议支持上的短板始终制约着企业级场景的深度应用。以MPLS为例,社区版本需依赖第三方扩展或定制化开发,导致功能碎片化、性能不稳定,难以满足金融专网、跨云互联等高可靠性需求。

AsterNOS基于 SONiC 的开放式园区交换机的完整产品组合现在完全支持 MPLS,它提高了数据包转发速度,支持精细的流量控制,并支持多协议环境,使其成为电信、企业 WAN 和云数据中心中的大规模网络不可或缺的工具。

这种“开源基因+商业级能力”的融合,使得AsterNOS既能继承开源生态的灵活性,又能以超前技术布局填补开源生态与商业需求间的鸿沟。

返回资源中心

最新动态

预支持6GHz频段设计:WiFi 7硬件已为未来政策开放做好技术储备

近期文章


从WiFi 6到WiFi 7:技术升级的核心突破

WiFi7(IEEE 802.11be)作为新一代无线通信标准,在WiFi 6的基础上实现了多维度的技术跃迁,主要体现在以下4个方面:

带宽与速率的指数级提升

WiFi7的最大理论速率达到46Gbps,是WiFi6(9.6Gbps)的5倍。这一飞跃得益于320MHz信道带宽的引入(WiFi6为160MHz),相当于将数据传输的“高速公路”拓宽至双车道。

WiFi 7 - 320MHz

此外,4096-QAM调制技术的应用使单符号数据承载量从WiFi6的10比特提升至12比特,传输效率提高20%。例如,下载一部50GB电影,WiFi7仅需8秒,而WiFi6需42秒。

Wi-Fi7 -4096-QAM

多链路操作(MLO)的革命性突破

WiFi7支持跨频段(2.4GHz、5GHz、6GHz)的多链路聚合传输,既可提升速率(如双频叠加实现翻倍带宽),又能增强抗干扰能力。例如,当某一频段受阻时,数据可自动切换至其他频段,显著降低断连风险。相比之下,WiFi6仅支持单频段传输,灵活性受限。

WiFi 7 - MLO

空间流与MIMO技术的扩展

WiFi7的16×16 MIMO(多输入多输出)技术可同时处理16条数据流,是WiFi6(8条)的两倍,大幅提升了高密度场景下的设备容量。这一特性尤其适用于机场、体育场馆等万人级并发场景。结合多链路操作(MLO),可跨2.4GHz/5GHz/6GHz频段同时调度16条空间流,理论容量翻倍。

标准最大空间流数典型MIMO配置关键技术突破
WiFi6 (802.11ax)88×8OFDMA+MU-MIMO协同调度
WiFi7 (802.11be)1616×16多频段协同MIMO

频谱利用与抗干扰优化

新增的6GHz频段与动态频谱分配技术,缓解了2.4GHz/5GHz频段的拥堵问题。同时,Multi-RU(资源单元聚合)技术允许将多个RU(如小规格RU或大规格RU)组合分配给同一用户,支持非连续频谱聚合,例如将两个80MHz频段合并为160MHz,或在复杂干扰环境中动态调整RU分配,以进一步提升频谱效率。

WiFi 7

尽管WiFi 7的技术指标令人振奋,但其在国内的落地进程却面临多重现实挑战,需结合技术优势与市场环境探索破局路径。

国内WiFi7发展的困境

当前实际应用中,6GHz优先用于移动通信,WiFi 7 AP 无法使用该频段(国内仅限5GHz),导致其 320MHz 超宽频带、4096QAM 等技术优势难以完全发挥?

支持 WiFi 7 的手机、电脑等终端设备不足 10%,企业和家庭用户担心部署后因设备兼容性差,无法实现预期的高速体验,造成资源浪费?

破局之道:立足现有优势,挖掘场景化潜力

在当前的无线网络环境中,频段资源受限已成为制约性能提升的重要瓶颈,尤其在新建或扩容场景下,传统WiFi技术难以满足高密度接入和低时延的严苛需求。然而,随着WiFi 7技术的推出,这一问题得到了革命性突破——即便不依赖尚未全面开放的6GHz频段,其性能表现也已远超WiFi 6,为用户提供了更优的解决方案。

  1. 多链路操作(MLO),通过同时利用2.4GHz和5GHz双频段传输数据,WiFi 7实现了链路聚合与动态调度,大幅提升网络稳定性和抗干扰能力。这一技术尤其适用于复杂电磁环境,确保用户在多设备并发时仍能获得流畅体验。
  2. 增强TWT+节能调度,相比WiFi 6的固定时隙分配(如“定时闹钟”),WiFi 7的智能节能调度可根据设备需求动态调整唤醒时间,显著降低多设备场景下的功耗,同时保持更稳定的时延控制。这种优化对智能家居、物联网设备等高密度部署场景尤为重要。
  3. 4096QAM高密度传输,在现有5GHz频段中,WiFi 7通过更高阶的调制技术(4096QAM)实现数据密度提升,单链路速率较WiFi 6增加20%以上。这意味着无需依赖新频段,用户即可享受更快的传输速度和更高效的频谱利用率。
  4. 预支持6GHz频段,WiFi 7硬件已提前兼容6GHz频段,一旦政策开放,用户无需更换设备即可直接扩展至更宽裕的频谱资源。这种“一步到位”的设计既降低了未来升级成本,又为超高速、低延迟应用(如8K流媒体、元宇宙交互)提供了技术储备。
功能/型号CAP7020-Z(双频)CAP7030-Z(三频)产品链接
接口1个10/100/1000/2500Mbps 自适应WAN 口1个10/100/1000/2500Mbps 自适应WAN 口1个10/100/1000/2500Mbps自适应LAN 口1个10Gpbs的SFP+光口
存储512M RAM + 128M NAND1024M RAM + 128M NAND
频段2.4GHz(688Mbps ) 和 5GHz (2882Mbps)2.4GHz(688Mbps ) 和 5.1GHz (2882Mbps)和5.8Ghz(2882Mbps)
吞吐3.6Gbps6.4Gbps
用户数128+192+
SSID数量8(2.4G)+8(5G)8(2.4G)+8(5.1G)+8(5.8G)
天线2 x 2 2 x 2 x 2
天线增益2.4GHz:2×4dBi5GHz:2×4dBi2.4GHz:2×1.7dBi5.1GHz:2×4dBi5.8Ghz:2x4dBi
功耗< 20W< 36W
供电PoE 802.3at,DC2.0 12V/2APoE 802.3bt,DC2.0 12V/3A
  • 优先购买支持三频(含6GHz)的WiFi 7路由器,为未来政策开放预留升级空间。
  • 在6GHz未开放地区,利用5.8GHz高频段低干扰特性优化现有网络。

返回资源中心

最新动态

InfiniBand与RoCEv2负载均衡机制的技术梳理与优化实践

近期文章


在人工智能迅速发展的今天,大模型训练已成为推动技术进步的核心动力。然而,随着大模型规模的不断扩大和训练需求的增加,智算网络面临的挑战也日益严峻。网络作为连接计算集群的重要基础设施,其性能直接影响着AI训练的效率和效果。

智算网络的主流架构

目前智算网络的领域的两大主流架构:InfiniBand 和RoCEv2 在性能、成本、通用性等多个关键维度上展现出各自的优势,相互竞争。我们将细致分析这两种架构的技术特性、它们在 AI 智算网络中的应用场景,以及各自的优势和局限性。

InfiniBand

InfiniBand 网络主要通过子网管理器(Subnet Manager,简称 SM)来进行集中管理。SM 通常部署在子网内的某台服务器上,充当网络核心控制器。通过 SM 的集中控制,InfiniBand网络实现了拓扑发现、路径优化、故障恢复等功能的自动化,保障高性能与高可靠性。

Infiniband 架构

InfiniBand网络架构示意图(来源:2023智算中心网络架构白皮书)

RoCEv2

RoCE(RDMA over Converged Ethernet)协议是一种能在以太网上进行 RDMA(Remote Direct Memory Access 远程内存直接访问)的集群网络通信协议。RoCEv1作为链路协议层,要求通信双方位于同一二层网络内。而RoCEv2 则为网络层协议,它采用以太网网络层和 UDP 传输层,取代了 InfiniBand 的网络层,从而提供了更为优秀的可扩展性。与 InfiniBand 网络的集中管理方式不同,RoCEv2 采用的是纯分布式架构,通常由两层构成,在扩展性和部署灵活性方面具有显著优势

RoCEv2 架构

RoCEv2网络架构示意图(来源:2023智算中心网络架构白皮书)

智算网络中的负载均衡与流量控制

AI大模型时代下,数据中心与智算网络,如Spine-Leaf架构,拓扑规整,选路简易。就网络流量模式而言,GPU服务器间常存在多条并行路径,如Fat tree网络中会有数十条。

如何在这些路径中实现负载均衡路由,成为智算中心路由设计的核心挑战。

InfiniBand网络的负载均衡和流控机制

InfiniBand网络通过多层次技术协同,实现了高效的数据传输与资源管理。在负载均衡方面,子网管理器(SM)作为核心调度者,首先基于最短路径算法构建初始路由表,为流量分布奠定基础。尽管SM的动态路径优化能根据链路负载实时调整路径,但其对控制带宽和计算资源的消耗不容忽视。为进一步提升灵活性,自适应路由(AR)技术应运而生,允许交换机基于队列深度、拥塞情况等实时状态独立选择路径,既降低了延迟,又增强了网络可靠性。

然而,AR的动态特性可能导致数据包乱序,这需要上层协议或应用进行额外处理。为弥补单一路径的局限性,应用程序还可通过创建多个队列对(QP),利用硬件队列的并行传输能力分散流量,例如MPI库或Lustre存储中间件通过任务分配避免路径瓶颈,形成应用层与网络层的双重负载均衡。

负载均衡机制的高效运行,离不开底层流控机制的强力支撑。InfiniBand采用信用令牌(credit)系统,在每条链路上预设缓冲区,确保发送端仅在确认接收端资源充足时传输数据,从根本上避免了缓冲区溢出或丢包问题。与此同时,网络还结合逐包自适应路由技术,为每个数据包独立选择传输路径,实时响应拥塞、延迟等状态变化。这种细粒度的动态调整能力,不仅与信用令牌机制形成互补,更在超大规模网络中实现了资源的实时优化配置,使负载均衡从局部扩展到全局。

由此可见,InfiniBand通过负载均衡与流控机制的深度耦合,构建了一个兼具敏捷性、可靠性与扩展性的高性能网络架构。

RoCE网络的负载均衡和流控机制

RoCE负载均衡机制

图片引用自:公众号西北吹风

负载均衡技术

1、基于流(Flow-based)ECMP(Equal Cost Multi Path)是一种路由技术,用于在IP交换网络中实现负载均衡。即等价多路径路由,当存在多条到达同一个目的地址的相同开销的路径,网络设备按照自有的Hash根据流量N元组计算多路径下一跳。由于通用计算以“多流”、“小流”为主,能够实现较好的负载均衡效果。

当AIDC中的大象流连续到达交换机,传统Hash通常会将大象流集中在少数链路上传输,庞大的数据流占用相当大的带宽资源,导致传输链路发生拥塞,而其他链路上则处于空闲。这种Hash不均导致了链路负载不均,进而出现拥塞和时延加剧。

2、基于包(Packet based)随机包喷洒(Random Packet Spraying,RPS)是一种基于包级别的负载均衡策略。当交换机发现有多条等价路径指向同一目的地址时,RPS会将数据包以单个包为单位分散到这些路径上。与ECMP不同,RPS以数据包为单位进行操作,将同一流中的不同数据包转发到不同的等价路径上。

RPS的优点在于简单易实施,通过细粒度的负载均衡,可以在多条并行路径之间实现较为均衡的路由选择,提升端到端的网络吞吐率,可以将并行链路利用率提高到90%以上。缺点在于可能会造成同一个流的包乱序问题,所以这种方式必须要解决乱序问题。

3、基于流片(Flowlet)Flowlet是根据流中的“空闲”时间间隔将一个流划分为若干片段。在一个flowlet内,数据包在时间上紧密连续;而两个flowlet之间,存在较大的时间间隔。这一间隔远大于同一流分片内数据包之间的时间间隔,足以使两个流分片通过不同的网络路径传输而不发生乱序。

Flowlet

4、基于遥测的路由 为了将包、flowlet或整个流调度到不同的路径上,需要路由协议的控制。传统的路由协议,基于静态的网络信息来计算最优路径,如OSPF基于网络带宽计算最短路径,BGP根据AS-PATH长度计算ECMP等。这种控制与网络实际负载脱节,需要加以改进,星融元提出的基于遥测的路由(Int-based Routing)技术结合OSPF、BGP和在网遥测(INT)技术,为网络中任意一对节点之间计算多条路径,每个路径的开销是动态测量的延迟,从而能够根据实时的网络负载进行路由,从而充分利用每个路径的带宽。

负载均衡机制

流控机制

1、优先流控制(PFC)是一种逐跳流控策略,通过合理配置水位标记来充分利用交换机的缓存,以实现以太网络中的无丢包传输。当下游交换机端口的缓存过载时,该交换机就会向上游设备请求停止传输。已发送的数据则会存储在下游交换机的缓存中,等到缓存恢复正常,端口将会请求恢复数据包的发送,从而维持网络的流畅运行。

【参考白皮书:https://asterfusion.com/priority-based_flow_control_pfc/

2、显式拥塞通知(ECN)定义了一种基于 IP 层和传输层的流量控制和端到端拥塞通知机制。通过在交换机上向服务器端传递特定拥塞信息,然后服务器端再发送至客户端通知源端降速从而实现拥塞控制的目的。

【参考技术手册:https://asterfusion.com/t20250416-ecn/

3、数据中心量化拥塞通知(DCQCN)是显式拥塞通知(ECN)和优先流控制(PFC)两种机制的结合,旨在支持端到端的无损以太网通信。

对比项InfiniBandRoCEv2
流控机制基于Credit的流控机制PFC/ECN,DCQCN等
转发模式基于Local ID转发基于IP转发
负载均衡模式逐包的自适应路由ECMP方式路由、基于包(Packet based)、基于流片(Flowlet)、基于遥测的路由
故障恢复Self-Healing Interconnect Enhancement for Intelligent Datacenters路由收敛
网络配置通过UFM实现零配置(按端口收费)手工配置、或基于开放网络技术实现的 EasyRoCE

技术选型

根据前文我们了解到,InfiniBand和RoCEv2是两种支持RDMA的高性能网络协议,但其负载均衡机制在实现方式、性能和应用场景上存在显著差异:

InfiniBand依赖专用硬件和动态自适应路由,通过子网管理器实时优化路径,实现超低延迟和高吞吐,但成本高且扩展受限,适合HPC/AI等极致性能场景

RoCEv2基于以太网,采用静态ECMP哈希多路径分发,成本低、扩展性强,但依赖无损网络配置(如PFC/ECN),易受哈希不均影响,适合云数据中心等性价比优先场景。虽然RoCE还是很难应对大象流/老鼠流分布不均的影响,但是各厂家也在做各种努力尝试:

WCMP

结合前文,ECMP技术将包、Flowlet或整个流均匀的分布到多个路径上,很大程度上忽略了不同路径上的实际负载。为了进一步提升网络利用率。星融元采用加权代价多路径(Weighted Cost Multiple Path)算法,基于遥测获取的时延等信息,在时延更低的路径上调度更多的流量,在时延更高的路径上调度更少的流量,从而实现所有路径的公平利用。在理想情况下,流量经过不同路径的总时延是相等的,可充分利用所有可用带宽。

星融元CX864E等超级以太网交换机通过支持Flowlet、基于遥测的路由以及WCMP(加权代价多路径)三大创新技术,将AI训练和推理网络的利用率提升至90%以上,从而加速AI训练和推理过程,为AI数据中心进一步节省建设成本和运营成本。

800G 51.2T

【参考文档】

返回资源中心

最新动态

园区网络新突破!vAsterNOS正式支持PTP高精度时间同步验证

近期文章


园区交换机运行起了 SONiC,是在卷生卷死的大环境下“杀鸡用牛刀”,还是引入了一场对园区传统建设运营范式的“降维打击”?与其猜测,不如亲自体验一番这款面向园区场景的 SONiC NOS —— AsterNOS Campus,一切自有答案。

当前,vAsterNOS Campus v6.0(GNS3/EVE-NG设备模拟器)已支持下载,全功能版本的试用/演示名额现正开放申请中 。

  • 下载和申请演示:https://asterfusion.com/d-vasternos/
  • 技术交流支持 :加入官方QQ群(群号:801700146),获取用户手册、配置案例及技术答疑服务。

AsterNOS 是星融元 Asterfusion 面向AI智算、通算云和企业园区等场景的一站式 SONiC 交钥匙解决方案的核心技术。其中 AsterNOS Campus v6.0是专为企业、校园及各类园区网络打造的企业级SONiC解决方案,具备丰富的L2/L3功能,如ACL、MSTP、QinQ、IGMP Snooping,OSPF/BGP等。

此外,AsterNOS Campus v6.0 还具备增强的MPLS L2VPN / L3VPN,PTP等高级功能,帮助企业和园区构建高效的多业务承载网络,实现跨域互联,并提供纳秒级别的时间同步,适用于对时间精度要求极高的业务场景。

星融元园区交换机及vAsterNOS虚拟化平台的开放生态中,PTP作为关键功能之一,为园区网络、工业自动化及AI算力场景提供了精准的时间同步能力,成为构建高可靠、低时延基础设施的核心支撑 。

什么是PTP?

PTP(精确时间协议,Precision Time Protocol) 是一种基于IEEE 1588标准的网络时间同步协议,旨在为分布式系统中的设备提供亚微秒级(甚至纳秒级)的高精度时钟同步。其核心目标是通过消除网络传输延迟的不确定性,确保跨设备的动作、数据采集或控制指令在严格统一的时间基准下执行。

什么领域需要PTP?

在园区网络中,随着物联网、工业自动化、金融交易和高清视频协作等应用的普及,设备间对高精度时间同步的需求日益增强。

传统网络时间协议(NTP)仅能提供毫秒级同步精度,难以满足微秒甚至纳秒级场景(如传感器协同、5G基站调度、分布式系统事务一致性)的严苛要求。

IEEE 1588定义的精确时间协议(PTP)通过硬件时间戳消除网络传输延迟误差,结合主从时钟架构动态补偿链路不对称性,可为园区内的摄像头工业控制器服务器集群等设备提供亚微秒级同步,保障实时业务时序精准性、故障诊断准确性及系统协同效率,成为智能园区低时延、高可靠组网的核心基础。

PTP的核心优势(对比NTP)

维度PTPNTP
同步精度微秒/纳秒级(硬件支持)毫秒级(软件实现)
延迟抖动通过硬件时间戳和TC/BC消除抖动受操作系统和网络波动影响
适用场景工业控制、5G、金融高频交易等办公、IT系统、通用服务
部署成本高(需专用硬件)低(纯软件)

PTP实现时间同步的核心机制

实现时间同步的两种核心机制:一步模式(单步模式) 与 两步模式(双步模式),主要区别在于时间戳的嵌入方式、网络开销及硬件依赖。以下是两者的对比解析:

两步模式(Two-Step)

  • 兼容性高 :适用于不支持硬件时间戳的设备,依赖软件处理。
  • 网络开销大 :需额外传输Follow_Up报文,增加带宽占用。
  • 抗干扰性弱 :在高负载网络中,Sync与Follow_Up报文可能因拥塞失序,导致同步误差。

PTP

主时钟先发送 Sync报文 ,记录其发送时刻 t1 ,随后通过 Follow_Up报文 将 t1 传递给从时钟。 从时钟接收Sync报文时记录接收时刻 t2 ,再发送 Delay_Req报文记录发送时刻 t3 ,主时钟响应 Delay_Resp报文返回接收时刻 t4。

在这些交换结束后,从属时钟拥有所有四个时间戳。因此,它可以计算出它的时钟相对于主时钟的偏移量为:偏移 = (t2 + t3 – t1 – t4) /2

一步模式(One-Step)

  • 高精度 :硬件级时间戳消除协议栈处理延迟,同步精度可达纳秒级 。
  • 低网络开销 :减少50%的PTP报文数量,降低网络负载。
  • 硬件依赖性强 :需PHY/MAC芯片支持硬件时间戳嵌入功能,成本较高 。

PTP

单步模式将时间戳直接嵌入Sync报文,无需Follow_Up报文: 主时钟在发送Sync报文时,硬件芯片实时标记 t1 并写入报文字段 。 从时钟接收Sync报文后,直接提取 t1 与本地记录的 t2 计算偏移和延迟。

特性一步模式两步模式
同步精度纳秒级(硬件时间戳)微秒级(软件时间戳)
报文数量少(无Follow_Up)多(需Follow_Up)
硬件要求需专用PHY/MAC芯片通用网络设备兼容
适用场景工业实时控制、高频交易普通办公网络、传统音视频传输

星融元园区交换机多款产品支持PTP功能,同步精度可达20ns?!

作为新一代开放网络解决方案提供商,其多款园区级交换机深度集成 IEEE 1588 PTP(精确时间协议) 功能,结合硬件加速、高精度时钟设计及基于SONIC自研AsterNOS网络操作系统,可为工业控制、金融交易、5G基站等场景提供纳秒级时间同步能力,最高精度可达 20ns,助力企业构建高可靠、低时延的智能网络底座。

园区产品

通过硬件与软件协同设计,星融元突破传统同步瓶颈:

  • 基于SONiC生态的PTP协议:基于SONiC的企业级发行版AsterNOS,结合开源linuxPTP项目(遵循IEEE 1588标准的PTP协议实现),通过自主研发的PTP功能与SONiC深度集成,拥有高精度、高可靠的时间同步能力。
  • 通过标准化接口实现灵活配置:AsterNOS提供丰富的RESTful API,用户可通过编程接口直接配置PTP参数(如主从时钟选择、同步间隔调整等),实现自动化运维。
  • 面向超低时延场景的优化:硬件平台(如CX854E-N)采用的Marvell TL10支持PTP的芯片,结合AsterNOS的软件优化,可实现纳秒级时间同步精度。通过内存数据库Redis实现模块间状态同步,可能用于实时记录和分发PTP时间戳数据,提升同步效率和系统可靠性。
  • 定制化开发与生态兼容性:支持多厂商芯片(如Marvell Teralynx(部分)、Prestera等),确保PTP在不同硬件平台上的兼容性,满足异构网络部署需求。

如需完整方案(含园区控制器)演示,欢迎拨打官方热线 400-098-9811 转产品咨询。

返回资源中心

最新动态

RoCE 无损以太网与简化 RoCE:性能与成本的博弈

近期文章


RDMA 网络技术是什么?

RDMA(远程直接内存访问)是一种网络通信技术,允许计算机直接访问远端主机内存,绕过操作系统内核和CPU干预,实现超低延迟、高吞吐量的数据传输。其核心机制包括零拷贝(消除数据缓冲复制)、内核旁路(减少软件栈开销)及网络协议卸载(由网卡硬件处理通信协议)。该技术最初用于高性能计算(HPC)存储网络,后扩展至云计算AI训练等场景。

主流协议

图1 RDMA网络技术原理

(RDMA) 技术允许设备直接读/写应用程序的内存,而无需与 CPU 或作系统交互,从而实现更高的吞吐量和更低的延迟。应用程序可以直接对网络设备进行编程,以对应用程序内存执行 DMA。

RDMA

图中,PoD1网络设备直接通过HCA(是RDMA专用的硬件组件)访问PoD2网络设备,绕过内核协议栈,实现零拷贝和低延迟。以下是RDMA三种主流协议:

InfiniBand(IB):

  • 原生支持RDMA,需专用InfiniBand网络设备和交换机。
  • 提供物理层到传输层的完整协议栈。

RoCE(RDMA over Converged Ethernet):

  • 在以太网上运行RDMA,分为RoCEv1(基于以太网链路层(不支持3层转发)和RoCEv2(基于UDP/IP)。
  • 依赖无损网络(通过PFC和ECN实现流量控制)。

iWARP(Internet Wide-Area RDMA Protocol):

  • 基于TCP/IP协议栈,支持广域网环境。
  • 通过TOE(TCP Offload Engine)将TCP处理卸载到网卡。

三种网络传输协议的优势和劣势对比表:

协议优势劣势
InfiniBand1.超低延迟:原生支持RDMA,延迟极低。
2. 高吞吐量:支持超高速传输(如EDR/HDR速率)。
3. 无损网络:基于Credit机制,无需额外流控。
4. 高扩展性:专为高性能计算(HPC)优化。
1.成本高:需专用硬件(网卡、交换机)。
2. 兼容性差:与现有以太网设施不互通。
3. 部署复杂:需独立网络架构。
RoCE1.基于以太网:兼容现有以太网基础设施,降低成本。
2. 支持RDMA:在以太网上实现低延迟传输。
3. 灵活路由:RoCEv2支持IP层路由。
1.依赖无损网络:需PFC、ECN等流控,配置复杂。
2. 拥塞敏感:网络拥塞时性能下降明显。
3. 硬件要求:需支持RoCE的专用网卡。
iWARP1.基于TCP/IP:兼容传统TCP网络,无需改造基础设施。
2. 抗拥塞:利用TCP可靠性机制,适应复杂网络环境。
3. 部署灵活:支持标准以太网交换机。
1.性能较低:TCP协议栈引入额外延迟和开销。
2. 吞吐量限制:相比InfiniBand和RoCE,带宽利用率较低。
3. 生态支持弱:硬件和软件支持较少。

RoCE基于以太网实现远程直接内存访问(RDMA),旨在通过绕行内核协议栈提升数据传输效率,成为高性能计算、分布式存储和AI训练场景的热门选择。然而,其核心设计依赖无损网络和特定硬件支持,导致实际部署面临显著挑战:

  1. 配置复杂性:需手动协调PFC(流量控制)、ECN(拥塞通知)和QoS策略,跨厂商设备兼容性差,运维门槛高;
  2. 网络僵化风险:PFC的逐跳反压机制可能引发广播风暴或死锁,大规模组网时稳定性存疑;
  3. 扩展性限制:RoCEv1局限于二层网络,RoCEv2虽支持三层但受限于UDP/IP的封装开销和路由延迟,跨数据中心场景性能易波动。

这些劣势促使业界探索自动化配置工具(如星融元“一键RoCE”)和软硬件协同优化方案,以平衡性能与部署成本。

星融元RoCE无损以太网

星融元通过其创新的一键RoCE功能和智能拥塞管理方案,显著简化了RoCEv2网络的配置流程并有效解决了网络拥塞导致的性能下降问题。以下是具体实现方式和优化策略:

如何通过一键RoCE简化配置流程?

1. 一键式命令封装:传统RoCEv2网络需手动配置PFC(基于优先级的流量控制)和ECN(显式拥塞通知)等复杂参数,涉及多步骤QoS策略调整。星融元的AsterNOS操作系统通过业务级命令行封装,将原子级配置整合为单条命令(如show roce),实现一键启用或关闭无损网络功能,极大降低工程师的操作复杂度。

2. 集中化配置与状态展示

  • 全局视图管理:通过show roce命令,可集中查看全网的RoCE配置状态、队列映射、Buffer使用情况、PFC/ECN触发次数等,无需逐台设备执行多个命令。
  • 业务级参数调优:针对不同业务场景(如HPC或存储),提供默认模板配置,同时也支持通过QoS命令行精细调整PFC和ECN参数,满足定制化需求。

3. 兼容性与易用性增强

  • 思科风格命令行(KLISH):AsterNOS支持传统CLI操作习惯,降低学习成本。
  • 自动化部署工具:结合RESTful API和零接触部署(ZTP),实现网络快速上线,减少人工干预。

如何解决网络拥塞时的性能下降?

PFC工作流程

1. PFC+ECN的无损保障机制

  • PFC(优先级流量控制):为存储等高优先级流量划分独立队列,当检测到队列拥塞时,触发暂停帧(Pause Frame)避免丢包。
  • ECN(显式拥塞通知):在IP头部标记拥塞状态,通过CNP(拥塞通知包)反馈至发送端,动态调整流量注入速率,防止拥塞扩散。

2. 硬件与架构优化

  • 超低时延交换机(CX-N系列):Port-to-Port转发时延低至400ns,支持高密100G/400G端口,减少存储集群内部通信跳数(不超过3跳),降低端到端时延。
  • Spine-Leaf架构设计:通过扁平化组网优化流量路径,避免传统多层架构的瓶颈。

3. 可视化监控与快速排障

  • Prometheus集成:通过容器化监控工具roce_exporter,实时采集RoCE网络指标(如拥塞次数、CNP触发频率),实现可视化分析。
  • 故障集中定位:使用show roce命令聚合关键调试信息,快速定位拥塞源或配置错误,缩短排障时间。

应用场景与效果

  • 分布式存储网络:在存算分离场景中,通过RoCEv2+PFC+ECN构建零丢包、低时延的后端存储网络,加速多副本同步与数据重建。
  • 高性能计算(HPC):支持大规模并行计算任务,通过无损网络减少通信延迟,提升算力集群效率。
  • 云数据中心:在混合业务负载下(存储、计算、AI),通过优先级隔离和动态拥塞控制,保障关键业务SLA。

性能测试:https://asterfusion.com/blog20241011-roce-test-report/

【参考文献】

返回资源中心

最新动态

SONiC交换机 PK IB交换机,是“越级碰瓷”还是“有点东西”?


关注星融元


聊起AI、HPC或其他无损传输网络场景,RoCE or IB 无疑是个老生常谈的话题了。关于两种协议栈的区别和联系,我们之前有写过一篇详尽的文章(请参阅:RoCE与IB协议栈对比解析)。简言之:RoCE 实际上只是将成熟的IB传输层和RDMA移植到了同样成熟的以太网和IP网络上。

IB因其是最早支持RDMA的协议,起步早,技术成熟,在一整套专用软硬件体系加持下,可提供极致的低时延传输性能,但同时也因供应商唯一,导致整体TCO较高。

与之相对的,RoCEv2在互操作性和成本上的显著优势被认为更适合大规模部署,例如今年xAI公司在美国孟菲斯建设的十万卡AI集群,便是使用400GbE以太网构建的无损高速网络。

开放网络能否平替IB?

援引Amazon高级首席工程师Brian Barret的话,AWS之所以放弃IB方案主要是因为:

“要满足资源调度和共享等一系列弹性部署的需求,专用的IB网络集群如同汪洋大海中的孤岛”

既然追求标准开放与多厂商兼容已是业界共识,以SONiC为代表的开放网络在顶级大厂云的商业化部署也有目共睹了,我们不禁要问:到了性能要求更苛刻的AI/HPC场景,支持RoCE的开放网络能否担得起 “IB平替” 的期待?

或者再进一步,开放架构的力量能否赋能更广大的数据中心建设运营者? 比如简化受人诟病的RoCE网络部署调优,提高运维诊断能力等等…或者更多可能?

铺垫有点多了,上干货!

测试背景

我们挑选了三大典型场景下的SONiC交换机 (RoCE) 和IB的现场实测对比结果,涉及AI训练,HPC和分布式存储环境。测试结果保真保鲜,同时也会简要附上方法步骤,希望能对各位读者有所参考价值。

  • AI智算场景:E2E转发测试、NCCL-TEST、大模型训练网络测试
  • HPC场景:E2E转发性能、MPI、Linpack、HPC应用(WRF、LAMMPS、VASP)
  • 分布式存储:FIO工具压测读写性能

当然,正经搞对比测试不能不讲武德,跟IB正面对垒的选手绝不能是随便淘个白盒跑跑社区版软件的野生玩家。被测RoCE交换机为星融元CX-N系列,产品采用超低时延硬件平台,搭载企业级SONiC发行版AsterNOS,全端口标配支持RoCEv2,以及EasyRoCE Toolkit

EasyRoCE 是星融元依托开源、开放的网络架构与技术提供的一系列实用特性和小工具。从前期规划实施到日常运维监控,EasyRoCE 简化了各环节的复杂度并改善了操作体验,更提供二次开发和集成空间,供网络架构师充分利用开放网络最新技术成果。

Toolkit 更新传送门:官网详情页  | 统一监控面板(UG)  |  高精度流量监控(RTR)|  一键RoCE部署(ORD)

CX-N系列型号规格如下表所示:

星融元产品

测试结论

先说结论,开放架构的星融元CX-N系列交换机(RoCE)与IB交换机的端到端性能基本持平,局部超越

AI智算场景

1、E2E转发带宽达到网卡直连速率上限,单机转发时延低至560ns

2、双机16卡运行NCCL-test (ring算法),通过两台被测交换机测得最大总线带宽与IB交换机基本一致(约195GBps),且带宽使用率与网卡直连情况一致,已达到服务器Scale-out网络传输速率上限。

3、轨道优化拓扑下,双机16卡 Llama2-7B(样本序列长度2048)的单次训练用时与网卡直连以及IB组网的测试结果一致。

HPC 场景

1、E2E时延表现与IB交换机基本持平,差异保持在纳秒级。

2、MPI基准测试,E2E表现与IB交换机基本持平,时延差异保持在纳秒级。

3、Linpack效率与使用同规格IB交换机组网结果基本相当,差异约在0.2%

4、HPC集群内并行运行WRF、LAMMPS和VASP应用,RoCE交换机完成一次相同计算任务的平均用时与使用IB交换机组网的用时基本相当,两者差异在0.5%~3%之内。

LAMMPSWRF

VASP

分布式存储场景

采用RoCE组网的分布式存储系统读写性能(IOPS)与采用同规格IB组网持平,部分条件下优于IB。

IOPS

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2