Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

多租户网络运维破局:自动化配置实战

近期文章


什么是多租户网络?

多租户网络(Multi-Tenant Network)是一种在云计算环境中实现网络资源虚拟化的关键技术,其核心目标是通过共享底层物理网络基础设施,为多个独立租户(用户、企业或部门)提供逻辑隔离的专属网络环境,同时还要满足动态性、安全性和服务质量需求。

在传统软件项目中,服务商为客户专门开发一套特定的软件系统并部署在独立的环境中。此时不同客户间资源是绝对隔离的,不存在多租户共享问题。而在SaaS(Software as a Service,软件即服务) 模式下,软件服务不再部署到客户的物理机环境而是部署到服务商提供的云端环境。在云端环境下一些资源共享成为了可能,这使不同客户可以共用一部分资源以达到高效利用资源的目的。

以公有云为例,云服务提供商所设计的应用系统会容纳数个以上的租户在同一个环境下使用。比如亚马逊公司就在其数据中心为上千个企业用户提供虚拟服务器,其中包括像Twitter以及华盛顿邮报等知名企业。同时可以按需启用或回收资源(如为华盛顿邮报每日定时(某个时段)分配200台服务器);

那么问题来了,在提升资源利用率和降低成本的同时,多租户也面临数据隔离、性能干扰、安全风险和运维复杂度等各种挑战。现行的物理网络必须实现网络资源虚拟化,共享物理网络拓扑,并为多租户提供隔离的策略驱动的适应动态、快速部署的虚拟网络。

seo图

多租户网络的实现

拓扑

Underlay 底层网络

Underlay 网络指的是物理网络设施,由交换机、光缆等网络硬件构成,负责底层数据的物理传输,运行高效的路由协议(如 BGP)实现互联,通常采用 Spine-Leaf 架构组网,负责提供提供稳定带宽、低延迟和高可靠性,这是多租户网络的基础。

Overlay 虚拟化网络技术

底层共享,逻辑独立:VPC(Virtual Private Cloud,虚拟私有云)基于Overlay技术(如VXLAN、GRE、Geneve)在共享的物理网络基础设施上构建租户专属的虚拟网络层。每个租户的流量通过隧道封装(如24位VXLAN标识VNI)隔离,即使物理网络相同,不同VPC的流量在逻辑上完全不可见。

通过BGP EVPN为不同租户构建独立的虚拟网络,支持灵活的业务扩展。

BGP EVPN(Border Gateway Protocol Ethernet Virtual Private Network)是一种结合了 BGP 协议 和 EVPN 技术 的标准化解决方案,主要用于构建大规模、高性能的 二层(L2)和三层(L3)虚拟化网络,广泛应用于数据中心、云服务、多租户园区网络等场景。其核心目标是通过控制平面优化,实现高效的 MAC/IP 地址学习、灵活的多租户隔离和网络虚拟化。
维度传统物理隔离VPC逻辑隔离
资源粒度整台物理设备独占(如独立交换机)单台设备虚拟切割(共享硬件)
租户边界VLAN划分(最多4094个)Overlay虚拟网络(理论无限租户)
隔离机制基于MAC/IP隔离VxLAN/EVPN封装(租户ID标识)
扩展性扩容需增购硬件软件定义,秒级增减租户
传统物理隔离 vs VPC逻辑隔离

在通用云数据中心和智算中心,随着部署规模的增大,这些虚拟网络技术的配置和维护可能变得复杂,如果配置不规范,可能导致租户间冲突影响业务运行甚至严重的数据泄露。

如何在共享物理资源的前提下,确保每个租户的服务质量(QoS)?答案的核心在于智能化的网络性能监控体系。

多租户网络的运维挑战

  • 租户差异化需求​:不同租户需定制网络策略(如防火墙规则、VLAN划分),但共享底层资源时配置易冲突。例如,VLAN划分过细增加管理开销,过粗则引发跨租户干扰。
  • 自动化程度低​:依赖人工操作易出错,且缺乏统一标准。某电商平台需通过Intent-Based Networking策略实现故障路径自动切换,依赖API与SDN集成。
  • 扩展性瓶颈​:单一控制器需支持超10万监控对象,且需兼容VXLAN/Geneve等云网络协议,否则难以适应多云环境

多租户网络配置工具

想分享一款用于多租户网络的配置工具:EasyRoCE-MVD(Multi-Tenant VPC Deployer )。MVD能帮助用户快速实现租户隔离,参数、存储、业务的多网联动和自动化部署。

EasyRoCE Toolkit 是星融元依托开源、开放的网络架构与技术,为AI 智算、超算等场景的RoCE网络提供的一系列实用特性和小工具,如一键配置RoCE,高精度流量监控等… 详情访问:https://asterfusion.com/easyroce/

  • 根据配置脚本自动批量部署,支持图形化界面呈现配置细节并远程下发
  • MVD工具可独立运行在服务器上,也可以代码形式被集成到第三方管理软件

网络设计规划

首先是必不可少的网络规划,这一步需由工程师基于实际业务需求设计逻辑隔离,一般是采用 VLAN、VXLAN 技术划分虚拟网络,规划 IP 地址池及子网,避免地址冲突。VLAN 适合较小规模,而 VXLAN 扩展性更好,适合大规模部署。

作为示例,我们在EasyRoCE-AID(AI基础设施蓝图规划)工具引导下快速完成网络设计,并自动生成包含了以下信息的 JSON 配置文件(mvd.json) 作为 MVD 工具的输入。

aid

自动生成配置

MVD 工具将解析上一步骤得到的JSON文件中的设备信息、BGP邻居信息,并为集群中的交换机生成对应配置。 运行过程示例如下:

配置过程

可视化呈现和远程下发

配置远程下发

用户点进配置文件可看到配置下的具体信息,对其进行二次核对后再自行决定下一步操作,比如选择批量下发或针对某一设备单独下发。

mvd

批量下发配置

多租户网络技术是云计算技术架构中的重要环节,并形成了一种新型的云计算服务模型:NaaS(网络服务)。位置等同于IaaS,PaaS及其SaaS。未来NaaS将会随着云计算技术的发展,而不断成熟,支撑服务于云计算的其他服务。

【拓展阅读】

云服务的形式

  • IaaS(Infrastructure-as-a-Service):基础设施即服务。消费者通过Internet可以从完善的计算机基础设施获得服务。基于 Internet 的服务(如存储和数据库)是 IaaS的一部分。
  • PaaS(Platform-as-a-Service):平台即服务。把服务器平台作为一种服务提供的商业模式。通过网络进行程序提供的服务称之为SaaS(Software as a Service),而云计算时代相应的服务器平台或者开发环境作为服务进行提供就成为了PaaS。PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。
  • SaaS(Software-as-a-Service):软件即服务。它是一种通过Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。

返回资源中心

最新动态

SONiC开源社区生态背后的开放网络革命引擎

近期文章


在数据中心里,数以万计的服务器由无数的交换机连接起来,构成了一个高带宽、低延迟的网络。众所周知,云计算业务对于可靠性有非常高的要求,这要求网络的运维人员,必须对交换机做到高度的可控制、可管理,能够时刻了解网络发生了什么,在出现故障的时候必须快速定位和排除故障。此外,新的云计算业务,也对交换机不断提出新的功能需求,这就要求网络的开发人员能在短时内实现新的交换机功能并部署上线。

在这些新的挑战和要求面前,传统交换机厂商的设备已经显得越来越力不从心,因此,各大云计算厂商纷纷开始了自己的交换机自研之旅。

什么是SONiC?

作为OCP合作项目的一部分,微软在2016年OCP峰会上发布了交换机操作系统开源项目SONiC (Software for Open Networking in the Cloud)。该项目利用交换机抽象接口(Switch Abstraction Interface, SAI)为不同的交换芯片提供了统一的管理和操作接口,并将交换机软件分解为多个容器模块,来加速软件的迭代开发(如图1)。SONiC得到了很多云计算、交换机和芯片厂商的响应,目前的开源社区成员包括微软、阿里巴巴、腾讯这样的云计算厂商以及Mellanox、思科、Arista、Asterfusion这样的交换机和芯片厂商。

容器架构

SONiC之所以在众多开源网络操作系统中脱颖而出(AT&T的dNOS,Facebook的FBOSS),我想主要有如下几个原因:

  • 微软云计算做出的成绩有目共睹,因此SONiC也就有了业界最佳实践。
  • 众多第三方开源工具的使用。容器化可以类比于浏览器模式的插件化,这样很多第三方工具可以很方面的集成到SONiC中,而不需要对系统做很大的更改。即插即用模式非常符合目前的软件潮流,意味着开放的精神。(图1)中Applications标注的就是用户工具,比如LAG,LLDP, BGP等。

SONiC的亮点

SAI接口容器化是SONiC的两个突出的亮点。SAI使得SONiC可以兼容不同芯片的设备,且芯片驱动只需要提供接口,并不需要开源同时也保证了芯片驱动的封闭性。

容器化使得SONiC可以充分利用现有的开源软件,比如redis, Quagga/FRR, GoBGP等,通过内核/redis-db来实现各个容器之间的通信,同时保证各个第三方组件的相对独立,便于对容器进行控制,也可以很快的兼容新的特性。当然,SONiC本身是完全开源的,最开始是微软开源出来,放在Azure下维护,最终SONiC被移交给了Linux基金会管理,开源生态越来越成熟,独立性也越来越强,不再依赖于某一个厂商。

sonic

SAI

交换机抽象接口(Switch Abstraction Interface, SAI)作为SONiC架构的基石,解决了传统网络设备软硬件深度绑定的痛点,并定义了一套标准化的API接口(如端口管理、路由表操作、ACL配置等),屏蔽了不同ASIC芯片(如Broadcom、NVIDIA Mellanox、Barefoot)的底层差异。开发者无需关注硬件具体实现,只需调用SAI接口即可控制转发行为,实现“一次开发,多芯片运行”。通过SAI,SONiC可无缝适配多厂商ASIC芯片。

容器化

传统的设备操作系统是单一系统,各个协议通过多线程或者多进程交互,因此需要定义交互的协议类型,报文格式,比较常见是私有协议,或者基于Linux各种Socket的标准底层协议。这种实现要求各个协议之间数据格式是相一致的,因此也只有设备上自己开发的软件能够实现。而容器化是将各个协议使用容器的方式聚合(典型的是docker),容器之间通过操作系统的接口实现交互,因此各个容器之间是弱连接,这样便于容器之间的软重启或者动态编排,更符合软件及服务的概念。

开源化

SONiC上一个很重要的协议就是FRR,他是从Zebra->Qugga又分出来的一个开源路由协议组件,除了成熟的OSPF, BGP等路由协议外,对于MPLS和SRv6也增加了很多支持,FRR还增加了FPM(Forwading Plane Manager),即转发平面管理,除了支持传统的netlink接口协议,还支持了protobuf协议,更容易集成新的组件。在底层通过redis数据库的订阅发布机制,将事件生产者和消费者联系了起来,可以看看这篇文章的分析。

基于SONiC内核的网络操作系统—AsterNOS

作为国内第一批SONiC社区成员,星融元围绕开放网络技术进行了长期、持续的投入,并结合各种典型应用场景做了足够的测试验证和缺陷修复,所提供的SONiC企业级发行版AsterNOS目前已可稳定兼容几乎所有主流商业交换芯片,构建的一系列有特色的硬件平台,能够实现从数据中心到云化园区的跨场景使用。

截至2022年底,AsterNOS已针对社区原生版本的缺陷和不足完成了大量开发工作,并切实提升了软件的可靠性和易用性,这其中就包含了VXLAN、ARP Host Routing、BGP EVPN、VLAG、Monitor-link、STP/MSTP等网络功能补充和增强,以及对思科风格的CLI的支持。

为了更加充分地发挥开源开放的力量,AsterNOS还在SONiC云原生的架构之上提供了强大的SDK能力——用户可通过丰富的API(RESTful API和系统级API)在网络设备上简单快速地开发第三方APP,以及与各种开源运维工具/平台无缝集成。

SONiC

AsterNOS与SONiC社区版主要能力对比-表1

AsterNOS与社区版对比

SONiC商用场景扩展

数据中心(AsterNOS-DataCenter)

主要提供 L2/L3/VXLAN/Routing/EVPN 等云数据中心所需的各种功能,以及对智算等场景的RoCE、智能路由等特性的增强支持(未来也将主要基于此版本平滑支持下一代以太网协议,例如超以太网)。

企业园区(AsterNOS-Campus)

将SONiC的核心原则——开放性、易用性和灵活性引入园区。提供VXLAN 和 BGP-EVPN 虚拟化,实现灵活的逻辑网络编排;选定型号上采用 MPLS,可实现运营商级场景的无缝 WAN 集成;部分型号采用 PTP(精确时间协议),为关键应用提供高精度时间同步的网络。

从数据中心场景到园区网络,这不仅仅是“更换操作系统”,而是一次深度集成和系统级重构。我们针对资源受限的硬件平台(甚至是 1G 端口的接入交换机)移植并优化了SONiC,并围绕其他开放网络技术(例如OpenWiFi/OLS)提供端到端的新一代云化园区网整体解决方案。

边缘路由(AsterNOS-VPP*)

从硬件角度来看,业界已有很多强大的基础平台如各类 DPU 网卡、高性能服务器或虚拟化主机;在软件方面,VPP等数据平面解决方案也已经显著成熟,两者共同为构建开放路由平台奠定了坚实的基础。
然而,SONiC 仍难以在这些新平台上提供完整的路由功能——市场上明显缺乏一种能够真正取代昂贵的封闭式黑盒路由器的商用级、成熟且用户友好的开放式路由解决方案。

AsteNOS-VPP 则是目前我们围绕SONiC的最新实践。具体而言是将 SAI 接口集成到 VPP 上,使基于 SONiC 的 AsterNOS 能够从交换机 ASIC 平台扩展到具有完整路由功能的 DPU 和服务器平台。

参考文献
– mp.weixin.qq.com
– SONiC Boom: Leveraging Open Source and Merchant Silicon for Today’s Scalable Network Infrastructures

返回资源中心

最新动态

分布式网关技术 + BGP EVPN,解锁真正的无缝漫游

近期文章


无线漫游的核心挑战与标准化协议支持

在构建高性能无线网络时,实现用户终端(STA)在不同接入点(AP)之间平滑、快速的漫游是核心目标之一。我们的无线AP产品原生支持业界标准的802.11k/v/r协议(常称为“快速漫游三协议”),为降低漫游时延奠定了坚实基础:

  • 802.11k (邻居报告): 解决“去哪漫游”的问题。AP主动向关联的终端提供周边优质AP的列表(包括信道、信号强度等信息),使终端能快速发现并评估潜在的目标AP,避免盲目扫描带来的延迟。
  • 802.11v (网络辅助漫游): 解决“何时漫游”的问题。网络侧(通常通过AP或控制器)可以基于负载均衡、信号质量等策略,主动向终端发送漫游建议(BSS Transition Management Request),引导终端在最佳时机触发漫游,减少因终端粘滞在弱信号AP上造成的性能下降。
  •  802.11r (快速基本服务集转换): 解决“如何快速接入”的问题。通过在漫游发生前预先完成部分或全部认证/密钥协商过程(FT Initial Mobility Domain Association),使得终端连接到新AP时能实现近乎“瞬间”的重关联,大幅缩减了链路层切换时间。

这三项协议协同工作,显著优化了无线链路层(L2)的切换效率,是降低整体漫游时延的关键第一步。

超越链路层:IP地址保持的必要性与挑战

然而,成功关联到新AP(完成L2切换)仅是漫游过程的上半场。要真正恢复业务连续性,终端必须能够快速、可靠地使用原有的IP地址进行三层(L3)通信。 这意味着漫游后的IP层连通性同样至关重要。

传统L3漫游(如图):

传统漫游

在漫游场景下,终端从一个AP切换到另一个AP后,其是否需要重新发起DHCP请求以获取IP地址,主要由终端自身的操作系统和驱动策略决定,网络侧无法强制干预。 常见情况是:

  • 普遍行为: 绝大多数移动终端厂商(如智能手机、平板)倾向于采用一种简单且保守的策略:无论新老AP是否在同一IP子网内(即无论是L2还是L3漫游),只要检测到关联的AP发生了变更,就会主动发起一次DHCP请求(通常是DHCP REQUEST或DISCOVER)。 这对终端来说是最直接、最可靠的判断IP状态变化的方法。
  • 例外情况: 当然,并非所有终端在所有场景下都会这样做。某些终端或特定操作系统版本可能仅在检测到IP子网变更(即L3漫游)时才发起DHCP请求,或者在IP租期未过半时选择续租而非重新请求。这种终端行为的差异性,正是导致不同设备实测漫游时延存在波动的原因之一,也是我们强调“平均漫游时延”指标的现实基础。
  • 租期到期: 显而易见,如果漫游发生时,终端IP地址的DHCP租期恰好到期,则必然触发完整的DHCP流程(DISCOVER, OFFER, REQUEST, ACK)。

因此,即使链路层切换再快,如果IP地址获取过程(无论是必要的重新获取还是冗余的请求)耗时过长,整体漫游体验仍会大打折扣。

所以,802.11k/v/r三个协议解决的是同一个二层域内的漫游问题,在同一个二层域内网关是不会改变的。而要解决跨二层域的漫游(L3),就需要我们的分布式网关技术,让终端无论漫游到哪个AP,这个AP连接在哪个接入交换机上,都能获得同样的网关,分配到同样的IP,从而实现无缝漫游。

分布式网关

分布式网关与BGP EVPN:消除冗余DHCP时延的关键

作为网络设备提供商,我们通过创新的分布式网关架构结合BGP EVPN技术,从根本上解决了漫游后IP地址保持和快速可达的问题,有效规避或极大压缩了冗余DHCP请求带来的时延:

1、分布式网关架构: 在这种架构中,终端网关(Default Gateway)不再集中部署在核心或汇聚层,而是下沉到每一个接入交换机(或分布式网关节点)上。 接入交换机直接作为本地终端的网关,并承担DHCP Relay Agent的角色。

2、BGP EVPN的核心作用: BGP EVPN (Ethernet VPN) 是一种强大的控制平面协议。它不仅仅用于构建Overlay网络,其核心能力在于高效地分发和同步二层(MAC地址)和三层(IP地址、主机路由)信息。

在我们的方案中:

当终端首次接入网络并通过某个接入交换机(作为网关/DHCP Relay)成功获取IP地址后,该交换机会通过BGP EVPN协议,将终端的IP地址、MAC地址以及对应的主机路由信息(/32或/128)快速通告给网络中的所有其他接入交换机(网关节点)。

无论终端漫游到哪个AP下(无论该AP连接的是否是同一个接入交换机),新的接入交换机(网关节点)在BGP EVPN控制平面中都已经预先学习到了该终端的完整IP和MAC绑定信息及其主机路由。

3、优化DHCP流程: 当漫游后的终端(遵循其自身策略)发起DHCP REQUEST(或DISCOVER)时:

  • 新的接入交换机(作为DHCP Relay Agent)收到该请求。
  • 由于它已通过BGP EVPN知晓该终端的IP/MAC绑定关系,它能够立即判断出该终端已经拥有一个有效的、未过期的IP地址。
  • 因此,该接入交换机无需将请求转发给远端的DHCP服务器,而是直接以DHCP Relay Agent的身份,模拟DHCP服务器的行为,向终端回复一个DHCP ACK报文,明确告知终端“继续使用你原有的IP地址”(即包含原有的IP地址信息)。

这个过程将原本可能需要数百毫秒的多跳DHCP交互(Relay->Server->Relay->Client),压缩为一次本地化的、毫秒级的交换处理(Relay直接回复ACK),彻底消除了向中心DHCP服务器请求所带来的潜在网络拥塞、服务器处理延迟以及多跳传输时延。

流量转发优化:直达路径提升业务体验

在成功保持IP地址后,确保业务流量能高效转发同样重要:

传统集中转发瓶颈

在传统集中式无线架构(如FAT AP + AC或部分云管理方案)中,即使用户数据流量(User Traffic)在漫游后仍需先回传(Tunnel)到无线控制器(AC)进行集中处理和转发。对于跨AC的大规模漫游,流量甚至需要在不同AC之间隧道绕行,最终才能到达出口网络。这种“三角形路由”(Hairpinning)显著增加了传输路径和时延。

集中式网关方案

分布式网关+云化架构优势

分布式网关架构天然支持本地转发。结合去中心化的云化管理架构(控制管理面云化,数据转发面分布式):

  • 漫游成功后,终端的业务流量直接在新的接入交换机(作为其网关)完成三层路由查找。
  • 流量无需绕行任何集中式控制器(AC),即可通过该接入交换机直连的上层汇聚/核心交换机以及出口设备访问互联网或企业内网资源。

极致漫游体验的技术基石

我们综合运用标准化的802.11k/v/r协议实现快速链路层切换,并通过分布式网关架构结合BGP EVPN技术智能处理IP层连续性,最后依托本地化、最优化的流量转发路径,成功实现了业界领先的超低漫游时延

实测表明,我们的方案能够稳定地将平均漫游时延控制在<10ms以内。 这不仅显著超越了依赖传统集中式网关和DHCP处理流程的解决方案(其额外DHCP交互和集中转发路径极易引入数十甚至上百毫秒的延迟),更能满足医疗、工业物联网、高密度场馆等对漫游性能要求极为苛刻的场景需求,为客户带来真正无缝、极致的无线漫游体验。

漫游实测

相关产品

相关方案

返回资源中心

最新动态

智能路径调度:AI驱动负载均衡的异常路径治理实践

近期文章


AI流量往往具有突发性、大象流(大规模数据流)占比高的特点,极易造成网络拥塞热点。一条质量不佳(如高延迟、高丢包、带宽受限)的路径,不仅自身无法有效传输数据,如果ECMP继续向其分发流量,还可能导致该路径上的拥塞加剧,形成恶性循环,进而“污染”整条路径上的流量,波及更多正常应用。因此,构建一个能够实时感知路径质量、动态规避异常路径的智能负载均衡机制,成为支撑高性能AI计算的关键基础设施之一。

为了解决上述挑战,我们引入了基于路径综合质量的动态权重成本多路径(Weighted Cost Multipath, WCMP)机制。该机制的核心在于持续评估并利用路径的综合质量作为流量调度的核心依据。

路径综合质量评估

系统持续监控每条可用路径的关键性能指标,这些指标通常包括但不限于:

  • 延迟 (Latency): 数据包端到端传输耗时。
  • 丢包率 (Packet Loss Rate): 传输过程中丢失的数据包比例。
  • 带宽利用率 (Bandwidth Utilization): 路径当前占用带宽与其理论容量的比值。
  • 错误率 (Error Rate): 如链路层错误等。
  • 通过预设的算法(如加权计算、机器学习模型评分等),将这些原始指标融合计算为一个综合质量得分(通常是一个数值)。这个得分量化地反映了该路径在当前时刻传输流量的“健康度”或“优良程度”。得分越高,代表路径质量越好;得分越低,代表路径质量越差,越接近异常状态。

异常路径判定与剔除

系统设定一个约定的质量阈值系数。该阈值代表了我们认为一条路径可以承载正常AI流量的最低可接受质量水平。

  • 判定逻辑: 当系统计算出的某条路径的综合质量得分低于此约定阈值时,即认为该条路径在当前AI场景下不再可用,判定为异常路径。
  • 处理动作: 立即将这条异常路径从当前有效的负载均衡路径池中剔除(Prune)。这意味着后续的流量调度将暂时不再考虑此路径。

异常路径剔除

如图所示,当Leaf1与Leaf2通信存在四条路径时,假设根据(智算网络路径质量三要素:带宽/队列/时延在智能选路中的协同优化)中的算法逻辑在Leaf1中计算出四条路径综合质量分别为4.5、55、65和75,此时红色路径会被剔除,剩下的三条路径根据各自路径质量形成WCMP。待红色路径质量恢复达标后,它将重新加入路径池并参与负载均衡。

路径的动态WCMP调度

剔除异常路径后,系统使用剩余的健康路径来承载流量。根据剩余每条健康路径的综合质量得分,动态计算并分配其流量转发权重。质量越高的路径,获得越高的权重,意味着它能承载更大比例的流量;质量相对较低(但仍高于阈值)的路径,则获得较低权重。这种基于实时质量动态调整权重的WCMP策略,确保了流量能够最大程度地流向当前最优的路径,优化整体传输效率和性能。

路径恢复与重新引入

被剔除的路径并非永久废弃。系统会持续监控其综合质量。一旦该路径的质量得分恢复到约定阈值之上并保持稳定一段时间(避免抖动),系统会将其重新引入有效路径池。重新引入后,该路径将根据其最新的综合质量得分,参与后续的动态WCMP权重计算,重新分担流量。

在AI驱动的数据中心网络环境中,传统的“尽力而为”和“无差别均分”负载均衡策略已力不从心。基于路径综合质量的动态WCMP机制,通过实时感知路径状态、果断剔除异常、智能调度“健康”资源,有效解决了AI流量对网络高可靠、高性能的核心诉求。虽然存在少量的短期资源闲置作为代价,但相较于避免路径拥塞乃至业务中断所带来的巨大损失,这一机制是支撑AI计算基础设施稳定高效运行的关键优化手段。

返回资源中心

最新动态

ECMP路由场景下哈希极化(哈希不均)现象的解析

近期文章


相关概念

  1. ECMP (Equal-Cost Multi-Path Routing – 等价多路径路由): 当路由器发现到达同一目的网络存在多条具有相同“代价”(如带宽、跳数、管理距离等)的最佳路径时,它会将这些路径都加入路由表。为了充分利用带宽并实现负载均衡,ECMP使用一种机制(通常是哈希算法)将不同的数据流分配到不同的下一跳路径上。

  2. 哈希算法: 哈希算法将一个输入(如数据包的五元组:源IP、目的IP、源端口、目的端口、协议号)映射为一个固定范围的输出值(哈希桶/索引)。在ECMP中,这个输出值决定了数据流应该走哪条路径(例如,有4条路径,哈希输出范围就是0-3)。

  3. 流的概念: ECMP通常基于“流”进行负载均衡。一个“流”通常指具有相同五元组(或其中关键几项)的数据包序列。哈希算法保证同一个流的所有数据包走同一条路径,以避免乱序问题。不同的流则可能被哈希到不同的路径。

什么是Hash极化

理解ECMP路由方式下的Hash极化现象,需要结合ECMP的工作原理和哈希算法的特性来分析。

Hash极化,又称hash不均,具体的表现是在ECMP进行多路径负载均衡时,流量并没有像预期那样均匀地分布到所有可用的等价路径上,而是呈现出明显的偏向性,导致某些路径负载过重(拥塞),而其他路径负载很轻(闲置)的现象。

为什么会出现Hash极化?

Hash极化现象的根本原因在于哈希算法的一致性网络拓扑结构流量模式特性之间的相互作用:

  1. 哈希算法的一致性

    • 网络设备(路由器、交换机)通常使用相同或非常相似的哈希算法(如Toeplitz哈希)和相同的输入参数(如标准的五元组)。

    • 当流量经过多个使用ECMP的网络设备(尤其是在层次化网络如Clos架构的数据中心中)时,如果这些设备使用相同的哈希算法和参数,它们对同一个数据流计算出的哈希结果(即选择的路径索引)高度一致

  2. 网络拓扑的层次化

    数据中心常见的Clos架构是Hash极化最常见的发生场景。

    • 想象一个典型的三层Clos架构:服务器 -> Leaf交换机 -> Spine交换机 -> … -> 目的地。

    • 第一层ECMP (Leaf -> Spine): 假设Leaf有4个上行端口连接到4个不同的Spine交换机。Leaf使用ECMP和哈希算法H1将服务器流量分配到4个Spine上。目标是均匀分布。

    • 第二层ECMP (Spine -> 下一跳/Leaf): Spine交换机接收到来自Leaf的流量后,它自己也需要使用ECMP(假设也是基于相同的哈希算法H1和相同的五元组输入)将流量转发到其下一跳(可能是另一组Leaf或核心路由器)。

    • 极化发生: 问题就在这里!Leaf交换机已经基于五元组和H1把流A哈希到了Spine 1。当Spine 1收到流A的数据包后,它再次使用相同的H1算法和相同的五元组计算哈希,决定将流A发送到它的哪个下一跳。由于输入(五元组)和哈希函数(H1)都没变,Spine 1计算出的哈希结果(路径索引)极大概率会与Leaf计算出的哈希结果(选择Spine 1这个事实)具有某种相关性,甚至是相同的模式

    • 结果: 原本在Leaf层被“均匀”分配到4个Spine的流量,在Spine层再次被哈希时,所有来自Spine 1的流量(无论它在Leaf层是从哪个端口来的)都可能被Spine 1的哈希算法再次集中分配到其少数几个下一跳路径上,而不是均匀分散到所有可用路径。 其他Spine上的情况类似。最终导致Spine交换机到其下一跳的链路上,只有少数几条承载了绝大部分来自其上游Leaf的流量,而其他链路则很空闲。这就是极化——流量在下一层被“集中”而非“分散”了。

  3. 流量模式的不均衡:

    • 哈希算法的均匀分布依赖于输入(流标识/五元组)本身的随机性。如果实际流量中存在大量具有相似特征的流(例如,大量流共享相同的源IP或目的IP),而这些特征恰好是哈希算法的主要输入,那么这些相似的流就非常可能被哈希到相同的路径上(哈希碰撞),导致该路径过载。

    • 即使没有层次化拓扑,仅在一个ECMP组内,如果流量模式本身高度偏斜(少数大流主导),哈希极化也会导致负载不均。

  4. 路径数量与哈希范围:

    • 哈希算法输出范围(桶的数量)需要与可用路径数量匹配。如果算法设计的哈希空间分布不均匀,或者路径数量不是2的幂次而哈希桶分配不合理,也可能导致某些路径被选中的概率更高。

Hash极化的影响

  1. 负载不均衡: 这是最直接的影响。部分链路拥塞,部分链路闲置,浪费了宝贵的带宽资源。

  2. 网络性能下降: 拥塞链路导致数据包丢失、延迟增加、抖动增大,影响应用性能(特别是对延迟敏感的应用)。

  3. 吞吐量瓶颈: 整体网络吞吐量受限于那些被过度使用的链路,无法达到理论上的多路径叠加带宽。

  4. 可靠性潜在风险: 过载的链路和设备故障风险更高。同时,当一条过载链路故障时,其承载的大量流量瞬间切换到其他链路,可能引发新的拥塞。

如何缓解Hash极化

  1. 使用不同的哈希因子: 这是最常用且有效的方法。为网络中的不同设备(或同一设备的不同ECMP组)配置不同的随机哈希种子。即使算法相同,不同的种子会导致相同的输入产生完全不同的哈希结果,打破了哈希结果在不同层级间的相关性。例如,Spine交换机使用与Leaf交换机不同的种子。

  2. 使用不同的哈希算法: 在支持的情况下,让不同层级的设备使用不同的哈希算法。

  3. 使用更丰富的哈希输入: 增加哈希算法的输入字段,如加入MAC地址、VLAN标签、MPLS标签、GTP TEID(移动网络)、NVGRE/VXLAN VNI(Overlay网络)、甚至包内特定偏移的字节等。这增加了输入空间的随机性,减少了因五元组相似导致的碰撞。现代设备通常支持灵活选择哈希字段。

  4. 层次化感知的哈希/负载均衡: 在Leaf层,除了五元组,可以加入Spine交换机的信息(如出端口ID或Spine的IP)作为哈希输入的一部分。这样,当流量到达Spine时,其哈希输入已经包含了路径信息,有助于Spine层更均匀地分布。这需要设备支持更复杂的哈希策略。

  5. 动态负载均衡: 超越静态的基于流的哈希,采用基于实时链路利用率或队列深度的动态负载均衡机制(如一些厂商的“自适应路由”或类似CONGA的思想)。这种方法直接感知拥塞并调整路径选择,能有效避免极化,但实现更复杂。

  6. 调整网络拓扑/路径数量: 有时增加路径数量或调整拓扑结构也能缓解问题,但成本较高。

Hash极化是ECMP在多层级网络(尤其是数据中心Clos架构)中使用相同哈希算法和参数时,流量在逐层转发过程中被反复集中到少数路径上,导致负载严重不均衡的现象。其核心原因在于哈希算法在不同层级设备上计算结果的相关性。解决的关键在于打破这种相关性,主要方法包括为不同设备配置不同的哈希种子使用更丰富多样的哈希输入字段,以及采用更先进的动态负载均衡技术。理解Hash极化对于设计和优化高性能数据中心网络至关重要。

返回资源中心

最新动态

基于路径感知的动态智能选路技术赋能AI智算网络

近期文章


在传统数据中心网络(尤其是Leaf-Spine架构)中,东西向流量的高效调度是核心挑战。传统BGP协议虽能实现路由可达性,但缺乏对路径质量的动态感知能力,导致流量分配不均、高延迟链路未被规避等问题。为提升网络资源利用率,动态智能选路技术应运而生。该技术基于BGP扩展机制,通过实时收集路径质量指标,实现数据流的智能调度,显著优化高吞吐场景(如分布式存储、AI训练)的性能。

BGP扩展能力创新

  • 核心属性:定义 Path Bandwidth Extended Community(路径带宽扩展社区属性),类型字段值固定为 0x0005(高8位0x00保留,低8位0x05标识带宽属性)。
  • 数据结构:1️⃣ Global Administrator:4字节,存储发起路由宣告的AS号,用于标识路径源。2️⃣ 路径质量值:4字节,以 IEEE 754浮点数格式 存储带宽信息,单位为 GB/s,精确表征链路传输能力。

路径质量同步算法流程

算法逻辑

以NIC1与NIC2通信为例:

  1. 终端注册:NIC2向直连交换机Leaf2宣告自身IP地址;
  2. 质量加权:Leaf2计算 NIC2→Leaf2下行链路质量 × Leaf2下行口权重系数,附加至路由信息;
  3. 跨层传递:Leaf2将携带质量值的路由通告至Spine;Spine叠加质量:Spine→Leaf2链路质量 × Spine权重系数 + 已有路径质量值;
  4. 路由汇总:Spine将聚合后的路由通告至Leaf1,Leaf1最终生成含完整路径质量的路由表,指导流量转发。注:权重系数按端口类型动态配置,实现差异化路径评估。
  5. 交换机端口分类与系数配置:为精准量化路径质量,将端口划分为三类并赋予可调系数:

端口类型作用系数意义
Leaf上行口连接Spine影响跨设备链路质量权重
Leaf下行口连接服务器/终端决定终端接入链路质量权重
Spine口连接Leaf控制核心层链路质量聚合权重

灵活性:管理员可根据网络架构需求(如高带宽优先/低延迟优先)动态调整系数。

基于BGP扩展的动态路径优化

  • 精细化路径选择:通过浮点数精确量化带宽,替代传统“跳数”或静态成本值,避免ECMP(等价多路径)在非对称链路中的负载失衡问题。
  • 实时动态优化:链路质量变化(如拥塞、故障)可快速通过BGP更新传递,触发路径重计算,提升网络韧性。
  • 兼容性与扩展性:基于BGP扩展实现,无需改造底层协议,平滑兼容现有网络设备,支持大规模部署。

优化高吞吐场景

  • 分布式计算集群:优化AI训练任务中参数服务器与工作节点的通信路径;
  • 金融交易系统:确保低延迟链路优先承载订单流量;
  • 云数据中心:提升虚拟机迁移和存储复制的吞吐性能。

优化智算中心:动态智能选路新方向

动态智能选路技术通过扩展BGP的路径质量感知能力,解决了传统数据中心网络“只连通、不优化”的痛点。其分层加权算法与可配置端口系数设计,为复杂流量调度场景提供了高适应性解决方案,是构建高性能、自优化数据中心网络的关键演进方向。

【参考文献】
想了解更多智能选路技术,可访问

https://asterfusion.com/a20250528-flowlet-alb/

返回资源中心

最新动态

交换机上的 DHCP 侦听(DHCP Snooping)功能和配置示例

近期文章


什么是 DHCP 侦听

DHCP侦听(DHCP snooping)是一种部署在以太网交换机上的网络安全机制,用于阻止未经授权的 DHCP 服务器为客户端分配 IP 地址。该机制通过检查 DHCP 消息并仅允许来自受信任端口的 DHCP 消息通过,从而防止非法 IP 地址分配,确保网络环境安全稳定。

为什么需要DHCP侦听?

在企业、校园甚至公共网络中,与 DHCP 相关的问题并不少见,而且它们可能会造成严重的网络中断。有时,仅仅是配置错误的设备意外地充当了 DHCP 服务器,分配了错误的 IP 地址,导致连接中断。有时,问题更为严重,例如攻击者设置了恶意 DHCP 服务器,通过虚假网关或 DNS 服务器重新路由用户,从而为中间人攻击打开了方便之门。即使是客户端手动为自己分配静态 IP 地址,也可能造成混乱,引发冲突,并使网络安全管理更加困难。

项目 DHCP 静态 IP
分配方法 由服务器自动分配 手动配置
管理努力 低,适合大规模部署 高,需要单独设置
解决稳定性问题 每次设备连接时可能会发生变化 固定不变
设置效率 快速、即插即用 速度慢,需要手动输入
适合 最终用户设备、动态环境 服务器、打印机、关键设备
安全 需要配合保护机制(例如 DHCP 侦听) 更可控,但有手动配置错误的风险

DHCP 侦听的好处

  • 阻止恶意 DHCP 服务器干扰网络。
  • 确保客户端收到准确的 IP 地址和网络配置。
  • 通过降低攻击风险来增强网络安全。

DHCP 侦听如何工作?

要真正理解DHCP 监听的工作原理,首先必须清楚了解DHCP(动态主机配置协议)的工作原理。当设备加入网络且尚未获得 IP 地址时,它会发起与 DHCP 服务器的对话——这是一个四步握手过程,包括:发现 (Discover )、提供 (Offer)、请求 (Request)和确认 (Acknowledge )。可以将其视为设备和服务器之间获取 IP 身份的快速协商过程。下图详细分析了此动态交换过程中每个步骤的具体细节。

在启用 DHCP Snooping 的网络中,交换机接口分为两个主要角色:可信端口不可信端口。

  • 可信端口:这些端口连接到合法的 DHCP 服务器或上行链路设备(例如路由器或核心交换机),并被允许发送 DHCP 服务器消息(例如 DHCP OFFER、DHCP ACK)。
  • 不受信任的端口:这些端口连接到常规客户端(例如,PC 或打印机),并且仅限于发送 DHCP 客户端消息(例如,DHCP DISCOVER、DHCP REQUEST)。
  • 默认情况下,所有端口都是不受信任的;必须手动配置受信任的端口。

DHCP 消息过滤

  • 来自不受信任端口的 DHCP 服务器消息(例如 DHCP OFFER、DHCP ACK)将被丢弃,以防止恶意 DHCP 服务器运行。
  • 客户端请求(例如,DHCP DISCOVER、DHCP REQUEST)可以来自不受信任的端口,但服务器响应只允许来自受信任的端口。

DHCP绑定表

  • DHCP 侦听维护一个绑定表,其中记录每个客户端的 MAC 地址、分配的 IP 地址、租用期限、VLAN 和端口信息。
  • 该表用于验证后续流量,防止 IP 地址欺骗。

与 IP Source Guard 集成

DHCP 侦听通常与 IP 源防护配合使用,根据绑定表过滤流量,仅允许分配的 IP 地址从客户端发送数据,阻止未经授权的 IP。

支持 DHCP  option 82(可选)

DHCP 侦听可以插入或处理 DHCP option 82(中继代理信息),为 DHCP 服务器提供有关客户端端口和交换机的详细信息,从而实现更精确的 IP 分配。

DHCP 侦听可以防范哪些常见网络攻击

DHCP 侦听可有效缓解以下网络威胁:

恶意 DHCP 服务器攻击

  • 工作原理:攻击者设置未经授权的 DHCP 服务器来分发不正确的 IP 地址、网关或 DNS 服务器。
  • 影响:客户端流量被重定向到攻击者的设备,从而实现 MITM 攻击、流量拦截或 DNS 欺骗。
  • 防御:DHCP 侦听会丢弃来自不受信任端口的服务器消息,仅允许受信任的端口发送 DHCP 响应。

DHCP 饥饿攻击

  • 工作原理:攻击者利用 DHCPDISCOVER 请求淹没网络,耗尽 DHCP 服务器的 IP 地址池。
  • 影响:合法客户端无法获取IP地址,导致网络服务中断。
  • 防御:当与端口安全或每个端口的速率限制 DHCP 请求相结合时,DHCP 侦听可以防止过多的流量压垮服务器。

中间人(MITM)攻击

  • 工作原理:恶意 DHCP 服务器分配虚假网关或 DNS 服务器,通过攻击者的设备路由客户端流量。
  • 影响:攻击者可以监控、修改或重定向客户端通信。
  • 防御:DHCP 侦听确保仅处理受信任的 DHCP 消息,从而阻止恶意配置。

IP欺骗攻击

  • 工作原理:客户端手动配置未经授权的 IP 地址来冒充合法主机。
  • 影响:这可能导致 IP 冲突、网络中断,或成为进一步攻击的垫脚石。
  • 防御:通过与 IP Source Guard 和 DHCP 绑定表集成,DHCP Snooping 可以阻止来自未经授权的 IP 地址的流量。

DHCP 侦听的应用场景

  1. 公共网络:在咖啡店、酒店或共同工作空间等环境中,恶意用户可能会部署恶意 DHCP 服务器来窃取数据或发起攻击。
  2. 企业网络:具有多个部门或 VLAN 的大型网络依靠 DHCP 侦听来确保客户端连接到正确的 DHCP 服务器。
  3. 高安全性环境:在需要遵守数据保护法规和其他有保密等级要求的环境中,DHCP 侦听功能有助于防止未经授权的访问。
  4. 防范 DHCP 欺骗:它减轻了客户端被重定向到恶意网关的风险,增强了整体网络安全性。

配置示例

传统方式-手动配置

configure Terminal #进入系统配置视图
dhcp snooping enable{v4|v6} #启用DHCP Snooping功能,默认禁用。
interface ethernet  interface-id  #进入接口视图
dhcp-snooping enable #启用DHCP Snooping功能,默认禁用。
dhcp-snooping trusted #设置端口的信任状态,默认不信任。

sonic# configure terminal
sonic(config)# dhcp snooping enable v4
sonic(config)# interface ethernet 20
sonic(config-if-20)# dhcp-snooping enable
sonic(config-if-20)# dhcp-snooping trusted

云化配置方式 – 图形化配置

星融元的云化园区网络解决方案,通过一个开源、开放架构(基于OpenWiFi)的网络控制器来为有线无线网络设备下发配置,进行开局配置时在交换机上会默认开启DHCP Snooping,有效防止 DHCP Server 仿冒者攻击,使 DHCP 客户端能够通过合法的DHCP 服务器获取 IP 地址,管理员无需关注不同设备的信任接口与非信任接口,而是通过控制器的拓扑信息自动生成。

ACC

根据当前网络的所需的安全等级,管理员可在控制器界面上自行选择是否还需要开启ARP检测(DAI)和IP源攻击防护(IPSG)功能,该功能主要是通过全局的 DHCP Snooping 表项判断主机是否合法,不仅可以防止恶意主机伪造合法主机访问网络,同时还能确保主机不通过自己指定 IP 地址的方式来访问或攻击网络,造成可能的IP 地址冲突。

更多配置流程请参考:完整流程揭秘:30分钟搞定中大型园区网络业务开通,可行吗?

返回资源中心

最新动态

智算网络路径质量三要素:带宽/队列/时延在智能选路中的协同优化

近期文章


在长期服务于用户AI训练/推理生产网络的实践中,我们深刻观察到传统静态或简单度量(如跳数)的选路策略难以满足高性能AI集群网络的严苛要求。AI工作负载,特别是涉及大规模参数同步(如All-Reduce操作)和RDMA(如RoCEv2)流量时,对网络的带宽可用性、低延迟和极低抖动有着近乎极致的需求。

网络路径上的微小波动,如短暂拥塞导致的队列积压或转发延迟增加,都可能显著拖慢整个训练作业的完成时间,造成昂贵的算力资源浪费。

智能选路的路径质量如何判定?

为了从根本上优化AI流量的传输效率并最大化集群利用率,我们设计并实践了基于多维度网络状态感知的动态智能选路技术。该技术的核心创新在于,聚焦关键影响因子,摒弃单一指标,精准识别并引入在AI集群网络环境中对性能影响最为显著的动态参数作为核心计算因子:

  • 实时带宽利用率:精确测量路径上关键链路的当前可用带宽。避免将高吞吐量的AI流量(如梯度同步)引导至已接近饱和的链路,防止拥塞崩溃和PFC反压风暴。
  • 队列深度/使用情况: 直接监控网络设备(交换机)出口队列的瞬时和平均深度。队列深度是拥塞的先行指标,深度过大意味着数据包排队等待时间(Bufferbloat)增加,直接导致传输延迟上升和抖动加剧,这对依赖确定性的RDMA和集合通信操作是致命的。
  • 转发时延/延迟变化: 不仅测量路径的基础传播延迟,更关键的是持续监测数据包转发处理延迟及其变化(抖动)。这反映了设备本身的处理能力和当前负载状态,高或波动的处理时延会破坏AI流量的同步性。

智能选路中的统计计数:ASIC赋能的高精度数据采集

在动态智能选路系统的实现中,带宽利用率与队列深度这两大关键指标的采集直接依赖于网络设备的ASIC硬件级能力。具体而言:

硬件级实时监测(百毫秒级精度)

ASIC芯片内置的硬件寄存器持续执行线速统计,对每个端口的字节转发计数(Byte Counter) 和各优先级队列的缓存占用计数(Queue Depth Counter) 进行原子级累加。这种基于硅片级电路的计数机制摆脱了软件轮询的延迟与性能开销,可实现百毫秒级精度的数据捕获,精准反映瞬时网络拥塞状态。

控制面高效采集(亚秒级同步)

运行于设备控制面的SONiC网络操作系统,通过标准化的SAI(Switch Abstraction Interface)接口以亚秒级周期(通常为500ms) 主动读取ASIC寄存器的统计快照。此设计确保控制面能够近乎实时地感知转发芯片的状态变化,为动态选路提供高时效性数据输入。
统计计数

流水线式数据处理与存储

采集的原始计数器数据通过以下高效流水线处理:

  • ① 增量计算:SAI层将本次读数与上次读数做差,计算出时间窗口内的实际流量增量(ΔBytes)与队列深度变化值(ΔQueue-Occupancy)。
  • ② Redis高速缓存:处理后的增量数据被写入内存数据库Redis的时序结构(TSDB)中,形成带时间戳的指标序列。此架构满足高吞吐、低延迟的数据存取需求,为后续分析提供支撑。

BGP宣告的优化设计(秒级间隔)​

若按ASIC的亚秒级精度(如每100ms)通过BGP宣告路径质量,会导致控制面压力剧增,频繁生成和传输BGP Update消息,占用CPU和带宽资源。微秒级变化也可能触发不必要的路由更新,影响网络稳定性。所以,采用秒级间隔​(例如每秒1次)向邻居发送BGP Update消息,携带加权平均后的路径质量值。路径质量通过BGP扩展社区属性​(如Path Bandwidth Extended Community)传递,格式为浮点数(单位Gb/s)

纳秒级时延测量:INT与HDC技术负载均衡中的深度应用

转发时延计算因子基于INT(In-band Network Telemetry)技术,精度可达纳秒级。HDC(High Delay Capture)是一种能捕获ASIC中经历高延迟的数据包信息的INT技术。

INT硬件流水线实现原理

数据包进入交换机ASIC时,入口流水线在包头插入INT Shim头部,并记录精确入端口时间戳(基于芯片级高精度时钟,分辨率达纳秒级)。转发过程中,每个流水线阶段(如Ingress/Egress队列)实时追加时延元数据。包离开出口队列时,ASIC计算,此设计消除了交换机基础转发延迟的影响,仅保留队列排队时延这一关键变量。

HDC(高延迟捕获)技术深度解析

HDC是INT的功能扩展,专为捕捉网络中的尾延迟(Tail Latency) 事件设计。只捕获超过用户预设阈值(如10μs)的异常延迟报文,实现靶向抓包而非全量监控。ASIC硬件实时比对报文时延与阈值——当报文在队列/缓存中的滞留时间超过阈值,立即触发抓取动作。并将原始数据包的前150字节连同INT元数据(包含出入端口、时延等关键信息)作为HDC数据包发送到收集器。

INT

动态阈值触发机制

  • 用户可基于业务需求设置多级延迟阈值(如:关键RDMA流:>5μs、普通TCP流:>50μs)
  • ASIC硬件实时比对每个包的实际队列时延与阈值,触发零拷贝抓包。

元数据结构化封装

HDC告警包包含两类关键信息:

  • 原始包摘要:截取L2-L4层头部(150字节),保留五元组、TCP标志位等特征
  • INT元数据:

hdc

落地实践:AI RoCE交换机上的智能选路

动态智能选路技术在星融元交换机上开启HDC功能,并将CPU作为HDC的收集分析器,通过分析HDC报文实现高精度测量交换机转发时延,并将时延信息作为路径质量评价因子,提高路径质量评价精度。

HDC

命令行配置HDC功能控制INT进程运行,之后通过socket连接进行收包循环,将收取到的报文进行解析并将关键信息(出入端口、转发时延等)写入数据库。

RoCE交换机

返回资源中心

最新动态

推理性能提升30%?RoCE vs InfiniBand实测数据大揭秘!

近期文章


在人工智能与大数据技术爆发的时代,算力基础设施的革新成为驱动产业升级的核心引擎。作为 AI 数据中心网络架构的关键枢纽,800G 智能交换机正以其极致的性能、灵活的扩展性和智能化的管理能力,重新定义高速网络的标准。

本文将深度解析 AI 智算场景打造的800G AI RoCE交换机,从外部规格的硬件创新到内部架构的芯片级设计,从企业级操作系统的功能突破到实测数据的性能验证,全方位展现其如何通过领先的技术架构破解 AI 训练与推理中的网络效率瓶颈,助力数据中心在高带宽、低延迟、高可靠性的需求下实现算力资源的最优配置。

算力基础设施—AI 智算RoCE网络交换机

外观展示

这款 800G AI 智能交换机在配备了 64 个 800G OSFP 网络接口,能够支持25G/50G/100G/200G/400G 等多种速率,可灵活适配不同的网络环境需求。

配图

管理接口提供了 RJ45 MGMT Port、USB 2.0 Port 以及 RJ45 Console Port,为设备的管理和配置提供了丰富的选择。还具备 2 个 10G 端口,可作为 INT 端口用于其他管理功能,为设备的扩展应用提供了可能。

交换机设有 6 个 LED 指示灯,左侧的 LED 指示灯(LINK/ACT)用于展示管理口的网络链路状态和数据活动情况,右侧的 LED 指示灯(SYS)则显示系统整体状态,此外还有 BMC(面板管理控制器状态)、P(电源模块状态)、F(风扇模块状态)和 L(定位指示灯,用于维护期间识别设备),通过这些指示灯,运维人员可以快速了解设备的运行状况。

采用 1+1 热插拔电源设计,每个电源额定功率 3200W,且符合 80Plus 钛金能效标准,确保了设备供电的稳定和高效。同时,配备 3+1 个热插拔风扇模块,为设备的散热提供了可靠保障。

内部架构

配图

采用了 Marvell Teralynx 10 ASIC(以下简称TL10),这是一款 5 纳米单芯片可编程处理器,能提供 51.2Tbps 带宽和约 560 纳秒的端口转发时延,在业内处于领先水平。更详细的内部架构请参见:51.2T 800G AI智算交换机软硬件系统设计全揭秘

散热设计上,采用 3D 均热风冷散热,这种高效的风冷设计使系统在 2180W 满负荷运行时仍能有效控制温度和噪音,即便在高负荷使用状态下,风扇转速仅为 60%,保证了设备的稳定运行和良好的工作环境。

精确时间协议 PTP 模块支持热插拔,PTP 和 SyncE 同步精度高达 10 纳秒,为对时间同步要求高的应用场景提供了有力支持。

COMe 模块由 x86 英特尔至强处理器和 AsterNOS 驱动,为先进的数据中心 / 人工智能路由提供智能控制平面。面板管理控制器(BMC)模块采用可插拔式设计,适用于模块化、可升级的带外管理,支持性能升级扩展,增强了设备的可扩展性和灵活性。

AI RoCE 交换机操作系统(AsterNOS)

基于企业级SONiC的增强特性

  • 超高速以太网优化:通过动态流量整形和优先级队列技术,实现网络利用率超90%,较传统以太网提升30%。
  • AI场景专属功能:flowlet级负载均衡:根据GPU集群负载动态分配流量,减少数据拥塞。INT+WCMP路由:结合带内遥测与加权多路径算法,训练任务延迟降低20.4%,token生成速率提升27.5%。

配图

  • EasyRoCE EasyRoCE 是星融元依托开源、开放的网络架构与技术,为AI 智算、高性能计算等场景的RDMA 融合以太网(RoCE)提供的一系列实用特性和小工具。从前期规划实施到日常运维监控, EasyRoCE 简化了各环节的复杂度并改善了操作体验,更提供二次开发和集成空间,供网络架构师充分利用开放网络的最新技术成果。(RE)RoCE Exporter:以容器的方式运行在AsterNOS网络操作系统内,从运行AsterNOS的交换机设备上导出RoCE网络相关监控指标(到自定义HTTP端口),供统一监控平台进行可视化呈现。

  • 接口收发带宽和速率
  • RoCE、PFC、ECN、DSCP配置状态信息
  • 拥塞控制信息(ECN标记包,PFC帧数等)
  • 队列Buffer信息
  • ……

企业版 SONiC vs 社区版

SONiCSONiCSONiC

AsterNOS 同时支持 Linux Bash 和思科风格命令行界面(Klish),这种双风格命令行界面帮助网络工程师轻松适应并快速部署,提升了操作的便利性和效率。

AsterNOS

800G 数据中心交换机(TL10平台)实测数据

实测数据

CX864E-N蛇形吞吐测试

实测数据

CX864E-N的端口转发时延

实测数据展示了该交换机在不同测试场景下的出色表现,各项指标均达到较高水平,验证了其性能的稳定性和可靠性。

DeepSeek模型推理指标对比:IB vs RoCE

  • 推理时延:90% token 间隔延迟,指 90% token 间隔时间的最大值,用以衡量模型连续生成 token 的稳定性和连贯性。推理时延越低,系统的稳定性越高。
  • Token 平均生成速率(Token Generation Rate):单位为 token 每秒(tokens/s)。反映了模型推理的整体吞吐能力,TGR 越高,表示系统单位时间内处理能力越强。

推理时延

Token生成速率

与IB网络场景下数据对比可见,星融元RoCEv2组网,推理时延明显优于IB,token 连贯性更好;token生成速度、中文字符速度明显优于IB。

800G AI智能交换机通过硬件革新与AsterNOS软件协同,为AI算力集群与超大规模数据中心提供“高吞吐、低时延、易运维”的一站式解决方案。其模块化设计、企业级SONiC支持及RoCEv2性能优势,正加速AI基础设施向开放解耦、智能高效的下一代架构演进。

返回资源中心

最新动态

高效转发+智能管理:MPLS技术如何应对多业务挑战?

近期文章


随着现代企业园区网络和运营商级基础设施的不断发展,多协议标签交换 (MPLS) 已成为一项基础技术,这要归功于其高效的数据包转发、高级流量工程功能以及对多租户环境的强大支持。

什么是MPLS?

MPLS(多协议标签交换,Multiprotocol Label Switching)是一种基于标签的转发技术,结合了二层交换的简捷性与三层路由的灵活性。通过预分配的标签(Label)替代传统IP路由的逐跳查表,提升转发效率。

MPLS起源于IPv4(Internet Protocol version 4),其核心技术可扩展到多种网络协议,包括IPv6(Internet Protocol version 6)、IPX(Internet Packet Exchange)和CLNP(Connectionless Network Protocol)等。MPLS中的“Multiprotocol”指的就是支持多种网络协议。

由此可见,MPLS并不是一种业务或者应用,它实际上是一种隧道技术。这种技术不仅支持多种高层协议与业务,而且在一定程度上可以保证信息传输的安全性。

核心组件:LER(标签边缘路由器)、LSR(标签交换路由器)、FEC(转发等价类)。

工作原理

  1. 标签分配:入口路由器(LER)为数据包分配标签,标签对应转发路径(LSP)。
  2. 标签交换:中间路由器(LSR)根据标签转发表(LFIB)快速转发,无需解析IP头部。
  3. 标签移除:出口路由器(LER)剥离标签,恢复原始IP数据包。

MPLS工作原理

标签结构

MPLS 标签是一个紧凑的 32 位报头,包含四个关键字段:

MPLS标签结构

  • 标签 (20 位) — 标识通过 MPLS 网络的路径 (LSP)
  • EXP(3 位)— 用于 QoS(服务质量)标记或流量优先级
  • S (1 bit) – 堆栈标志的底部;指示这是否是堆栈中的最后一个标签
  • TTL(8 位)– 生存时间;通过限制数据包的生命周期来防止路由循环

为什么需要MPLS?

在传统IP网络架构中,基于三层路由的转发机制逐渐暴露很多问题。

首先,转发效率低下的问题尤为突出,由于每台路由器都需要逐跳解析IP报文头部并查询路由表,这种反复查表的机制在大流量场景下会产生显著延迟,难以满足数据中心或运营商核心网的高吞吐需求。

其次,传统路由技术对路径控制能力薄弱,完全依赖OSPF、BGP等动态路由协议自动选路,既无法主动规避拥塞链路,也无法为特定业务指定优化路径,导致网络资源利用率低下。

更棘手的是多业务隔离难题,VLAN受限于4096个ID的规模上限,ACL策略管理复杂度随业务增长呈指数级上升,这种基于二层的隔离方案难以支撑跨地域、多租户的现代组网需求。

MPLS技术的核心功能

服务质量(QoS)

MPLS在QoS中的应用主要体现在其对网络流量优先级管理的精细化能力上,而EXP字段(Experimental Bits,后更名为Traffic Class字段)是两者结合的核心纽带。MPLS如何实现QoS保障?在MPLS网络入口(LER),根据业务类型(如语音、视频、普通数据)为流量分配EXP值,可通过手动配置或自动映射(如将IP层的DSCP值转换为EXP值)。LSR根据EXP值分为不同优先级队列,优先转发低延迟流量(SP)和按比例分配剩余带宽(WFQ)。当链路拥塞时,低EXP值的流量可能被丢弃(如TCP流量),而高EXP值的流量(如VoIP)始终保障带宽,此外,再结合RSVP-TE等协议实现关键业务(如语音、实时视频)的带宽保障和低抖动传输,构建起从转发效率到业务体验的全方位优化体系。

流量工程(TE)

TE通过MPLS技术解决了传统IP网络无法实现的精细化流量控制需求,通过显式路径(Explicit Path)手动或策略驱动流量走向,均衡负载或避开瓶颈链路,从而优化网络性能。

业务隔离与VPN

传统VPN一般是通过GRE(Generic Routing Encapsulation)、L2TP(Layer 2 Tunneling Protocol)、PPTP(Point to Point Tunneling Protocol)等隧道协议来实现私有网络间数据在公网上的传送,而MPLS LSP是通过标签交换形成的隧道,数据报文不再经过封装或者加密,因此,用MPLS实现VPN具有天然的优势。

基于MPLS的VPN通过LSP将私有网络的不同分支联结起来,形成一个统一的网络,如图所示。基于MPLS的VPN还支持对不同VPN间的互通控制。这对于企业和运营商网络至关重要。

  • CE(Customer Edge)是用户边缘设备,可以是路由器,也可以是交换机或主机。
  • PE(Provider Edge)是IP/MPLS骨干网的边缘设备。
  • P(Provider)是IP/MPLS骨干网的骨干设备,不与CE直接相连。P设备只需要具备基本MPLS转发能力,不维护VPN信息。

业务隔离与VPN

如何基于业务场景与技术特性选择最优网络方案?
对比维度MPLS传统IP路由SD-WANSegment Routing
转发效率高(标签快速交换)低(逐跳查表)中(依赖隧道封装)高(类似MPLS)
路径控制支持显式路径和流量工程依赖动态路由协议动态智能选路灵活源路由
多业务隔离通过VPN实现逻辑隔离VLAN/ACL,扩展性差有限(依赖Overlay)需结合其他技术(如VXLAN)
部署成本高(依赖专用设备和运营商专线)低(利用互联网链路)中(需升级硬件支持)
适用场景企业专网、运营商核心网中小型园区网络跨地域互联、云访问优化数据中心、大规模骨干网
服务质量(QoS)强(基于EXP/DSCP优先级标记)中(依赖链路质量监测)中(需策略配合)

AsterNOS:软件定义架构下的MPLS转发技术革新

SONiC(Software for Open Networking in the Cloud) 是开源社区的网络操作系统,其核心目标是构建开放、解耦的云数据中心网络架构。作为全球首个完全开源的网络操作系统,SONiC基于Linux内核设计,支持标准化硬件(如白盒交换机)与容器化微服务架构,通过模块化组件(如SAI——交换机抽象接口)实现灵活的功能扩展。其开源特性吸引了全球云服务商、运营商及企业的广泛参与,逐步成为云原生网络的事实标准。

尽管社区版 SONiC 通过模块化设计为云数据中心提供了开放灵活的基础架构,但其在复杂协议支持上的短板始终制约着企业级场景的深度应用。以MPLS为例,社区版本需依赖第三方扩展或定制化开发,导致功能碎片化、性能不稳定,难以满足金融专网、跨云互联等高可靠性需求。

AsterNOS基于 SONiC 的开放式园区交换机的完整产品组合现在完全支持 MPLS,它提高了数据包转发速度,支持精细的流量控制,并支持多协议环境,使其成为电信、企业 WAN 和云数据中心中的大规模网络不可或缺的工具。

这种“开源基因+商业级能力”的融合,使得AsterNOS既能继承开源生态的灵活性,又能以超前技术布局填补开源生态与商业需求间的鸿沟。

返回资源中心

最新动态

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2