标签：中立科普

ECMP路由场景下哈希极化（哈希不均）现象的解析

近期文章

什么是Hash极化

理解ECMP路由方式下的Hash极化现象，需要结合ECMP的工作原理和哈希算法的特性来分析。

Hash极化，又称hash不均，具体的表现是在ECMP进行多路径负载均衡时，流量并没有像预期那样均匀地分布到所有可用的等价路径上，而是呈现出明显的偏向性，导致某些路径负载过重（拥塞），而其他路径负载很轻（闲置）的现象。

为什么会出现Hash极化？

Hash极化现象的根本原因在于哈希算法的一致性与网络拓扑结构和流量模式特性之间的相互作用：

哈希算法的一致性
- 网络设备（路由器、交换机）通常使用相同或非常相似的哈希算法（如Toeplitz哈希）和相同的输入参数（如标准的五元组）。
- 当流量经过多个使用ECMP的网络设备（尤其是在层次化网络如Clos架构的数据中心中）时，如果这些设备使用相同的哈希算法和参数，它们对同一个数据流计算出的哈希结果（即选择的路径索引）高度一致。
网络拓扑的层次化

数据中心常见的Clos架构是Hash极化最常见的发生场景。
- 想象一个典型的三层Clos架构：服务器 -> Leaf交换机 -> Spine交换机 -> … -> 目的地。
- 第一层ECMP (Leaf -> Spine): 假设Leaf有4个上行端口连接到4个不同的Spine交换机。Leaf使用ECMP和哈希算法H1将服务器流量分配到4个Spine上。目标是均匀分布。
- 第二层ECMP (Spine -> 下一跳/Leaf): Spine交换机接收到来自Leaf的流量后，它自己也需要使用ECMP（假设也是基于相同的哈希算法H1和相同的五元组输入）将流量转发到其下一跳（可能是另一组Leaf或核心路由器）。
- 极化发生： 问题就在这里！Leaf交换机已经基于五元组和H1把流A哈希到了Spine 1。当Spine 1收到流A的数据包后，它再次使用相同的H1算法和相同的五元组计算哈希，决定将流A发送到它的哪个下一跳。由于输入（五元组）和哈希函数（H1）都没变，Spine 1计算出的哈希结果（路径索引）极大概率会与Leaf计算出的哈希结果（选择Spine 1这个事实）具有某种相关性，甚至是相同的模式。
- 结果： 原本在Leaf层被“均匀”分配到4个Spine的流量，在Spine层再次被哈希时，所有来自Spine 1的流量（无论它在Leaf层是从哪个端口来的）都可能被Spine 1的哈希算法再次集中分配到其少数几个下一跳路径上，而不是均匀分散到所有可用路径。其他Spine上的情况类似。最终导致Spine交换机到其下一跳的链路上，只有少数几条承载了绝大部分来自其上游Leaf的流量，而其他链路则很空闲。这就是极化——流量在下一层被“集中”而非“分散”了。
流量模式的不均衡：
- 哈希算法的均匀分布依赖于输入（流标识/五元组）本身的随机性。如果实际流量中存在大量具有相似特征的流（例如，大量流共享相同的源IP或目的IP），而这些特征恰好是哈希算法的主要输入，那么这些相似的流就非常可能被哈希到相同的路径上（哈希碰撞），导致该路径过载。
- 即使没有层次化拓扑，仅在一个ECMP组内，如果流量模式本身高度偏斜（少数大流主导），哈希极化也会导致负载不均。
路径数量与哈希范围：
- 哈希算法输出范围（桶的数量）需要与可用路径数量匹配。如果算法设计的哈希空间分布不均匀，或者路径数量不是2的幂次而哈希桶分配不合理，也可能导致某些路径被选中的概率更高。

Hash极化的影响

负载不均衡： 这是最直接的影响。部分链路拥塞，部分链路闲置，浪费了宝贵的带宽资源。
网络性能下降： 拥塞链路导致数据包丢失、延迟增加、抖动增大，影响应用性能（特别是对延迟敏感的应用）。
吞吐量瓶颈： 整体网络吞吐量受限于那些被过度使用的链路，无法达到理论上的多路径叠加带宽。
可靠性潜在风险： 过载的链路和设备故障风险更高。同时，当一条过载链路故障时，其承载的大量流量瞬间切换到其他链路，可能引发新的拥塞。

如何缓解Hash极化

使用不同的哈希因子： 这是最常用且有效的方法。为网络中的不同设备（或同一设备的不同ECMP组）配置不同的随机哈希种子。即使算法相同，不同的种子会导致相同的输入产生完全不同的哈希结果，打破了哈希结果在不同层级间的相关性。例如，Spine交换机使用与Leaf交换机不同的种子。
使用不同的哈希算法： 在支持的情况下，让不同层级的设备使用不同的哈希算法。
使用更丰富的哈希输入： 增加哈希算法的输入字段，如加入MAC地址、VLAN标签、MPLS标签、GTP TEID（移动网络）、NVGRE/VXLAN VNI（Overlay网络）、甚至包内特定偏移的字节等。这增加了输入空间的随机性，减少了因五元组相似导致的碰撞。现代设备通常支持灵活选择哈希字段。
层次化感知的哈希/负载均衡： 在Leaf层，除了五元组，可以加入Spine交换机的信息（如出端口ID或Spine的IP）作为哈希输入的一部分。这样，当流量到达Spine时，其哈希输入已经包含了路径信息，有助于Spine层更均匀地分布。这需要设备支持更复杂的哈希策略。
动态负载均衡： 超越静态的基于流的哈希，采用基于实时链路利用率或队列深度的动态负载均衡机制（如一些厂商的“自适应路由”或类似CONGA的思想）。这种方法直接感知拥塞并调整路径选择，能有效避免极化，但实现更复杂。
调整网络拓扑/路径数量： 有时增加路径数量或调整拓扑结构也能缓解问题，但成本较高。

Hash极化是ECMP在多层级网络（尤其是数据中心Clos架构）中使用相同哈希算法和参数时，流量在逐层转发过程中被反复集中到少数路径上，导致负载严重不均衡的现象。其核心原因在于哈希算法在不同层级设备上计算结果的相关性。解决的关键在于打破这种相关性，主要方法包括为不同设备配置不同的哈希种子、使用更丰富多样的哈希输入字段，以及采用更先进的动态负载均衡技术。理解Hash极化对于设计和优化高性能数据中心网络至关重要。

返回资源中心

端口类型	作用	系数意义
Leaf上行口	连接Spine	影响跨设备链路质量权重
Leaf下行口	连接服务器/终端	决定终端接入链路质量权重
Spine口	连接Leaf	控制核心层链路质量聚合权重

近期文章

什么是 DHCP 侦听

DHCP侦听（DHCP snooping）是一种部署在以太网交换机上的网络安全机制，用于阻止未经授权的 DHCP 服务器为客户端分配 IP 地址。该机制通过检查 DHCP 消息并仅允许来自受信任端口的 DHCP 消息通过，从而防止非法 IP 地址分配，确保网络环境安全稳定。

为什么需要DHCP侦听？

在企业、校园甚至公共网络中，与 DHCP 相关的问题并不少见，而且它们可能会造成严重的网络中断。有时，仅仅是配置错误的设备意外地充当了 DHCP 服务器，分配了错误的 IP 地址，导致连接中断。有时，问题更为严重，例如攻击者设置了恶意 DHCP 服务器，通过虚假网关或 DNS 服务器重新路由用户，从而为中间人攻击打开了方便之门。即使是客户端手动为自己分配静态 IP 地址，也可能造成混乱，引发冲突，并使网络安全管理更加困难。

项目	DHCP	静态 IP
分配方法	由服务器自动分配	手动配置
管理努力	低，适合大规模部署	高，需要单独设置
解决稳定性问题	每次设备连接时可能会发生变化	固定不变
设置效率	快速、即插即用	速度慢，需要手动输入
适合	最终用户设备、动态环境	服务器、打印机、关键设备
安全	需要配合保护机制（例如 DHCP 侦听）	更可控，但有手动配置错误的风险

DHCP 侦听的好处：

阻止恶意 DHCP 服务器干扰网络。
确保客户端收到准确的 IP 地址和网络配置。
通过降低攻击风险来增强网络安全。

DHCP 侦听如何工作？

要真正理解DHCP 监听的工作原理，首先必须清楚了解DHCP（动态主机配置协议）的工作原理。当设备加入网络且尚未获得 IP 地址时，它会发起与 DHCP 服务器的对话——这是一个四步握手过程，包括：发现 (Discover )、提供 (Offer)、请求 (Request)和确认 (Acknowledge )。可以将其视为设备和服务器之间获取 IP 身份的快速协商过程。下图详细分析了此动态交换过程中每个步骤的具体细节。

在启用 DHCP Snooping 的网络中，交换机接口分为两个主要角色：可信端口和不可信端口。

可信端口：这些端口连接到合法的 DHCP 服务器或上行链路设备（例如路由器或核心交换机），并被允许发送 DHCP 服务器消息（例如 DHCP OFFER、DHCP ACK）。
不受信任的端口：这些端口连接到常规客户端（例如，PC 或打印机），并且仅限于发送 DHCP 客户端消息（例如，DHCP DISCOVER、DHCP REQUEST）。
默认情况下，所有端口都是不受信任的；必须手动配置受信任的端口。

DHCP 消息过滤：

来自不受信任端口的 DHCP 服务器消息（例如 DHCP OFFER、DHCP ACK）将被丢弃，以防止恶意 DHCP 服务器运行。
客户端请求（例如，DHCP DISCOVER、DHCP REQUEST）可以来自不受信任的端口，但服务器响应只允许来自受信任的端口。

DHCP绑定表：

DHCP 侦听维护一个绑定表，其中记录每个客户端的 MAC 地址、分配的 IP 地址、租用期限、VLAN 和端口信息。
该表用于验证后续流量，防止 IP 地址欺骗。

与 IP Source Guard 集成：

DHCP 侦听通常与 IP 源防护配合使用，根据绑定表过滤流量，仅允许分配的 IP 地址从客户端发送数据，阻止未经授权的 IP。

支持 DHCP option 82（可选）：

DHCP 侦听可以插入或处理 DHCP option 82（中继代理信息），为 DHCP 服务器提供有关客户端端口和交换机的详细信息，从而实现更精确的 IP 分配。

DHCP 侦听可以防范哪些常见网络攻击

DHCP 侦听可有效缓解以下网络威胁：

恶意 DHCP 服务器攻击：

工作原理：攻击者设置未经授权的 DHCP 服务器来分发不正确的 IP 地址、网关或 DNS 服务器。
影响：客户端流量被重定向到攻击者的设备，从而实现 MITM 攻击、流量拦截或 DNS 欺骗。
防御：DHCP 侦听会丢弃来自不受信任端口的服务器消息，仅允许受信任的端口发送 DHCP 响应。

DHCP 饥饿攻击：

工作原理：攻击者利用 DHCPDISCOVER 请求淹没网络，耗尽 DHCP 服务器的 IP 地址池。
影响：合法客户端无法获取IP地址，导致网络服务中断。
防御：当与端口安全或每个端口的速率限制 DHCP 请求相结合时，DHCP 侦听可以防止过多的流量压垮服务器。

中间人（MITM）攻击：

工作原理：恶意 DHCP 服务器分配虚假网关或 DNS 服务器，通过攻击者的设备路由客户端流量。
影响：攻击者可以监控、修改或重定向客户端通信。
防御：DHCP 侦听确保仅处理受信任的 DHCP 消息，从而阻止恶意配置。

IP欺骗攻击：

工作原理：客户端手动配置未经授权的 IP 地址来冒充合法主机。
影响：这可能导致 IP 冲突、网络中断，或成为进一步攻击的垫脚石。
防御：通过与 IP Source Guard 和 DHCP 绑定表集成，DHCP Snooping 可以阻止来自未经授权的 IP 地址的流量。

DHCP 侦听的应用场景

公共网络：在咖啡店、酒店或共同工作空间等环境中，恶意用户可能会部署恶意 DHCP 服务器来窃取数据或发起攻击。
企业网络：具有多个部门或 VLAN 的大型网络依靠 DHCP 侦听来确保客户端连接到正确的 DHCP 服务器。
高安全性环境：在需要遵守数据保护法规和其他有保密等级要求的环境中，DHCP 侦听功能有助于防止未经授权的访问。
防范 DHCP 欺骗：它减轻了客户端被重定向到恶意网关的风险，增强了整体网络安全性。

配置示例

传统方式-手动配置

configure Terminal #进入系统配置视图
dhcp snooping enable{v4|v6} #启用DHCP Snooping功能，默认禁用。
interface ethernet interface-id #进入接口视图
dhcp-snooping enable #启用DHCP Snooping功能，默认禁用。
dhcp-snooping trusted #设置端口的信任状态，默认不信任。

sonic# configure terminal
sonic(config)# dhcp snooping enable v4
sonic(config)# interface ethernet 20
sonic(config-if-20)# dhcp-snooping enable
sonic(config-if-20)# dhcp-snooping trusted

云化配置方式 – 图形化配置

星融元的云化园区网络解决方案，通过一个开源、开放架构（基于OpenWiFi）的网络控制器来为有线无线网络设备下发配置，进行开局配置时在交换机上会默认开启DHCP Snooping，有效防止 DHCP Server 仿冒者攻击，使 DHCP 客户端能够通过合法的DHCP 服务器获取 IP 地址，管理员无需关注不同设备的信任接口与非信任接口，而是通过控制器的拓扑信息自动生成。

ACC

根据当前网络的所需的安全等级，管理员可在控制器界面上自行选择是否还需要开启ARP检测(DAI)和IP源攻击防护(IPSG)功能，该功能主要是通过全局的 DHCP Snooping 表项判断主机是否合法，不仅可以防止恶意主机伪造合法主机访问网络，同时还能确保主机不通过自己指定 IP 地址的方式来访问或攻击网络，造成可能的IP 地址冲突。

更多配置流程请参考：完整流程揭秘：30分钟搞定中大型园区网络业务开通，可行吗？

返回资源中心

近期文章

随着现代企业园区网络和运营商级基础设施的不断发展，多协议标签交换（MPLS）已成为一项基础技术，这要归功于其高效的数据包转发、高级流量工程功能以及对多租户环境的强大支持。

什么是MPLS？

MPLS（多协议标签交换，Multiprotocol Label Switching）是一种基于标签的转发技术，结合了二层交换的简捷性与三层路由的灵活性。通过预分配的标签（Label）替代传统IP路由的逐跳查表，提升转发效率。

MPLS起源于IPv4（Internet Protocol version 4），其核心技术可扩展到多种网络协议，包括IPv6（Internet Protocol version 6）、IPX（Internet Packet Exchange）和CLNP（Connectionless Network Protocol）等。MPLS中的“Multiprotocol”指的就是支持多种网络协议。

由此可见，MPLS并不是一种业务或者应用，它实际上是一种隧道技术。这种技术不仅支持多种高层协议与业务，而且在一定程度上可以保证信息传输的安全性。

核心组件：LER（标签边缘路由器）、LSR（标签交换路由器）、FEC（转发等价类）。

工作原理

标签分配：入口路由器（LER）为数据包分配标签，标签对应转发路径（LSP）。
标签交换：中间路由器（LSR）根据标签转发表（LFIB）快速转发，无需解析IP头部。
标签移除：出口路由器（LER）剥离标签，恢复原始IP数据包。

标签结构

MPLS 标签是一个紧凑的 32 位报头，包含四个关键字段：

标签（20 位） — 标识通过 MPLS 网络的路径（LSP）
EXP（3 位）— 用于 QoS（服务质量）标记或流量优先级
S （1 bit） – 堆栈标志的底部;指示这是否是堆栈中的最后一个标签
TTL（8 位）– 生存时间;通过限制数据包的生命周期来防止路由循环

为什么需要MPLS？

在传统IP网络架构中，基于三层路由的转发机制逐渐暴露很多问题。

首先，转发效率低下的问题尤为突出，由于每台路由器都需要逐跳解析IP报文头部并查询路由表，这种反复查表的机制在大流量场景下会产生显著延迟，难以满足数据中心或运营商核心网的高吞吐需求。

其次，传统路由技术对路径控制能力薄弱，完全依赖OSPF、BGP等动态路由协议自动选路，既无法主动规避拥塞链路，也无法为特定业务指定优化路径，导致网络资源利用率低下。

更棘手的是多业务隔离难题，VLAN受限于4096个ID的规模上限，ACL策略管理复杂度随业务增长呈指数级上升，这种基于二层的隔离方案难以支撑跨地域、多租户的现代组网需求。

MPLS技术的核心功能

服务质量（QoS）

MPLS在QoS中的应用主要体现在其对网络流量优先级管理的精细化能力上，而EXP字段（Experimental Bits，后更名为Traffic Class字段）是两者结合的核心纽带。MPLS如何实现QoS保障？在MPLS网络入口（LER），根据业务类型（如语音、视频、普通数据）为流量分配EXP值，可通过手动配置或自动映射（如将IP层的DSCP值转换为EXP值）。LSR根据EXP值分为不同优先级队列，优先转发低延迟流量（SP）和按比例分配剩余带宽（WFQ）。当链路拥塞时，低EXP值的流量可能被丢弃（如TCP流量），而高EXP值的流量（如VoIP）始终保障带宽，此外，再结合RSVP-TE等协议实现关键业务（如语音、实时视频）的带宽保障和低抖动传输，构建起从转发效率到业务体验的全方位优化体系。

流量工程（TE）

TE通过MPLS技术解决了传统IP网络无法实现的精细化流量控制需求，通过显式路径（Explicit Path）手动或策略驱动流量走向，均衡负载或避开瓶颈链路，从而优化网络性能。

业务隔离与VPN

传统VPN一般是通过GRE（Generic Routing Encapsulation）、L2TP（Layer 2 Tunneling Protocol）、PPTP（Point to Point Tunneling Protocol）等隧道协议来实现私有网络间数据在公网上的传送，而MPLS LSP是通过标签交换形成的隧道，数据报文不再经过封装或者加密，因此，用MPLS实现VPN具有天然的优势。

基于MPLS的VPN通过LSP将私有网络的不同分支联结起来，形成一个统一的网络，如图所示。基于MPLS的VPN还支持对不同VPN间的互通控制。这对于企业和运营商网络至关重要。

CE（Customer Edge）是用户边缘设备，可以是路由器，也可以是交换机或主机。
PE（Provider Edge）是IP/MPLS骨干网的边缘设备。
P（Provider）是IP/MPLS骨干网的骨干设备，不与CE直接相连。P设备只需要具备基本MPLS转发能力，不维护VPN信息。

如何基于业务场景与技术特性选择最优网络方案？

对比维度	MPLS	传统IP路由	SD-WAN	Segment Routing
转发效率	高（标签快速交换）	低（逐跳查表）	中（依赖隧道封装）	高（类似MPLS）
路径控制	支持显式路径和流量工程	依赖动态路由协议	动态智能选路	灵活源路由
多业务隔离	通过VPN实现逻辑隔离	VLAN/ACL，扩展性差	有限（依赖Overlay）	需结合其他技术（如VXLAN）
部署成本	高（依赖专用设备和运营商专线）	低	低（利用互联网链路）	中（需升级硬件支持）
适用场景	企业专网、运营商核心网	中小型园区网络	跨地域互联、云访问优化	数据中心、大规模骨干网
服务质量（QoS）	强（基于EXP/DSCP优先级标记）	弱	中（依赖链路质量监测）	中（需策略配合）

AsterNOS：软件定义架构下的MPLS转发技术革新

SONiC（Software for Open Networking in the Cloud）是开源社区的网络操作系统，其核心目标是构建开放、解耦的云数据中心网络架构。作为全球首个完全开源的网络操作系统，SONiC基于Linux内核设计，支持标准化硬件（如白盒交换机）与容器化微服务架构，通过模块化组件（如SAI——交换机抽象接口）实现灵活的功能扩展。其开源特性吸引了全球云服务商、运营商及企业的广泛参与，逐步成为云原生网络的事实标准。

尽管社区版 SONiC 通过模块化设计为云数据中心提供了开放灵活的基础架构，但其在复杂协议支持上的短板始终制约着企业级场景的深度应用。以MPLS为例，社区版本需依赖第三方扩展或定制化开发，导致功能碎片化、性能不稳定，难以满足金融专网、跨云互联等高可靠性需求。

AsterNOS基于 SONiC 的开放式园区交换机的完整产品组合现在完全支持 MPLS，它提高了数据包转发速度，支持精细的流量控制，并支持多协议环境，使其成为电信、企业 WAN 和云数据中心中的大规模网络不可或缺的工具。

这种“开源基因+商业级能力”的融合，使得AsterNOS既能继承开源生态的灵活性，又能以超前技术布局填补开源生态与商业需求间的鸿沟。

【参考文献】

https://www.fnetlink.com/hyzx/32732.html

https://wiki.mbalib.com/wiki/MPLS

https://info.support.huawei.com/info-finder/encyclopedia/zh/SR-MPLS.html

返回资源中心

近期文章

从WiFi 6到WiFi 7：技术升级的核心突破

WiFi7（IEEE 802.11be）作为新一代无线通信标准，在WiFi 6的基础上实现了多维度的技术跃迁，主要体现在以下4个方面：

带宽与速率的指数级提升

WiFi7的最大理论速率达到46Gbps，是WiFi6（9.6Gbps）的5倍。这一飞跃得益于320MHz信道带宽的引入（WiFi6为160MHz），相当于将数据传输的“高速公路”拓宽至双车道。

此外，4096-QAM调制技术的应用使单符号数据承载量从WiFi6的10比特提升至12比特，传输效率提高20%。例如，下载一部50GB电影，WiFi7仅需8秒，而WiFi6需42秒。

多链路操作（MLO）的革命性突破

WiFi7支持跨频段（2.4GHz、5GHz、6GHz）的多链路聚合传输，既可提升速率（如双频叠加实现翻倍带宽），又能增强抗干扰能力。例如，当某一频段受阻时，数据可自动切换至其他频段，显著降低断连风险。相比之下，WiFi6仅支持单频段传输，灵活性受限。

空间流与MIMO技术的扩展

WiFi7的16×16 MIMO（多输入多输出）技术可同时处理16条数据流，是WiFi6（8条）的两倍，大幅提升了高密度场景下的设备容量。这一特性尤其适用于机场、体育场馆等万人级并发场景。结合多链路操作（MLO），可跨2.4GHz/5GHz/6GHz频段同时调度16条空间流，理论容量翻倍。

标准	最大空间流数	典型MIMO配置	关键技术突破
WiFi6 (802.11ax)	8	8×8	OFDMA+MU-MIMO协同调度
WiFi7 (802.11be)	16	16×16	多频段协同MIMO

频谱利用与抗干扰优化

新增的6GHz频段与动态频谱分配技术，缓解了2.4GHz/5GHz频段的拥堵问题。同时，Multi-RU（资源单元聚合）技术允许将多个RU（如小规格RU或大规格RU）组合分配给同一用户，支持非连续频谱聚合，例如将两个80MHz频段合并为160MHz，或在复杂干扰环境中动态调整RU分配，以进一步提升频谱效率。

尽管WiFi 7的技术指标令人振奋，但其在国内的落地进程却面临多重现实挑战，需结合技术优势与市场环境探索破局路径。

国内WiFi7发展的困境

当前实际应用中，6GHz优先用于移动通信，WiFi 7 AP 无法使用该频段（国内仅限5GHz），导致其 320MHz 超宽频带、4096QAM 等技术优势难以完全发挥？

支持 WiFi 7 的手机、电脑等终端设备不足 10%，企业和家庭用户担心部署后因设备兼容性差，无法实现预期的高速体验，造成资源浪费？

破局之道：立足现有优势，挖掘场景化潜力

在当前的无线网络环境中，频段资源受限已成为制约性能提升的重要瓶颈，尤其在新建或扩容场景下，传统WiFi技术难以满足高密度接入和低时延的严苛需求。然而，随着WiFi 7技术的推出，这一问题得到了革命性突破——即便不依赖尚未全面开放的6GHz频段，其性能表现也已远超WiFi 6，为用户提供了更优的解决方案。

多链路操作（MLO），通过同时利用2.4GHz和5GHz双频段传输数据，WiFi 7实现了链路聚合与动态调度，大幅提升网络稳定性和抗干扰能力。这一技术尤其适用于复杂电磁环境，确保用户在多设备并发时仍能获得流畅体验。
增强TWT+节能调度，相比WiFi 6的固定时隙分配（如“定时闹钟”），WiFi 7的智能节能调度可根据设备需求动态调整唤醒时间，显著降低多设备场景下的功耗，同时保持更稳定的时延控制。这种优化对智能家居、物联网设备等高密度部署场景尤为重要。
4096QAM高密度传输，在现有5GHz频段中，WiFi 7通过更高阶的调制技术（4096QAM）实现数据密度提升，单链路速率较WiFi 6增加20%以上。这意味着无需依赖新频段，用户即可享受更快的传输速度和更高效的频谱利用率。
预支持6GHz频段，WiFi 7硬件已提前兼容6GHz频段，一旦政策开放，用户无需更换设备即可直接扩展至更宽裕的频谱资源。这种“一步到位”的设计既降低了未来升级成本，又为超高速、低延迟应用（如8K流媒体、元宇宙交互）提供了技术储备。

功能/型号	CAP7020-Z（双频）	CAP7030-Z（三频）产品链接
接口	1个10/100/1000/2500Mbps 自适应WAN 口	1个10/100/1000/2500Mbps 自适应WAN 口1个10/100/1000/2500Mbps自适应LAN 口1个10Gpbs的SFP+光口
存储	512M RAM + 128M NAND	1024M RAM + 128M NAND
频段	2.4GHz（688Mbps ）和 5GHz （2882Mbps）	2.4GHz（688Mbps ）和 5.1GHz （2882Mbps）和5.8Ghz（2882Mbps）
吞吐	3.6Gbps	6.4Gbps
用户数	128+	192+
SSID数量	8（2.4G）+8（5G）	8（2.4G）+8（5.1G）+8（5.8G）
天线	2 x 2	2 x 2 x 2
天线增益	2.4GHz：2×4dBi5GHz：2×4dBi	2.4GHz：2×1.7dBi5.1GHz：2×4dBi5.8Ghz：2x4dBi
功耗	< 20W	< 36W
供电	PoE 802.3at，DC2.0 12V/2A	PoE 802.3bt，DC2.0 12V/3A

云化园区无线接入点：新一代云化园区网络无线控制器

优先购买支持三频（含6GHz）的WiFi 7路由器，为未来政策开放预留升级空间。
在6GHz未开放地区，利用5.8GHz高频段低干扰特性优化现有网络。

【参考文献】

返回资源中心

最新动态

一文梳理：如何构建并优化GPU云算力中心？

从计算、网络到运维的全流程AI集群建设与降本工程指南

目前最常见的AI算力中心部署的GPU集群大小为 2048、1024、512 和 256，且部署成本随 GPU 数量线性增长。本文将以相对折中的1024 GPU卡（H100）的规模为例展开分析。

01 计算节点的选型

计算节点是AI算力中心的建设报价中最昂贵的部分，一开始拿到的 HGX H100 默认物料清单（BoM）往往使用的是顶级配置。不同于 DGX 是 NVIDIA 的系统品牌，HGX 作为 NVIDIA 授权平台允许合作伙伴构建定制的GPU系统。那么，根据业务实际所需，我们可从以下几个方面尝试优化成本。

默认 HGX H100 机箱物料报价单
组件和服务	数量
接近顶级性能的英特尔 Emerald Rapids 处理器	2
8 H100 +4 NVSwitch HGX Baseboard + 8 SXM5 Heatsinks	1
CPU RAM (per Gbyte)	2048
Storage (per TByte)	30
后端 ConnectX-7 NIC	80
Bluefield-3 DPU	2
主板	1
机箱（机箱、布线等）	1
冷却（CPU 散热器 + 风扇）	1
电源	1
组装 & 测试	1
OEM 增值/附加服用	1
合计（$）：270000+

来源：SemiAnalysis

1、选择中端CPU

LLM 训练是一项 GPU 高度密集型工作负载，对 CPU 工作负载要求低。CPU 运行是一些简单任务，例如 PyTorch ，控制 GPU 的其他进程、初始化网络和存储调用，或者运行虚拟机管理程序等。Intel CPU 相对更容易实现正确的 NCCL 性能和虚拟化，而且整体错误更少。如果是采用AMD CPU ，则要用 NCCL_IB_PCI_RELAXED_ORDERING 并尝试不同的 NUMA NPS 设置来调优。

2、 RAM 降级到 1 TB

RAM 同样是计算节点中相对昂贵的部分。许多标准产品都具有 2TB 的 CPU DDR 5 RAM，但常规的AI工作负载根本不受 CPU RAM 限制，可以考虑减配。

3、删除 Bluefield-3 或选择平替

Bluefield-3 DPU最初是为传统 CPU 云开发的，卖点在于卸载CPU负载，让CPU用于业务出租，而不是运行网络虚拟化。结合实际，奔着GPU算力而来的客户无论如何都不会需要太多 CPU 算力，使用部分 CPU 核心进行网络虚拟化是可以接受的。此外Bluefield-3 DPU 相当昂贵，使用标准 ConnectX 作为前端或采用平替的DPU智能网卡完全可满足所需。

综合考虑前述几项成本优化，我们已经可为单个服务器降低约5%的成本。在拥有 128 个计算节点的 1024 H100 集群中，这个比率背后的金额已经相当可观。

4、减少单节点网卡数量（谨慎选择）

标准物料清单中，每台 H100 计算服务器配备八个 400G CX-7 NIC，单服务器的总带宽达到 3,200Gb/s。如果只使用四块网卡，后端计算网的带宽将会减少 50%。这种调整显而易见可以节约资金，但多少会也对部分AI工作负载性能造成不利影响。

02 集群网络的选型

集群网络是继计算节点之后的第二大成本来源。本文举例的 NVIDIA H100 集群有三种不同的网络：

后端网络（计算网，InfiniBand 或 RoCEv2）用于将 GPU 之间的通信从数十个机架扩展到数千个机架。该网络可以使 InfiniBand 或 Spectrum-X 以太网，也可以使用其他供应商的以太网。
前端网络（业务管理和存储网络）用于连接互联网、SLURM/Kubernetes 和网络存储以加载训练数据和Checkpoint。该网络通常以每 GPU 25-50Gb/s 的速度运行，满配八卡的情况每台GPU服务器的带宽将达到 200-400Gb/s。
带外管理网络 用于重新映像操作系统、监控节点健康状况（如风扇速度、温度、功耗等）。服务器上的BMC、机柜电源、交换机、液冷装置等通常连接到此网络以监控和控制服务器和各种其他 IT 设备。

默认 HGX H100 集群网络箱物料报价清单
组件和服务	数量
InfiniBand 计算网
Quantum-2 IB 交换机（MQM9700）	48
Nvidia LinkX IB 400G 单端口 SR4 收发器 (MMA4Z00-NS4400)	1024
Nvidia LinkX 800G 双端口 SR8 收发器 (MMA4Z00-NS)	1536
Nvidia LinkX 400G 多模光纤C	3072
前端光纤架构成本
主板	1
Spectrum Ethernet Switch (SN4600)	6
Nvidia LinkX 200G QSFP56 AOC 收发器	384
Nvidia LinkX 200G 收发器	256
Nvidia LinkX 100G 多模光纤	512
带外管理网
1GbE Spectrum Ethernet Switch (SN2201)	4
RJ45 Cables	232
合计（$）：490000+

来源：SemiAnalysis

1、计算网络：RoCEv2替代IB

与量大管饱的以太网解决方案相比，NVIDIA 提供的InfiniBand无疑更昂贵，但一些客户依旧笃定认为以太网性能要低得多，这主要是因为以太网需要进行必要的无损网络参数配置并且针对性调优才能发挥集合通信库的性能。

不过从对业务性能的影响角度看，目前技术背景下使用IB或是RoCEv2作为后端计算网没有并太多差异。毕竟 RoCE 实际上只是将成熟的IB传输层和RDMA移植到了同样成熟的以太网和IP网络上，这一点我们将在往后的另一篇文章来分析阐述。

大规模算力场景中用以太网替代IB组成高性能无损网络已形成业内共识，行业热点早已转向了如何更好地薅“以太网羊毛”：例如从以太网标准入手，推出下一代面向AI场景的新协议，以及一些厂商立足于现有协议标准在简化RoCE网络配置和提高可视化能力上做的创新尝试。

参阅：Easy RoCE：在SONiC交换机上一键启用无损以太网

无论是在AI训推的测试场景，还是头部云厂商已有的工程实践里，AI以太网都有了大量案例可供参考。

据统计，在全球 TOP500 的超级计算机中，RoCE和IB的占比相当。以计算机数量计算，IB 占比为 47.8%, RoCE 占比为 39%; 而以端口带宽总量计算，IB占比为 39.2%,RoCE 为 48.5%。与IB相比，我们相信有着开放生态的以太网将会得到加速发展。

目前市场上提供适用于AI场景的高性能以太网交换芯片平台主要有Broadcom Tomahawk、Marvell Teralynx和Cisco Silicon One 等，NVIDIA Spectrum 芯片仅用于Spectrum-X平台，不单独销售。以上平台都推出了51.2T，800GbE/s的尖端型号，综合来看部署数量上 Tomahawk 明显占优，转发时延性能表现 Teralynx 更胜一筹。

厂商	Broadcom	Marvell	NVIDIA	Cisco
芯片名称	Tomahawk5	Teralynx10	Spectrum-4	Sillcon One G200
制程工艺	5nm	5nm	定制4N工艺	5nm
吞吐量	51.2Tb/s	51.2Tb/s	51.2Tb/s	51.2Tb/s
端口速率及配置	64800Gb/s,128400Gb/s,256*200Gb/s	321.6Tb/s,64800Gb/s,128*400Gb/s	64*800Gb/s	64800Gb/s,128400Gb/s,256*200Gb/s
特色功能	高效SerDes设计（借助64*[PM8x100]SerDes灵活配置端口）	延迟表现低至500纳秒	显著提升AI云网性能	采用P4可编程并行分组处理器，高度灵活可定制

2、前端网络：合理降低带宽速率

NVIDIA 和一些OEM/系统集成商通常会在服务器提供 2x200GbE 前端网络连接，并使用 Spectrum Ethernet SN4600 交换机部署网络。

我们知道，这张网络仅用于进行存储和互联网调用以及传输基于 SLURM，Kubernetes 等管理调度平台的带内管理流量，并不会用于时延敏感和带宽密集型的梯度同步。每台服务器 400G 的网络连接在常规情况下将远超实际所需，其中存在一些成本压缩空间。

3、带外管理网络：选用通用的以太网交换机

NVIDIA 默认物料清单一般包括 Spectrum 1GbE 交换机，价格昂贵。带外管理网络用到的技术比较通用，选择市场上成本更优的 1G 以太网交换机完全够用。

03 计算网络的架构优化

GPU集群计算网将承载并行计算过程中产生的各类集合通信（all-reduce，all-gather 等），流量规模和性能要求与传统云网络完全不同。

参阅：揭秘AI智算中心网络流量 – 大模型训练篇

NVIDIA 推荐的网络拓扑是一个具有无阻塞连接的两层胖树网络，理论上任意节点对都应该能同时进行线速通信。但由于存在链路拥塞、不完善的自适应路由和额外跳数的带来的通信延迟，真实场景中无法达到理论最优状态，需要对其进行性能优化。

轨道优化（Rail-optimized）架构

轨道优化架构下，4台服务器的32张 GPU 卡不再是连接到 TOR 交换机，而是来自32台服务器的同卡号 GPU 连接各自的轨道交换机——即32台服务器的所有 GPU#0 都连接到 Leaf 交换机#0，所有 GPU#1 都连接到 Leaf 交换机#1，依此类推。

轨道优化网络的主要优势是减少网络拥塞。因为用于 AI 训练的 GPU 会定期并行底发送数据，通过集合通信来在不同GPU之间交换梯度并更新参数。如果来自同一服务器的所有 GPU 都连接到同一个 ToR 交换机，当它们将并行流量发送到网络，使用相同链路造成拥塞的可能性会非常高。星融元（Asterfusion）给出的1024卡，128计算节点 Scale-out 网络方案正是基于轨道优化后的架构，其中采用了24台 CX864E-N（51.2T的单芯片盒式交换机，8台作为Spine，16台作为Leaf），产生跨节点通信的同卡号GPU之间只会相距一跳。

参阅：星融元发布 51.2T 800G 以太网交换机，赋能AI开放生态

如果追求极致的成本优化，对于一个32到128个节点的计算集群甚至可以设计只有单层轨道交换机的Rail-only网络，理论上建网成本可以节约高达75%。

确定合适的超额订阅率

轨道优化拓扑的另一个好处可以超额订阅（Oversubscription）。在网络架构设计的语境下，超额订阅指的是提供更多的下行容量；超额订阅率即下行容量（到服务器/存储）和上行带宽（到上层Spine交换机）的比值，在 Meta 的 24k H100 集群里这个比率甚至已经来到夸张的7:1。

通过设计超额订阅，我们可以通过突破无阻塞网络的限制进一步优化成本。这点之所以可行是因为 8 轨的轨道优化拓扑里，大多数流量传输发生在 pod 内部，跨 pod 流量的带宽要求相对较低。结合足够好的自适应路由能力和具备较大缓冲空间的交换机，我们可以规划一个合适的超额订阅率以减少上层Spine交换机的数量。

但值得注意的是，无论是IB还是RoCEv2，当前还没有一个完美的方案规避拥塞风险，两者应对大规模集合通信流量时均有所不足，故超额订阅不宜过于激进。（而且最好给Leaf交换机留有足够端口，以便未来 pod 间流量较大时增加spine交换机）

现阶段如果是选用基于以太网的AI网络方案我们仍推荐1：1的无阻塞网络设计。

04 NVMe 存储

物理服务器数量

为了实现高可用性，大多数存储厂商都会建议部署至少 8 台存储服务器。8 台存储服务器每台可提供 250GB/s 到 400GB/s 的存储带宽，足以满足在 1024 台 H100 上运行的 AI 工作负载。我们可以从最小可用数量开始，但需要注意在存储系统上留出足够的端口、NVMe 驱动器托架、电源和机架空间，以便后续按需扩展。

存储网络

常见的方案是构建专门的200G无损以太网作为存储网络以确保性能，存储前后端网络在物理上合一。

存储服务器也可以在后端计算网上运行——通常是将IB网卡绑定到 GPU 0来充当存储网卡。虽然存储基准测试的延迟和带宽表现很好，但在实际AI工作负载中将影响 GPU 0 的性能（IB网卡同时作为存储网卡会有流量冲突）。当存储集群中的磁盘发生故障将触发重建，会在计算网上造成大量的流量，形成更严重的拥塞。

05 带内管理

为了运行高可用的 UFM 和 CPU 管理节点，我们建议部署至少两个通用 x86 服务器，使用25GE/10GE以太网链路连接所有计算节点和管理节点，并接入外部网络。

默认的NVIDIA Superpod 架构中包含了“NVIDIA AI Enterprise”或“Base Command Manager (BCM)”，其建议零售价为4,500 美元/GPU。BCM 是一个提供 AI 工作流和集群管理的软件包，这一部分软件费用可以考虑剔除后选择其他平替方案，或交由用户自定义。

此外带内管理系统还涉及到其他 IT 设备，例如防火墙、机架、PDU 等，这部分价格不会显著增加集群建设支出。

06 带外管理

带外管理系统主要是通过智慧平台管理接口（IPMI）去监视、控制和自动回报大量服务器的运作状况。IPMI可独立于操作系统外自行运作，并允许管理者在受监控的系统未开机但有接电源的情况下进行远程管理，但这种监控功能主要集中在硬件级别。

不同于带内管理，带外管理构建了单独的网络承载物理设备管理流量，不会承载业务流量。我们一般是每GPU计算节点和存储节点配置1条1 GE 链路连接IPMI和后端管理平台。

07 驱动和业务调度程序

GPU驱动程序

必要的 GPU 驱动程序有 cuda-drivers-5xx 和 fabricmanager-5xx 以及 cuda-toolkit-12-x。

Cuda-drivers-5xx 是 ubuntu/Linux 与 GPU 交互所需的内核空间驱动程序
fabricmanager-5xx 是一个负责配置节点内 NV 链路结构
Cuda-toolkit-12-x 包含所有用户空间工具和 API

网络驱动程序

MLNX_OFED

每个 GPU 服务器上都需要安装 Mellanox OpenFabrics Enterprise Distribution (MLNX_OFED) 驱动程序。此软件包是 ConnectX-7 InfiniBand NIC 的驱动程序，用于执行 RDMA（远程直接内存访问）和 OS 内核旁路。

GPU Direct RDMA

这是一个包含在 cuda-drivers-5xx 中的附加内核驱动程序，默认情况下未启用。如果没有此驱动程序，GPU 将需要先在 CPU RAM 中缓冲消息后才能发送到 NIC。

启用 GPUDirect RDMA 的命令是 sudo modprobe nvidia-peermem。

NVIDIA HPC-X

主要用于进一步优化 GPU 与 NIC 的通信。

如果没有上述软件包，GPU 只能以 80Gbit/s 的速度收发流量，启用这些软件包后点对点收发速率应可达到 391Gb/s左右。

业务调度和启动程序

绝大部分的最终用户会希望拥有一个开箱即用的调度程序，可以基于SLURM 、K8s 或者其他供应商的软件平台。从0到1手动安装并调试以上平台，对于不是专精于此的工程师至少需要花费1-2天时间，因此闲置的 GPU 资源对于客户都是实打实的支出。

08 多租户隔离

参考传统CPU云的经验，除非客户长期租用整个GPU集群，否则每个物理集群可能都会有多个并发用户，所以GPU云算力中心同样需要隔离前端以太网和计算网络，并在客户之间隔离存储。

基于以太网实现的多租户隔离和借助云管平台的自动化部署已经有大量成熟的方案。如采用InfiniBand方案，多租户网络隔离是使用分区密钥 (pKeys) 实现的：客户通过 pKeys 来获得独立的网络，相同 pKeys 的节点才能相互通信。

09 GPU的虚拟化

与传统CPU云不同的是，AI用途的GPU云租户通常会将每个 GPU 计算节点作为一个整体来租用，深入到节点内部的更细粒度的虚拟化并无绝对必要。但为了进一步提高GPU资源利用率，很多人还是会选择GPU虚拟化，目前，GPU虚拟化技术一般分为三种：软件模拟、直通独占(pGPU)、直通共享（如vGPU、MIG）。

AI算力租赁场景的虚拟化程度一般是到单卡层次，即直通独占（pGPU）——利用 PCIe 直通技术，将物理主机上的整块GPU显卡直通挂载到虚拟机上使用，原理与网卡直通类似，但这种方式需要主机支持IOMMU。（一种内存管理单元，它将具有直接存储器访问能力的I/O总线连接至主内存。如传统的MMU一样，IOMMU将设备可见的虚拟地址映射到物理地址）

pGPU直通方式相当于虚拟机独享GPU，硬件驱动无需修改。因为没有对可支持的GPU数量做限制，也没有阉割GPU功能性，大多数功能可以在该直通模式下无修改支持。

值得一提的是，NCCL 和 NVIDIA 驱动程序在 GPU 虚拟机内运行时无法自动检测 NUMA 区域和 PCIe 拓扑，需要通过 NCCL_TOPO_FILE 变量手动传递 /etc/nccl.conf中的 NUMA 区域和 PCIe 拓扑文件，否则 NCCL 性能将仅以应有带宽的 50% 运行。

10 监控方案

监控面板

在监控方面，我们至少建议通过 Prometheus + Grafana 构建一个集中的监控面板，以便用户跟踪 GPU 温度、电源使用情况等BMC指标，XID错误，甚至将业务和网络统一监测。

计算节点的监控包括在每个 GPU 节点上安装一个 IPMI 和 DCGM Exporter，然后在管理节点上部署 Prometheus 与 GPU 上的 Exporter 通信，并将数据存储在数据库中。Grafana 连接到 Prometheus 对收集来的数据进行可视化呈现。

网络侧的监控类似，在这种场景下采用SONiC交换机的优势明显，因其软件环境本身就是开放的容器化架构，我们能以 docker 形式在交换机运行 exporter 取得所需设备状态数据，还可借助RESTful API调用网络能力集成进上层管理平台。

另外，结合带内网络遥测（INT）能力还可对RoCE网络实现亚秒级的精细监控，用以辅助网络拥塞控制。

常见错误

诊断消息（dmesg）两个常见 dmesg 消息是电缆被拔出以及 NIC 或者光收发器过热。
静默数据损坏（SDC）没有收到诊断消息等错误报告，但却输出错误的矩阵乘法结果。这些错误称为静默数据损坏 (SDC)。确定 GPU 上是否有该问题的最简单方法是使用 Nvidia DCGMI 诊断级别 4 工具 sudo dcgmi diag -r 4。该工具将捕获 95% 的最常见静默数据损坏问题。
NCCL故障常见NCCL故障包括死锁和停滞，可能会导致训练作业暂停 30-35 分钟，而后 PyTorch 的 NCCL watchdog 会终止整个训练作业。对此可以考虑添加电力消耗监控来检查AI作业是否正常运行。更多NCCL排障请参考：https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/troubleshooting.html
Infiniband UFM 的错误代码常见如 110（符号错误）、112（链接中断）、329（链接中断）、702（端口被视为不健康）和 918（符号位错误警告）。遇到上述任何错误代码，应立即联系网络技术工程师进一步调查。

11 部署验收和日常维护

集群规模的验收测试应持续至少 3-4 周，尽可能排除早期失效期出现的节点组件故障。AI训练非常依赖网络、HBM 和 BF16/FP16/FP8 张量核心，而目前常用的高性能计算测试工具，例如LINPACK（国际上使用最广泛的测试浮点性能的基准测试）不会大量使用网络，也不会占用太多 GPU 的 HBM 内存，而是仅使用和测试 GPU 的 FP64 核心。稳妥起见，我们建议验收测试尽量以模拟真实业务的方式展开。

NCCL-TEST

nccl-test 工具是 NVIDIA 开源的一项用于测试 NCCL 集合通信的工具，我们建议在正式运行业务之前先使用nccl-test来检测集合通信是否正常、压测集合通信速率等，看看否存在任何性能不足或下降。关于nccl-test日志的分析我们将在接下来的主题中展开。

日常维护

集群中最常见的问题包括收发器抖动、GPU掉线、GPU HBM 错误和 SDC等。大多数情况下，这些问题只需简单地启动物理服务器的硬重启，或者断电后重启即可解决。重新插拔收发器或清除光纤电缆上的灰尘也可以解决一些意外故障。更复杂的情况请交给厂商技术服务团队处理。

产品型号： 星融元（Asterfusion）CX864E-N （64 x 800G OSFP）
功能特性：RoCEv2, PFC, ECN, DCBX ……
应用场景：GPU算力集群，分布式存储
最后更新：2026-05-18

产品型号： 星融元（Asterfusion）CX664D-N（64 x 200G QSFP56/QSFP28/QSFP+）
功能特性：RoCEv2, PFC, ECN, DCBX ……

应用场景：分布式存储，数据中心，GPU算力集群
最后更新：2026-05-26

星融元(Asterfusion)

星融元数据技术有限公司是领先的开放网络解决方案提供商，产品包括网络操作系统、数据中心交换机、AI智算交换机、园区交换机、开放式企业级路由和新一代网络可视化产品等。为行业企业、数据中心和云运营商提供基于通用解耦硬件和 SONiC 软件框架的全场景交钥匙网络解决方案，帮助用户构建AI时代中立、透明，易于运维、高性价比的基础网络。

?关注 @星融元Asterfusion 微信公众号
WeChat QR Code

白盒交换机迎来爆发式增长，星融元已经做好准备

关注星融元

IDC数据2023年最新的数据报告显示，预计2026年我国主要网络设备市场规模将达170.56 亿美元，较2020年增长 65.34％，2020－2026年 CAGR达 8.74％。其中，我国25G／100G 数据中心交换机的市场规模将由2017年的1.08亿美元增长至 2024年的 25.13 亿美元，CAGR高达 56.86％；另据 Dell’Oro Group预测，未来 400G及以上速率交换机将成为市场主流。

大型数据中心建设下，交换机白盒化趋势明显

大型数据中心建设需要较多数量的交换机，对交换机产品的兼容性及开放性提出了较高要求。随着云计算市场不断发展，大型及超大型数据中心建设不断加速，软硬件解耦的白盒交换机市场发展迅速。

传统的黑盒交换机（品牌交换机）预装品牌商自有软件，导致不同厂商设备之间互通性低，运维团队难以统一管控，且难以快速定位故障，同时，黑盒设备的封闭式架构对后期网络的升级和功能拓展带来障碍；白盒交换机将网络中的物理硬件和操作系统（NOS）进行解耦，让标准化的硬件配置与不同的软件协议进行匹配。

换言之，下游数据中心客户可选择为交换机安装外部操作系统或在交换机厂商已提供开放式操作系统基础上开发上层应用软件，客户可组建更为开放灵活的网络方案，在大幅提高数据中心运维效率的同时，降低了建网成本。

星融元作为开放网络厂商，主打白盒交换机产品，能够满足各行业在数据中心场景下对白盒交换机的需求。能够全面解决传统云网络在开放性方面所面临的各种挑战，无缝地将云网络彻底融入到云中，使网络与计算、存储一起成为真正意义上的“云基础设施”。

底层硬件平台基于开放架构、商用可编程交换芯片设计，在为上层软件提供高性能运行环境的同时，彻底抛弃传统网络硬件私有、黑盒的设计理念。更加值得一提的是，星融元云网络的整体架构设计完全遵循了业界最领先公司广泛部署和使用的Scale-wide架构（按需自由扩展架构），将原本封闭在大型机架式网络设备中的CLOS交换架构开放到网络拓扑设计当中，帮助用户在只采用盒式网络设备的前提下仍然能够搭建出大规模的扁平化云网络，使用户在享受高性能、按需自由扩展的同时，最大限度地降低云网络的TCO（Total Cost of Ownership，总拥有成本）。
运行在硬件平台上的标准Linux内核为上层应用提供开放的操作系统内核支撑，使得当前主流的DevOps工具能够直接运行在网络设备上，任何第三方应用也都能以容器的形式运行在这个标准的Linux内核之上。
AsterNOS是一款开放、智能、易用、高性能的网络操作系统，以SONiC/SAI为内核，为星融元云网络提供设备级的控制平面，同时支持RESTful API能力开放、主流DevOps工具集成、主流Cloud OS集成、高性能内存数据库等云计算时代的必备功能。
对SAI（Switch Abstraction Interface，交换机抽象接口）标准的支持将AsterNOS和星融元的交换硬件平台彻底解耦开来，AsterNOS可以运行在任何遵从SAI标准的硬件平台之上，星融元交换硬件平台也能够支持任何遵从SAI标准的网络操作系统在其上运行。
Asteria Fabric Controller（AFC）是为云计算环境设计开发的Cloud SDN Controller，与运行着AsterNOS的交换机系统共同组建一个面向云中业务与应用的Cloud SDN平台，在这个SDN平台上，所有的网络能力均以RESTful API的形式向Cloud OS开放，Cloud OS完全以自动化的形式、从业务的视角对云网络进行部署、调度，无需再关注网络底层的细节。

在部署了星融元云网络的云中，网络与计算、存储一样，自下而上形成了层次分明的“开放硬件世界”、“标准内核世界”和“自动管理世界”，从而使得Cloud OS能够对三大基础设施完全一致地统一管理、按需伸缩、自动调度。

除了白盒交换机，星融元的CX-N系列超低时延云交换机迎合了数据中心发展的新趋势。目前，数据中心融合已开始应用运行在以太网基于 TCP／IP协议的RDMA技术，与传统的 FCoE技术相比，RDMA技术不需要FC接口，就可以直接运行在以太网接口上，更有利于大型数据中心的规模建设。

而CX-N使用的恰恰是 RDMA 技术，能够提供无损和超低延时网络，时延仅为400ns，星融元让低时延网络不再是金融/证券行业的专属！目前在移动云、世纪互联、卡巴斯基等已规模化应用。

“ChatGPT”们的幕后功臣：Infiniband之外，超低时延网络另有平替之选？

关注星融元

ChatGPT背后的基础设施：AI计算集群

早在2019年向 OpenAI 投资10亿美元的时候起，微软就同意为这家 AI 初创企业构建一台大型超级计算机。近期，微软在官博上连发两文，亲自解密了这台超级昂贵的超级计算机以及Azure的重磅升级。负责云计算和AI业务的微软副总裁 Scott Guthrie 表示，微软在这个项目上花费了数亿美元，将数以万计的 Nvidia A100 GPU 和 Azure 云计算平台串联在一起。

对于诸如 ChatGPT 这类 AI 深度学习模型，巨量的高性能算力无疑是重中之重。但是人们常常容易忽略网络传输在AI训练提速中的作用。尤其是大规模集群分布式训练的场景下，网络扮演了一个极为关键的角色：为了训练一个大型语言模型，计算工作量被分配到集群中成千上万个 GPU 上，这就需要借助高吞吐、低时延的网络达成大算力芯片间的协同工作，以整合海量芯片的算力。

我们从Azure面向“生成式AI”所做的基础设施升级也可以看到，网络互连能力在其中占据了很大比重。

微软推出了 ND H100 v5 虚拟机，它支持按需大小不等的 8 到数千个 NVIDIA H100 GPU，这些 GPU 通过 NVIDIA Quantum-2 InfiniBand 网络互连。与上一代 ND A100 v4 VM 相比，客户将看到人工智能模型的性能显着提高，这些创新技术包括：8个NVIDIA H100 Tensor Core GPU通过下一代NVSwitch和NVLink 4.0互联

每个GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand，每个虚拟机有3.2Tb/s的无阻塞胖树型网络
NVSwitch和NVLink 4.0在每个虚拟机的8个本地GPU之间具有3.6TB/s的双向带宽
第四代英特尔至强可扩展处理器
PCIE Gen5到GPU互连，每个GPU有64GB/s带宽
16通道4800MHz DDR5 DIMM

微软所选择的InfiniBand，超低时延网络的唯一正解？

InfiniBand（简称IB）网络是通过 InfiniBand 交换机在节点之间直接创建一个专用的受保护通道，并通过 InfiniBand 网卡管理和执行远程直接内存访问（RDMA），与其他网络通信协议相比可以做到更低的延迟。

然而当前IB技术方案被少数海外供应商锁定的状态，给用户带来了诸多不便：首先是IB 交换机的供货周期过长，很容易影响到整体业务的正常上线，推迟的每一天都在白白损失已建成部分的投入成本；转入日常运维阶段后，IB网络的故障排查仍然高度依赖原厂，其售后响应速度也经常为人诟病。

像ChatGPT这类大规模AI计算集群网络，动辄便是上千卡级别的体量。AI大模型训练的固有需求之下，算力侧的成本优化空间相对有限，但如果能在网络侧寻找到与IB性能相近的平替方案，降低前期建设和后期运维等各方面投入，或许是个不错的思路。

自从RoCE（RoCEv2）出现以来，一些以前IB特有的技术比如 RDMA，协议卸载等，现在已经可以在以太网上应用了。不光是AI训练的后端网络，在科研超算、实时云服务、金融高频交易等场景，用优化后的以太网技术去替代 IB也渐渐具有了可行性。

低成本以太网代替IB网络的可行性

从网络架构来看，目前较为合适的是基于以太网的三层 CLOS 架构（Spine-leaf），在全盒式组网的情况下，任何两台服务器之间的通信不会超过三台交换机。

从网络层协议来看，下面几类 RDMA 网络中，RoCEv2 的性能较好、部署成本低、兼容性强；但受限于传统以太网“尽力而为”的特性，需要交换机支持构建一张零丢包、低延迟、高性能的无损网络。

星融元 CX-N 系列超低时延云交换机作为一款通用的以太网设备，从底层交换芯片到上层的各种协议栈皆面向低时延场景深度优化，可提供 Port to Port ~400ns 的转发时延，全速率下（10G~400G）转发时延相同，并且支持多种数据中心高级功能（如PFC、ECN等）以避免丢包和网络拥塞。

多个客户曾在现场用我们CX-N系列32 x 100G 的以太网交换机和 32 x 100G IB交换机（Mellanox SB7700）做对比测试，结果显示：CX-N系列以太网交换机的性能可以接近IB交换机，部分数据甚至比IB交换机更好。【详见文末附录】

综上：基于星融元CX-N系列云交换机搭建的超低时延无损以太网能够很好地承载RoCEv2，为用户打造一张高性价比的低时延网络。

【HPC场景】测试结果

【分布式存储场景】测试结果

相关阅读：测试报告-HPC高性能计算测试方案（CX-N系列云交换机）

一文梳理新一代云化园区网络建设方案-运维篇（2023版）

关注星融元

从运维需求的传递链条来看，云网络和园区网络也高度相似。首先，租户（用户）的业务开通/变更申请会提交至管理平台（运维部门），管理平台（运维部门）分解任务后，下发给网络控制器（网络运维人员），由他们完成具体网络配置并将结果反馈给需求方。当然，云网络中依靠网络控制器和REST API接口早已实现了自动化运维，而传统园区大多还停留在依靠网络管理员和手工配置网络设备的“人肉运维”阶段。

云网络运维与园区网络运维对比图

如今，在云化园区网络架构下，我们将有机会把云中广泛使用的，面向未来的软件编程、自动化、NetDevOps等先进技术和理念应用到园区场景，在网络运维方面大大解放生产力，提高效率！

集中控制器与分布式路由/转发

与云网络类似，云化的园区网络架构采用了“集中控制器+分布式路由+分布式转发”的整体结构，具体如下图所示：

集中控制器+分布式路由+分布式转发

在云化园区网络中：

网络管理员对网络的配置通过具备图形化界面的网络控制器统一进行，无需再通过命令行逐台设备地进行，网络控制器在定位和功能设计方面超越了传统的集中网管系统，除了能够完成基础的配置管理功能，还可以将网络管理员的意图转换为对网络中每一台网络设备的配置，并且实时收集、分析和呈现网络的运行状态，帮助网络管理员避免繁重的配置运维工作、降低引入人为错误的风险、快速预警风险和定位故障；
在基于OpenFlow的SDN模型中，所有的路由学习与计算能力是集中式的部署在网络控制器上的，网络设备只需要接受来自网络控制器下发的转发表、按照转发表完成转发动作即可。在云化园区网络中则不同，网络的路由学习计算功能分布式地部署在所有的网络设备之上，借助IP网络成熟高效的路由算法，智能学习、动态传播、快速同步整网的路由信息，充分利用了每台网络设备的计算能力，并且有效地规避了网络控制器单点故障带来的风险；
与分布式路由相对应的，则是所有网络流量在所有网络设备上的分布式转发，无需在某些特殊情况下将流量集中到网络控制器上做集中转发，对于无法转发的错误流量，网络设备将直接丢弃，这一点也从根本上解决了OpenFlow SDN模型性能低、可靠性低的问题。

开放的编程接口

借助于开放网络操作系统的软件编程接口能力，在云化园区网络中，各种网络业务与应用可以通过软件编程的方式自动、按需地调度网络，网络管理员甚至可以开发自有的网络应用以满足各种业务和应用的需求，让“应用定义网络”成为现实。

AsterNOS开放的编程接口

开放的编程接口

上图，以星融元的开放网络操作系统AsterNOS为例说明了如上的概念。AsterNOS SDK所提供的面向机器的软件编程接口使得在各种环境中对网络进行软件定义成为可能。在运行着AsterNOS的网络中，使用者除了使用传统的命令行、WebUI对网络进行基础的运维之外，还可以通过AsterNOS SDK所提供的REST API和/或System API自动化地、高效地运维网络，甚至为自己的网络开发新的应用。

分层简化配置

传统园区网络中，往往是“一个设备、一个配置”，即每一台网络设备的配置都是不同的。对于较大规模、结构复杂的网络来说，网络配置和配置的维护、变更是网络管理员所面临的巨大挑战之一，面对复杂的网络结构、众多的网络设备、多个版本的网络配置文件，稍有不慎就会因为错误配置引发网络故障。

园区网络分层简化配置

分层简化配置

云化园区网络架构追求极简的另一个有力例证就是将网络设备的配置改进为“一层设备、一个配置”。简单来说，通过创新的设计，云化园区网络架构彻底规避了“同层设备、配置不同”的问题，在一个二级三层的Clos网络中，无论有几十台还是上百台网络设备，只需要维护三个网络配置即可，同层设备在配置方面的差异性，完全通过软件设计上的创新和初始配置的自动化屏蔽了。在云化园区网络中，网络配置的数量不再被网络设备的总数量所决定，而是只跟网络的层数相关，将配置管理工作带给网络运维的复杂度降低了2-3个数量级，帮助网络的拥有者大幅度降低运维的综合成本。

零配置部署

进一步的，云化园区网络架构引入了在服务器、云网络运维体系中广泛使用的零配置部署机制。

云化园区网络零配置部署

零配置部署

在零配置部署机制中：

网络管理员在管理服务器上部署文件传输系统的服务器端，并将网络操作系统镜像和按照规划生成的网络配置管理文件存放在指定目录下；
云化园区网络的每台交换机上都运行着开源软件ONIE（Open Network Install Environment，开放网络安装环境），ONIE在交换机加电开机时自动运行并连接到管理服务器，按照预先设置的规则申请特定的网络操作系统镜像和对应的配置文件；
管理服务器将系统镜像和配置文件传送到交换机后，交换机将自动加载新获得的网络操作系统镜像，并根据配置文件完成系统的初始配置；
以上申请、加载、配置的过程均不需要网络管理员介入，完全自动化地完成，试想，对于一个有着成百上千台交换机的网络来说，零配置部署机制对网络升级、变更所带来的效率提升是非常可观的。

NetDevOps

DevOps（Development and Operations，开发运营）是一种新型的产品交付与运营模型，它将与产品生命周期和业务运营过程中的各个相关环节（例如研发、测试、部署、运营等）以一种空前的方法连接了起来。DevOps对应到开放网络世界中，就是NetDevOps。

云化园区网络架构天然地支持NetDevOps。下面，基于星融元的AsterNOS及其SDK、REST API，围绕一个安全运维场景来说明云化园区网络如何支持NetDevOps。

一个NetDevOps的示例

如上图所示，出于对安全的考虑，网络运维人员往往需要对重要的应用系统进行访问情况的审计与分析；针对这些应用系统，如果发生了访问控制的缺失、访问状况的异常，管理员希望第一时间得到通知，以便采取相应的动作。这些审计与分析的内容可能包括：网络对重要应用系统的访问是否进行了控制（以便判定该应用系统是否被保护）、对这些重要应用的访问情况是否发生了突然的变化（以便判定该应用系统是否处于可能的攻击中）等。

下面，我们就来看看通过AsterNOS SDK如何便捷、高效地实现这一需求。在网络中，访问控制一般是通过ACL（Access Control List，访问控制列表）实现的。

AsterNOS支持ACL功能，并且能够提供所有ACL被命中过的统计数据；AsterNOS SDK所提供的REST API中，包含对ACL各个字段和统计数据的访问接口，通过调用这些接口，即可直接获得ACL的这些信息用以分析。具体思路如下：

重要的应用系统可以用IP地址来标识（如果需要更精确地定义，还可以增加该应用所使用的TCP/UDP端口信息）；
通过调用REST API，获得AsterNOS中当前配置的所有ACL的“目的IP地址”字段，以便判断所定义的重要应用系统是否被ACL进行访问控制；
通过调用REST API，获得对这些重要应用系统的访问量的统计信息，以便判断是否出现异常状况；
对于出现的访问控制缺失或访问异常状况，该程序自动通知管理员进行干预。

假设运行着AsterNOS的网络设备的管理接口IP地址和端口为192.168.1.200:4430，则上述思路的示意性伪代码可以如下：

编程者通过AsterNOS SDK的REST API获得是ACL的每一个具体字段及其值

这段伪代码仅用于示意，并未严格地写出循环、边界条件判断、具体日志与告警实现等。其中，“GET https://192.168.1.200:4430/rest/v3/acl/…”即AsterNOS SDK中获取ACL及其具体信息的REST API，“TABLE_y:RULEz:”dst_ip””和“TABLE_y:RULEz:“stats””即一条ACL的“目的IP地址字段”和“该ACL的命中数量统计”。需要强调的是，编程者通过AsterNOS SDK的REST API获得的已经是ACL的每一个具体字段及其值，无需再使用复杂的文本解析程序进行处理。

将这段非常简单的程序用Docker进行容器化封装，部署在AsterNOS中，并且自动化地定时运行，即可实现前文所述的运维需求，并且，通过对更多ACL字段与值的调用，即可实现更高级的运维功能。

总结：新思路、新架构、新网络

云计算掀起数据中心网络的变革热潮，而随着中大型园区网络规模的进一步扩增，传统园区网络面临着运维复杂、扩展性差、架构封闭等诸多挑战，借鉴云数据中心网络的发展经验，星融元Asterfusion创新性地提出了新一代精简高效的云化园区网络架构。

我们可以看到基于开放网络架构的新一代云化园区网络的确会在方方面面为园区网络带来改变。总结来看，这些改变主要包括：

全新的网络规划思路：采用领先的开放网络理念，基于最新的数据中心级网络技术、开放的网络操作系统，“一网多用”地构建出能够同时承载多种业务的超大规模园区网络；
全新的网络建设架构：抛弃传统园区网络架构所背负的历史包袱，通过纯三层网络、统一路由结构、天然无环、去堆叠、自主内生安全等创新的技术，建设架构极简、更可靠、更安全、更高性能新一代园区网络；
全新的高效运维体系：将开放网络的集中控制器、软件可编程引入到园区网络的运维系统中以有效支持NetDevOps，同时通过简化配置、自动部署等创新性设计大幅度提升网络运维的效率。

所有这些改变，都将带给园区网络的拥有者和运营者最直接的价值：降低网络建设的成本，提升网络运营的效率，支撑无限创新的可能！

云化园区网络组网架构图

一文梳理新一代云化园区网络建设方案-建网篇（2023版）

关注星融元

从旧时代一路走来的传统园区网络架构背负了过多的历史包袱，这些包袱在当时的技术发展背景、网络客观状况以及工程师对网络的理解的环境中，都是不得不支付的代价。今天，随着开放网络架构在云网络中的概念验证、规模部署和蓬勃发展，支撑技术与产品已经完全具备了帮助园区网络甩掉这些历史包袱的条件。因此，基于开放网络架构建设云化园区网络时所坚持的唯一原则就是：极简。接下来，我们从若干个方面看看这些极简的建设思路，以及给园区网络带来的好处。

抛弃二层网络，消除园区广播风暴

以太网工作在网络参考模型的二层（Layer 2，简写为L2），其大部分交互逻辑建立在广播这种机制之上，因此是一种高效的通信协议。为这种高效所支付的代价是，当在一定范围内（例如，跨越两台以上的交换机）部署以太网时，需要将广播报文在不同的交换机之间传播，由此则带来了潜在的广播风暴风险；为了规避这种风险，又出现了类似于STP（Spanning Tree Protocol，生成树协议）及其各种相关的协议和保护机制。由此，大规模部署的二层以太网结构变得越来越复杂、健壮性变得越来越差，建设和维护成本都高居不下。究其根本原因，基本可以认为是（大范围的二层）广播导致了这一切的发生。更为严峻的是，很多网络安全漏洞，都是利用以太网的广播机制工作的。那么，在不破坏以太网基础工作原理的基础之上，如何解决这个问题？

云化园区网络架构解决这个问题的方法非常简单，也非常优雅：将L2的工作范围限制在接入终端和其所连接接入Leaf的端口之间，在确保以太网能正常工作的前提下，最大限度地压缩L2区域，彻底消除以太网广播在网络中的传播，从而将广播带来的各种复杂度、脆弱性和安全风险从根源上消除掉。

抛弃L2的L3 IP Fabric

如上图所示，一旦以太网报文进入到接入Leaf的物理端口，L2就会被彻底终结，取而代之的是一个基于IP的网络。IP工作在网络参考模型的三层（Layer 3，简写为L3），这个协议在设计之初就充分地考虑了环路规避、多路径转发、高可靠、故障自愈等因素，因此在L2广播中面临的各种挑战，在L3的世界里天然不存在。而且，L2转L3的处理只发生网络侧，对于每一个接入终端来说是完全透明的，接入终端无需为此做出任何调整。借用云网络中的概念，我们也可以用IP Fabric来指代这样的园区网络的主体。

可以看到，在云化园区网络中，管理员只需要根据不同的业务需求设置不同的L3子网以隔离不同的业务，而无需配置和维护复杂的各种STP、全局VLAN、广播抑制等L2功能。尤为重要的是，经过如此的简化，网络的可靠性和健壮性是不降反升的。

统一极简的BGP园区路由

IP协议在诞生的初期，互联网的各个部分非常复杂，各种规模、各种结构、各种速率、各种网络协议、各种运营主体不一而足。因此，早期的网络工程师不得不开发了各种路由协议来应对如上的局面。这些路由协议包括RIP、OSPF、IS-IS等IGP（Internal Gateway Protocol，内部网关协议）和BGP这种EGP（External Gateway Protocol，外部网关协议），不同的网络内部运行着不同的IGP，不同的网络之间需要互联时则采用EGP（即BGP）。长期以来，复杂的路由结构一直是令网络建设者和管理员战战兢兢的雷区，稍有不慎就会因路由的错误配置导致网络的路由震荡、路由丢失甚至整网瘫痪；而这样的路由结构也一直沿袭到传统的园区网络架构内部。

云化园区统一的BGP路由
统一的BGP路由

本着极简的原则，云化园区网络架构抛弃了“IGP+EGP”的复杂路由结构，而是采用BGP这种高效简捷、控制能力超强的路由协议统一了整网的路由机制。在云化园区网络架构中：

无论是在子网内部，还是在子网之间，全部采用一种路由协议，即BGP（更确切地说，是eBGP），管理员无需再为多种IGP和BGP的混合部署而头痛；
网络的Spine层和Leaf层分别运行着配置逻辑完全一致的BGP路由协议实体，分处于不同的两个AS（Autonomous System，自治系统）中，彼此之间通过eBGP连接交互路由信息，最终将路由同步到全网；
在整网范围内，则运行着简化的EVPN（Ethernet VPN，以太网VPN）或扩展的MP-BGP（Multi-Protocol BGP，多协议BGP），负责完成不同逻辑网络的路由信息同步和分布式网关信息的传递；
极简的配置逻辑让网络管理员只需要使能BGP、做最基础的连接建立即可完成整网的路由连通，对于经验丰富的网络管理员，通过操作BGP丰富的属性参数和策略机制，能够实现各种灵活的路由传播策略和控制；
这种统一路由架构对网络管理员的技能要求也尽量集中到了一种协议上，非常有利于管理效率的提升和综合成本的降低。

支持园区无缝漫游的高性能分布式网关

网关是一个子网中所有终端的出口设备，即，当一个终端（A）要与处于另一个子网的终端（B）进行通信时，A只需要将通信信息交给自己的网关即可，由网关完成信息的进一步向外传递（到B）、从B返回信息的接收、再将返回信息发送到的终端（A）上。从这个逻辑可以看出，对于一个子网来说，网关一定是一个集中的点；事实上，在传统园区网络架构中，也的确如此。

支持无缝漫游的高性能分布式网关

在云化园区网络架构中则不同：

一个子网的网关以分布式的形式存在于每一个接入Leaf上（这也是分布式网关这个名字的由来），充分利用每一个接入Leaf的能力，所有的跨子网转发动作在最近的分布式网关上完成，让网关功能不再成为压垮网络中某一台设备的潜在风险，同时大幅度提升整网的转发效率；
当移动终端发生漫游时，分布式网关的作用尤为重要，因为漫游后的接入Leaf上已经配置了网关信息，并且自动学习和同步了漫游终端的IP/MAC信息（详细解释如下一节），因此漫游后的终端可以平滑地重新接入网络（所发信息无需再到一个“集中的网关”上去兜圈子），并且漫游过程中业务不断连（即确保不丢包，因为漫游后的接入Leaf上已经有了该漫游终端的所有信息）；
对于网络管理员来说，只需要在网络初始化时一次性配置好所有分布式网关的信息即可，无需在运行过程中动态调整，从而进一步降低运维的复杂度。

抛弃生成树协议，天然无环路的网络结构

在有环路的L2网络中，如前文所述，为了规避广播风暴风险，往往会部署STP协议（以及由STP进化而来的RSTP、MSTP等协议），而部署STP的另外一个代价就是：必须人为地阻塞掉一半的物理线路使其处于不工作状态（即浪费一半的物理带宽），从而确保没有环路出现、L2网络能够正常工作；并且，STP的算法决定了这样的L2网络的规模无法做大，当交换机数量增长到100台左右时，网络则仅仅只在理论上具备可行性了。

云化园区天然无环的网络结构
天然无环的网络结构

云化园区网络架构很好地解决了上述问题：

利用Clos结构，云化园区网络是一个天然无环的网络，因此，相较于同样规模的传统架构园区网络，无需浪费掉一半的线路资源，即，在同等线路带宽的投入下，云化园区网络可接入终端的数量是传统园区网络的一倍（或者，在同等接入终端数量的前提下，云化园区网络所需要投入的带宽资源是传统园区网络的一半）；
如前所述，借助IP协议的各种L3能力，无环的云化园区网络能够做到超大规模，网络中交换机的数量不再受STP的理论限制，几百台、上千台的交换机组成的云化园区网络能够接入几十万的终端，组建超大规模的园区网络；
最后，当将网络中各种额外的复杂因素去除掉以后，整个网络的建设与运维难度都会大幅度降低，节省网络建设者的综合成本。

去堆叠，并且更可靠

传统园区网络架构中，为了向一些终端提供高可靠的接入服务，往往会采用堆叠技术。堆叠技术将两台（甚至有可能是多台）同规格的接入交换机在逻辑上虚拟成一台交换机，让终端通过不同的线路分别连接到不同的接入交换机上；当堆叠组中的一台交换机故障后，由另一台交换机将自动接管网络流量，从而达到高可靠接入网络的目的。在某一些方案中，这样的堆叠甚至会出现在更高层级的交换机、或者不同层级的交换机之间。

通过上面的描述，已经能够感觉到堆叠是一种非常复杂的组网模型，其流量处理逻辑、故障恢复逻辑都及其复杂。从软件设计、开发的角度来说，要将两个完全独立运行的系统，从初始配置、到运行状态、到流量转发、再到出现故障时的行为完全同步、协调起来，是一件非常困难的事情。很多网络出现全网级的故障甚至瘫痪，都是因为交换机内部的堆叠软件故障所引发的。

去堆叠，并且更可靠的网络

在云化园区网络架构中，则彻底的抛弃了堆叠方案，而是采用基于L3能力实现的一种可靠度更高、复杂度约等于零的方案：

接入终端并不需要为此方案做出任何调整，依然是通过两条（或多条）的线路、采用通用的Bond技术，上连到不同的接入Leaf上去；
接入Leaf通过使用ARP学习、32位主机路由、BGP同步等功能，利用L3网络天然的高可靠、多路径能力，达到跟传统堆叠一样的效果；
因为不涉及复杂的堆叠软件的开发，因此系统的稳定性非常高，不会因为复杂的堆叠逻辑引入潜在的Bug，因此是一个可靠性更高的方案；
利用L3网络的ECMP负载分担能力，可以充分利用交换机之间的所有带宽传递报文，使得网络性能更高；
对于网络管理员来说，不需再陷入到堆叠复杂的组网逻辑、纷繁的设备配置、脆弱的状态同步等问题中无法自拔。

基于网络安全策略自学习的“内生安全”

DHCP（Dynamic Host Configuration Protocol，动态主机配置协议）的重要功能之一是为接入网络的终端分配规划好的IP地址，同时为终端动态配置网关地址、DNS地址等信息。

云化园区基于自学习的主动安全、内生安全
基于自学习的主动安全、内生安全

云化园区网络将主动跟踪任何接入终端与DHCP服务器之间的交互过程，对于所有通过DHCP服务获取自己IP地址的终端，其IP/MAC地址信息都会被网络所记录，所有来自这些终端的网络通信都将被允许通过、正常转发。而对于那些没有通过DHCP服务器获得合法地址的终端来说，网络会拒绝此类终端的接入，来自这些终端的网络流量将在与其直接相连的接入Leaf的端口上直接被丢弃。同样的学习过程也会发生在ARP的交互过程中、数据报文的转发过程中。

从上述描述不难发现，云化园区网络通过自学习手段，具备了主动安全和内生安全的机制，不再依赖于网络管理员复杂的策略配置。

安全控制表项（ACL）的手工配置

并非所有接入网络的终端都需要通过DHCP来获取自己的配置信息。例如，网络中的打印机，往往是被配置了静态的IP地址，平时是处于静默状态，一旦有打印请求到来时，就会直接开始传递需要被打印的信息。这种情况如何处理？

安全控制表项的手工配置

在云化园区网络架构中，处理这种情况的机制是安全控制表项的手工配置。手工配置与自动学习相结合，将网络中所有类型的终端全部纳入到统一安全防护的范畴之内。

下一篇，我们将从园区网络的运维层面（软件可编程、自动化、NetDevOps…）来继续探讨。

借鉴云数据中心网络的发展经验，星融元Asterfusion创新性地提出了新一代精简高效的云化园区网络架构。其中，型号丰富的CX-M系列主要作为接入或汇聚交换机，而高速率、高密度的CX-N系列作为汇聚和核心交换机。

园区智网

网络操作系统（SONiC）

网络可视化（NPB）

开放硬件平台

标签： 中立科普

近期文章

相关概念

什么是Hash极化

为什么会出现Hash极化？

Hash极化的影响

如何缓解Hash极化

最新动态

近期文章

BGP扩展能力创新

路径质量同步算法流程

基于BGP扩展的动态路径优化

优化高吞吐场景

优化智算中心：动态智能选路新方向

最新动态

近期文章

什么是 DHCP 侦听

为什么需要DHCP侦听？

DHCP 侦听如何工作？

DHCP 侦听可以防范哪些常见网络攻击

DHCP 侦听的应用场景

配置示例

传统方式-手动配置

云化配置方式 – 图形化配置

最新动态

近期文章

什么是MPLS？

工作原理

标签结构

为什么需要MPLS？

服务质量（QoS）

流量工程（TE）

业务隔离与VPN

最新动态

近期文章

从WiFi 6到WiFi 7：技术升级的核心突破

带宽与速率的指数级提升

多链路操作（MLO）的革命性突破

空间流与MIMO技术的扩展

频谱利用与抗干扰优化

国内WiFi7发展的困境

破局之道：立足现有优势，挖掘场景化潜力

最新动态

01 计算节点的选型

来源：SemiAnalysis

1、选择中端CPU

2、 RAM 降级到 1 TB

3、删除 Bluefield-3 或选择平替

4、减少单节点网卡数量（谨慎选择）

02 集群网络的选型

1、计算网络：RoCEv2替代IB

2、前端网络：合理降低带宽速率

3、带外管理网络：选用通用的以太网交换机

03 计算网络的架构优化

轨道优化（Rail-optimized）架构

确定合适的超额订阅率

04 NVMe 存储

物理服务器数量

存储网络

05 带内管理

06 带外管理

07 驱动和业务调度程序

GPU驱动程序

网络驱动程序

MLNX_OFED

GPU Direct RDMA

NVIDIA HPC-X

业务调度和启动程序

08 多租户隔离

09 GPU的虚拟化

10 监控方案

监控面板

常见错误

11 部署验收和日常维护

NCCL-TEST

日常维护

标签：中立科普