标签：技术分享

如何实现 RoCE 配置的自动同步（基础篇） – DCBX协议

关注星融元

进入AI 时代，为多卡、多节点的大规模集群环境构造高性能的无损网络，除了具备必要的 QoS 配置能力外，设备间配置的自动同步也尤为重要。

DCBX（Data Center Bridging Exchange）协议是实现数据中心网络自动化的关键技术，由此可大大减轻运维工作量，并降低人工配置失误引发网络故障的概率。

DCBX 协议为大规模网络部署场景下设备之间的 RoCE 配置同步打下了技术基础，详细内容我们将在下篇展开介绍。

DCBX 产生背景

在现代大规模、多云互联的数据中心中，网络所负载的流量类型庞杂，其中既有对延迟和丢包极度敏感的关键业务流量（如存储、HPC、实时计算），又有可容忍一定延迟的普通数据流量。

因此我们需要对不同类型的流量设定不同的优先级，以保障关键应用的服务质量，与此相关的无损网络特性功能主要有 PFC、ETS 等。显而易见，若采用传统方式人工逐台配置，效率低下且容易引入配置失误，无法满足现代数据中心运营所需。

PFC（基于优先级的流量控制）：流量的无损传输，能够根据优先级控制流量阻塞，减少数据丢包。

ETS（增强传输选择）：用于管理不同流量的带宽分配和优先级控制，从而实现不同类型流量的服务质量管理。

下图是因为没有端到端开启 PFC 而导致的丢包/拥塞扩散示例：

交换机上出现拥塞，向服务器发送PFC Pause帧
服务器由于未使能 PFC，会继续向交换机发送流量
当交换机 Buffer 占用超限，出现流量丢弃则需要重传，导致了时延显著增加或引发故障

什么是DCBX

DCBX（Data Center Bridging Exchange，数据中心桥接交换）协议是基于 IEEE 802.1Qaz 的链路层协议，通过 LLDP（Link Layer Discovery Protocol，链路层发现协议）的扩展字段进行配置交换，以确保不同设备间的流控、服务质量（QoS）等设置保持一致。对于这些设置，我们在当前语境下统称为”DCB 配置”。

具体而言，DCBX 协议主要提供了以下功能：

发现对端设备的DCB配置信息
更新对端设备的DCB参数到本地
监测设备的DCB配置变化

DCBX 协议信息封装

如前文所述，DCBX 协议基于 LLDP 协议拓展而来，DCB的信息被封装在 LLDP 特定的扩展TLV中（Type,Length,Value）。

DCBX TLV包括 ETS Configuration TLV、ETS Recommendation TLV、PFC Configuration TLV和Application Priority TLV。

DCBX 的工作流程

DCBX 的配置宣告，协商以及更新行为通过状态机实现，DCBX 状态机运行在每个使能了 DCBX 的端口上，默认工作流程如下：

本地配置采集

初始化本地配置、本地能力和本地同步意愿。当对端存在，则进入宣告本地配置状态。

本地配置宣告

宣告本地配置。当检测到对端存在，且本地有意愿同步，则进入对端配置采集状态。

对端配置采集

初始化对端的配置、对端能力、对端同步意愿，并进入本地配置更新状态。

本地配置更新

将对端配置与本地配置进行协商，依据协商结果检查数据库中的配置，若与本地配置不一致，则更新数据库中的配置。

配置变化监测

监测本地与对端配置和存在状态是否发生变化，若发生变化则回到本地配置采集阶段。

典型场景应用示例

我们依旧以 PFC 为例，来结合图示简要了解 DCBX 协议如何在交换机与服务器之间，以及交换机和交换机之间完成参数配置交换。

交换机与服务器

DCBX 协议通过设备间双向的能力发现与配置协商，确保了 DCB 功能的端到端一致性。

服务器与交换机 DCBX 配置交换示意图

交换机配置 PFC 参数并使能 DCBX
服务器使能 DCBX 并配置接收意愿，可选配置 PFC 参数
通过 LLDP 扩展字段完成配置交换

交换机和交换机

交换机与交换机之间通过 DCBX 协议完成配置交换，确保了 DCB 配置在转发链路上的一致性。

交换机之间 DCBX 配置交换示意图

本地交换机配置接口3、4队列使能 PFC，使能 DCBX 并配置接收意愿
对端交换机配置接口6、7队列使能 PFC，使能 DCBX
本地发现对端接口 PFC 配置与本地不一致，将对端 PFC 配置同步到本地

一文看懂ARS（自适应路由切换）：基于 Flowlet 的动态负载均衡技术

关注星融元

不同负载均衡技术对比

现有主流负载均衡技术大体分为三种，逐流的 ECMP 负载均衡、逐包负载均衡和基于子流（Flowlet）的负载均衡。

逐流负载均衡

传统的 ECMP 路由通常采用逐流负载分担机制，其核心是基于数据包的特征字段（例如 IP 五元组等信息）作为计算因子去进行哈希运算，根据哈希值选择转发链路。

1、不同的流由于特征字段不同，会生成不同的哈希值，从而分散到不同的链路完成转发，在整网实现一定的负载均衡；

2、具有相同特征字段的流，经过哈希运算后会分配到同一条转发路径，由此保证了同一条数据流会按序依次到达对端。

随着云计算的发展和智算业务兴起，逐流负载均衡的缺陷愈加凸显。

首先，逐流的负载均衡无法解决流大小不均的问题，当大小流平等、粗放地进行负载均衡的精细度有限，带宽利用率也有所损耗；

其次，它是一种静态的负载均衡机制，无法实时感知链路的负载情况。当网络出现大象流，静态负载均衡机制依旧会按照既定的路由算法去选路，容易进一步加剧拥塞，造成丢包；

尤其是智算集合通信场景下，该机制还极易在 Clos 组网的 Leaf 上行链路出现哈希极化现象，造成网络拥塞。

（btw，我们提供一个静态方式来解决这个问题，感兴趣可以参考：主动规划+自动化配置工具，简单应对AI智算网络 ECMP 负载不均）

逐包负载均衡

逐包的负载均衡技术则是将数据包均匀地负载到各条链路上，又被形象地称为“数据包喷洒”（Packet Spray）。

逐包负载均衡通常提供 Random 和 Round Robin 两种算法，Random 算法将数据包随机分散到各条链路上；Round Robin 算法能够将数据包逐一等量的分散到各条链路，理论上均衡度最好。

但由于实际组网中不同链路的负载情况和转发时延不一样，逐包负载均衡无法保证报文依照原有时序到达接收端，故其整体性能依赖于端侧的缓存容量和乱序重组能力。

基于子流（Flowlet）的负载均衡

不同于传统负载均衡的逐流负载分担或逐包负载分担，基于子流的负载均衡不光是对数据流进行分割以实现更精细均匀的负载分担，而且保持了报文到达的时序性。

当前星融元 RoCE 交换机所支持的 ARS（Adaptive Routing and Switching，自适应路由切换）即是一种基于子流的负载均衡技术；同时这也是一种动态的负载均衡，其利用了 ASIC 提供的硬件 ALB（Auto-Load-Balancing）能力通过实时感知链路状态，主动调整选路改善拥塞状况，并提高整体的带宽利用率。

接下来我们将从下面三个问题出发，帮助读者理解该机制的运行原理。

如何分割大流？
动态选路机制和链路的测量指标是什么？
何时触发路径的主动分配/重分配？

术语解释

ARS技术中有以下几个关键概念：

微观流（Micro Flow）:五元组相同的一组数据包
宏观流（Macro Flow）:哈希值相同的微观流的集合
空闲时间（Idle Time）:宏观流中一段没有流量的时间（可配置的参数）
子流（Flowlet）指宏观流中被空闲时间分割的一组连续数据包

基于Flowlet的路径分配概念图

流分割：从 Flow 到 Flowlet

Flowlet（子流）是 ARS 技术对流进行负载均衡的基本单位。

如上图所示，一系列拥有相同五元组微观流（Micro Flow 1/2/3…）会进入到网络中，我们采用 IP 五元组作为哈希因子对所有微观流进行哈希计算，哈希值相同的一系列微观流组成一条宏观流。

宏观流中，当两条微观流之间相隔的时间T大于配置的空闲时间（Idle Time）会触发流分割，将宏观流分割为子流（Flowlet）：以时间 T 为界，前后两个微观流从属于两个不同的子流。

显然，Flowlet 会包含拥有不同 IP 五元组信息的数据包（不同的微观流），从业务层面来看，传统意义上的“大象流”会被打散，而小流则有可能合并到一个 Flowlet 里传输。

动态选路机制和测量指标？

ASIC 负责维护一个宏观流表 (Macro Flow Table)，其中记录了各宏观流和其对应的出接口（或 ECMP 链路成员）信息。

通过实时测量不同端口上负载和时延，ARS 技术可以将宏观流以 Flowlet 的颗粒度路由到当前更优的链路上。

至于我们如何得知当前哪条链路更优呢？这里就涉及到链路质量指标的测量问题。

链路指标的测量由控制平面和ASIC共同完成，在星融元的方案中，我们关心的指标有端口带宽、端口利用率、转发时延，上述三个指标共同决定了端口所在链路于t时刻的质量情况。

端口带宽

对于启用了 ARS 功能的端口，控制平面会对其线速速率进行归一化，并将配置下发给 ASIC 备用，基础速率为10G。

端口利用率

端口带宽利用率通过端口实时流量速率反映。ASIC 对端口上的流量速率进行采样后，通过与端口线速速率进行比较得出端口带宽利用率，并计算端口平均负载。

转发时延

端口所在链路转发时延通过该端口的队列深度反映，ASIC 对端口队列深度进行采样后计算其历史负载情况。

对于参与了 ARS 的端口，ECMP 组会实时计算更新各出接口的链路质量情况，并在路径动态分配时根据最近一次的结果择优转发流量。

何时进行路径主动分配？

路径主动分配发生在流分割过程中的末尾，结合上述的路径指标完成最终路由决策。

我们可以假设这样一个场景：当 Flowlet 1 的最后一条微观流 Micro Flow 2 被分配到路径 D 并间隔时间 T（T>Idle Time）后，另一条微观流 Micro Flow 3 此时待处理。

由于 T>Idle Time，此时 ASIC 认为 Flowlet 1 已结束，到路径D的映射到期。

此后的微观流 Micro Flow 3 从属于一条新的子流，且处于非活跃状态，于是触发一次主动路径分配。

流分割的关键参数 Idle Time 的合理配置值跟全局路径级时延信息高度相关，通常会配置为不小于 1/2 RTT。

这是因为转发设备的接收队列缓冲区会实时变化，即使发送端的报文发送间隔恒定，转发设备上处理报文并进行转发时，间隔也会发生变化。配置过小会导致分割出来的 Flowlet 粒度过细从而引发乱序，过大则无法将宏观流进行有效分割，引发拥塞。

典型应用举例

如上图，以 32 台 8 卡 GPU 服务器（共计 256 个 400G 网卡）规模为例，AIDC 承载网采用两层 Clos 网络架构。Spine 和 Leaf 设备均选择星融元 CX864E-N 交换机，并按照下行端口与上行端口1:1的收敛比设计组网。在保证网络高吞吐、高带宽的基础上，1:1 的带宽收敛比能够避免因为带宽不对称导致的性能问题。

51.2T 800G AI智算交换机软硬件系统设计全揭秘

假设 Server1 的 GPU1 要与 Server17 的 GPU1 通信，按照传统负载均衡的逻辑，流量会选择 Spine 中的一个然后到达 Leaf17。由于传统负载均衡不会感知路径实时状态，所以 AI 场景下的少量大象流极易被均衡到同一 Spine 上从而导致 Leaf1 上行端口拥塞甚至出现丢包。

当在星融元 CX864E-N 交换机启用 ARS 技术，则 ASIC 将能根据转发时延和端口实时负载对流量出接口进行调整。

假设 Leaf1 通往 Spine8 的链路上发生拥塞，则 Leaf1 的 ASIC 会将更少的 Flowlet 路由到 Spine8 或跳过 Spine8，直至该链路上的拥塞情况缓解后，才会恢复选中该链路进行流量转发。

同样以 Spine1 为例，其 ASIC 也能将更少的 Flowlet 路由到 Leaf32 的链路上而更多地选取其他质量更好的链路。由此，Leaf 与 Spine 设备均能完成自治，从而达到降低整网链路拥塞情况并提高带宽利用率。

参考文档

[1] OCPSummit2022- Adaptive Routing in AI/ML Workloads https://www.youtube.com/watch?v=cgYOpp4xwQ8
[2] https://infohub.delltechnologies.com/zh-cn/l/dell-enterprise-sonic-quality-of-service-qos/adaptive-routing-and-switching/
[3]https://asterfusion.com/a20250528-flowlet-alb/

一文通览！从分布式存储的网络设计选型到性能测试

关注星融元

本文将从以下几个维度梳理相关知识信息，篇幅较长，建议先转发收藏。

存储架构沿革
分布式存储网络协议选择
交换机硬件设备选型
RoCE无损网络配置和管理（手动配置和自动化配置）
性能测试方案（关键指标、测试工具和参数解读）
最佳实践

传统集中式存储和分布式存储的对比

传统集中式 SAN/NAS 存储起步早、技术成熟，具备高IOPS、低时延、数据强一致性等优势，适合金融、医疗等行业的核心业务系统的数据库存储场景，但集中式的架构同时决定了它的扩展能力受限于存储机头，无法很好地支撑大规模数据存储和高并发访问场景。

随着云计算技术快速迭代，AI智算的逐步落地应用推广，计算能力与上层业务规模的急速扩展推动着存储基础设施转变为分布式存储架构。

分布式存储作为新一代的存储技术，使用分布式存储软件将算力服务器本地的硬盘组成统一的存储资源池，从架构层面解决了传统集中式存储的扩展性问题，规模可扩展至上千个节点，容量可扩展到PB甚至EB级，并且性能可随容量线性提升。

在分布式存储中，网络通信方面若采用传统的TCP/IP以太网会占用大量的CPU资源，并且需要额外的数据处理。进入全闪存储时代，传统的以太网通信协议栈已无法再满足存储网络需求。

分布式存储网络的搭建

网络协议的选择

为了解决分布式存储I/O路径长和传统TCP协议带来的性能瓶颈，业界已经广泛采用高带宽低时延的RDMA网络与集群内外部的互联。

RDMA可以简单理解为利用相关的硬件和网络技术，服务器A的网卡可以直接读写服务器B的内存，应用程序不需要参与数据传输过程，只需要指定内存读写地址，开启传输并等待传输完成即可。

当前主流的RDMA网络分为了InfiniBand和RoCEv2两大阵营。

IB网络因其性能优异早已广泛应用到 HPC 场景，但需要专用的网卡、交换机配套线缆和管理平台。

RoCEv2使用开放和标准化协议在以太网上传输IB流量，整体部署成本优势明显，采用厂商优化的RoCE网络设备，端到端性能足够稳定替代IB。以下是星融元CX-N系列RoCE交换机与同规格IB交换机的存储集群组网，测试结果甚至局部超越IB，后文会提供更详细的测试信息。

组网架构

在计算和存储分离的部署场景中，我们推荐部署2张Spine-Leaf 架构的物理网，存储后端网将单独使用一张物理网，以保证分布式存储集群能够快速无阻塞地完成多副本同步、故障后数据重建等任务，而存储前端网和业务则可用一张物理网。

另外，存储节点对网络接入侧的可靠性要求相对较高，因此存储集群中的节点，一般推荐使用双归或多归（Multi-homing）方式接入。

网络硬件选型

存储网络的硬件选型方面一般要满足如下几点：

高密度的100G/200G/400G接口，尽量减少交换机台数
支持IB/RoCE协议，500ns以内的端口转发时延，支持PFC/ECN等无损网络特性
全盒式设备形态，提供灵活、扁平的横向扩展能力（支持多达数千个存储/计算节点，并可保证同集群下的任何两台存储服务器之间的通信不超过三跳）

RoCE 无损网络的配置和管理

NVIDIA IB网络的配置和管理已经高度系统化和整体化，此处不加赘述。

与IB相比，未经优化的RoCE网络需要在交换机上手动配置调整，步骤会相对复杂；不过在部分交换机上(星融元CX-N系列)也可以借助于其开放的软件架构和API，引入自动化工具简化RoCE配置，并提供与UFM类似的网络监控和管理能力。

一般手动方式

在完成基础的连接与配置后，需要先根据业务场景对全网的流量优先级进行规划，并对所有的交换机使能PFC与PFC死锁监控功能，让不同的业务流量进入不同的队列进行转发，使基于RoCEv2的存储业务流量优先转发。

同时，使能所有交换机的ECN功能，保障存储队列的低时延和高吞吐。需要注意的是，交换机和服务器网卡上共同的参数需要保持一致，对于队列划分、缓存、PFC门限及ECN门限等配置需要结合业务情况动态调整，以达最佳性能表现。

#确保服务器网卡工作在 RoCEv2 模式下
#为业务流量配置 PCP 或 DSCP，并启用 ECN。

#设置网卡RDMA CM的工作模式
[root@server ~]# cma_roce_mode -d mlx5_0 -p 1 -m
#设置网卡的优先级类型为DSCP
[root@server ~]# mlnx_qos -i enp1s0f0 –trust=dscp
DCBX mode: OS controlled
Priority trust state: dscp
#在队列3上开启PFC
[root@server ~]# mlnx_qos -i enp1s0f0 -f 0,0,0,1,0,0,0,0
#在队列3上开启DCQCN
[root@server ~]# echo 1 > /sys/class/net/enp1s0f0/ecn/roce_np/enable/3
[root@server ~]# echo 1 > /sys/class/net/enp1s0f0/ecn/roce_rp/enable/3
#设置CNP DSCP
[root@server ~]# echo 48 >

#在交换机端口配置以启用 PFC 和 ECN 功能并指定队列
#在交换机的指定队列（与服务器上的队列匹配）上启用 PFC 和 ECN
#调整缓冲区和阈值

# 设置PFC门限值
sonic(config)# buffer-profile pg_lossless_100000_100m_profile
sonic(config-buffer-profile-pg_lossless_100000_100m_profile)# mode lossless dynamic -2 size 1518 xon 0 xoff 46496 xon-offset 13440
sonic(config-buffer-profile-pg_lossless_100000_100m_profile)# exit
# 在3、4队列开启PFC功能（AsterNOS的PFC功能默认使能3、4队列，无需配置）
sonic(config)# priority-flow-control enable 3
sonic(config)# priority-flow-control enable 4
sonic(config)# exit
# 设置ECN门限值
sonic(config)# wred roce-ecn
sonic(config-wred-roce-ecn)# mode ecn gmin 15360 gmax 750000 gprobability 10
sonic(config-wred-roce-ecn)# exit
# 配置Diffserv map
sonic(config)# diffserv-map type ip-dscp roce-dmap
sonic(config-diffservmap-roce-dmap)# ip-dscp 48 cos 6
# 配置Class map
sonic(config)# class-map roce-cmap
sonic(config-cmap-roce-cmap)# match cos 3 4
sonic(config-cmap-roce-cmap)# exit
# 配置Policy map
sonic(config)# policy-map roce-pmap
sonic(config-pmap-roce-pmap )# class roce-cmap
sonic(config-pmap-c)# wred roce-ecn
sonic(config-pmap-c)# priority-group-buffer pg_lossless_100000_100m_profile
sonic(config-pmap-c)# exit
sonic(config-pmap-roce-pmap )# set cos dscp diffserv roce-dmap
sonic(config-pmap-roce-pmap )# exit
# 进入以太网接口视图，绑定策略，将RoCE网络配置在接口上使能
sonic(config)# interface ethernet 0/0
sonic(config-if-0/120)# service-policy roce-pmap

基于网络自动化工具

以下能力均来自于星融元 EasyRoCE Toolkit 内相关组件模块，当前该工具套件对签约客户免费。详情访问：https://asterfusion.com/easyroce/

1条命令行启用和模板化配置RoCE ：针对无损网络优化的命令行视图和业务级的命令行封装，实现一条命令行启用；基于芯片规格和应用场景，预设最佳参数模版
关键RoCE指标导出和可视化呈现：在交换机内运行一个容器化的监控采集前端（RoCE Expoter），将RoCE业务相关网络指标采集给开源监控方案Prometheus，为运维团队提供一个开箱即用的RDMA网络监控方案
RoCE 网络参数集中呈现：RoCE相关的配置调试信息组织起来集中展示到Prometheus面板，简化排障流程提高效率

存储性能测试的关键指标和软件工具

关键测试指标

存储性能测试项整体上分为IO时延和IOPS两个纬度，每个维度中又会按照读/写、数据块的大小分别进行测试。

通常情况下随机IO的性能远低于顺序IO、写入性能远低于读取性能。

IO：单个读/写请求
IO时延：发起请求到收到存储系统的响应消息所花费的时间
IOPS：每秒存储系统能处理的IO请求数。
顺序IO：大量的IO请求连续相邻的数据块，典型的业务有日志、数据备份恢复、流媒体等。顺序IO的性能通常就是最高性能
随机IO：IO请求的是随机分布在存储介质各个区域的数据块，比如高并发读写大量小文件，就会导致IOPS和吞吐的性能下降，典型的业务有OLTP、交换分区、操作系统等。随机IO的性能通常是最低性能

此外，数据块大小对存储的性能表现直接的影响。

小IO，如1K、4K、8K
大IO，如32K、64K甚至更大

较大的IO会带来更高的吞吐，较小的IO会产生更高的IOPS。大多数真实的业务场景中，IO的大小是混合的。

性能测试步骤和工具

存储网络的性能测试。主要关注网络单链路的吞吐和时延，常用的工具是iperf、ib_read/write_bw、ib_read/write_lat；
会进行存储系统的基础性能测试。这里关注的是存储系统的时延和吞吐，常用的工具是fio；
业务级别的兼容性、稳定性以及性能测试。兼容性方面主要测试交换机的API是否能满足业务系统的要求，稳定性方面的测试则是网络设备级和链路级别的高可靠，性能测试则会用业务场景专用的测试工具进行压测，比如：数据库一体机常用的工具是swingbench和hammerdb，对象存储场景中常用的工具是cosbench。

测试参数说明

以下是国内某数据库厂商分别使用 Mellanox SB7700与星融元CX532P-N组网，使用测试工具fio得出的结果概要：

测试时延时使用的是1v1的方式，测试存储系统IOPS时分别用1v1、2v1的方式进行压测。目标是测试服务器在假设的小IO业务场景中（100% 随机，70% 读，30% 写，IO size 4K）的性能表现。

[root@server ~]# fio \
-filename=/root/randrw_70read_4k.fio \
-direct=1 \
-iodepth 1 \
-thread \
-rw=randrw \
-rwmixread=70 \
-ioengine=psync \
-bs=4k \
-size=5G \
-numjobs=8 \
-runtime=300 \
-group_reporting \
-name=randrw_70read_4k_local

`-filename=/root/randrw_70read_4k.fio`
支持文件、裸盘、RBD image。该参数可以同时制定多个设备或文件，格式为：-filename=/dev/vdc:/dev/vdd（以冒号分割）。

`-direct=1`
direct即使用直接写入，绕过操作系统的page cache。

`-iodepth=1`
iodepth是设置IO队列深度，即单线程中一次给系统多少IO请求。如果使用同步方式，单线程中iodepth总是1；如果是异步方式，就可以提高iodepth，一次提交一批IO，使得底层IO调度算法可以进行合并操作，一般设置为32或64。

`-thread`
fio默认是通过fork创建多个job，即多进程方式，如果指定thread，就是用POSIX的thread方式创建多个job，即使用pthread_create()方式创建线程。

`-rw=randrw`
设置读写模式，包括：write(顺序写)、read(顺序读)、rw(顺序读写)、randwrite(随机写)、randread(随机读)、randrw(随机读写)。

`-rwmixread=70`
设置读写IO的混合比例，在这个测试中，读占总IO的70%，写IO占比30%。

`-ioengine=psync`
设置fio下发IO的方式，本次测试使用的IO引擎为psync。

`-bs=4k`
bs即block size(块大小)，是指每个IO的数据大小

`-size=5g`
测试总数据量，该参数和runtime会同时限制fio的运行，任何一个目标先达到，fio都会终止运行。在做性能测试时，尽量设置大点，比如设置2g、5g、10g或者更大，如果基于文件系统测试，则需要需要小于4g。

`-numjobs=8`
本次作业同时进行测试的线程或进程数，线程还是进程由前面提到的thread参数控制。

`-runtime=300`
测试总时长，单位是s。和size一起控制fio的运行时长，在做一般性性能测试的时候，该时间也尽量设置长点，比如5分钟、10分钟。

`-group_reporting`
多个jobs测试的时候，测试结果默认是单独分开的，加上这个参数，会将所有jobs的测试结果汇总起来。

`-name=randrw_70read_4k_local`
本次测试作业的名称。

最佳实践

星融元（Asterfusion）为中国TOP3公有云打造媲美IB的低时延网络。

需求背景

该公有云用户作为中国TOP3云计算服务市场的重要参与者之一，为政府、企业和个人用户提供安全可靠的云计算解决方案。2022年需要对存储业务区域进行扩容，进一步提升网络服务质量。

设备时延要低，满足分布式存储的业务需求
具有良好的供应链保障机制
能够提供及时且专业的技术支持

方案介绍

通过星融元CX664D-N（64x200GE）大容量低时延以太网交换机提高应用响应速度，同时为业务提供无损传输保障，满足高可靠、低时延的需求。

整网采用RoCEv2，通过PFC、ECN、DCBX保障业务无损，提供与IB媲美的性能和无损网络
超低时延提高业务并发量，加快数据传输速度，提升业务响应效率，抢占市场先机
更低的技术门槛和运维成本，可以在传统以太网上实现超低时延、零丢包、高性能的网络传输

智能路径调度：AI驱动负载均衡的异常路径治理实践

近期文章

什么是Hash极化

理解ECMP路由方式下的Hash极化现象，需要结合ECMP的工作原理和哈希算法的特性来分析。

Hash极化，又称hash不均，具体的表现是在ECMP进行多路径负载均衡时，流量并没有像预期那样均匀地分布到所有可用的等价路径上，而是呈现出明显的偏向性，导致某些路径负载过重（拥塞），而其他路径负载很轻（闲置）的现象。

为什么会出现Hash极化？

Hash极化现象的根本原因在于哈希算法的一致性与网络拓扑结构和流量模式特性之间的相互作用：

哈希算法的一致性
- 网络设备（路由器、交换机）通常使用相同或非常相似的哈希算法（如Toeplitz哈希）和相同的输入参数（如标准的五元组）。
- 当流量经过多个使用ECMP的网络设备（尤其是在层次化网络如Clos架构的数据中心中）时，如果这些设备使用相同的哈希算法和参数，它们对同一个数据流计算出的哈希结果（即选择的路径索引）高度一致。
网络拓扑的层次化

数据中心常见的Clos架构是Hash极化最常见的发生场景。
- 想象一个典型的三层Clos架构：服务器 -> Leaf交换机 -> Spine交换机 -> … -> 目的地。
- 第一层ECMP (Leaf -> Spine): 假设Leaf有4个上行端口连接到4个不同的Spine交换机。Leaf使用ECMP和哈希算法H1将服务器流量分配到4个Spine上。目标是均匀分布。
- 第二层ECMP (Spine -> 下一跳/Leaf): Spine交换机接收到来自Leaf的流量后，它自己也需要使用ECMP（假设也是基于相同的哈希算法H1和相同的五元组输入）将流量转发到其下一跳（可能是另一组Leaf或核心路由器）。
- 极化发生： 问题就在这里！Leaf交换机已经基于五元组和H1把流A哈希到了Spine 1。当Spine 1收到流A的数据包后，它再次使用相同的H1算法和相同的五元组计算哈希，决定将流A发送到它的哪个下一跳。由于输入（五元组）和哈希函数（H1）都没变，Spine 1计算出的哈希结果（路径索引）极大概率会与Leaf计算出的哈希结果（选择Spine 1这个事实）具有某种相关性，甚至是相同的模式。
- 结果： 原本在Leaf层被“均匀”分配到4个Spine的流量，在Spine层再次被哈希时，所有来自Spine 1的流量（无论它在Leaf层是从哪个端口来的）都可能被Spine 1的哈希算法再次集中分配到其少数几个下一跳路径上，而不是均匀分散到所有可用路径。其他Spine上的情况类似。最终导致Spine交换机到其下一跳的链路上，只有少数几条承载了绝大部分来自其上游Leaf的流量，而其他链路则很空闲。这就是极化——流量在下一层被“集中”而非“分散”了。
流量模式的不均衡：
- 哈希算法的均匀分布依赖于输入（流标识/五元组）本身的随机性。如果实际流量中存在大量具有相似特征的流（例如，大量流共享相同的源IP或目的IP），而这些特征恰好是哈希算法的主要输入，那么这些相似的流就非常可能被哈希到相同的路径上（哈希碰撞），导致该路径过载。
- 即使没有层次化拓扑，仅在一个ECMP组内，如果流量模式本身高度偏斜（少数大流主导），哈希极化也会导致负载不均。
路径数量与哈希范围：
- 哈希算法输出范围（桶的数量）需要与可用路径数量匹配。如果算法设计的哈希空间分布不均匀，或者路径数量不是2的幂次而哈希桶分配不合理，也可能导致某些路径被选中的概率更高。

Hash极化的影响

负载不均衡： 这是最直接的影响。部分链路拥塞，部分链路闲置，浪费了宝贵的带宽资源。
网络性能下降： 拥塞链路导致数据包丢失、延迟增加、抖动增大，影响应用性能（特别是对延迟敏感的应用）。
吞吐量瓶颈： 整体网络吞吐量受限于那些被过度使用的链路，无法达到理论上的多路径叠加带宽。
可靠性潜在风险： 过载的链路和设备故障风险更高。同时，当一条过载链路故障时，其承载的大量流量瞬间切换到其他链路，可能引发新的拥塞。

如何缓解Hash极化

使用不同的哈希因子： 这是最常用且有效的方法。为网络中的不同设备（或同一设备的不同ECMP组）配置不同的随机哈希种子。即使算法相同，不同的种子会导致相同的输入产生完全不同的哈希结果，打破了哈希结果在不同层级间的相关性。例如，Spine交换机使用与Leaf交换机不同的种子。
使用不同的哈希算法： 在支持的情况下，让不同层级的设备使用不同的哈希算法。
使用更丰富的哈希输入： 增加哈希算法的输入字段，如加入MAC地址、VLAN标签、MPLS标签、GTP TEID（移动网络）、NVGRE/VXLAN VNI（Overlay网络）、甚至包内特定偏移的字节等。这增加了输入空间的随机性，减少了因五元组相似导致的碰撞。现代设备通常支持灵活选择哈希字段。
层次化感知的哈希/负载均衡： 在Leaf层，除了五元组，可以加入Spine交换机的信息（如出端口ID或Spine的IP）作为哈希输入的一部分。这样，当流量到达Spine时，其哈希输入已经包含了路径信息，有助于Spine层更均匀地分布。这需要设备支持更复杂的哈希策略。
动态负载均衡： 超越静态的基于流的哈希，采用基于实时链路利用率或队列深度的动态负载均衡机制（如一些厂商的“自适应路由”或类似CONGA的思想）。这种方法直接感知拥塞并调整路径选择，能有效避免极化，但实现更复杂。
调整网络拓扑/路径数量： 有时增加路径数量或调整拓扑结构也能缓解问题，但成本较高。

Hash极化是ECMP在多层级网络（尤其是数据中心Clos架构）中使用相同哈希算法和参数时，流量在逐层转发过程中被反复集中到少数路径上，导致负载严重不均衡的现象。其核心原因在于哈希算法在不同层级设备上计算结果的相关性。解决的关键在于打破这种相关性，主要方法包括为不同设备配置不同的哈希种子、使用更丰富多样的哈希输入字段，以及采用更先进的动态负载均衡技术。理解Hash极化对于设计和优化高性能数据中心网络至关重要。

返回资源中心

端口类型	作用	系数意义
Leaf上行口	连接Spine	影响跨设备链路质量权重
Leaf下行口	连接服务器/终端	决定终端接入链路质量权重
Spine口	连接Leaf	控制核心层链路质量聚合权重

近期文章

什么是 DHCP 侦听

DHCP侦听（DHCP snooping）是一种部署在以太网交换机上的网络安全机制，用于阻止未经授权的 DHCP 服务器为客户端分配 IP 地址。该机制通过检查 DHCP 消息并仅允许来自受信任端口的 DHCP 消息通过，从而防止非法 IP 地址分配，确保网络环境安全稳定。

为什么需要DHCP侦听？

在企业、校园甚至公共网络中，与 DHCP 相关的问题并不少见，而且它们可能会造成严重的网络中断。有时，仅仅是配置错误的设备意外地充当了 DHCP 服务器，分配了错误的 IP 地址，导致连接中断。有时，问题更为严重，例如攻击者设置了恶意 DHCP 服务器，通过虚假网关或 DNS 服务器重新路由用户，从而为中间人攻击打开了方便之门。即使是客户端手动为自己分配静态 IP 地址，也可能造成混乱，引发冲突，并使网络安全管理更加困难。

项目	DHCP	静态 IP
分配方法	由服务器自动分配	手动配置
管理努力	低，适合大规模部署	高，需要单独设置
解决稳定性问题	每次设备连接时可能会发生变化	固定不变
设置效率	快速、即插即用	速度慢，需要手动输入
适合	最终用户设备、动态环境	服务器、打印机、关键设备
安全	需要配合保护机制（例如 DHCP 侦听）	更可控，但有手动配置错误的风险

DHCP 侦听的好处：

阻止恶意 DHCP 服务器干扰网络。
确保客户端收到准确的 IP 地址和网络配置。
通过降低攻击风险来增强网络安全。

DHCP 侦听如何工作？

要真正理解DHCP 监听的工作原理，首先必须清楚了解DHCP（动态主机配置协议）的工作原理。当设备加入网络且尚未获得 IP 地址时，它会发起与 DHCP 服务器的对话——这是一个四步握手过程，包括：发现 (Discover )、提供 (Offer)、请求 (Request)和确认 (Acknowledge )。可以将其视为设备和服务器之间获取 IP 身份的快速协商过程。下图详细分析了此动态交换过程中每个步骤的具体细节。

在启用 DHCP Snooping 的网络中，交换机接口分为两个主要角色：可信端口和不可信端口。

可信端口：这些端口连接到合法的 DHCP 服务器或上行链路设备（例如路由器或核心交换机），并被允许发送 DHCP 服务器消息（例如 DHCP OFFER、DHCP ACK）。
不受信任的端口：这些端口连接到常规客户端（例如，PC 或打印机），并且仅限于发送 DHCP 客户端消息（例如，DHCP DISCOVER、DHCP REQUEST）。
默认情况下，所有端口都是不受信任的；必须手动配置受信任的端口。

DHCP 消息过滤：

来自不受信任端口的 DHCP 服务器消息（例如 DHCP OFFER、DHCP ACK）将被丢弃，以防止恶意 DHCP 服务器运行。
客户端请求（例如，DHCP DISCOVER、DHCP REQUEST）可以来自不受信任的端口，但服务器响应只允许来自受信任的端口。

DHCP绑定表：

DHCP 侦听维护一个绑定表，其中记录每个客户端的 MAC 地址、分配的 IP 地址、租用期限、VLAN 和端口信息。
该表用于验证后续流量，防止 IP 地址欺骗。

与 IP Source Guard 集成：

DHCP 侦听通常与 IP 源防护配合使用，根据绑定表过滤流量，仅允许分配的 IP 地址从客户端发送数据，阻止未经授权的 IP。

支持 DHCP option 82（可选）：

DHCP 侦听可以插入或处理 DHCP option 82（中继代理信息），为 DHCP 服务器提供有关客户端端口和交换机的详细信息，从而实现更精确的 IP 分配。

DHCP 侦听可以防范哪些常见网络攻击

DHCP 侦听可有效缓解以下网络威胁：

恶意 DHCP 服务器攻击：

工作原理：攻击者设置未经授权的 DHCP 服务器来分发不正确的 IP 地址、网关或 DNS 服务器。
影响：客户端流量被重定向到攻击者的设备，从而实现 MITM 攻击、流量拦截或 DNS 欺骗。
防御：DHCP 侦听会丢弃来自不受信任端口的服务器消息，仅允许受信任的端口发送 DHCP 响应。

DHCP 饥饿攻击：

工作原理：攻击者利用 DHCPDISCOVER 请求淹没网络，耗尽 DHCP 服务器的 IP 地址池。
影响：合法客户端无法获取IP地址，导致网络服务中断。
防御：当与端口安全或每个端口的速率限制 DHCP 请求相结合时，DHCP 侦听可以防止过多的流量压垮服务器。

中间人（MITM）攻击：

工作原理：恶意 DHCP 服务器分配虚假网关或 DNS 服务器，通过攻击者的设备路由客户端流量。
影响：攻击者可以监控、修改或重定向客户端通信。
防御：DHCP 侦听确保仅处理受信任的 DHCP 消息，从而阻止恶意配置。

IP欺骗攻击：

工作原理：客户端手动配置未经授权的 IP 地址来冒充合法主机。
影响：这可能导致 IP 冲突、网络中断，或成为进一步攻击的垫脚石。
防御：通过与 IP Source Guard 和 DHCP 绑定表集成，DHCP Snooping 可以阻止来自未经授权的 IP 地址的流量。

DHCP 侦听的应用场景

公共网络：在咖啡店、酒店或共同工作空间等环境中，恶意用户可能会部署恶意 DHCP 服务器来窃取数据或发起攻击。
企业网络：具有多个部门或 VLAN 的大型网络依靠 DHCP 侦听来确保客户端连接到正确的 DHCP 服务器。
高安全性环境：在需要遵守数据保护法规和其他有保密等级要求的环境中，DHCP 侦听功能有助于防止未经授权的访问。
防范 DHCP 欺骗：它减轻了客户端被重定向到恶意网关的风险，增强了整体网络安全性。

配置示例

传统方式-手动配置

configure Terminal #进入系统配置视图
dhcp snooping enable{v4|v6} #启用DHCP Snooping功能，默认禁用。
interface ethernet interface-id #进入接口视图
dhcp-snooping enable #启用DHCP Snooping功能，默认禁用。
dhcp-snooping trusted #设置端口的信任状态，默认不信任。

sonic# configure terminal
sonic(config)# dhcp snooping enable v4
sonic(config)# interface ethernet 20
sonic(config-if-20)# dhcp-snooping enable
sonic(config-if-20)# dhcp-snooping trusted

云化配置方式 – 图形化配置

星融元的云化园区网络解决方案，通过一个开源、开放架构（基于OpenWiFi）的网络控制器来为有线无线网络设备下发配置，进行开局配置时在交换机上会默认开启DHCP Snooping，有效防止 DHCP Server 仿冒者攻击，使 DHCP 客户端能够通过合法的DHCP 服务器获取 IP 地址，管理员无需关注不同设备的信任接口与非信任接口，而是通过控制器的拓扑信息自动生成。

ACC

根据当前网络的所需的安全等级，管理员可在控制器界面上自行选择是否还需要开启ARP检测(DAI)和IP源攻击防护(IPSG)功能，该功能主要是通过全局的 DHCP Snooping 表项判断主机是否合法，不仅可以防止恶意主机伪造合法主机访问网络，同时还能确保主机不通过自己指定 IP 地址的方式来访问或攻击网络，造成可能的IP 地址冲突。

更多配置流程请参考：完整流程揭秘：30分钟搞定中大型园区网络业务开通，可行吗？

返回资源中心

云化园区

网络操作系统（SONiC）

可视交换机

开放硬件平台

标签： 技术分享

关注星融元

DCBX 产生背景

什么是DCBX

DCBX 协议信息封装

DCBX 的工作流程

本地配置采集

本地配置宣告

本地配置更新

配置变化监测

典型场景应用示例

交换机与服务器

交换机和交换机

关注星融元

不同负载均衡技术对比

逐流负载均衡

逐包负载均衡

基于子流（Flowlet）的负载均衡

术语解释

流分割：从 Flow 到 Flowlet

动态选路机制和测量指标？

端口带宽

端口利用率

转发时延

何时进行路径主动分配？

典型应用举例

关注星融元

传统集中式存储和分布式存储的对比

分布式存储网络的搭建

网络协议的选择

组网架构

网络硬件选型

RoCE 无损网络的配置和管理

一般手动方式

基于网络自动化工具

存储性能测试的关键指标和软件工具

关键测试指标

性能测试步骤和工具

测试参数说明

最佳实践

需求背景

方案介绍

近期文章

路径综合质量评估

路径的动态WCMP调度

路径恢复与重新引入

最新动态

关注星融元

什么是哈希极化？

主动路径规划配置逻辑

借助 EasyRoCE 工具配置

PPD 2.0 升级了什么？

使用演示

第一步：导入基础网络信息

第二步：运行PPD工具生成路由配置

第三步：选择下发配置

近期文章

相关概念

什么是Hash极化

为什么会出现Hash极化？

Hash极化的影响

如何缓解Hash极化

最新动态

关注星融元

关于SONiC

SONiC的发展前景

SONiC 架构是否可靠？

Azure 数据中心交换机的 Kaplan-Meirer 生存曲线

SONiC 的生态现状

SONiC 的商用场景扩展：心远，路自宽

AsterNOS 与SONiC社区版主要能力对比-表1

AsterNOS 与SONiC社区版主要能力对比-表2

数据中心（AsterNOS-DataCenter）

企业园区（AsterNOS-Campus）

最新实践：边缘路由（AsterNOS-VPP*）

AsterNOS 的交付模式

标签：技术分享

虚拟化试用（vAsterNOS）

语义子层（SES）

星融元与 UEC