Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

DHCP:部署方式与典型应用场景详解

近期文章


我们已经简单了解了什么是DHCP Server。为什么网络需要DHCP服务器?

那么DHCP Server在实际生产环境中,部署起来复杂吗?DHCP(动态主机配置协议)的部署复杂度不能一概而论,它主要取决于你的网络规模、具体需求以及你对网络管理的熟悉程度。简单来说,小型网络部署DHCP非常直接,而大型企业网络则会复杂得多。

DHCP Server 不同场景下的部署有何不同?

快速了解不同规模网络部署DHCP的主要特点:

 小型网络/家庭网络中大型企业网络
​部署位置​家用路由器(内置功能)独立服务器(Windows Server / Linux)或高级网络设备
​配置复杂度​​低​(图形化界面,几步点击即可)​中到高​(需命令行或专业配置,涉及多项参数)
​主要考虑因素​地址池范围、租期​地址池精细规划、VLAN划分、中继代理​、高可用​、安全策略​
​核心挑战​基本无挑战​避免IP冲突、防止单点故障​、应对安全攻击​、跨网段分配​

DHCP的配置方式

DHCP(动态主机配置协议)的全局模式和接口模式是网络设备中常见的两种配置方式,它们在功能、适用场景和配置方法上存在差异。以下是两者的主要区别和特点:

全局模式(Global Mode)

在设备(如路由器或三层交换机)上创建全局地址池,通过该地址池为同一子网或多个子网的客户端分配IP地址。

  • 集中化管理:地址池在设备全局层面配置,可统一管理多个子网的IP分配策略,适用于需要跨子网分配IP的场景。
  • 灵活配置:可自定义地址池的网段、网关、DNS、租期等参数,满足复杂网络需求。
  • 跨子网支持:结合接口配置,可为不同子网的客户端分配IP,但需确保接口与地址池的关联配置正确。
  • 适用场景:企业网络中,多个部门(VLAN)需要不同网段的IP地址分配。需要集中管理IP地址资源,统一配置DNS、网关等参数的场景。

接口模式(Interface Mode)

直接在接口(如物理接口或VLAN接口)下启用DHCP服务,基于接口所在子网自动生成地址池,为连接到该接口的客户端分配IP地址。

  • 简单快捷:无需单独配置地址池,接口的IP地址和子网掩码自动作为地址池的网段和网关。
  • 适用于单子网:通常用于单一子网场景,配置简单,适合快速启用DHCP服务。
  • 参数有限:部分参数(如DNS、租期)需在接口下单独配置,灵活性相对较低。
  • 适用场景:家庭网络或小型办公网络,仅需为单个子网的设备分配IP。需快速配置DHCP服务,且对参数配置要求不高的场景。

下面是一个快速对比,帮助你了解主要的配置方式及其典型应用场景。

配置方式核心特点典型步骤主要适用场景
​基于接口的地址池​配置简单,地址池与接口IP在同一网段,适用于小型扁平网络在接口视图下直接配置DHCP参数(如IP地址、DNS、租期)小型网络、家庭办公网络、华为/锐捷设备常用
​基于全局的地址池​功能丰富,支持跨网段地址分配,需先创建全局地址池再到接口调用创建地址池 → 配置网络范围、网关、DNS、租期等 → 在接口上启用并调用全局地址池中大型企业网络、需要精细化管理IP地址的场景
​DHCP中继(Relay)​​允许DHCP客户端通过中继代理从不同子网的DHCP服务器获取IP地址,解决DHCP广播跨网段问题在接口视图下启用DHCP中继功能并指定远程DHCP服务器地址跨网段或VLAN的环境、大型企业网络部署

DHCP Server 自动化部署

随着企业网络规模的持续扩张、云化和物联网设备的激增,其局限性也日益凸显。网络管理员不得不频繁地登录每一台设备,进行大量重复且易出错的手工配置。尤其是在需要跨多个网段或VLAN部署DHCP中继、实现高可用性(如DHCP Failover)或实施精细化的安全策略时,传统方式不仅耗时费力,更难以保证配置的一致性和快速响应业务变更的需求。

为了克服这些挑战,网络管理向着智能化、自动化的方向演进成为了必然。DHCP的自动化部署通过集中化和自动化的方式分配IP地址及其他网络参数(如子网掩码、默认网关和DNS服务器),极大地提升了网络配置的效率和准确性。

这种自动化不仅显著减少了手动配置的工作量和潜在错误,还降低了企业的运营成本与管理复杂度。同时,DHCP支持灵活的地址管理(包括动态分配和静态保留)以及租期机制,能有效避免IP地址冲突,提高地址利用率,并简化网络扩展与设备变更的流程。此外,通过网络管理工具,DHCP实现了对IP地址分配的集中监控与维护,进一步增强了网络的稳定性和安全性。

CX-M园区交换机作为企业网络接入层和汇聚层的核心设备,通过控制器实现DHCP服务的自动化部署,是构建智能、可视、易运维的现代化园区网络的核心环节,它将网络管理员从繁琐的重复性劳动中解放出来,更专注于业务规划和策略优化。

DHCP Server 自动化部署详解,敬请期待……

返回资源中心

最新动态

为什么网络需要DHCP服务器?

近期文章


什么是DHCP?
DHCP是一种网络协议,全称为动态主机配置协议(Dynamic Host Configuration Protocol)。
它被用于在计算机网络中自动分配IP地址和其他网络配置信息给客户端设备。DHCP的主要目标是简化网络管理员对于IP地址管理的工作,并提供一种自动化的方式来配置网络设备。

什么是 DHCP 服务器?

DHCP服务器(Dynamic Host Configuration Protocol Server)是一种网络服务或设备,主要任务是自动分配和管理IP地址。当设备(称为DHCP客户端)接入网络时,DHCP服务器会从其预配置的IP地址池(Address Pool)中选择一个可用的IP地址“租借”给该设备,同时提供子网掩码、默认网关、DNS服务器等必要的网络配置信息。这种方式避免了手动为每台设备配置IP地址的繁琐,也减少了因手动配置可能导致的IP地址冲突。

DHCP服务器通过“租约”机制管理IP地址,即分配的IP地址有使用期限。租期到期后,客户端需要续租,否则地址会被服务器回收并重新分配,这有效提高了IP地址的利用率。

DHCP的工作流程

DHCP服务器分配IP地址的过程通常遵循一个经典的“四步握手”协议,如下图所示:

DHCP

1. DHCP发现(Discover)​​:当客户端设备(如电脑)接入网络并设置为自动获取IP时,它不知道DHCP服务器在哪里,所以会广播一个DHCP Discover消息,询问“网络里有DHCP服务器吗?”

2. DHCP提供(Offer)​​:网络中的DHCP服务器(比如你的路由器)收到这个广播后,会从预先配置好的IP地址池中挑选一个可用的IP地址,然后通过单播​(有时也可能是广播)方式回复一个DHCP Offer消息,告诉客户端“我这里有一个IP地址,你可以用”。如果网络中有多个DHCP服务器,客户端可能会收到多个Offer。

3. DHCP请求(Request)​​:客户端通常会选择它收到的第一个DHCP Offer,然后再次广播一个DHCP Request消息,明确告诉所有DHCP服务器“我选择接受某个服务器提供的地址”
这样做既是为了告知选中的服务器,也是为了告知其他未被选中的服务器,它们可以收回自己提供的预备地址。

4. DHCP确认(Acknowledge – ACK)​​:被选中的DHCP服务器收到Request后,会发送一个单播​(或广播)的DHCP ACK消息进行最终确认,意思是“这个IP地址正式分配给你了,附上完整的网络配置信息”。客户端收到ACK后,就会使用这个IP地址和其他参数来配置自己的网络接口。

DHCP地址分配的方式

HCP服务器分配IP地址主要有以下几种方式

  • 动态分配​:这是最常见的方式。服务器从地址池中分配一个IP地址给客户端,但这个地址是有“租期”的。租期到期前,客户端可以续租;到期后若未续租,服务器会收回该IP地址重新分配。这种方式高效且节省IP资源。
  • 自动分配​:类似于动态分配,但服务器一旦将某个IP地址分配给某个客户端后,就会永久将该地址分配给那台客户端。
  • 静态分配(固定地址)​​:网络管理员可以将特定的IP地址与客户端的MAC地址进行绑定。这样,当这个特定的客户端申请IP时,DHCP服务器就会始终将那个固定的IP地址分配给它。这对于网络打印机、服务器等需要固定IP的设备非常有用。

DHCP服务器的应用场景

DHCP服务器能适应不同规模和需求的网络环境。

形式类型​​特点描述​​典型应用场景​
​集成于网络设备​路由器、交换机等网络设备内置的功能。家庭、小型办公网络
​独立服务器软件​在服务器操作系统上安装并运行的专用软件。中型企业网络、机房
​基于防火墙/系统​一些防火墙系统或开源网络系统内置的DHCP服务。中小型网络
​云服务或企业级方案​提供高可用性、集中管理和高级功能的商业解决方案。大型企业、跨地域网络、数据中心

网络设备的DHCP服务器功能是一项非常实用且常见的网络服务,它能自动为网络中的设备分配 IP 地址等配置信息,大大简化了网络管理。

  • 家用/中小企业路由器​:这是最常见的形式。你家里的无线路由器就内置了DHCP服务器功能,它为连接到此路由器的手机、电脑、智能家居设备等自动分配IP地址。
  • 企业级网络设备​:如三层交换机、防火墙等也通常具备DHCP服务功能,可以为整个企业网的多个VLAN分配IP地址。
  • 服务器操作系统​:Windows Server或Linux系统(如使用ISC DHCP Server或dhcpd)可以安装并运行DHCP服务,将其转变为一台DHCP服务器。

深度融合DHCP,赋能智能园区网络

CX-M系列园区交换机在其搭载的企业级SONiC发行版AsterNOS中,集成了完备的DHCP功能(如DHCP Server、DHCP Snooping)和相关的安全与自动化特性,为核心园区网络提供了高效的IP地址管理、终端安全保障及极简运维体验。

DHCP服务与地址分配​:CX-M支持DHCP服务,能自动为园区终端分配IP地址。其DHCP Snooping功能可有效抵御仿冒DHCP服务器攻击,增强网络安全。

安全与运维增强​:通过DHCP Snooping配合其他安全特性(如IP源防护IPSG、动态ARP检测),CX-M为园区网络提供了多重安全防护。

CX-M系列还支持ZTP(零配置部署)​,新设备上电后能通过DHCP方式自动获取配置文件并加载,实现了网络的零配置开局,极大地简化了大规模网络的部署流程,降低了运维工作量。

网络架构优势​:CX-M支持构建全三层组网的园区网络,使得每个接口自成一个广播域,终端间二层隔离。这从根本上消除了二层广播风暴的风险,也为DHCP等服务的稳定运行提供了更简洁、安全的底层环境

CX-M通过深度融合DHCP相关功能与园区网络解决方案,在实现自动化IP管理的同时,显著增强了网络安全性和运维效率。

【参考文献】
https://mp.weixin.qq.com/s?__biz=MzIxMTA2ODE1OQ%3D%3D&chksm=8d07c44dca0e134b331c4a9477fc33652494e4f5fd2d6ded013787faee50294c2120db79b49b&idx=4&mid=2651151026&sn=c6ef9eb944e9f00622d9de85e8fcab90#rd

返回资源中心

最新动态

构建无损网络:DCQCN与FastECN协同下的拥塞控制策略

近期文章


在传统的 TCP 网络中,当网络发生拥塞时,路由器会直接丢弃(Drop)数据包。发送端通过检测到丢包(超时或重复ACK)来推断网络发生了拥塞,从而降低发送速率。这是一种隐式的、通过“丢包”来传递的拥塞信号。
ECN 则是一种“显式”的拥塞通知机制,它的目标是避免丢包、减少延迟。【详情参见 ……

我们知道,ECN的拥塞信号需要一个完整的往返时间才能到达发送端,这个延迟在高速或长距离网络中会成为性能瓶颈。

发送端发送数据 -> 路由器标记 -> 接收端接收 -> 接收端发送ACK -> 发送端处理ACK

什么是FastECN?

FastECN(或常被称为基于AI的ECN,如AI-ECN)是一种用于智算中心高性能无损网络的智能拥塞控制技术。它通过人工智能算法动态调整显式拥塞通知(ECN)的门限,以在实现零丢包的同时,保障网络的低时延和高吞吐量,从而满足AI大模型训练等场景对网络性能的苛刻要求。

FastECN的工作原理

FastECN解决了传统ECN机制中拥塞通知延迟过高的问题,它通过让网络设备(如交换机、路由器)直接向发送端发送拥塞信号,避免了接收端中转的延迟(主要应用于对延迟极其敏感的数据中心等网络环境)。

FastECN 在 ECN 的基础上增加了一种新的反馈机制

PFC/ECN

1、数据包标记(与ECN相同)

发送端发出支持 ECN 的数据包(IP 头中 ECN 字段设置为 10 或 01,即 ECT(0) 或 ECT(1))。当网络设备发生拥塞时,它会将数据包的 ECN 字段标记为 CE (11)。

2、生成并发送拥塞通知包 (CNP – Congestion Notification Packet)

这是 FastECN 的关键创新。检测到拥塞的网络设备(或与其相连的智能网卡)自己会生成一个特殊的控制包,即 CNP。这个 CNP 是一个非常小的数据包(通常只有几十字节),其中CNP包含以下关键信息:

  • 拥塞流的信息:例如,被标记的数据包的 五元组(源/目的 IP、源/目的端口、协议)的一部分,用于标识哪个流经历了拥塞。
  • 拥塞程度信息(可选):例如,该数据包被标记时的队列长度,可以提供更精细的拥塞控制。

3、直接反馈。

网络设备会直接通过网络将这个 CNP 发送回该数据流的源发送端。这个过程是立即的、直接的,不再需要经过接收端。

4、发送端立即反应。

发送端收到 CNP 后,立即执行拥塞控制算法,降低发送速率。因为 CNP 是直接从拥塞点发回的,其延迟远低于通过接收端再返回的 ACK 路径。

FastECN 的核心优势在于它让网络设备直接向发送端发送拥塞通知包(CNP),绕过了接收端中转,避免了至少一个 RTT 的延迟,这使得发送端能够即时地对拥塞做出反应,从而更高效地抑制队列增长、避免丢包,维持高吞吐量与低延迟;同时,CNP 中还可携带诸如队列深度等丰富的拥塞信息,为发送端实施更精细、高效的拥塞控制算法提供了基础。

相较ECN,FastECN都做了哪些升级?

FastECN 的思想(以及类似的技术,如 Intel 的 DCQCN)是现代数据中心RDMA(远程直接数据存取)技术的基石。RDMA 要求极低的延迟和零丢包,传统 ECN 的延迟无法满足要求,而 FastECN 机制正好解决了这个问题。

特性传统 ECNFastECN
反馈路径间接:拥塞点 -> 接收端 -> 发送端直接:拥塞点 -> 发送端
通知机制通过接收端的 ACK 包中的标志位由网络设备生成专用的 CNP 包
延迟至少 1 个 RTT极低,近乎单向延迟
主要目标普通互联网,避免丢包超低延迟网络(如数据中心),实现零丢包和超低延迟

DCQCN 和 FastECN

数据中心网络中,DCQCN和 FastECN都是RDMA网络常用的拥塞控制机制,它们都旨在实现低延迟、高吞吐和无损传输,但设计理念和实现方式有显著差异,可以从运维、行业特性及业务需求等来选择流量控制和拥塞管理方案。

特性维度DCQCN (数据中心量化拥塞通知)FastECN (或AI-ECN等智能ECN)
​核心机制​端到端拥塞控制协议,结合ECN和PFC​通常指利用AI/机器学习动态优化ECN阈值的行为
​工作原理​交换机标记ECN → 接收端发送CNP → 发送端降速嵌入式AI实时分析网络流量(队列长度、吞吐等),智能计算并动态调整ECN阈值
​拥塞反馈路径​较长(交换机→接收端→发送端)更直接(设备本地智能决策或快速响应)
​关键依赖​依赖PFC实现无损,但需谨慎配置避免PFC缺陷(如HOL阻塞)依赖AI模型训练数据的质量和代表性
​配置复杂度​​高,有超过16个可调参数,需端网协同调优​低,旨在自动化调优,减少人工干预
​灵活性​相对静态,参数设定后对流量变化适应性有限​高,能自适应不同流量模式和应用场景
​主要优势​成熟、广泛应用、在RoCEv2网络中经过大量实践检验自适应、智能化、有望降低运维复杂度、提升网络效率
​潜在挑战​参数调优复杂、PFC可能引发全局暂停、对突发流适应性有时不足依赖训练数据、AI模型可靠性需验证、初期部署成本可能较高
星融元的RoCE交换机在流量控制与拥塞管理方面提供了非常全面的功能支持,其核心组件PFC、ECN/FastECN、DCQCN和DCBX协同工作,共同构建了高性能、低延迟的无损以太网环境。

返回资源中心

最新动态

ECN:显式拥塞通知机制原理解析

近期文章


在网络通信中,拥塞是一个常见的问题,尤其是在高负载时期或网络拓扑结构不完善的情况下。传统的拥塞控制方法主要通过丢包来指示网络拥塞,当路由器的缓冲区满时,会丢弃数据包,发送方通过检测丢失的数据包来进行拥塞控制。然而,丢包会导致重传,增加网络负担,降低网络性能。

ECN(Explicit Congestion Notification)是一种改进后的拥塞控制方法,它不依赖于丢包来指示拥塞,而是在数据包的头部标记拥塞发生的信号。ECN通过向数据包的 IP 头部添加一个特殊的标记位告知发送方网络发生了拥塞。

ECN的工作原理

ECN 的工作原理可以分为三个主要阶段:标记、回传、响应。

  • 标记(第一阶段):当路由器的缓冲区开始出现拥塞时,它会检查传入的数据包。如果缓冲区超过了某个阈值,路由器会修改数据包的 IP 头部,在其中设置 ECN 位,表示网络出现了拥塞。
  • 回传(第二阶段):标记了 ECN 位的数据包继续在网络中传输,它们不会被丢弃。这使得接收方能够收到所有数据包,无需等待重传。
  • 响应(第三阶段):接收方收到带有 ECN 标记的数据包后,会向发送方发送一条特殊的通知(CNP),告知发送方网络发生了拥塞。发送方收到通知后,会根据接收方的指示适当调整发送速率,以降低网络拥塞的程度。

通过这种方式,ECN 可以更及时地指示网络拥塞,并且避免了丢包带来的额外开销,从而提高了网络的性能和效率。

ECN在网络层的实现

ECN在IP头部中需要2个比特位来承载信息,它在IPv4位于IP头部TOS字段中,示意图如下:

IP

(Differentiated Services Field (区分服务领域):DS Field的两个部分DSCP和CU组合成一个可扩展性相对较强的方法以此来保证IP的服务质量。)

ECN在 IPv4 和 IPv6 头部中的位置和功能是类似的,但由于两者头部结构不同,其具体位置也存在差异。如下表:

特性维度IPv4IPv6
​头部结构​可变长度头部(通常20字节,可带选项)固定40字节基本头部,扩展功能通过扩展头部实现
​ECN字段位置​重新定义的 ​ToS(服务类型)字节的后2位(第7-8位)​Traffic Class(流量类别)字节的后2位(第7-8位)
​ECN字段大小​2比特2比特
​ECN码点含义​00: Non-ECT (不支持ECN)
01: ECT(1) (支持ECN)
10: ECT(0) (支持ECN)
11: CE (经历拥塞)
00: Non-ECT (不支持ECN)
01: ECT(1) (支持ECN)
10: ECT(0) (支持ECN)
11: CE (经历拥塞)
​所属字段​该8位字段前6位为DS(差分服务)字段,后2位为ECN字段​(如图)该8位字段前6位为Traffic Class字段,后2位为ECN字段​

支持ECN的标识

支持ECN的发送端(如服务器)在发出IP数据包时,会将其IP头部的ECN字段设置为 ECT(0)或 ECT(1)。这相当于向网络宣告:“我这个数据包是可以被ECN标记的,如果遇到拥塞,请标记我,不要丢弃我。”

拥塞标记

当支持ECN的网络设备(如路由器、交换机)检测到其缓冲区队列开始出现拥塞(但尚未满到需要丢包的程度)时,它会检查正在通过的数据包的ECN字段。如果该字段是 ECT(0)或 ECT(1),设备就会将其修改成 CE (11)。这个动作是ECN的核心—显式拥塞通知。

信息回传

接收端收到带有 CE 标记的数据包后,会通过其传输层协议(如 TCP ACK 包中的 ECN-Echo 标志位)通知发送端。发送端接到通知后,便会像检测到丢包一样降低发送速率,从而缓解拥塞。

ECN在传输层的实现

TCP

ECN在传输层的实现,是其发挥“端到端”拥塞控制作用的关键一环。在数据传输前,发送方和接收方必须通过三次握手 (Three-Way Handshake) 建立一个稳定的连接。TCP协议负责接收来自网络层(IP)的拥塞信号,并将其反馈给发送方,最终触发发送方的速率调整。

TCP 通过其首部中的两个标志位来实现 ECN 功能。

TCP

这2位有4种可能组合,每种组合被称为码点

 CWRECE码点发送自目标
100Non-ECN set up任意任意
201ECN Echo接收方发送方
310Congestion window reduced发送方接收方
411ECN Setup发送方接收方
  • ECE (ECN-Echo)​:用于接收方向发送方回显拥塞通知。当接收方收到一个被网络设备标记为拥塞体验(CE)的数据包时(接上一节内容),它会在后续返回的 ACK 包中设置 ECE=1,以此通知发送方网络发生了拥塞•
  • CWR (Congestion Window Reduced)​:用于发送方向接收方确认已降低发送速率。当发送方收到一个 ECE=1 的 ACK 包并做出降速响应后,它会在下一个数据包中设置 CWR=1,以此告知接收方:“我已收到拥塞通知并已采取行动”。

UDP

UDP也是网络中传输层的一个核心协议,那么它和TCP的区别又是什么呢?

特性UDP (用户数据报协议)TCP (传输控制协议)
​连接性​​无连接​
发送数据前无需建立连接,直接发送。
​面向连接​
通信前需通过“三次握手”建立可靠连接。
​可靠性​​不可靠​
不保证数据包顺序、不重传丢失或出错包。
​可靠​
通过确认、重传等机制确保数据正确有序送达。
​控制机制​无流量控制、无拥塞控制。有复杂的流量控制和拥塞控制机制(如滑动窗口)。
​数据单元​​面向报文​
应用层交给UDP多长的报文,UDP就发送多长。
​面向字节流​
将数据视为无结构的字节流进行传输。
​速度开销​​传输速度快​
头部开销小(固定8字节),延迟低。
相对较慢
头部开销大(最小20字节),延迟较高。
​适用场景实时应用:音视频通话、直播、在线游戏、DNS查询等。可靠性要求高的应用:文件传输、网页浏览、邮件等。

UDP

UDP 本身是无连接、无状态的协议,不像 TCP 那样有复杂的确认和重传机制。因此,ECN 在 UDP 中的实现方式与 TCP 不同,通常需要应用程序的更多参与或依赖配套的反馈协议。

发送方(应用程序)需要通过特定的 API(如 IP_ECNsocket 选项)来检测路径是否支持 ECN,并在发出的 UDP 数据包的 IP 头部设置 ECT 码点(ECT(0) 或 ECT(1)),表明该数据包支持 ECN。

当支持 ECN 的网络设备将 UDP 数据包标记为 CE 后,接收方需要检测到这一标记。由于 UDP 没有类似 TCP 的 ACK 机制,接收方需要生成一个专门的 CNP (Congestion Notification Packet, 拥塞通知报文),CNP报文内部会携带引发拥塞的原始数据流的关键信息(源和目标IP地址、传输层端口号、拥塞程度信息、QP(Queue Pair)信息),并将其发送回源发送方。发送方在收到 CNP 后,需要主动降低数据发送速率。

DCQCN

ECN在RDMA中的实现方式

在高性能计算和数据中心环境中,RoCEv2 也广泛使用 ECN。其实现方式与 UDP 类似,因为 RoCEv2 运行在 UDP 之上。

支持 ECN 的交换机在检测到拥塞时,会标记 RoCEv2 数据包的 IP 头 ECN 字段为 CE。接收端网卡生成专门的 CNP(拥塞通知报文)​,其中包含导致拥塞的流量源信息,CNP 被发送回引发拥塞的发送端主机,发送端主机收到 CNP 后,会根据DCQCN(数据中心量化拥塞通知) 等算法调整相应数据流的发送速率。

面对AI算力需求,DCQCN如何优化数据中心网络性能?

智算中心的硬件核心在于为 RoCEv2提供稳定、高性能的无损网络环境。这不仅需要网卡支持,更需要交换机的深度配合。CX-N系列数据中心交换机通过其超低时延、无损网络技术、对大容量缓存的优化、高级遥测功能以及对自动化运维的支持,为DCQCN协议在AI计算、高性能计算等场景中的高效、稳定运行提供了坚实的硬件基础。

参阅文献:
https://developer.aliyun.com/article/1494789
https://blog.csdn.net/yuff100/article/details/134858611

返回资源中心

最新动态

协同防御:利用DCQCN和PFC构建无拥塞、零丢包的数据中心网络

近期文章


DCQCN ( Data Center Quantized Congestion Notification),数据中心量化拥塞通知。它是一种专门为数据中心网络设计的端到端拥塞控制协议。其核心目的是在使用RDMA(RoCEv2) 的网络中,高效地管理网络拥塞,从而保证高吞吐、低延迟和零丢包(或极低丢包)。
简单来说,DCQCN就是RDMA在以太网(RoCE)环境中的“交通警察”,它确保高速数据流不会造成网络堵塞。
本文参阅文献:Congestion Control for Large-Scale RDMA Deployments.pdf

在现代RDMA数据中心网络中,PFC和DCQCN必须同时部署。PFC为RDMA提供了一个安全的、无损的链路层保障,而DCQCN则在更上层智能地管理流量,防止PFC的负面效应出现并优化全局网络效率。它们一快一慢,一局部一全局,共同构成了RoCE网络的拥塞管理基石。

DCQCN的运行条件

DCQCN依赖于PFC(Priority-based Flow Control) 来构建无损链路层,防止因为缓冲区过载导致的丢包。首先,在交换机端口上为承载RoCEv2流量的优先级(例如Priority 3)启用PFC。必须为每个端口预留足够的“空中”缓存(t_flight),以容纳在PFC PAUSE消息生效过程中,对端可能继续发送的数据包。(此值通常与端口速率和链路延迟有关)

数据中心交换机需要支持ECN和RED功能,这是CP(交换机)算法运行的基础。(大多数现代数据中心交换机都支持此功能。)

终端主机必须使用支持RoCEv2DCQCN的智能网卡(如NVIDIA ConnectX系列),并安装相应的驱动程序和管理工具(如dcbtool)。

PFC – 优先级流量控制

工作机制:接收端交换机端口上的某个优先级队列(如RoCE流量队列)的缓冲区即将被填满。接收端会向发送端发送一个 Pause Frame,告诉它“暂停发送”这个特定优先级的流量。发送端收到后,立即停止发送该优先级的流量,直到接收端发送“解除暂停”的信号或等待一段时间后超时恢复。PFC可以实现无损网络,确保在拥塞时也不会丢包。这对于RDMA的可靠性和性能至关重要。

DCQCN – 数据中心量化拥塞通知

工作机制:交换机检测到拥塞,给数据包打上标记。接收端收到标记包后,向发送端发送拥塞通知包。发送端收到通知后,主动降低自己的发送速率,从源头上减少注入网络的数据量。DCQCN主动管理拥塞,通过降低发送速率来缓解网络中的拥塞点,同时保证不同数据流之间的公平性。

DCQCN与PFC的协同配置

在实际的RoCE网络中,PFC和DCQCN是同时启用、协同工作的。它们的交互流程完美呈现了“治标”与“治本”的结合:

瞬时微突发: 当网络中出现短暂的流量突发时,交换机缓冲区可能瞬间被填满。此时,PFC会迅速介入,触发暂停机制,防止了丢包。这是“治标”,解决了瞬时问题。

持续拥塞: 如果拥塞是持续性的(例如多个服务器同时向一个目标发送大量数据),PFC会反复被触发。虽然它防止了丢包,但并没有解决根本问题。拥塞还在持续,缓冲区始终很高,最终导致延迟增加。

DCQCN根除拥塞: 就在PFC工作的同时,交换机也检测到了持续的拥塞(高队列深度)。它开始给数据包打ECN标记。接收端生成CNP,CNP通知发送端降低速,DCQCN机制随后被激活,交换机队列深度开始下降,拥塞根源得到缓解。随着DCQCN发挥作用,网络中的拥塞被消除,交换机缓冲区水位下降。PFC检测到队列低于阈值,便会发送“解除暂停”的信号,链路恢复正常传输。

特性PFCDCQCN
层级数据链路层网络层/传输层
范围逐跳端到端
机制发送暂停帧,强制停止发送发送通知,建议发送端降速
目标治标:实现无损,避免丢包治本:管理拥塞源,消除拥塞
比喻交警在路口临时封路交通中心让所有车辆慢行
协作角色应急刹车,应对瞬时突发巡航控制,进行长期流量调节
DCQN与PFC的协同工作,构成了现代RDMA数据中心网络拥塞管理的黄金标准。它们并非简单的替代关系,而是相辅相成、各司其职的完美搭档:PFC在链路层提供毫秒级的无损保障,果断处置瞬时突发,为高性能应用守住“零丢包”的生命线;而DCQCN在端到端层面实施精细化的速率调控,从源头化解持续拥塞,确保了网络整体的高效与公平。
正是这种“局部快速制动”与“全局智能调速”的深度融合,才共同铸就了高速、稳定、可扩展的新一代数据中心网络的坚实根基,使得RDMA技术得以在以太网上释放其全部潜能。

DCQCN的应用与部署

DCQCN由Mellanox(现NVIDIA的一部分)在其网卡中实现,并广泛应用于微软等大型数据中心,以支持其云存储、分布式缓存等需要高吞吐量和低延迟的服务。由于其重要性和影响力,DCQCN在2025年获得了SIGCOMM“经典之作奖”。

  • AI与大模型训练:在数据并行、流水线并行和张量并行等分布式训练模式中,节点间需要频繁同步海量参数(通常达百GB级别)。DCQCN能有效减少网络拥塞,避免因PFC“刹停”或丢包导致的计算长尾延迟,保障训练任务高效运行。
  • 高性能计算(HPC)​​:用于需要极高网络带宽和极低延迟的科学计算、模拟等场景,DCQCN帮助RDMA实现接近线速的传输。
  • 云存储与分布式系统:如微软的云存储服务,DCQCN保障了后端存储节点间大数据块传输的效率和稳定性,同时极大降低了CPU开销。

要想实现DCQCN,你的数据中心网络需要满足一些特定条件,并理解其三个核心组件(对应下图)的职责:

组件角色与职责硬件要求
​交换机 (CP)​​监控出口队列长度,超过阈值时根据RED算法对数据包进行ECN标记。支持ECN和RED功能的标准数据中心交换机。
​接收端网卡 (NP)​​检测带有ECN标记的数据包,生成CNP拥塞通知包并返回给发送端。支持RoCEv2的智能网卡
​发送端网卡 (RP)​​根据收到的CNP包降低发送速率;在未收到CNP时逐步提升速率。支持RoCEv2的智能网卡

智算中心的硬件核心在于为 RoCEv2提供稳定、高性能的无损网络环境。这不仅需要网卡支持,更需要交换机的深度配合。CX-N系列数据中心交换机通过其超低时延、无损网络技术、对大容量缓存的优化、高级遥测功能以及对自动化运维的支持,为DCQCN协议在AI计算、高性能计算等场景中的高效、稳定运行提供了坚实的硬件基础。

【参考文献】

返回资源中心

最新动态

面对AI算力需求,DCQCN如何优化数据中心网络性能?

近期文章


DCQCN ( Data Center Quantized Congestion Notification),数据中心量化拥塞通知。它是一种专门为数据中心网络设计的端到端拥塞控制协议。其核心目的是在使用RDMA(RoCEv2) 的网络中,高效地管理网络拥塞,从而保证高吞吐、低延迟和零丢包(或极低丢包)。
简单来说,DCQCN就是RDMA在以太网(RoCE)环境中的“交通警察”,它确保高速数据流不会造成网络堵塞。
本文参阅文献:Congestion Control for Large-Scale RDMA Deployments.pdf

为什么需要DCQCN?

现代数据中心应用需要高吞吐量和超低延迟网络,具有低 CPU 开销。标准 TCP/IP 堆栈不能满足这些要求,但RDMA可以。在 IP 路由的数据中心网络上,RDMA 使用 RoCEv2 协议部署,该协议依赖于基于优先级的流量控制 (PFC) 可实现无中断网络。

PFC工作流程

但是,由于队头阻塞和带宽分配不均等问题,PFC 会导致应用程序性能不佳。为了缓解这些问题,DCQCN诞生了。

DCQCN是如何工作的?

DCQCN

DCQCN 是一种基于速率的拥塞控制协议,它模仿了著名的QCN(Quantized Congestion Notification),但做了适应数据中心的修改,更适合RDMA的高性能、低开销特性。

  • 发送方:速率调节的起点(运行RDMA应用的服务器)
  • 交换机:拥塞的检测和通知者(支持ECN的交换机)
  • 接收方:通知的转发者(运行RDMA应用的服务器)

整个过程可以分为以下四个步骤:

步骤 1: 拥塞检测与标记(在交换机发生)

交换机持续监控其出口端口的队列深度。当某个端口的队列长度超过一个预设的阈值(Kmin)时,交换机判断该端口发生了拥塞。对于经过该拥塞端口的数据包,交换机会以一定概率将其IP头中的ECN(显式拥塞通知) 字段标记为“拥塞遭遇”(CE)。这个概率随着队列变长而增加。

步骤 2: 拥塞通知(接收方 -> 发送方)

被标记了ECN的数据包会继续被发送到接收方服务器。接收方的网卡识别到这个ECN标记后,不会像传统TCP一样等待ACK包,而是立即生成并发送一个名为“CNP”(Congestion Notification Packet)的特殊控制包 directly返回给发送方。

CNP包非常小(约64字节),拥有最高优先级,以确保它能最快速度地返回给发送方,几乎无延迟地报告拥塞。

步骤 3: 速率调节(在发送方发生)

发送方收到CNP包后,就知道其发出的数据流在某处造成了网络拥塞。发送方会根据内置的算法立即降低其数据发送速率(Rate)。这个降速过程是多级的:

  • 快速恢复:首先进行一次大幅度的降速(乘以一个小于1的因子,如 0.5),以快速缓解网络压力。
  • 主动减少:之后进入一个阶段,持续地、较小幅度地降低速率。
  • 主动增加:当一段时间内没有收到新的CNP包时,发送方会认为拥塞已经解除,开始缓慢地、逐步地增加发送速率(加法增加),以重新探知可用带宽。

这个“降-增”的循环过程使得DCQCN能够动态、平滑地适应网络状态,既不会过于激进导致带宽浪费,也不会过于保守导致延迟升高。

DCQCN的应用与部署

DCQCN由Mellanox(现NVIDIA的一部分)在其网卡中实现,并广泛应用于微软等大型数据中心,以支持其云存储、分布式缓存等需要高吞吐量和低延迟的服务。由于其重要性和影响力,DCQCN在2025年获得了SIGCOMM“经典之作奖”。

  • AI与大模型训练:在数据并行、流水线并行和张量并行等分布式训练模式中,节点间需要频繁同步海量参数(通常达百GB级别)。DCQCN能有效减少网络拥塞,避免因PFC“刹停”或丢包导致的计算长尾延迟,保障训练任务高效运行。
  • 高性能计算(HPC)​​:用于需要极高网络带宽和极低延迟的科学计算、模拟等场景,DCQCN帮助RDMA实现接近线速的传输。
  • 云存储与分布式系统:如微软的云存储服务,DCQCN保障了后端存储节点间大数据块传输的效率和稳定性,同时极大降低了CPU开销。

要想实现DCQCN,你的数据中心网络需要满足一些特定条件,并理解其三个核心组件(对应上图)的职责:

组件角色与职责硬件要求
​交换机 (CP)​​监控出口队列长度,超过阈值时根据RED算法对数据包进行ECN标记。支持ECN和RED功能的标准数据中心交换机。
​接收端网卡 (NP)​​检测带有ECN标记的数据包,生成CNP拥塞通知包并返回给发送端。支持RoCEv2的智能网卡
​发送端网卡 (RP)​​根据收到的CNP包降低发送速率;在未收到CNP时逐步提升速率。支持RoCEv2的智能网卡

智算中心的硬件核心在于为 RoCEv2提供稳定、高性能的无损网络环境。这不仅需要网卡支持,更需要交换机的深度配合。CX-N系列数据中心交换机通过其超低时延、无损网络技术、对大容量缓存的优化、高级遥测功能以及对自动化运维的支持,为DCQCN协议在AI计算、高性能计算等场景中的高效、稳定运行提供了坚实的硬件基础。

返回资源中心

最新动态

PTP多实例并发:PTP可配置性突破域冲突的关键技术

近期文章


这一篇来说说PTP的高度可配置性。

PTP之所以需要高度可配置的特性,是为了应对多样化的现实应用场景和网络环境的必然要求。没有一种“一刀切”的配置能在所有网络中同时实现最佳精度、最高稳定性和最低资源消耗。 PTP的可配置性正是为了在这些因素之间取得最佳平衡的方式。

PTP可配置性:适应多样化网络需求的关键

协议标准选择

PTP的可配置性最终体现在各种PTP Profile(标准协议)中。一个Profile是为特定应用领域(如电信、电力、音频视频桥接)定制的PTP参数集合,它规定了该领域必须使用和禁止使用的特性、默认的报文间隔、时钟精度要求等。例如:

配置文件主要应用行业关键要求/特点
SMPTE-2059-2广播电视、专业视频帧精确同步,一步式,E2E,常用于私有网络
1588v2通用工业、测试测量基础PTPv2标准,选项灵活,可作为其他基础
ITU-T G.8275.1电信(5G前传等)超高精度(<±100ns),要求全网设备支持PTP(BC/TC)
ITU-T G.8275.2电信(移动回传等)高精度(~±1μs),允许部分网络不支持PTP
AES67专业音频基于SMPTE-2059-2,实现不同音频协议互操作

PTP可配置性确保了设备在任意单一场景下都能发挥最佳性能。然而,当现代化网络要求将广电、5G、工业互联网等多种业务融合于同一张物理网络时,仅凭灵活的配置已无法解决不同PTP域之间的根本性冲突。

时钟节点类型

  • 普通时钟(OC)​​:单端口同步,支持主/从角色切换
  • 边界时钟(BC)​​:多端口,同时连接上游和下游设备,隔离同步误差
  • 透明时钟(TC)​​:转发报文并修正链路延迟(如E2ETC/P2PTC)
  • 混合类型(如TC+OC):部分端口转发报文,部分端口同步时间

时间同步参数

  • 时钟源选择:支持外部参考源(如GPS、原子钟)、NTP或内部晶振,通过ptp clock source指定。
  • 时间戳模式:单步模式(one-step)​​:Sync报文直接携带时间戳,降低延迟。双步模式(two-step)​​:通过Sync+Follow_Up报文分步传递时间戳,兼容性更广。
  • 非对称延迟校正:使用ptp asymmetry-correction补偿链路单向延迟差异,提升精度。

什么是“域冲突”?

一个PTP域(Domain)就是一个独立的时间同步逻辑网络,它由一个域编号(Domain Number) 来标识(唯一)。不同域的PTP报文是相互隔离和独立的,就像VLAN隔离数据流量一样。传统上,一台PTP设备(如交换机)在同一个端口上只能参与一个PTP域。它只能监听、处理并转发一个域的时间同步报文。想象一下,一台核心交换机同时连接了:

  • 广电:使用 domain=127 (SMPTE-2059-2标准域) 进行视频帧同步。
  • 5G基站:使用 domain=24 (ITU-T G.8275.1标准域) 进行相位同步。

如果这台交换机是传统设备,它只能选择加入其中一个域(比如127),那么对于另一个域(24)的报文它就无法正确处理。这会导致:5G基站无法获得正确的时间同步,业务中断。又或者,交换机错误地处理了另一个域的报文,造成两个域的时间同步全部错乱。

这就是域冲突——不同应用、不同标准的PTP业务在同一网络基础设施上无法共存。

网络设备上的 “虚拟化”时间同步功能 — 并发多实例PTP

并发多实例PTP就是指在一台物理交换机上,同时创建多个独立的、虚拟的PTP引擎。每个引擎像一个“容器”,专门处理一个特定PTP域的所有事务。

工作方式

  1. 实例隔离:每个PTP实例独立运行,拥有独立的最佳主时钟算法(BMCA)、状态机(主时钟/从时钟状态)、端口状态和时间戳处理。实例A(负责domain=127)和实例B(负责domain=24)完全不知道对方的存在,互不干扰。
  2. 硬件辅助:高性能交换机,通常通过专用的DPU或芯片硬件来支持此功能。能够识别接收到的PTP报文属于哪个域(通过报文头中的domainNumber字段),并将其分发到对应的那个PTP实例进行处理。同样,发送时也能由正确的实例生成对应域的PTP报文。
  3. 资源独占:每个实例可以独立配置所有参数,如:PTP配置文件(SMPTE-2059-2 / G.8275.1)、延迟机制(E2E/P2P)、时钟模式(一步/两步)、报文间隔等。

集成PTP模块的高性能开放网络硬件

目前,星融元 CX-M 交换机产品 已经系列化地支持了 PTP ,兼容多种配置文件。

兼容 E2E 和 P2P 模式和多种配置文件

园区交换机

可在设备模拟器体验 PTP 功能特性。

返回资源中心

最新动态

企业级PTP部署必读:E2E与P2P延迟机制的选择指南

近期文章


阅读前文:PTP原理与实践:如何构建高精度时钟同步网络?

为什么要区分E2E和P2P?

PTP的核心目标是让网络中的所有时钟与最精确的时钟(Grandmaster Clock)同步。为了实现纳秒级的同步精度,PTP必须计算并补偿报文在网络中传输所产生的链路延迟(Link Delay)。

E2E和P2P就是两种计算这个链路延迟的不同方法。它们的根本区别在于:延迟计算的范围和由谁来计算。

E2E (End-to-End) 端到端延迟机制

延迟是从主时钟(Master) 到从时钟(Slave) 的整条路径上测量的。它计算的是这两个端点之间的总延迟。在这种机制中,普通时钟(Ordinary Clocks) 和透明时钟(Transparent Clocks) 必须支持E2E模式。E2E机制

工作原理

  1. 路径延迟测量:主时钟和从时钟之间通过 Sync、Follow_Up、Delay_Req、Delay_Resp 报文交互,计算出它们之间的总路径延迟。
  2. 透明时钟的作用:网络中的E2E透明时钟(E2E-TC) 会侦听这些PTP报文。当它们转发报文时,会测量该报文在本设备内部的停留时间(驻留时间),并将这个时间值累加到一个专门的校正字段(correctionField)中。
  3. 从时钟的计算:从时钟最终收到报文时,会从报文的 correctionField 中获取所有经过的透明时钟的驻留时间之和。然后,它使用以下公式计算偏移:Offset = [(t2 – t1) – (总路径延迟)] / 2

(其中 总路径延迟 = 计算出的链路延迟 + 所有透明时钟的驻留时间之和)

P2P (Peer-to-Peer) 点对点延迟机制

延迟是在每一段相邻的链路上,由两个直接相连的P2P设备之间单独测量的。它不是计算端到端的延迟,而是计算“跳”到“跳”的延迟。在这种机制中,边界时钟(BC) 和对等透明时钟(P2P-TC) 必须支持P2P模式。

p2p测量机制

工作原理

  1. 逐段延迟测量:网络中的每一个支持P2P的设备(如P2P-TC或BC的每个端口),都会与它的直接上游邻居和直接下游邻居使用 Pdelay_Req、Pdelay_Resp、Pdelay_Resp_Follow_Up 报文进行交互,持续测量并维护它们之间这一段链路的延迟值。
  2. 传播时间校正:当主时钟发出的 Sync 报文经过一个P2P设备时,该设备会做两件事:
    – a) 像E2E-TC一样,测量并累加报文在本设备的驻留时间到 correctionField。
    – b) 再加上 从本设备到上游邻居设备的那段已经测量好的链路延迟,也累加到 correctionField 中。
  3. 从时钟的计算:从时钟最终收到的报文的 correctionField 中,已经包含了从主时钟到它自己整条路径上所有设备的驻留时间和所有链路的延迟之和。从时钟无需再单独计算路径延迟,可以直接使用这个校正值来精确计算偏移。

对比图

LinuxPTP

在 Linux 中,PTP 协议的实现称为 Linux PTP,它基于 IEEE 1588 标准,软件包有 ptp4l 和 phc2sys。

LinuxPTP

我们基于 ptp4l 和 Linux 网卡做了测试,可以看到:同步精度分布在 1000ns(1μs)以内,并且存在 8000ns(8μs)以上的不稳定跳变。

测试

在没有额外调优工作的前提下,这样的同步精度对于个人爱好者或一般实验环境或许足够,但离企业级商用场景还远远不够。

作为参考,此处列出 ITU(国际电信联盟)提出的时间同步能力分类,

  • A类:时间误差≤50ns,适用于对同步精度要求较低的一般电信网络。
  • B类:时间误差≤20ns,适用于更严格的时间同步场景,如5G基站同步。
  • C类:时间误差≤10ns,主要用于对同步精度要求极高的场景,例如5G前传。

SONiC(AsterNOS) PTP

下图是 AsterNOS 内的 PTP 子系统示意图,包含一个运行 Linux PTP / ptp4l 并与 RedistDB 和底层硬件驱动程序交互的 PTP 容器。此外这套系统还支持多种网络管理协议,例如 RESTful API、RESTconf 和 Netconf,给到更优的系统集成和互操作性。

AsterNOS 内的 PTP 子系统示意图

通过硬件加速和软件算法优化的星融元 PTP 交换机的时间同步精度分布在 20ns 以内,并且不同延迟测量模式获得的偏差结果几乎相同。

不同延迟测量模式

  • one-step:Sync 报文带报文发送时刻的时间戳
  • two-step:Sync 报文不带报文发送时刻的时间戳,只记录本报文发送时的时间,由Follow_Up报文带上该报文发送时刻的时间戳。
星融元 CX-M 交换机产品已经系列化地支持了 PTP ,兼容 E2E 和 P2P 模式。

园区交换机

      返回资源中心

      最新动态

      PTP原理与实践:如何构建高精度时钟同步网络?

      近期文章


      PTP是什么?——局域网内的“原子钟精度传递者”

      PTP,由IEEE 1588标准定义,是一种专门设计用于在分布式系统中通过网络(主要是以太网)同步时钟的协议。其核心目标是提供比NTP更高的时间同步精度。

      如果NTP是让城市里的大钟楼(服务器)为市民的手表(客户端)提供大致准确的报时,那么PTP则更像是在一个精密的实验室或工厂车间里,用一套高度校准的仪器,确保每一个关键设备上的“秒表”都与中央的“原子钟”达到几乎完全一致。

      PTP的关键特征

      • 高精度: 这是PTP最显著的特点。通过优化协议设计和依赖硬件时间戳等技术,PTP能够实现亚微秒级(sub-microsecond)甚至纳秒级(nanosecond)的同步精度。
      • 局域网优化: PTP主要针对局域网环境设计,充分考虑了局域网的拓扑结构和传输特性。
      • 硬件辅助: 为了达到极致精度,PTP强烈推荐(在很多高精度场景下是必须)使用硬件时间戳,即在物理层(PHY)或MAC层捕获PTP消息的发送和接收时刻。
      • 最佳主时钟算法(BMCA): 自动选举网络中的最佳时间源。容错能力强(如果当前主时钟故障,BMCA会自动重新选举出新的最佳主时钟,确保同步不中断)
      • 多种消息类型: 通过精确定义的消息交换来实现时间同步和延迟测量。

      PTP网络中的“交通协管员”——透明时钟 (TC) 与边界时钟 (BC)

      在复杂的网络中,PTP消息可能会经过多个交换机。这些交换机如果不能正确处理PTP消息,就会引入额外的延迟,降低同步精度。为此,PTP定义了特殊的PTP感知交换机:

      透明时钟 (Transparent Clock, TC):

      • 作用: PTP消息穿过TC时,TC会精确测量消息在其内部的驻留时间 (对于E2E TC) 或其出端口到下一跳的链路延迟 (对于P2P TC)。
      • 补偿方式: TC会将这个测量到的延迟值累加到PTP消息的correctionField字段中。
      • 效果: 从时钟在计算时,可以将correctionField中的值从总延迟中减去,从而消除了TC引入的延迟对同步精度的影响,使TC对于PTP同步而言如同“透明”。

      边界时钟 (Boundary Clock, BC):

      • 作用: BC通常用在网络的边界或连接不同PTP域(或需要隔离的网段)。它的一端作为从时钟同步到上游的主时钟(或另一个BC),另一端则作为主时钟为下游的设备提供时间同步。
      • 效果: BC有效地将一个大的PTP网络划分成多个更小的、独立的同步段,有助于提高整个网络的稳定性和可管理性。它会终结上游的PTP消息,并重新生成新的PTP消息向下游广播。

      PTP如何工作?——精密的“四次握手”与硬件赋能

      PTP实现高精度的核心在于其精密的测量机制和对网络延迟的细致处理。我们以常见的端到端 (End-to-End, E2E) 延迟请求-响应机制为例,来剖析PTP的“对表”艺术:

      ptp工作流程

      1、最佳主时钟算法 – BMCA

      网络中所有PTP设备(时钟)通过交换Announce Message (通告消息),运行BMCA。

      比较的依据包括用户配置的优先级 (Priority1, Priority2) 和时钟自身的质量参数 (ClockClass, ClockAccuracy, OffsetScaledLogVariance),最后以唯一的时钟身份 (ClockIdentity,通常基于MAC地址) 作为决胜局。

      专业数据: Priority1/2是0-255的整数,越小越优先。ClockClass指示时钟的可追溯性,如6代表同步到GPS,248代表未同步。ClockAccuracy和OffsetScaledLogVariance则更细致地描述了时钟的精度和稳定性。

      最终,网络中所有设备会一致地选举出一个最佳主时钟 (Grandmaster Clock, GM)。

      2、主时钟“发令” (Sync & Follow_Up)

      GM开始周期性地向网络中的从时钟(Slave Clocks)发送Sync Message (同步消息)。

      关键点: Sync消息中(或紧随其后的Follow_Up Message中)携带了GM发送该Sync消息的精确发送时间戳 t1。

      硬件时间戳的应用: 为了获得精确的t1,这个时间戳必须在数据包即将离开GM网卡的物理层时由硬件捕获。(软件捕获会引入操作系统调度等不确定延迟。)

      单步 vs. 两步:

      • 单步时钟 (One-Step Clock): 硬件能力强,t1 直接在Sync消息中。
      • 两步时钟 (Two-Step Clock): 先发Sync(可能含近似时间),再发Follow_Up携带精确t1。

      从时钟“接收并记录”:从时钟接收到Sync消息,同样在硬件层面记录下精确的接收时间戳 t2。

      3、从时钟“请求测量距离” (Delay_Req)

      从时钟向GM发送一个Delay_Req Message (延迟请求消息),并硬件记录其精确的发送时间戳 t3。

      4、主时钟“回应距离测量” (Delay_Resp)

      GM接收到Delay_Req消息,硬件记录其精确的接收时间戳 t4。GM将t4封装在Delay_Resp Message (延迟响应消息)中回复给从时钟。

      5、从时钟“计算并校准”

      从时钟集齐了t1, t2, t3, t4四个关键时间戳。

      核心假设:路径延迟对称 (Master到Slave的延迟 ≈ Slave到Master的延迟)。

      6、计算平均单向路径延迟 (Mean Path Delay)

      MeanPathDelay = [(t2 – t1) + (t4 – t3) – correctionField_sum] / 2
      (这里的 correctionField_sum 是Sync/Follow_Up和Delay_Resp消息中correctionField字段的累加值,用于补偿路径上透明时钟引入的延迟)

      7、计算时间偏差 (Offset From Master, OFM)

      OFM = (t2 – t1) – MeanPathDelay – correctionField_Sync

      集成PTP模块的高性能开放网络硬件

      精度范围:从亚微秒到纳秒级

      • 软件部署(普通服务器+普通交换机):微秒级(μs) 到 数百微秒
        (这是最基础的部署方式,精度受操作系统调度、协议栈处理、网络拥堵等不确定因素影响很大。)
      • 硬件时间戳(支持PTP的网卡+普通交换机):百纳秒级(100+ ns) 到 微秒级(μs)
        (通过在网络接口硬件上打时间戳,消除了操作系统的大部分抖动,精度显著提升。)
      • 全PTP网络(硬件时间戳+边界时钟/透明时钟交换机):几十纳秒(ns) 到 百纳秒级
        (这是实现高精度的标准方式。网络中的交换机作为边界时钟(BC) 或透明时钟(TC),可以终止或补偿网络抖动,将误差累积降到最低。)
      • 没有硬件时间戳,PTP的精度会大幅下降到NTP的水平。
      • 在无拥塞、无干扰的专用网络中,使用最先进的硬件,可以达到的极限精度。

      SONiC(AsterNOS) PTP

      下图是企业级 SONiC 发行版AsterNOS内的 PTP 子系统示意图,包含一个运行 Linux PTP / ptp4l 并与 RedistDB 和底层硬件驱动程序交互的 PTP 容器。此外这套系统还支持多种网络管理协议,例如 RESTful API、RESTconf 和 Netconf,给到更优的系统集成和互操作性。

      AsterNOS 内的 PTP 子系统示意图

      通过硬件加速和软件算法优化的星融元 PTP 交换机的时间同步精度分布在 20ns 以内,并且不同延迟测量模式获得的偏差结果几乎相同。

      不同延迟测量模式

      星融元 CX-M 交换机产品已经系列化地支持了 PTP ,兼容 E2E 和 P2P 模式和多种配置文件。

      园区交换机

      可在GNS3设备模拟器体验 PTP 功能特性。

      资料参考:https://blog.csdn.net/shmexon/article/details/148761212

      返回资源中心

      最新动态

      多租户网络运维破局:自动化配置实战

      近期文章


      什么是多租户网络?

      多租户网络(Multi-Tenant Network)是一种在云计算环境中实现网络资源虚拟化的关键技术,其核心目标是通过共享底层物理网络基础设施,为多个独立租户(用户、企业或部门)提供逻辑隔离的专属网络环境,同时还要满足动态性、安全性和服务质量需求。

      在传统软件项目中,服务商为客户专门开发一套特定的软件系统并部署在独立的环境中。此时不同客户间资源是绝对隔离的,不存在多租户共享问题。而在SaaS(Software as a Service,软件即服务) 模式下,软件服务不再部署到客户的物理机环境而是部署到服务商提供的云端环境。在云端环境下一些资源共享成为了可能,这使不同客户可以共用一部分资源以达到高效利用资源的目的。

      以公有云为例,云服务提供商所设计的应用系统会容纳数个以上的租户在同一个环境下使用。比如亚马逊公司就在其数据中心为上千个企业用户提供虚拟服务器,其中包括像Twitter以及华盛顿邮报等知名企业。同时可以按需启用或回收资源(如为华盛顿邮报每日定时(某个时段)分配200台服务器);

      那么问题来了,在提升资源利用率和降低成本的同时,多租户也面临数据隔离、性能干扰、安全风险和运维复杂度等各种挑战。现行的物理网络必须实现网络资源虚拟化,共享物理网络拓扑,并为多租户提供隔离的策略驱动的适应动态、快速部署的虚拟网络。

      seo图

      多租户网络的实现

      拓扑

      Underlay 底层网络

      Underlay 网络指的是物理网络设施,由交换机、光缆等网络硬件构成,负责底层数据的物理传输,运行高效的路由协议(如 BGP)实现互联,通常采用 Spine-Leaf 架构组网,负责提供提供稳定带宽、低延迟和高可靠性,这是多租户网络的基础。

      Overlay 虚拟化网络技术

      底层共享,逻辑独立:VPC(Virtual Private Cloud,虚拟私有云)基于Overlay技术(如VXLAN、GRE、Geneve)在共享的物理网络基础设施上构建租户专属的虚拟网络层。每个租户的流量通过隧道封装(如24位VXLAN标识VNI)隔离,即使物理网络相同,不同VPC的流量在逻辑上完全不可见。

      通过BGP EVPN为不同租户构建独立的虚拟网络,支持灵活的业务扩展。

      BGP EVPN(Border Gateway Protocol Ethernet Virtual Private Network)是一种结合了 BGP 协议 和 EVPN 技术 的标准化解决方案,主要用于构建大规模、高性能的 二层(L2)和三层(L3)虚拟化网络,广泛应用于数据中心、云服务、多租户园区网络等场景。其核心目标是通过控制平面优化,实现高效的 MAC/IP 地址学习、灵活的多租户隔离和网络虚拟化。
      维度传统物理隔离VPC逻辑隔离
      资源粒度整台物理设备独占(如独立交换机)单台设备虚拟切割(共享硬件)
      租户边界VLAN划分(最多4094个)Overlay虚拟网络(理论无限租户)
      隔离机制基于MAC/IP隔离VxLAN/EVPN封装(租户ID标识)
      扩展性扩容需增购硬件软件定义,秒级增减租户
      传统物理隔离 vs VPC逻辑隔离

      在通用云数据中心和智算中心,随着部署规模的增大,这些虚拟网络技术的配置和维护可能变得复杂,如果配置不规范,可能导致租户间冲突影响业务运行甚至严重的数据泄露。

      如何在共享物理资源的前提下,确保每个租户的服务质量(QoS)?答案的核心在于智能化的网络性能监控体系。

      多租户网络的运维挑战

      • 租户差异化需求​:不同租户需定制网络策略(如防火墙规则、VLAN划分),但共享底层资源时配置易冲突。例如,VLAN划分过细增加管理开销,过粗则引发跨租户干扰。
      • 自动化程度低​:依赖人工操作易出错,且缺乏统一标准。某电商平台需通过Intent-Based Networking策略实现故障路径自动切换,依赖API与SDN集成。
      • 扩展性瓶颈​:单一控制器需支持超10万监控对象,且需兼容VXLAN/Geneve等云网络协议,否则难以适应多云环境

      多租户网络配置工具

      想分享一款用于多租户网络的配置工具:EasyRoCE-MVD(Multi-Tenant VPC Deployer )。MVD能帮助用户快速实现租户隔离,参数、存储、业务的多网联动和自动化部署。

      EasyRoCE Toolkit 是星融元依托开源、开放的网络架构与技术,为AI 智算、超算等场景的RoCE网络提供的一系列实用特性和小工具,如一键配置RoCE,高精度流量监控等… 详情访问:https://asterfusion.com/easyroce/

      • 根据配置脚本自动批量部署,支持图形化界面呈现配置细节并远程下发
      • MVD工具可独立运行在服务器上,也可以代码形式被集成到第三方管理软件

      网络设计规划

      首先是必不可少的网络规划,这一步需由工程师基于实际业务需求设计逻辑隔离,一般是采用 VLAN、VXLAN 技术划分虚拟网络,规划 IP 地址池及子网,避免地址冲突。VLAN 适合较小规模,而 VXLAN 扩展性更好,适合大规模部署。

      作为示例,我们在EasyRoCE-AID(AI基础设施蓝图规划)工具引导下快速完成网络设计,并自动生成包含了以下信息的 JSON 配置文件(mvd.json) 作为 MVD 工具的输入。

      aid

      自动生成配置

      MVD 工具将解析上一步骤得到的JSON文件中的设备信息、BGP邻居信息,并为集群中的交换机生成对应配置。 运行过程示例如下:

      配置过程

      可视化呈现和远程下发

      配置远程下发

      用户点进配置文件可看到配置下的具体信息,对其进行二次核对后再自行决定下一步操作,比如选择批量下发或针对某一设备单独下发。

      mvd

      批量下发配置

      多租户网络技术是云计算技术架构中的重要环节,并形成了一种新型的云计算服务模型:NaaS(网络服务)。位置等同于IaaS,PaaS及其SaaS。未来NaaS将会随着云计算技术的发展,而不断成熟,支撑服务于云计算的其他服务。

      【拓展阅读】

      云服务的形式

      • IaaS(Infrastructure-as-a-Service):基础设施即服务。消费者通过Internet可以从完善的计算机基础设施获得服务。基于 Internet 的服务(如存储和数据库)是 IaaS的一部分。
      • PaaS(Platform-as-a-Service):平台即服务。把服务器平台作为一种服务提供的商业模式。通过网络进行程序提供的服务称之为SaaS(Software as a Service),而云计算时代相应的服务器平台或者开发环境作为服务进行提供就成为了PaaS。PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。
      • SaaS(Software-as-a-Service):软件即服务。它是一种通过Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。

      返回资源中心

      最新动态

      对星融元产品感兴趣?

      立即联系!

      返回顶部

      © 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2