Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

800G光模块选型指南

近期文章


800G实现之路并非一蹴而就,而是建立在400G的坚实技术基础之上,并通过持续的创新来应对新的挑战。本文将从技术驱动、核心突破、部署挑战及未来展望等方面,勾勒出800G实现的技术演进路径。

演进基石:400G为800G铺平道路

800G并非一次革命性的跳跃,而是400G技术的自然演进与扩展。其技术根基深深植根于当前400G的成熟体系。

  • PAM4编码的延续与强化:400G广泛应用的四级脉冲幅度调制(PAM4)技术,通过在每个信号符号中承载2比特信息,将NRZ编码的效能翻倍,是实现单通道50G/100G速率的关键。800G将继续沿用并深化PAM4技术,将单通道速率提升至100G,从而通过8个通道实现8x100G=800G的总速率。对PAM4信号更高效的调制和更精确的信号完整性管理,是演进的核心。
  • 可插拔收发器架构的演进:400G时代成熟的QSFP-DD(双密度)和OSFP(可插拔)等封装形式,为800G提供了物理基础。这些高密度、可插拔的接口标准,通过增加通道数量或提升单通道速率,能够平滑地支持800G光模块的设计,保护了用户在基础设施上的投资。
  • 光纤基础设施的提前布局:800G及未来的1.6T应用将推动对Base-16 MTP连接的需求。这意味着,当前为400G部署的、支持Base-8或Base-12的布线系统,需要为更高速率做好向更高光纤芯数升级的准备。提前规划高性能OM4/OM5多模或OS2单模光纤布线,是通往800G的必经之路。

核心突破:800G实现的技术关键

在400G的基础上,实现800G仍需一系列关键技术的突破。了解800G收发器的核心技术参数,下面这个表格汇总了主流类型的核心规格。

收发器标准接口类型扇出支持光纤类型传输距离光纤芯数连接器
800G-SR8IEEE 802.3ck及相关MSAQSFP-DD800, OSFP支持OM3/OM4/OM5(多模)≤ 100m (OM4/OM5)16 (8Tx + 8Rx)16F/24F MTP
800G-DR8IEEE 802.3ck及相关MSAQSFP-DD800, OSFP支持单模500m8(4Tx+4Rx)12F/16F MTP
800G-2FR4/FR4IEEE 802.3ck及相关MSAQSFP-DD800, OSFP支持单模2km2(1Tx+1Rx)双工LC/单芯的CS
800G-LR4IEEE 802.3ck及相关MSAQSFP-DD800, OSFP支持单模10km2(1Tx+1Rx)双工 LC
800G ZR/ZR+OIF Implementation AgreementsQSFP-DD支持单模80km-120km以上(ZR+Pro)2(1Tx+1Rx)双工 LC

核心技术与标准

800G以太网由 IEEE 802.3ck工作组标准化,其物理层基础建立在 PAM4(4级脉冲幅度调制)技术上。PAM4每个符号周期可传输2个比特,使单通道100Gbps的速率得以实现,从而聚合达到800G的总带宽。

在硬件机械规格和互联互通性方面,则由多个MSA组织制定关键规范。其中,QSFP-DD800外形是当前主流,它在QSFP-DD基础上增强,优化信号完整性和散热,并保持向后兼容性。OSFP外形略大,散热能力更优,为800G及更高速率设计。

对于超长距离传输,OIF制定的 800G ZR标准采用相干光学技术,实现在一对光纤上传输800G信号至80公里以上 。

接口类型与扇出支持

800G光模块的物理接口和连接器选择与传输方案紧密相关。

  • 并行光学接口:如SR8和DR8,采用多根光纤并行传输。SR8使用16芯多模光纤,适用于极短距离;DR8使用8芯单模光纤,传输距离可达500米。它们通常使用MPO多芯连接器。
  • 波分复用接口:如FR4和LR4,采用波分复用技术将多个波长信道复用到一对光纤中传输,极大节省光纤资源。它们使用常见的双工LC连接器,传输距离分别为2公里和10公里 。
  • 扇出功能:这是800G收发器提升网络灵活性的关键特性。它允许将一个高速端口拆分为多个低速端口使用,实现网络资源的按需分配和平滑升级 。

如何选择适合的800G光模块?

1、数据中心内部(短距)

  • 机柜内或相邻机柜(≤100米):优先考虑800G SR8(多模)或超低功耗的800G LPO AOC(多模)。若布线受限,也可使用800G AOC有源光缆。
  • 机房内不同模块间(500米):800G DR8 或 800G DR4 是经济高效的选择。

2、数据中心园区互联(中长距)

  • 2公里距离:800G FR4(双纤双向)或 800G DR8+ 都能满足要求。
  • 10公里距离:可以选择 800G DR8++ 模块。

3、数据中心互连/DCI(长距):对于40公里甚至80公里的超长距离互联,则需要采用800G相干光模块技术。

未来展望:超越800G,迈向1.6T

800G只是一个驿站。技术演进的下一个目标是1.6T(1600G)。其实现路径可能有两种

  1. 通道数量翻倍:在800G的8通道基础上,通过16个100G通道实现1.6T,但这将需要更复杂的32芯光纤连接,挑战难度可想而知。
  2. 单通道速率再提升:开发下一代200G PAM4 per lane技术,通过8个200G通道实现1.6T。这将是对芯片和材料科学的终极考验。

在800G数据中心时代,RoCE交换机以其卓越的设计,完美呼应了技术演进的核心需求。我们基于QSFP112-DD可插拔的模块架构,为客户提供从400G平滑升级的路径。通过强化PAM4信号完整性管理,确保单通道100G的稳定性能。

返回资源中心

最新动态

为何需要400G?驱动数据中心升级的关键因素

近期文章


400G时代:数据中心高速网络的演进

在当今数字浪潮中,企业数据中心开始在交换机上行链路中采用100G速率,然而行业标准已经为400G应用铺平道路,相关网络设备也已投入市场。尽管对多数企业而言,实现这一高速率仍需一些时间过度,但超大规模云服务提供商已经加速推进,不仅定义了市场方向,推动技术进步,更将在未来几年内将高速应用渗透至企业领域。

事实上,这些行业引领者正将目光投向800G,并致力于发展光通信技术,为未来1.6T乃至3.2T速率铺路。

实现400G驱动因素与趋势

数据中心已成为组织核心运营的基石。全球数字化进程持续推动对更高带宽的需求,以支持日益增长的数据流量。据预测,到2025年,数据中心流量将突破180ZB (注:1 ZB的数据相当于10亿TB或1万亿GB)。为应对这一增长,Frost & Sullivan预计到2025年,数据中心市场的投资将达4320亿美元。

Statista 2021

以下关键因素正推动400G需求上升:

  • 数字化转型与新兴应用:企业数字化进程及新兴应用的普及,推动云数据中心对400G的需求。远程办公、在线交易和视频流媒体等应用显著增加了云服务使用量。2020年第一季度云支出增长25%,而传统IT市场则下降3%。据思科预测,到2021年底,94%的工作负载将在云环境中运行;Gartner则预计,到2025年,公共云服务支出将接近7000亿美元。

Synergy Research Group

  • 新兴应用对数据的需求:传媒行业采用未压缩的高分辨率视频格式(如RedCode Raw),使文件大小急剧增加。智能建筑和工业4.0计划推动物联网设备数量在2025年超过300亿台。虚拟现实、人工智能、机器学习、自动驾驶及高频交易等应用要求极低延迟和高速连接。医疗影像、远程医疗及金融科技进一步增加对带宽的依赖。5G移动技术、边缘计算、虚拟化和软件定义网络(SDN)正重塑数据中心架构,要求高性能连接。

Studio Post,AJA Data Calc, 4K Shooters Fredrik Lonn

数据中心架构演进:从三层到Spine-Leaf

传统三层架构

为适应东西向数据流和低延迟需求,数据中心也从传统的三层架构向Spine-Leaf架构演进。在Spine-Leaf架构中,每一台leaf交换机都连接到每一台spine交换机,减少了数据传输过程中虚拟服务器间的交换机跳数,并显著降低了延迟,同时当服务器A需要与服务器B“通讯”时,还可提供下图所示更好的冗余性。

二层Spine-Leaf架构

进一步地,超级Spine架构通过二级Spine互联多个Spine-Leaf网络,实现模块化扩展,支持数据中心互联(DCI),满足大规模云服务需求。同时,边缘数据中心的兴起为5G和实时应用提供本地数据处理,推动对400G连接的需求,以聚合数据并回传至核心云数据中心。

SuperSpine

技术进展:推动400G实现

多项技术进步为400G提供了技术与经济可行性

  • PAM4编码:比传统NRZ编码比特率翻倍,支持每通道25G、50G和100G速率,为25G至800G的演进提供高效路径。
  • 可插拔收发器:QSFP-DD和OSFP等接口支持8通道50G传输,实现400G应用,并兼容多种多模和单模光纤。
  • 光通信技术:短波分复用(SWDM)等技术可在单芯多模光纤上以多个波长传输数据,减少光纤数量。新型低功耗单模收发器则支持500米传输,适应数据中心短距离需求。
  • 网卡速率也从10G逐步升级至25G、50G乃至100G,支持高度虚拟化、低延迟的环境需求。

400G应用标准与部署方案

IEEE已制定多种400G标准,涵盖多模和单模应用,如下表所示:

收发器标准接口类型核心技术扇出支持光纤类型距离(米)光纤芯数连接器
400G-SR8IEEE 802.3cmQSFP-DD, OSFP50G PAM4/通道支持OM3/OM4(多模)70 (OM3) / 100 (OM4)16 (8Tx+8Rx)16F/24F MTP
400G-SR4(主流)IEEE 802.3dbQSFP-DD, OSFP100G PAM4/通道支持OM4/OM5 (多模) 100(OM4)/150(OM5 )8(4Tx+4Rx)12F/16F MTP
400G-SR4.2(400G-BIDI)IEEE 802.3cm/ MSA QSFP-DD,BiDi/SWDM / MWDM支持OM3/OM4/OM570/100/1502( (1根双向光纤对)双工LC/单芯的CS
400G-DR4IEEE 802.3bsQSFP-DD,OSFP100G PAM4/通道支持OS2(单模)5008(4Tx+4Rx)8F/12F MTP
400G-FR4IEEE 802.3bs/ MSA (CWDM4)QSFP-DD,OSFP100G PAM4/通道不支持OS2(单模)20002(1Tx+1Rx)LC 双工接口
400G QSFP-DD DAC/AOC/QSFP-DD//铜缆/有源光缆≤3m (DAC) / ≤100m (AOC)

在查阅表格时,理解以下几个核心概念能帮你更好地做出选择:

  • 接口命名规则:后缀中的字母代表传输距离(如SR:短距,DR:500米,FR:2公里,LR:10公里),数字代表光通道数量。例如,FR4表示传输距离2公里、有4个光通道。
  • PAM4调制技术:这是实现400G速率的关键。与传统的NRZ(非归零)编码相比,PAM4每个信号周期可以传输2个比特,使有效数据速率翻倍,但也对链路质量要求更高。
  • 扇出(Breakout)功能:这是400G收发器的一个重要特性,允许将一个高速端口拆分为多个低速端口使用。例如,一个400G-SR8端口可以拆分为4个独立的100G链路,这对于网络平滑升级和连接不同速率的设备非常有用。

为优化端口利用率和交换机密度,扇出设计可将400G端口拆分为4个100G或8个50G连接。Base-8 MTP连接系统支持即插即用部署,替代传统的模块盒与跳线方案。

在企业数据中心中,交换机至服务器链路可通过DAC(直连铜缆)、AOC(有源光缆)或结构化布线实现。

成本考量与未来展望

400G部署需根据具体需求权衡,多模方案通常成本较低,但短距离单模方案因大规模应用已显著降价,在某些场景下更具吸引力。

尽管400G已成为现实,但技术演进并未止步。IEEE Beyond 400Gb/s研究组正致力于800G标准,目标包括在8对多模光纤上支持100米传输,在单模光纤上支持500米至2千米传输。1.6T标准也在制定中,超大规模云服务商正通过多源协议(MSA)推动相关技术发展。

每一项新技术都伴随挑战与选择,无论数据中心的规模与类型如何,星融元作为开放网络先行者与推动者,提供从10G到400G及更高速率的全面解决方案与专业服务,助力企业网络实现平滑演进。

本文基于西蒙白皮书《通往400G之路》整理,内容仅供参考。

返回资源中心

最新动态

云网融合:如何为OpenStack设计高性能、可扩展的物理网络

近期文章


简单来说,OpenStack 是一个开源的云计算管理平台项目,它允许你使用一套软件来构建和管理你自己的私有云或公有云。

你可以把它想象成开源的、可以自己掌控的 Amazon Web Services(AWS) 或 Microsoft Azure。它提供了一系列组件来协调和管理数据中心内大量的计算、存储和网络资源,并将所有这些资源以一个云的形式提供给用户。

OpenStack

什么是OpenStack?

想象一下,一个现代化的数据中心就像一个巨大的“硬件仓库”:

  • 计算资源:成千上万的服务器(CPU和内存)
  • 存储资源:硬盘、固态硬盘组成的存储池
  • 网络资源:交换机、路由器构成的复杂网络

OpenStack 就像是这个仓库的 “超级管理员和自动化控制系统”。它不会直接去搬动服务器或插拔网线,而是通过软件来抽象化资源,把这些物理硬件变成可以按需分配的逻辑资源池。用户通过一个网页(控制台)或API就能申请一台虚拟机、一块硬盘或一个网络,而无需知道这台虚拟机具体运行在哪台物理服务器上。高效且智能地将用户请求的资源分配给底层的物理设备。

特点:

  1. 开源开放:代码完全公开,任何人都可以免费使用、修改和分发。这避免了供应商锁定。
  2. 模块化架构:OpenStack 不是单一的巨大软件,而是由许多独立的、但又相互关联的组件(服务)构成的。
  3. 大规模可扩展:设计之初就是为了管理成千上万台服务器,可以轻松地通过增加节点来扩展云的能力。
  4. 灵活性高:支持多种虚拟化技术(如 KVM, VMware, Xen 等)、存储后端和网络技术。

Openstack 项目组件(服务)

OpenStack 项目包含很多组件,其中最核心和常用的有:

组件名称项目代号主要功能
计算服务Nova负责管理和管理虚拟机的整个生命周期(创建、调度、销毁)。它是云的核心“发动机”。
镜像服务Glance存储和管理虚拟机镜像模板(如操作系统模板)。用户创建虚拟机时从此处选择镜像。
对象存储Swift提供海量、可扩展的、冗余的分布式对象存储。用于存储非结构化的数据,如图片、文档、备份等。
块存储服务Cinder为虚拟机提供持久化的块存储设备(类似硬盘)。可以动态地挂载和卸载。
网络服务Neutron管理云环境的网络资源,为虚拟机提供网络连接,如创建私有网络、路由器、防火墙、负载均衡等。
身份认证服务Keystone为所有 OpenStack 服务提供统一的身份验证和授权管理。是所有服务的“守门人”。
控制面板Horizon提供一个基于 Web 的图形化界面,让管理员和用户可以通过点击来管理和使用云资源。

支撑 OpenStack 的物理网络架构

OpenStack 的本质是通过软件将大量物理服务器资源池化。如果把这些服务器比作一个个独立的“城市”,那么物理网络就是连接这些城市的 “高速公路系统”。一个设计拙劣的公路系统会导致交通拥堵、事故频发,同样,一个糟糕的物理网络设计会导致云平台性能瓶颈、服务中断和运维噩梦。

网络流量类型

OpenStack 云最终需要运行在物理硬件上,物理网络的架构设计直接决定了云平台的性能、可靠性、可扩展性和安全性。

  1. 管理网络: 用于 OpenStack 各服务组件内部的通信。要求高可靠性。
  2. 数据网络: 也称为租户网络或业务网络,承载虚拟机之间的数据流量。要求高带宽和低延迟。
  3. 外部网络: 用于虚拟机访问互联网或对外提供服务。通常需要公网 IP。
  4. 存储网络: 专门用于 Cinder 和 Swift 的存储流量,避免 I/O 操作影响其他网络性能。
  5. IPMI 网络:用于服务器的带外管理,进行远程开机、关机和监控。这是一个独立的物理网络,通常与业务网络隔离。

物理网络架构

这里主要展开说传统三层架构及Spine-Leaf 架构

传统三层架构(经典核心-汇聚-接入)

1、拓扑结构:

  • 核心层:网络的高速骨干,专注于快速的数据包转发和连接多个汇聚层。要求极高的可靠性和吞吐量。
  • 汇聚层:承上启下,提供策略实施(如路由、安全、QoS)、VLAN间路由、广播域控制等功能。
  • 接入层:连接服务器和终端设备,提供端口密度,进行基本的VLAN划分和二层交换。

2、与OpenStack的结合

  • 所有计算、存储、网络节点都连接到接入层交换机。
  • 通过在不同层级配置VLAN,来逻辑隔离管理、数据、存储等流量。

3、适用场景:中小型OpenStack私有云、开发和测试环境。

Spine-Leaf架构(CLOS架构)

这是现代大型数据中心和云环境的标配,为东西向流量和高密度计算而设计。

1、拓扑结构

  • Leaf层(叶交换机):作为接入层,每一个 Leaf交换机都连接所有的服务器。
  • Spine层(脊交换机):作为核心层,每一个 Spine交换机都连接到每一个 Leaf交换机。Spine交换机之间不互连。
  • 形成一个全互联的Fabric网络。

2、与OpenStack的结合

  • 计算、存储节点连接到Leaf交换机。
  • 网络节点的外部网络接口可能连接到边界Leaf或专门的服务Leaf。
  • 物理网络(Underlay)采用简单的IP路由(如OSPF、BGP),为Overlay网络(如VXLAN)提供无阻塞的IP承载网。

3、适用场景:中大型到超大规模OpenStack云环境,对东西向流量性能要求高的场景(如NFV、大数据分析)。

构建高性能、灵活可扩展的云数据中心网络

云数据中心网络

基于开放SONiC的AsterNOS与第三方云网控制器深度融合,通过VXLAN、BGP-EVPN、MC-LAG等技术与盒式设备,构建高可靠、扁平化的云数据中心网络,在实现自动化配置、图形化运维和灵活扩展的同时,显著降低TCO,助力用户无缝对标一线云架构。

返回资源中心

最新动态

为什么说硬件BFD是现代高性能网络的必备能力?

近期文章


在前文中,我们深入探讨了BFD(双向转发检测)的工作原理。它通过在网络设备间建立会话、周期性地发送毫秒级检测报文,为OSPF、VRRP等上层协议提供了前所未有的快速故障检测能力。

然而,一个关键问题随之而来:当网络规模急剧扩张、链路数量激增时,数以千计的BFD会话所带来的CPU中断和处理负载,是否会变为新的“性能瓶颈”?

这是 BFD Acceleration(BFD加速) 要解决的核心问题,核心思路是让BFD报文的收发和状态维护不再完全依赖设备的中央处理器(CPU)。目标在于:在维持毫秒级检测精度的同时,极大地降低CPU占用率,并支持大规模BFD会话的稳定运行。

BFD Acceleration主要通过以下几种关键技术路径实现,并由此带来了显著的性能提升。

BFD加速的技术实现方式

硬件卸载

这是最高效的BFD加速方式,也称硬件BFD。通常在高性能交换机和路由器中实现。实现原理:

  • BFD会话配置下发:控制面初始化BFD会话配置,并通过SDK将参数(检测间隔、传输间隔、接收间隔、远端IP等)下发至转发芯片。
  • 报文处理​:芯片硬件直接识别BFD协议报文(通常为UDP封装),并直接从数据面发出。CPU不再参与每个报文的处理。收到对端发来的BFD报文后,由本地芯片直接处理,并进行会话状态判断 (Up, Down, Init等),更新本地BFD会话状态。
  • 检测结果回报控制面​:一旦链路异常或报文超时未收到,转发芯片会将BFD状态变更信息上报给控制面(如出发路由切换)。
|CPU的角色转变为“管理者”。它只负责初始配置,将会话参下发到硬件表项中。之后,只有在会话状态发生改变时(如从Up变为Down),硬件才会通过中断方式通知CPU。

内核旁路

这种方式常见于基于通用服务器(x86)的NFV(网络功能虚拟化)环境,使用如DPDK(Data Plane Development Kit)​ 或FD.io VPP 等技术。实现原理​:

  • 初始化与环境设置:在用户空间直接轮询网卡,绕过操作系统内核复杂的协议栈和中断处理机制。
  • 数据包接收:使用专用的高性能用户态轮询驱动,直接从网卡收发报文,避免了内核上下文切换和内存拷贝的开销。
  • 虽然BFD状态机仍在CPU上运行,但由于报文处理效率极高,单个CPU核心可以支撑的数万级会话,且延迟和抖动远低于内核处理。
|类比理解​:这就像在邮局(操作系统)旁边开了一个专门的“加急包裹处理中心”(DPDK程序)。包裹不再进入拥挤的常规分拣系统(内核协议栈),而是在专用通道被快速处理,效率大大提升。

硬件BFD的优势

当前,CX-N数据中心交换机的硬件BFD特性已支持与BGP、QSPF、ISIS、VRRP协议联动,相较于软件BFD,硬件BFD有如下优势:

对比维度软件BFD硬件BFD
检测间隔通常>=100ms(太低易误报)可支持3ms-50ms,满足低时延网络需求
抖动容忍度易受系统调度、CPU负载波动影响受控制面负载影响极小,检测更加稳定
会话数量上限受限于CPU和线程管理能力,规模较小由硬件表项决定,可支持上千个会话大规模部署
CPU占用率占用主控CPU资源,密集检测会显著增加负载由硬件offload,主控几乎零负载
误报风险高,系统繁忙时易误判会话down低,判断由硬件完成,时延抖动影响小
调试与可控性可通过软件灵活调试和打印调试信息调试接口依赖芯片SDK或驱动,调试复杂
部署适用性适合中小规模网络,或对检测间隔不敏感的场景适合大规模、低时延要求场景,如骨干、IDC、金融网络

在大型数据中心、5G核心网、运营商骨干网中为每一条路由或每一个服务部署BFD成为可能,实现真正的全网级快速故障检测。

硬件BFD已从一项高级功能演变为现代高性能网络设备的必备能力。它解决了BFD技术在大规模应用中的核心矛盾,是连接BFD“快速检测理念”与“现网规模化部署”之间的关键桥梁。选择具备强大BFD加速能力的网络设备,是构建面向未来、既智能又坚韧的高可靠网络基础设施的基石。

返回资源中心

最新动态

BFD 故障检测机制详解

近期文章


BFD 是什么?

BFD (Bidirectional Forwarding Detection)的是双向转发检测。是一种用于检测两个转发引擎之间路径故障的标准化全网统一检测机制。该机制能够为上层应用提供毫秒级检测服务,并实现链路的快速故障检测。通过BFD检测到链路故障后,上层协议可以采取措施及时纠正故障。

BFD 要解决什么问题?

随着网络应用日益广泛,对网络的可靠性要求越来越高。为减少设备故障对业务的影响,要尽可能缩短故障检测时间,从而触发保护倒换,确保业务快速恢复。现有路由协议(如OSPF、IS-IS)或冗余网关协议(如VRRP)的故障检测时间通常在秒级,难以满足关键业务的高可靠性要求。BFD能提供毫秒级故障检测,并与其他协议联动,实现业务的快速切换。

BFD的工作原理

BFD通过建立会话,在系统之间周期性地发送BFD数据包。若某一方在指定时间内未收到对端响应,即判定会话状态为”Down”(即检测到路径故障)。 本节从三个维度描述BFD的工作原理:BFD会话建立过程、BFD会话建立模式和BFD故障检测机制。

BFD会话建立过程

BFD会话具有以下状态:Down(关闭)、Init(初始化)、Up(已建立)和AdminDown(管理性关闭)。BFD报文中的State字段指示会话状态。系统根据本地会话状态和接收到的对端会话状态来更改会话状态。

  • Down:初始状态或链路故障状态。
  • Init:初始化状态,表示BFD会话正在建立。
  • Up:正常状态,表示链路正常。
  • AdminDown(管理性关闭):BFD会话被管理性关闭。

BFD状态机实现了用于BFD会话建立或删除的三次握手,以确保两个系统检测到状态变化。下图显示了BFD会话的建立过程,以描述状态机的转换过程。

BFD

会话建立过程

BFD会话建立模式

“BFD会话建立模式”指的是在两个设备之间创建和初始化一个BFD会话所采用的具体方法。它主要定义了关键的会话参数(尤其是标识符)是如何被确定和交换的。BFD会话可以通过静态或动态模式建立。静态和动态BFD会话的区别在于本地和远程鉴别符的配置方式不同。

  • 静态建立BFD会话参数,包括本地和远程鉴别符,在CLI上手动指定。BFD会话建立请求手动分发。
  • 动态建立当动态建立BFD会话时,系统按以下方式处理本地和远程鉴别。

动态分配的本地鉴别符:当上层协议(如OSPF)发现邻居并需要BFD进行检测时,它会通知BFD模块,BFD模块自动生成一个本地标识符。

自学习的远程鉴别符:通过自我学习获得。初始建立时,设备发送的BFD报文中“远程标识符”字段为0,表示“请告诉我你的本地标识符”。对端设备收到后,会回复包含自己本地标识符的报文。这样,双方就学习到了对方的标识符。

BFD故障检测机制

两个网络设备建立一个 BFD 会话以监控它们之间的路径并服务于上层应用程序。BFD 不提供邻居发现。相反,BFD 从其服务的上层应用程序获取邻居信息。两个设备建立 BFD 会话后,它们周期性地相互发送 BFD 数据包。如果一个设备在设定的时间限制内未收到响应,则该设备认为转发路径存在故障。然后 BFD 将此故障通知上层协议。

BFD

当 OSPF 和 BFD 一起使用时,BFD会话建立

在上图中,SwitchA 和 SwitchB 上都配置了 OSPF 和 BFD,建立 BFD 会话的过程如下:1OSPF 使用 Hello 机制发现邻居并建立邻居关系。2OSPF 将邻居信息(包括源地址和目的地址)通知给 BFD。3BFD 根据接收到的邻居信息建立会话。4BFD 会话建立后,BFD 开始监控链路并对任何链路故障做出快速响应。

BFD

上图中,1被监控的链路发生故障。2BFD 快速检测到链路故障并将 BFD 会话状态更改为 Down。3BFD 通知本地 OSPF 进程该邻居不可达。4本地 OSPF 进程终止 OSPF 邻居关系。
数据中心和运营商网络中交换机作为核心转发设备,承担着数据包的高速转发、VLAN划分、流量控制等关键功能。它的稳定性和可靠性直接决定了整个网络的性能和业务的连续性。其中支持的高可靠性BFD通过与路由协议(如OSPF、IS-IS)、网关协议(如VRRP)等联动,能够在毫秒级内检测到链路或设备故障,并立即触发保护切换,确保业务流量不会因单点故障而中断。

返回资源中心

最新动态

基于INT与Flowlet的自适应路由:提升数据中心性能的关键

近期文章


自适应路由交换是一种智能的网络数据转发技术。它能够让网络设备(如路由器、交换机)实时地根据当前网络的状况(如链路拥堵、故障),自动地、动态地为数据包选择一条最优的传输路径。

深入理解:与传统方式的对比

自适应路由交换也可以称为“动态路由交换”,为了更好地理解“自适应”,我们先来了解一下什么是静态路由交换。

静态路由交换

工作方式:网络管理员手动配置好固定的路径。比如,命令数据从A到B必须经过路径C ( A -> C -> B)

  • 优点:不消耗设备计算资源。
  • 缺点:不灵活。如果路径中的C点发生故障或者严重拥堵,数据包依然会“固执地”试图走这条路径,导致通信中断或延迟,直到管理员手动修改配置。

它是构建中小型网络或特定网络区域的经典、可靠且低成本的方法。但在大型、动态的网络中,通常会被动态路由协议所取代或补充。

自适应路由交换

工作方式:网络设备之间会运行动态路由协议(如 OSPF, BGP 等)。这些协议会让设备互相通信,告知彼此自己所连接的链路状态、带宽、延迟等信息。每个设备都会根据这些信息,建立一个“网络地图”。

  • 优点:灵活、智能、高可靠性,容错率高当某条链路中断时,设备能立刻从“地图”上发现,并在毫秒级内自动将数据流转发到其他可用路径。可以同时利用多条路径来传输数据,避免单条链路拥堵,提升整体网络效率。
  • 缺点:配置相对复杂,设备需要消耗计算资源来运行路由算法和交换信息。

自适应路由交换的关键机制都有哪些?

网络状态感知

只有准确感知网络状态,才能实现自适应的路由选择。

队列深度:交换机会持续监控其输出端口的队列长度。队列长度是衡量拥塞程度的最直接、最简单的指标。

  • 链路利用率:通过监控端口在特定时间窗口内的实际流量与理论带宽的比值来衡量。这有助于了解链路的负载情况,为路由决策提供依据。
  • 带内网络遥测(INT):这是一种先进的感知机制。数据包在传输过程中会“携带”路径上各节点的状态信息,如延迟、队列深度等。http://asterfusion.com/a20250424-int-based-routing/
  • 显式拥塞通知(ECN):当交换机队列超过设定的阈值时,它会在经过的数据包头部打上标记。这是一种间接的、端到端的感知机制,通过这种方式,发送端可以根据拥塞情况调整发送速率,避免进一步加重拥塞。https://asterfusion.com/blog20250923-ecn/

总的来说,网络状态感知通过以上几种方式,为自适应路由交换系统提供了全面、准确的网络状态信息。

路由决策

根据感知到的信息决定数据包的走向。

  • 集中式决策:一个中央控制器收集全网信息,计算最优路径,并将流表下发给交换机。
  • 分布式决策:每个交换机基于本地信息和来自邻居交换机的有限信息(如通过PFC暂停帧或特定信令传递的信息),自主地做出路由决策不需要依赖中央控制器。

负载均衡

它是决定如何将流量分配到不同路径上的关键部分,通常有以下几种方式:

解锁AI数据中心潜力:网络利用率如何突破90%?

  • 逐流负载均衡:传统的 ECMP 路由通常采用逐流负载分担机制,其核心是基于数据包的特征字段(例如 IP 五元组等信息)作为计算因子去进行哈希运算,根据哈希值选择转发链路。
  • 逐包负载均衡:逐包的负载均衡技术则是将数据包均匀地负载到各条链路上,又被形象地称为“数据包喷洒”(Packet Spray)。问题在于逐包负载均衡无法保证报文依照原有时序到达接收端。
  • Flowlet负载均衡:不同于传统负载均衡的逐流负载分担或逐包负载分担,基于子流的负载均衡不光是对数据流进行分割以实现更精细均匀的负载分担,而且保持了报文到达的时序性。是目前最主流的先进机制。

如何为每个Flowlet选择“最佳”路径?

Flowlet

这就是INT发挥作用的地方了。

与传统通过SNMP轮询或NetFlow采样不同,INT直接将测量指令和数据嵌入到正在转发的数据包中。

  • 数据包在进入网络时被“植入”一个INT头部。
  • 当该数据包经过每个支持INT的网络设备(交换机)时,设备会将自己的信息(如入口/出口时间戳、队列深度、链路利用率等)写入到这个数据包的INT头部中。
  • 最终,接收端或网络边缘设备可以将这些信息收集起来,形成一个精确的、逐跳的路径状态视图。

工作流程示例

  1. 主机A开始向主机B发送一个TCP流。
  2. 第一个数据包被标记INT,它经过路径 Switch1 -> Switch2 -> Switch4,并在INT头中记录了这条路径上各交换机的队列深度。
  3. INT信息被发送到控制器。控制器发现Switch2到Switch4的链路队列很长。
  4. 此时,TCP流出现了一个短暂的间隙(Flowlet边界)。
  5. 当下一个数据包(属于第二个Flowlet)到达Switch1时,控制器已经计算出一条新的、不拥塞的路径:Switch1 -> Switch3 -> Switch4。
  6. Switch1将所有属于第二个Flowlet的数据包都转发到Switch3。
  7. 后续的Flowlet会重复此过程,始终选择当前最优的路径。

配图

高效、无损的自适应路由:基于INT的Flowlet 负载均衡技术

技术优点缺点
自适应路由动态避障,高网络利用率容易导致数据包乱序,损害TCP性能
Flowlet细粒度负载均衡,天然避免乱序路由决策依赖准确、及时的网络状态信息
INT提供精确、实时、逐跳的网络状态信息增加数据包开销,需要硬件支持
CX-N系列RoCE交换机 支持基于INT的Flowlet非常先进的数据中心网络负载均衡技术,它巧妙地结合了三者的优势:
  • 利用 Flowlet 解决了自适应路由的乱序问题。
  • 利用 INT 为Flowlet路由提供了精准、及时的决策依据。
最终实现了高效、无损的自适应路由,显著提升了大规模数据中心网络的性能。

返回资源中心

最新动态

DHCP:部署方式与典型应用场景详解

近期文章


我们已经简单了解了什么是DHCP Server。为什么网络需要DHCP服务器?

那么DHCP Server在实际生产环境中,部署起来复杂吗?DHCP(动态主机配置协议)的部署复杂度不能一概而论,它主要取决于你的网络规模、具体需求以及你对网络管理的熟悉程度。简单来说,小型网络部署DHCP非常直接,而大型企业网络则会复杂得多。

DHCP Server 不同场景下的部署有何不同?

快速了解不同规模网络部署DHCP的主要特点:

 小型网络/家庭网络中大型企业网络
​部署位置​家用路由器(内置功能)独立服务器(Windows Server / Linux)或高级网络设备
​配置复杂度​​低​(图形化界面,几步点击即可)​中到高​(需命令行或专业配置,涉及多项参数)
​主要考虑因素​地址池范围、租期​地址池精细规划、VLAN划分、中继代理​、高可用​、安全策略​
​核心挑战​基本无挑战​避免IP冲突、防止单点故障​、应对安全攻击​、跨网段分配​

DHCP的配置方式

DHCP(动态主机配置协议)的全局模式和接口模式是网络设备中常见的两种配置方式,它们在功能、适用场景和配置方法上存在差异。以下是两者的主要区别和特点:

全局模式(Global Mode)

在设备(如路由器或三层交换机)上创建全局地址池,通过该地址池为同一子网或多个子网的客户端分配IP地址。

  • 集中化管理:地址池在设备全局层面配置,可统一管理多个子网的IP分配策略,适用于需要跨子网分配IP的场景。
  • 灵活配置:可自定义地址池的网段、网关、DNS、租期等参数,满足复杂网络需求。
  • 跨子网支持:结合接口配置,可为不同子网的客户端分配IP,但需确保接口与地址池的关联配置正确。
  • 适用场景:企业网络中,多个部门(VLAN)需要不同网段的IP地址分配。需要集中管理IP地址资源,统一配置DNS、网关等参数的场景。

接口模式(Interface Mode)

直接在接口(如物理接口或VLAN接口)下启用DHCP服务,基于接口所在子网自动生成地址池,为连接到该接口的客户端分配IP地址。

  • 简单快捷:无需单独配置地址池,接口的IP地址和子网掩码自动作为地址池的网段和网关。
  • 适用于单子网:通常用于单一子网场景,配置简单,适合快速启用DHCP服务。
  • 参数有限:部分参数(如DNS、租期)需在接口下单独配置,灵活性相对较低。
  • 适用场景:家庭网络或小型办公网络,仅需为单个子网的设备分配IP。需快速配置DHCP服务,且对参数配置要求不高的场景。

下面是一个快速对比,帮助你了解主要的配置方式及其典型应用场景。

配置方式核心特点典型步骤主要适用场景
​基于接口的地址池​配置简单,地址池与接口IP在同一网段,适用于小型扁平网络在接口视图下直接配置DHCP参数(如IP地址、DNS、租期)小型网络、家庭办公网络、华为/锐捷设备常用
​基于全局的地址池​功能丰富,支持跨网段地址分配,需先创建全局地址池再到接口调用创建地址池 → 配置网络范围、网关、DNS、租期等 → 在接口上启用并调用全局地址池中大型企业网络、需要精细化管理IP地址的场景
​DHCP中继(Relay)​​允许DHCP客户端通过中继代理从不同子网的DHCP服务器获取IP地址,解决DHCP广播跨网段问题在接口视图下启用DHCP中继功能并指定远程DHCP服务器地址跨网段或VLAN的环境、大型企业网络部署

DHCP Server 自动化部署

随着企业网络规模的持续扩张、云化和物联网设备的激增,其局限性也日益凸显。网络管理员不得不频繁地登录每一台设备,进行大量重复且易出错的手工配置。尤其是在需要跨多个网段或VLAN部署DHCP中继、实现高可用性(如DHCP Failover)或实施精细化的安全策略时,传统方式不仅耗时费力,更难以保证配置的一致性和快速响应业务变更的需求。

为了克服这些挑战,网络管理向着智能化、自动化的方向演进成为了必然。DHCP的自动化部署通过集中化和自动化的方式分配IP地址及其他网络参数(如子网掩码、默认网关和DNS服务器),极大地提升了网络配置的效率和准确性。

这种自动化不仅显著减少了手动配置的工作量和潜在错误,还降低了企业的运营成本与管理复杂度。同时,DHCP支持灵活的地址管理(包括动态分配和静态保留)以及租期机制,能有效避免IP地址冲突,提高地址利用率,并简化网络扩展与设备变更的流程。此外,通过网络管理工具,DHCP实现了对IP地址分配的集中监控与维护,进一步增强了网络的稳定性和安全性。

CX-M园区交换机作为企业网络接入层和汇聚层的核心设备,通过控制器实现DHCP服务的自动化部署,是构建智能、可视、易运维的现代化园区网络的核心环节,它将网络管理员从繁琐的重复性劳动中解放出来,更专注于业务规划和策略优化。

DHCP Server 自动化部署详解,敬请期待……

返回资源中心

最新动态

为什么网络需要DHCP服务器?

近期文章


什么是DHCP?
DHCP是一种网络协议,全称为动态主机配置协议(Dynamic Host Configuration Protocol)。
它被用于在计算机网络中自动分配IP地址和其他网络配置信息给客户端设备。DHCP的主要目标是简化网络管理员对于IP地址管理的工作,并提供一种自动化的方式来配置网络设备。

什么是 DHCP 服务器?

DHCP服务器(Dynamic Host Configuration Protocol Server)是一种网络服务或设备,主要任务是自动分配和管理IP地址。当设备(称为DHCP客户端)接入网络时,DHCP服务器会从其预配置的IP地址池(Address Pool)中选择一个可用的IP地址“租借”给该设备,同时提供子网掩码、默认网关、DNS服务器等必要的网络配置信息。这种方式避免了手动为每台设备配置IP地址的繁琐,也减少了因手动配置可能导致的IP地址冲突。

DHCP服务器通过“租约”机制管理IP地址,即分配的IP地址有使用期限。租期到期后,客户端需要续租,否则地址会被服务器回收并重新分配,这有效提高了IP地址的利用率。

DHCP的工作流程

DHCP服务器分配IP地址的过程通常遵循一个经典的“四步握手”协议,如下图所示:

DHCP

1. DHCP发现(Discover)​​:当客户端设备(如电脑)接入网络并设置为自动获取IP时,它不知道DHCP服务器在哪里,所以会广播一个DHCP Discover消息,询问“网络里有DHCP服务器吗?”

2. DHCP提供(Offer)​​:网络中的DHCP服务器(比如你的路由器)收到这个广播后,会从预先配置好的IP地址池中挑选一个可用的IP地址,然后通过单播​(有时也可能是广播)方式回复一个DHCP Offer消息,告诉客户端“我这里有一个IP地址,你可以用”。如果网络中有多个DHCP服务器,客户端可能会收到多个Offer。

3. DHCP请求(Request)​​:客户端通常会选择它收到的第一个DHCP Offer,然后再次广播一个DHCP Request消息,明确告诉所有DHCP服务器“我选择接受某个服务器提供的地址”
这样做既是为了告知选中的服务器,也是为了告知其他未被选中的服务器,它们可以收回自己提供的预备地址。

4. DHCP确认(Acknowledge – ACK)​​:被选中的DHCP服务器收到Request后,会发送一个单播​(或广播)的DHCP ACK消息进行最终确认,意思是“这个IP地址正式分配给你了,附上完整的网络配置信息”。客户端收到ACK后,就会使用这个IP地址和其他参数来配置自己的网络接口。

DHCP地址分配的方式

HCP服务器分配IP地址主要有以下几种方式

  • 动态分配​:这是最常见的方式。服务器从地址池中分配一个IP地址给客户端,但这个地址是有“租期”的。租期到期前,客户端可以续租;到期后若未续租,服务器会收回该IP地址重新分配。这种方式高效且节省IP资源。
  • 自动分配​:类似于动态分配,但服务器一旦将某个IP地址分配给某个客户端后,就会永久将该地址分配给那台客户端。
  • 静态分配(固定地址)​​:网络管理员可以将特定的IP地址与客户端的MAC地址进行绑定。这样,当这个特定的客户端申请IP时,DHCP服务器就会始终将那个固定的IP地址分配给它。这对于网络打印机、服务器等需要固定IP的设备非常有用。

DHCP服务器的应用场景

DHCP服务器能适应不同规模和需求的网络环境。

形式类型​​特点描述​​典型应用场景​
​集成于网络设备​路由器、交换机等网络设备内置的功能。家庭、小型办公网络
​独立服务器软件​在服务器操作系统上安装并运行的专用软件。中型企业网络、机房
​基于防火墙/系统​一些防火墙系统或开源网络系统内置的DHCP服务。中小型网络
​云服务或企业级方案​提供高可用性、集中管理和高级功能的商业解决方案。大型企业、跨地域网络、数据中心

网络设备的DHCP服务器功能是一项非常实用且常见的网络服务,它能自动为网络中的设备分配 IP 地址等配置信息,大大简化了网络管理。

  • 家用/中小企业路由器​:这是最常见的形式。你家里的无线路由器就内置了DHCP服务器功能,它为连接到此路由器的手机、电脑、智能家居设备等自动分配IP地址。
  • 企业级网络设备​:如三层交换机、防火墙等也通常具备DHCP服务功能,可以为整个企业网的多个VLAN分配IP地址。
  • 服务器操作系统​:Windows Server或Linux系统(如使用ISC DHCP Server或dhcpd)可以安装并运行DHCP服务,将其转变为一台DHCP服务器。

深度融合DHCP,赋能智能园区网络

CX-M系列园区交换机在其搭载的企业级SONiC发行版AsterNOS中,集成了完备的DHCP功能(如DHCP Server、DHCP Snooping)和相关的安全与自动化特性,为核心园区网络提供了高效的IP地址管理、终端安全保障及极简运维体验。

DHCP服务与地址分配​:CX-M支持DHCP服务,能自动为园区终端分配IP地址。其DHCP Snooping功能可有效抵御仿冒DHCP服务器攻击,增强网络安全。

安全与运维增强​:通过DHCP Snooping配合其他安全特性(如IP源防护IPSG、动态ARP检测),CX-M为园区网络提供了多重安全防护。

CX-M系列还支持ZTP(零配置部署)​,新设备上电后能通过DHCP方式自动获取配置文件并加载,实现了网络的零配置开局,极大地简化了大规模网络的部署流程,降低了运维工作量。

网络架构优势​:CX-M支持构建全三层组网的园区网络,使得每个接口自成一个广播域,终端间二层隔离。这从根本上消除了二层广播风暴的风险,也为DHCP等服务的稳定运行提供了更简洁、安全的底层环境

CX-M通过深度融合DHCP相关功能与园区网络解决方案,在实现自动化IP管理的同时,显著增强了网络安全性和运维效率。

【参考文献】
https://mp.weixin.qq.com/s?__biz=MzIxMTA2ODE1OQ%3D%3D&chksm=8d07c44dca0e134b331c4a9477fc33652494e4f5fd2d6ded013787faee50294c2120db79b49b&idx=4&mid=2651151026&sn=c6ef9eb944e9f00622d9de85e8fcab90#rd

返回资源中心

最新动态

构建无损网络:DCQCN与FastECN协同下的拥塞控制策略

近期文章


在传统的 TCP 网络中,当网络发生拥塞时,路由器会直接丢弃(Drop)数据包。发送端通过检测到丢包(超时或重复ACK)来推断网络发生了拥塞,从而降低发送速率。这是一种隐式的、通过“丢包”来传递的拥塞信号。
ECN 则是一种“显式”的拥塞通知机制,它的目标是避免丢包、减少延迟。【详情参见 ……

我们知道,ECN的拥塞信号需要一个完整的往返时间才能到达发送端,这个延迟在高速或长距离网络中会成为性能瓶颈。

发送端发送数据 -> 路由器标记 -> 接收端接收 -> 接收端发送ACK -> 发送端处理ACK

什么是FastECN?

FastECN(或常被称为基于AI的ECN,如AI-ECN)是一种用于智算中心高性能无损网络的智能拥塞控制技术。它通过人工智能算法动态调整显式拥塞通知(ECN)的门限,以在实现零丢包的同时,保障网络的低时延和高吞吐量,从而满足AI大模型训练等场景对网络性能的苛刻要求。

FastECN的工作原理

FastECN解决了传统ECN机制中拥塞通知延迟过高的问题,它通过让网络设备(如交换机、路由器)直接向发送端发送拥塞信号,避免了接收端中转的延迟(主要应用于对延迟极其敏感的数据中心等网络环境)。

FastECN 在 ECN 的基础上增加了一种新的反馈机制

PFC/ECN

1、数据包标记(与ECN相同)

发送端发出支持 ECN 的数据包(IP 头中 ECN 字段设置为 10 或 01,即 ECT(0) 或 ECT(1))。当网络设备发生拥塞时,它会将数据包的 ECN 字段标记为 CE (11)。

2、生成并发送拥塞通知包 (CNP – Congestion Notification Packet)

这是 FastECN 的关键创新。检测到拥塞的网络设备(或与其相连的智能网卡)自己会生成一个特殊的控制包,即 CNP。这个 CNP 是一个非常小的数据包(通常只有几十字节),其中CNP包含以下关键信息:

  • 拥塞流的信息:例如,被标记的数据包的 五元组(源/目的 IP、源/目的端口、协议)的一部分,用于标识哪个流经历了拥塞。
  • 拥塞程度信息(可选):例如,该数据包被标记时的队列长度,可以提供更精细的拥塞控制。

3、直接反馈。

网络设备会直接通过网络将这个 CNP 发送回该数据流的源发送端。这个过程是立即的、直接的,不再需要经过接收端。

4、发送端立即反应。

发送端收到 CNP 后,立即执行拥塞控制算法,降低发送速率。因为 CNP 是直接从拥塞点发回的,其延迟远低于通过接收端再返回的 ACK 路径。

FastECN 的核心优势在于它让网络设备直接向发送端发送拥塞通知包(CNP),绕过了接收端中转,避免了至少一个 RTT 的延迟,这使得发送端能够即时地对拥塞做出反应,从而更高效地抑制队列增长、避免丢包,维持高吞吐量与低延迟;同时,CNP 中还可携带诸如队列深度等丰富的拥塞信息,为发送端实施更精细、高效的拥塞控制算法提供了基础。

相较ECN,FastECN都做了哪些升级?

FastECN 的思想(以及类似的技术,如 Intel 的 DCQCN)是现代数据中心RDMA(远程直接数据存取)技术的基石。RDMA 要求极低的延迟和零丢包,传统 ECN 的延迟无法满足要求,而 FastECN 机制正好解决了这个问题。

特性传统 ECNFastECN
反馈路径间接:拥塞点 -> 接收端 -> 发送端直接:拥塞点 -> 发送端
通知机制通过接收端的 ACK 包中的标志位由网络设备生成专用的 CNP 包
延迟至少 1 个 RTT极低,近乎单向延迟
主要目标普通互联网,避免丢包超低延迟网络(如数据中心),实现零丢包和超低延迟

DCQCN 和 FastECN

数据中心网络中,DCQCN和 FastECN都是RDMA网络常用的拥塞控制机制,它们都旨在实现低延迟、高吞吐和无损传输,但设计理念和实现方式有显著差异,可以从运维、行业特性及业务需求等来选择流量控制和拥塞管理方案。

特性维度DCQCN (数据中心量化拥塞通知)FastECN (或AI-ECN等智能ECN)
​核心机制​端到端拥塞控制协议,结合ECN和PFC​通常指利用AI/机器学习动态优化ECN阈值的行为
​工作原理​交换机标记ECN → 接收端发送CNP → 发送端降速嵌入式AI实时分析网络流量(队列长度、吞吐等),智能计算并动态调整ECN阈值
​拥塞反馈路径​较长(交换机→接收端→发送端)更直接(设备本地智能决策或快速响应)
​关键依赖​依赖PFC实现无损,但需谨慎配置避免PFC缺陷(如HOL阻塞)依赖AI模型训练数据的质量和代表性
​配置复杂度​​高,有超过16个可调参数,需端网协同调优​低,旨在自动化调优,减少人工干预
​灵活性​相对静态,参数设定后对流量变化适应性有限​高,能自适应不同流量模式和应用场景
​主要优势​成熟、广泛应用、在RoCEv2网络中经过大量实践检验自适应、智能化、有望降低运维复杂度、提升网络效率
​潜在挑战​参数调优复杂、PFC可能引发全局暂停、对突发流适应性有时不足依赖训练数据、AI模型可靠性需验证、初期部署成本可能较高
星融元的RoCE交换机在流量控制与拥塞管理方面提供了非常全面的功能支持,其核心组件PFC、ECN/FastECN、DCQCN和DCBX协同工作,共同构建了高性能、低延迟的无损以太网环境。

返回资源中心

最新动态

ECN:显式拥塞通知机制原理解析

近期文章


在网络通信中,拥塞是一个常见的问题,尤其是在高负载时期或网络拓扑结构不完善的情况下。传统的拥塞控制方法主要通过丢包来指示网络拥塞,当路由器的缓冲区满时,会丢弃数据包,发送方通过检测丢失的数据包来进行拥塞控制。然而,丢包会导致重传,增加网络负担,降低网络性能。

ECN(Explicit Congestion Notification)是一种改进后的拥塞控制方法,它不依赖于丢包来指示拥塞,而是在数据包的头部标记拥塞发生的信号。ECN通过向数据包的 IP 头部添加一个特殊的标记位告知发送方网络发生了拥塞。

ECN的工作原理

ECN 的工作原理可以分为三个主要阶段:标记、回传、响应。

  • 标记(第一阶段):当路由器的缓冲区开始出现拥塞时,它会检查传入的数据包。如果缓冲区超过了某个阈值,路由器会修改数据包的 IP 头部,在其中设置 ECN 位,表示网络出现了拥塞。
  • 回传(第二阶段):标记了 ECN 位的数据包继续在网络中传输,它们不会被丢弃。这使得接收方能够收到所有数据包,无需等待重传。
  • 响应(第三阶段):接收方收到带有 ECN 标记的数据包后,会向发送方发送一条特殊的通知(CNP),告知发送方网络发生了拥塞。发送方收到通知后,会根据接收方的指示适当调整发送速率,以降低网络拥塞的程度。

通过这种方式,ECN 可以更及时地指示网络拥塞,并且避免了丢包带来的额外开销,从而提高了网络的性能和效率。

ECN在网络层的实现

ECN在IP头部中需要2个比特位来承载信息,它在IPv4位于IP头部TOS字段中,示意图如下:

IP

(Differentiated Services Field (区分服务领域):DS Field的两个部分DSCP和CU组合成一个可扩展性相对较强的方法以此来保证IP的服务质量。)

ECN在 IPv4 和 IPv6 头部中的位置和功能是类似的,但由于两者头部结构不同,其具体位置也存在差异。如下表:

特性维度IPv4IPv6
​头部结构​可变长度头部(通常20字节,可带选项)固定40字节基本头部,扩展功能通过扩展头部实现
​ECN字段位置​重新定义的 ​ToS(服务类型)字节的后2位(第7-8位)​Traffic Class(流量类别)字节的后2位(第7-8位)
​ECN字段大小​2比特2比特
​ECN码点含义​00: Non-ECT (不支持ECN)
01: ECT(1) (支持ECN)
10: ECT(0) (支持ECN)
11: CE (经历拥塞)
00: Non-ECT (不支持ECN)
01: ECT(1) (支持ECN)
10: ECT(0) (支持ECN)
11: CE (经历拥塞)
​所属字段​该8位字段前6位为DS(差分服务)字段,后2位为ECN字段​(如图)该8位字段前6位为Traffic Class字段,后2位为ECN字段​

支持ECN的标识

支持ECN的发送端(如服务器)在发出IP数据包时,会将其IP头部的ECN字段设置为 ECT(0)或 ECT(1)。这相当于向网络宣告:“我这个数据包是可以被ECN标记的,如果遇到拥塞,请标记我,不要丢弃我。”

拥塞标记

当支持ECN的网络设备(如路由器、交换机)检测到其缓冲区队列开始出现拥塞(但尚未满到需要丢包的程度)时,它会检查正在通过的数据包的ECN字段。如果该字段是 ECT(0)或 ECT(1),设备就会将其修改成 CE (11)。这个动作是ECN的核心—显式拥塞通知。

信息回传

接收端收到带有 CE 标记的数据包后,会通过其传输层协议(如 TCP ACK 包中的 ECN-Echo 标志位)通知发送端。发送端接到通知后,便会像检测到丢包一样降低发送速率,从而缓解拥塞。

ECN在传输层的实现

TCP

ECN在传输层的实现,是其发挥“端到端”拥塞控制作用的关键一环。在数据传输前,发送方和接收方必须通过三次握手 (Three-Way Handshake) 建立一个稳定的连接。TCP协议负责接收来自网络层(IP)的拥塞信号,并将其反馈给发送方,最终触发发送方的速率调整。

TCP 通过其首部中的两个标志位来实现 ECN 功能。

TCP

这2位有4种可能组合,每种组合被称为码点

 CWRECE码点发送自目标
100Non-ECN set up任意任意
201ECN Echo接收方发送方
310Congestion window reduced发送方接收方
411ECN Setup发送方接收方
  • ECE (ECN-Echo)​:用于接收方向发送方回显拥塞通知。当接收方收到一个被网络设备标记为拥塞体验(CE)的数据包时(接上一节内容),它会在后续返回的 ACK 包中设置 ECE=1,以此通知发送方网络发生了拥塞•
  • CWR (Congestion Window Reduced)​:用于发送方向接收方确认已降低发送速率。当发送方收到一个 ECE=1 的 ACK 包并做出降速响应后,它会在下一个数据包中设置 CWR=1,以此告知接收方:“我已收到拥塞通知并已采取行动”。

UDP

UDP也是网络中传输层的一个核心协议,那么它和TCP的区别又是什么呢?

特性UDP (用户数据报协议)TCP (传输控制协议)
​连接性​​无连接​
发送数据前无需建立连接,直接发送。
​面向连接​
通信前需通过“三次握手”建立可靠连接。
​可靠性​​不可靠​
不保证数据包顺序、不重传丢失或出错包。
​可靠​
通过确认、重传等机制确保数据正确有序送达。
​控制机制​无流量控制、无拥塞控制。有复杂的流量控制和拥塞控制机制(如滑动窗口)。
​数据单元​​面向报文​
应用层交给UDP多长的报文,UDP就发送多长。
​面向字节流​
将数据视为无结构的字节流进行传输。
​速度开销​​传输速度快​
头部开销小(固定8字节),延迟低。
相对较慢
头部开销大(最小20字节),延迟较高。
​适用场景实时应用:音视频通话、直播、在线游戏、DNS查询等。可靠性要求高的应用:文件传输、网页浏览、邮件等。

UDP

UDP 本身是无连接、无状态的协议,不像 TCP 那样有复杂的确认和重传机制。因此,ECN 在 UDP 中的实现方式与 TCP 不同,通常需要应用程序的更多参与或依赖配套的反馈协议。

发送方(应用程序)需要通过特定的 API(如 IP_ECNsocket 选项)来检测路径是否支持 ECN,并在发出的 UDP 数据包的 IP 头部设置 ECT 码点(ECT(0) 或 ECT(1)),表明该数据包支持 ECN。

当支持 ECN 的网络设备将 UDP 数据包标记为 CE 后,接收方需要检测到这一标记。由于 UDP 没有类似 TCP 的 ACK 机制,接收方需要生成一个专门的 CNP (Congestion Notification Packet, 拥塞通知报文),CNP报文内部会携带引发拥塞的原始数据流的关键信息(源和目标IP地址、传输层端口号、拥塞程度信息、QP(Queue Pair)信息),并将其发送回源发送方。发送方在收到 CNP 后,需要主动降低数据发送速率。

DCQCN

ECN在RDMA中的实现方式

在高性能计算和数据中心环境中,RoCEv2 也广泛使用 ECN。其实现方式与 UDP 类似,因为 RoCEv2 运行在 UDP 之上。

支持 ECN 的交换机在检测到拥塞时,会标记 RoCEv2 数据包的 IP 头 ECN 字段为 CE。接收端网卡生成专门的 CNP(拥塞通知报文)​,其中包含导致拥塞的流量源信息,CNP 被发送回引发拥塞的发送端主机,发送端主机收到 CNP 后,会根据DCQCN(数据中心量化拥塞通知) 等算法调整相应数据流的发送速率。

面对AI算力需求,DCQCN如何优化数据中心网络性能?

智算中心的硬件核心在于为 RoCEv2提供稳定、高性能的无损网络环境。这不仅需要网卡支持,更需要交换机的深度配合。CX-N系列数据中心交换机通过其超低时延、无损网络技术、对大容量缓存的优化、高级遥测功能以及对自动化运维的支持,为DCQCN协议在AI计算、高性能计算等场景中的高效、稳定运行提供了坚实的硬件基础。

参阅文献:
https://developer.aliyun.com/article/1494789
https://blog.csdn.net/yuff100/article/details/134858611

返回资源中心

最新动态

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2