标签：科普-数据中心

800G光模块选型指南

近期文章

800G实现之路并非一蹴而就，而是建立在400G的坚实技术基础之上，并通过持续的创新来应对新的挑战。本文将从技术驱动、核心突破、部署挑战及未来展望等方面，勾勒出800G实现的技术演进路径。

演进基石：400G为800G铺平道路

800G并非一次革命性的跳跃，而是400G技术的自然演进与扩展。其技术根基深深植根于当前400G的成熟体系。

PAM4编码的延续与强化：400G广泛应用的四级脉冲幅度调制（PAM4）技术，通过在每个信号符号中承载2比特信息，将NRZ编码的效能翻倍，是实现单通道50G/100G速率的关键。800G将继续沿用并深化PAM4技术，将单通道速率提升至100G，从而通过8个通道实现8x100G=800G的总速率。对PAM4信号更高效的调制和更精确的信号完整性管理，是演进的核心。
可插拔收发器架构的演进：400G时代成熟的QSFP-DD（双密度）和OSFP（可插拔）等封装形式，为800G提供了物理基础。这些高密度、可插拔的接口标准，通过增加通道数量或提升单通道速率，能够平滑地支持800G光模块的设计，保护了用户在基础设施上的投资。
光纤基础设施的提前布局：800G及未来的1.6T应用将推动对Base-16 MTP连接的需求。这意味着，当前为400G部署的、支持Base-8或Base-12的布线系统，需要为更高速率做好向更高光纤芯数升级的准备。提前规划高性能OM4/OM5多模或OS2单模光纤布线，是通往800G的必经之路。

核心突破：800G实现的技术关键

在400G的基础上，实现800G仍需一系列关键技术的突破。了解800G收发器的核心技术参数，下面这个表格汇总了主流类型的核心规格。

收发器	标准	接口类型	扇出支持	光纤类型	传输距离	光纤芯数	连接器
800G-SR8	IEEE 802.3ck及相关MSA	QSFP-DD800, OSFP	支持	OM3/OM4/OM5（多模）	≤ 100m (OM4/OM5)	16 (8Tx + 8Rx)	16F/24F MTP
800G-DR8	IEEE 802.3ck及相关MSA	QSFP-DD800, OSFP	支持	单模	500m	8(4Tx+4Rx)	12F/16F MTP
800G-2FR4/FR4	IEEE 802.3ck及相关MSA	QSFP-DD800, OSFP	支持	单模	2km	2(1Tx+1Rx)	双工LC/单芯的CS
800G-LR4	IEEE 802.3ck及相关MSA	QSFP-DD800, OSFP	支持	单模	10km	2(1Tx+1Rx)	双工 LC
800G ZR/ZR+	OIF Implementation Agreements	QSFP-DD	支持	单模	80km-120km以上（ZR+Pro）	2(1Tx+1Rx)	双工 LC

核心技术与标准

800G以太网由 IEEE 802.3ck工作组标准化，其物理层基础建立在 PAM4（4级脉冲幅度调制）技术上。PAM4每个符号周期可传输2个比特，使单通道100Gbps的速率得以实现，从而聚合达到800G的总带宽。

在硬件机械规格和互联互通性方面，则由多个MSA组织制定关键规范。其中，QSFP-DD800外形是当前主流，它在QSFP-DD基础上增强，优化信号完整性和散热，并保持向后兼容性。OSFP外形略大，散热能力更优，为800G及更高速率设计。

对于超长距离传输，OIF制定的 800G ZR标准采用相干光学技术，实现在一对光纤上传输800G信号至80公里以上。

接口类型与扇出支持

800G光模块的物理接口和连接器选择与传输方案紧密相关。

并行光学接口：如SR8和DR8，采用多根光纤并行传输。SR8使用16芯多模光纤，适用于极短距离；DR8使用8芯单模光纤，传输距离可达500米。它们通常使用MPO多芯连接器。
波分复用接口：如FR4和LR4，采用波分复用技术将多个波长信道复用到一对光纤中传输，极大节省光纤资源。它们使用常见的双工LC连接器，传输距离分别为2公里和10公里。
扇出功能：这是800G收发器提升网络灵活性的关键特性。它允许将一个高速端口拆分为多个低速端口使用，实现网络资源的按需分配和平滑升级。

如何选择适合的800G光模块？

1、数据中心内部（短距）

机柜内或相邻机柜（≤100米）：优先考虑800G SR8（多模）或超低功耗的800G LPO AOC（多模）。若布线受限，也可使用800G AOC有源光缆。
机房内不同模块间（500米）：800G DR8 或 800G DR4 是经济高效的选择。

2、数据中心园区互联（中长距）

2公里距离：800G FR4（双纤双向）或 800G DR8+ 都能满足要求。
10公里距离：可以选择 800G DR8++ 模块。

3、数据中心互连/DCI（长距）：对于40公里甚至80公里的超长距离互联，则需要采用800G相干光模块技术。

未来展望：超越800G，迈向1.6T

800G只是一个驿站。技术演进的下一个目标是1.6T（1600G）。其实现路径可能有两种

通道数量翻倍：在800G的8通道基础上，通过16个100G通道实现1.6T，但这将需要更复杂的32芯光纤连接，挑战难度可想而知。
单通道速率再提升：开发下一代200G PAM4 per lane技术，通过8个200G通道实现1.6T。这将是对芯片和材料科学的终极考验。

在800G数据中心时代，RoCE交换机以其卓越的设计，完美呼应了技术演进的核心需求。我们基于QSFP112-DD可插拔的模块架构，为客户提供从400G平滑升级的路径。通过强化PAM4信号完整性管理，确保单通道100G的稳定性能。

返回资源中心

近期文章

400G时代：数据中心高速网络的演进

在当今数字浪潮中，企业数据中心开始在交换机上行链路中采用100G速率，然而行业标准已经为400G应用铺平道路，相关网络设备也已投入市场。尽管对多数企业而言，实现这一高速率仍需一些时间过度，但超大规模云服务提供商已经加速推进，不仅定义了市场方向，推动技术进步，更将在未来几年内将高速应用渗透至企业领域。

事实上，这些行业引领者正将目光投向800G，并致力于发展光通信技术，为未来1.6T乃至3.2T速率铺路。

实现400G驱动因素与趋势

数据中心已成为组织核心运营的基石。全球数字化进程持续推动对更高带宽的需求，以支持日益增长的数据流量。据预测，到2025年，数据中心流量将突破180ZB (注：1 ZB的数据相当于10亿TB或1万亿GB)。为应对这一增长，Frost & Sullivan预计到2025年，数据中心市场的投资将达4320亿美元。

以下关键因素正推动400G需求上升：

数字化转型与新兴应用：企业数字化进程及新兴应用的普及，推动云数据中心对400G的需求。远程办公、在线交易和视频流媒体等应用显著增加了云服务使用量。2020年第一季度云支出增长25%，而传统IT市场则下降3%。据思科预测，到2021年底，94%的工作负载将在云环境中运行；Gartner则预计，到2025年，公共云服务支出将接近7000亿美元。

新兴应用对数据的需求：传媒行业采用未压缩的高分辨率视频格式（如RedCode Raw），使文件大小急剧增加。智能建筑和工业4.0计划推动物联网设备数量在2025年超过300亿台。虚拟现实、人工智能、机器学习、自动驾驶及高频交易等应用要求极低延迟和高速连接。医疗影像、远程医疗及金融科技进一步增加对带宽的依赖。5G移动技术、边缘计算、虚拟化和软件定义网络（SDN）正重塑数据中心架构，要求高性能连接。

数据中心架构演进：从三层到Spine-Leaf

为适应东西向数据流和低延迟需求，数据中心也从传统的三层架构向Spine-Leaf架构演进。在Spine-Leaf架构中，每一台leaf交换机都连接到每一台spine交换机，减少了数据传输过程中虚拟服务器间的交换机跳数，并显著降低了延迟，同时当服务器A需要与服务器B“通讯”时，还可提供下图所示更好的冗余性。

进一步地，超级Spine架构通过二级Spine互联多个Spine-Leaf网络，实现模块化扩展，支持数据中心互联（DCI），满足大规模云服务需求。同时，边缘数据中心的兴起为5G和实时应用提供本地数据处理，推动对400G连接的需求，以聚合数据并回传至核心云数据中心。

技术进展：推动400G实现

多项技术进步为400G提供了技术与经济可行性

PAM4编码：比传统NRZ编码比特率翻倍，支持每通道25G、50G和100G速率，为25G至800G的演进提供高效路径。
可插拔收发器：QSFP-DD和OSFP等接口支持8通道50G传输，实现400G应用，并兼容多种多模和单模光纤。
光通信技术：短波分复用（SWDM）等技术可在单芯多模光纤上以多个波长传输数据，减少光纤数量。新型低功耗单模收发器则支持500米传输，适应数据中心短距离需求。
网卡速率也从10G逐步升级至25G、50G乃至100G，支持高度虚拟化、低延迟的环境需求。

400G应用标准与部署方案

IEEE已制定多种400G标准，涵盖多模和单模应用，如下表所示：

收发器	标准	接口类型	核心技术	扇出支持	光纤类型	距离（米）	光纤芯数	连接器
400G-SR8	IEEE 802.3cm	QSFP-DD, OSFP	50G PAM4/通道	支持	OM3/OM4（多模）	70 (OM3) / 100 (OM4)	16 (8Tx+8Rx)	16F/24F MTP
400G-SR4（主流）	IEEE 802.3db	QSFP-DD, OSFP	100G PAM4/通道	支持	OM4/OM5 (多模)	100（OM4）/150（OM5 ）	8(4Tx+4Rx)	12F/16F MTP
400G-SR4.2(400G-BIDI)	IEEE 802.3cm/ MSA	QSFP-DD,	BiDi/SWDM / MWDM	支持	OM3/OM4/OM5	70/100/150	2（ (1根双向光纤对)	双工LC/单芯的CS
400G-DR4	IEEE 802.3bs	QSFP-DD,OSFP	100G PAM4/通道	支持	OS2（单模）	500	8(4Tx+4Rx)	8F/12F MTP
400G-FR4	IEEE 802.3bs/ MSA (CWDM4)	QSFP-DD,OSFP	100G PAM4/通道	不支持	OS2（单模）	2000	2(1Tx+1Rx)	LC 双工接口
400G QSFP-DD DAC/AOC	/	QSFP-DD	/	/	铜缆/有源光缆	≤3m (DAC) / ≤100m (AOC)

在查阅表格时，理解以下几个核心概念能帮你更好地做出选择：

接口命名规则：后缀中的字母代表传输距离（如SR：短距，DR：500米，FR：2公里，LR：10公里），数字代表光通道数量。例如，FR4表示传输距离2公里、有4个光通道。
PAM4调制技术：这是实现400G速率的关键。与传统的NRZ（非归零）编码相比，PAM4每个信号周期可以传输2个比特，使有效数据速率翻倍，但也对链路质量要求更高。
扇出（Breakout）功能：这是400G收发器的一个重要特性，允许将一个高速端口拆分为多个低速端口使用。例如，一个400G-SR8端口可以拆分为4个独立的100G链路，这对于网络平滑升级和连接不同速率的设备非常有用。

为优化端口利用率和交换机密度，扇出设计可将400G端口拆分为4个100G或8个50G连接。Base-8 MTP连接系统支持即插即用部署，替代传统的模块盒与跳线方案。

在企业数据中心中，交换机至服务器链路可通过DAC（直连铜缆）、AOC（有源光缆）或结构化布线实现。

成本考量与未来展望

400G部署需根据具体需求权衡，多模方案通常成本较低，但短距离单模方案因大规模应用已显著降价，在某些场景下更具吸引力。

尽管400G已成为现实，但技术演进并未止步。IEEE Beyond 400Gb/s研究组正致力于800G标准，目标包括在8对多模光纤上支持100米传输，在单模光纤上支持500米至2千米传输。1.6T标准也在制定中，超大规模云服务商正通过多源协议（MSA）推动相关技术发展。

每一项新技术都伴随挑战与选择，无论数据中心的规模与类型如何，星融元作为开放网络先行者与推动者，提供从10G到400G及更高速率的全面解决方案与专业服务，助力企业网络实现平滑演进。

本文基于西蒙白皮书《通往400G之路》整理，内容仅供参考。

返回资源中心

近期文章

在前文中，我们深入探讨了BFD（双向转发检测）的工作原理。它通过在网络设备间建立会话、周期性地发送毫秒级检测报文，为OSPF、VRRP等上层协议提供了前所未有的快速故障检测能力。

然而，一个关键问题随之而来：当网络规模急剧扩张、链路数量激增时，数以千计的BFD会话所带来的CPU中断和处理负载，是否会变为新的“性能瓶颈”？

这是 BFD Acceleration（BFD加速）要解决的核心问题，核心思路是让BFD报文的收发和状态维护不再完全依赖设备的中央处理器（CPU）。目标在于：在维持毫秒级检测精度的同时，极大地降低CPU占用率，并支持大规模BFD会话的稳定运行。

BFD Acceleration主要通过以下几种关键技术路径实现，并由此带来了显著的性能提升。

BFD加速的技术实现方式

硬件卸载

这是最高效的BFD加速方式，也称硬件BFD。通常在高性能交换机和路由器中实现。实现原理：

BFD会话配置下发：控制面初始化BFD会话配置，并通过SDK将参数（检测间隔、传输间隔、接收间隔、远端IP等）下发至转发芯片。
报文处理：芯片硬件直接识别BFD协议报文（通常为UDP封装），并直接从数据面发出。CPU不再参与每个报文的处理。收到对端发来的BFD报文后，由本地芯片直接处理，并进行会话状态判断（Up, Down, Init等），更新本地BFD会话状态。
检测结果回报控制面：一旦链路异常或报文超时未收到，转发芯片会将BFD状态变更信息上报给控制面（如出发路由切换）。

｜CPU的角色转变为“管理者”。它只负责初始配置，将会话参下发到硬件表项中。之后，只有在会话状态发生改变时（如从Up变为Down），硬件才会通过中断方式通知CPU。

内核旁路

这种方式常见于基于通用服务器（x86）的NFV（网络功能虚拟化）环境，使用如DPDK（Data Plane Development Kit）或FD.io VPP 等技术。实现原理：

初始化与环境设置：在用户空间直接轮询网卡，绕过操作系统内核复杂的协议栈和中断处理机制。
数据包接收：使用专用的高性能用户态轮询驱动，直接从网卡收发报文，避免了内核上下文切换和内存拷贝的开销。
虽然BFD状态机仍在CPU上运行，但由于报文处理效率极高，单个CPU核心可以支撑的数万级会话，且延迟和抖动远低于内核处理。

｜类比理解：这就像在邮局（操作系统）旁边开了一个专门的“加急包裹处理中心”（DPDK程序）。包裹不再进入拥挤的常规分拣系统（内核协议栈），而是在专用通道被快速处理，效率大大提升。

硬件BFD的优势

当前，CX-N数据中心交换机的硬件BFD特性已支持与BGP、QSPF、ISIS、VRRP协议联动，相较于软件BFD，硬件BFD有如下优势：

对比维度	软件BFD	硬件BFD
检测间隔	通常>=100ms(太低易误报)	可支持3ms-50ms，满足低时延网络需求
抖动容忍度	易受系统调度、CPU负载波动影响	受控制面负载影响极小，检测更加稳定
会话数量上限	受限于CPU和线程管理能力，规模较小	由硬件表项决定，可支持上千个会话大规模部署
CPU占用率	占用主控CPU资源，密集检测会显著增加负载	由硬件offload，主控几乎零负载
误报风险	高，系统繁忙时易误判会话down	低，判断由硬件完成，时延抖动影响小
调试与可控性	可通过软件灵活调试和打印调试信息	调试接口依赖芯片SDK或驱动，调试复杂
部署适用性	适合中小规模网络，或对检测间隔不敏感的场景	适合大规模、低时延要求场景，如骨干、IDC、金融网络

在大型数据中心、5G核心网、运营商骨干网中为每一条路由或每一个服务部署BFD成为可能，实现真正的全网级快速故障检测。

硬件BFD已从一项高级功能演变为现代高性能网络设备的必备能力。它解决了BFD技术在大规模应用中的核心矛盾，是连接BFD“快速检测理念”与“现网规模化部署”之间的关键桥梁。选择具备强大BFD加速能力的网络设备，是构建面向未来、既智能又坚韧的高可靠网络基础设施的基石。

返回资源中心

近期文章

自适应路由交换是一种智能的网络数据转发技术。它能够让网络设备（如路由器、交换机）实时地根据当前网络的状况（如链路拥堵、故障），自动地、动态地为数据包选择一条最优的传输路径。

深入理解：与传统方式的对比

自适应路由交换也可以称为“动态路由交换”，为了更好地理解“自适应”，我们先来了解一下什么是静态路由交换。

静态路由交换

工作方式：网络管理员手动配置好固定的路径。比如，命令数据从A到B必须经过路径C （ A -> C -> B）

优点：不消耗设备计算资源。
缺点：不灵活。如果路径中的C点发生故障或者严重拥堵，数据包依然会“固执地”试图走这条路径，导致通信中断或延迟，直到管理员手动修改配置。

它是构建中小型网络或特定网络区域的经典、可靠且低成本的方法。但在大型、动态的网络中，通常会被动态路由协议所取代或补充。

自适应路由交换

工作方式：网络设备之间会运行动态路由协议（如 OSPF, BGP 等）。这些协议会让设备互相通信，告知彼此自己所连接的链路状态、带宽、延迟等信息。每个设备都会根据这些信息，建立一个“网络地图”。

优点：灵活、智能、高可靠性，容错率高当某条链路中断时，设备能立刻从“地图”上发现，并在毫秒级内自动将数据流转发到其他可用路径。可以同时利用多条路径来传输数据，避免单条链路拥堵，提升整体网络效率。
缺点：配置相对复杂，设备需要消耗计算资源来运行路由算法和交换信息。

自适应路由交换的关键机制都有哪些？

网络状态感知

只有准确感知网络状态，才能实现自适应的路由选择。

队列深度：交换机会持续监控其输出端口的队列长度。队列长度是衡量拥塞程度的最直接、最简单的指标。

链路利用率：通过监控端口在特定时间窗口内的实际流量与理论带宽的比值来衡量。这有助于了解链路的负载情况，为路由决策提供依据。
带内网络遥测（INT）：这是一种先进的感知机制。数据包在传输过程中会“携带”路径上各节点的状态信息，如延迟、队列深度等。http://asterfusion.com/a20250424-int-based-routing/
显式拥塞通知（ECN）：当交换机队列超过设定的阈值时，它会在经过的数据包头部打上标记。这是一种间接的、端到端的感知机制，通过这种方式，发送端可以根据拥塞情况调整发送速率，避免进一步加重拥塞。https://asterfusion.com/blog20250923-ecn/

总的来说，网络状态感知通过以上几种方式，为自适应路由交换系统提供了全面、准确的网络状态信息。

路由决策

根据感知到的信息决定数据包的走向。

集中式决策：一个中央控制器收集全网信息，计算最优路径，并将流表下发给交换机。
分布式决策：每个交换机基于本地信息和来自邻居交换机的有限信息（如通过PFC暂停帧或特定信令传递的信息），自主地做出路由决策不需要依赖中央控制器。

负载均衡

它是决定如何将流量分配到不同路径上的关键部分，通常有以下几种方式：

解锁AI数据中心潜力：网络利用率如何突破90%？

逐流负载均衡：传统的 ECMP 路由通常采用逐流负载分担机制，其核心是基于数据包的特征字段（例如 IP 五元组等信息）作为计算因子去进行哈希运算，根据哈希值选择转发链路。
逐包负载均衡：逐包的负载均衡技术则是将数据包均匀地负载到各条链路上，又被形象地称为“数据包喷洒”（Packet Spray）。问题在于逐包负载均衡无法保证报文依照原有时序到达接收端。
Flowlet负载均衡：不同于传统负载均衡的逐流负载分担或逐包负载分担，基于子流的负载均衡不光是对数据流进行分割以实现更精细均匀的负载分担，而且保持了报文到达的时序性。是目前最主流的先进机制。

如何为每个Flowlet选择“最佳”路径？

这就是INT发挥作用的地方了。

与传统通过SNMP轮询或NetFlow采样不同，INT直接将测量指令和数据嵌入到正在转发的数据包中。

数据包在进入网络时被“植入”一个INT头部。
当该数据包经过每个支持INT的网络设备（交换机）时，设备会将自己的信息（如入口/出口时间戳、队列深度、链路利用率等）写入到这个数据包的INT头部中。
最终，接收端或网络边缘设备可以将这些信息收集起来，形成一个精确的、逐跳的路径状态视图。

工作流程示例

主机A开始向主机B发送一个TCP流。
第一个数据包被标记INT，它经过路径 Switch1 -> Switch2 -> Switch4，并在INT头中记录了这条路径上各交换机的队列深度。
INT信息被发送到控制器。控制器发现Switch2到Switch4的链路队列很长。
此时，TCP流出现了一个短暂的间隙（Flowlet边界）。
当下一个数据包（属于第二个Flowlet）到达Switch1时，控制器已经计算出一条新的、不拥塞的路径：Switch1 -> Switch3 -> Switch4。
Switch1将所有属于第二个Flowlet的数据包都转发到Switch3。
后续的Flowlet会重复此过程，始终选择当前最优的路径。

高效、无损的自适应路由：基于INT的Flowlet 负载均衡技术

技术	优点	缺点
自适应路由	动态避障，高网络利用率	容易导致数据包乱序，损害TCP性能
Flowlet	细粒度负载均衡，天然避免乱序	路由决策依赖准确、及时的网络状态信息
INT	提供精确、实时、逐跳的网络状态信息	增加数据包开销，需要硬件支持

CX-N系列RoCE交换机支持基于INT的Flowlet非常先进的数据中心网络负载均衡技术，它巧妙地结合了三者的优势：

利用 Flowlet 解决了自适应路由的乱序问题。
利用 INT 为Flowlet路由提供了精准、及时的决策依据。

最终实现了高效、无损的自适应路由，显著提升了大规模数据中心网络的性能。

返回资源中心

近期文章

什么是多租户网络？

多租户网络（Multi-Tenant Network）是一种在云计算环境中实现网络资源虚拟化的关键技术，其核心目标是通过共享底层物理网络基础设施，为多个独立租户（用户、企业或部门）提供逻辑隔离的专属网络环境，同时还要满足动态性、安全性和服务质量需求。

在传统软件项目中，服务商为客户专门开发一套特定的软件系统并部署在独立的环境中。此时不同客户间资源是绝对隔离的，不存在多租户共享问题。而在SaaS（Software as a Service，软件即服务）模式下，软件服务不再部署到客户的物理机环境而是部署到服务商提供的云端环境。在云端环境下一些资源共享成为了可能，这使不同客户可以共用一部分资源以达到高效利用资源的目的。

以公有云为例，云服务提供商所设计的应用系统会容纳数个以上的租户在同一个环境下使用。比如亚马逊公司就在其数据中心为上千个企业用户提供虚拟服务器，其中包括像Twitter以及华盛顿邮报等知名企业。同时可以按需启用或回收资源（如为华盛顿邮报每日定时（某个时段）分配200台服务器）；

那么问题来了，在提升资源利用率和降低成本的同时，多租户也面临数据隔离、性能干扰、安全风险和运维复杂度等各种挑战。现行的物理网络必须实现网络资源虚拟化，共享物理网络拓扑，并为多租户提供隔离的策略驱动的适应动态、快速部署的虚拟网络。

多租户网络的实现

Underlay 底层网络

Underlay 网络指的是物理网络设施，由交换机、光缆等网络硬件构成，负责底层数据的物理传输，运行高效的路由协议（如 BGP）实现互联，通常采用 Spine-Leaf 架构组网，负责提供提供稳定带宽、低延迟和高可靠性，这是多租户网络的基础。

Overlay 虚拟化网络技术

底层共享，逻辑独立：VPC（Virtual Private Cloud，虚拟私有云）基于Overlay技术（如VXLAN、GRE、Geneve）在共享的物理网络基础设施上构建租户专属的虚拟网络层。每个租户的流量通过隧道封装（如24位VXLAN标识VNI）隔离，即使物理网络相同，不同VPC的流量在逻辑上完全不可见。

通过BGP EVPN为不同租户构建独立的虚拟网络，支持灵活的业务扩展。

BGP EVPN（Border Gateway Protocol Ethernet Virtual Private Network）是一种结合了 BGP 协议和 EVPN 技术的标准化解决方案，主要用于构建大规模、高性能的二层（L2）和三层（L3）虚拟化网络，广泛应用于数据中心、云服务、多租户园区网络等场景。其核心目标是通过控制平面优化，实现高效的 MAC/IP 地址学习、灵活的多租户隔离和网络虚拟化。

维度	传统物理隔离	VPC逻辑隔离
资源粒度	整台物理设备独占（如独立交换机）	单台设备虚拟切割（共享硬件）
租户边界	VLAN划分（最多4094个）	Overlay虚拟网络（理论无限租户）
隔离机制	基于MAC/IP隔离	VxLAN/EVPN封装（租户ID标识）
扩展性	扩容需增购硬件	软件定义，秒级增减租户

传统物理隔离 vs VPC逻辑隔离

在通用云数据中心和智算中心，随着部署规模的增大，这些虚拟网络技术的配置和维护可能变得复杂，如果配置不规范，可能导致租户间冲突影响业务运行甚至严重的数据泄露。

如何在共享物理资源的前提下，确保每个租户的服务质量（QoS）？答案的核心在于智能化的网络性能监控体系。

多租户网络的运维挑战

租户差异化需求：不同租户需定制网络策略（如防火墙规则、VLAN划分），但共享底层资源时配置易冲突。例如，VLAN划分过细增加管理开销，过粗则引发跨租户干扰。
自动化程度低：依赖人工操作易出错，且缺乏统一标准。某电商平台需通过Intent-Based Networking策略实现故障路径自动切换，依赖API与SDN集成。
扩展性瓶颈：单一控制器需支持超10万监控对象，且需兼容VXLAN/Geneve等云网络协议，否则难以适应多云环境

多租户网络配置工具

想分享一款用于多租户网络的配置工具：EasyRoCE-MVD（Multi-Tenant VPC Deployer ）。MVD能帮助用户快速实现租户隔离，参数、存储、业务的多网联动和自动化部署。

EasyRoCE Toolkit 是星融元依托开源、开放的网络架构与技术，为AI 智算、超算等场景的RoCE网络提供的一系列实用特性和小工具，如一键配置RoCE，高精度流量监控等… 详情访问：https://asterfusion.com/easyroce/

根据配置脚本自动批量部署，支持图形化界面呈现配置细节并远程下发
MVD工具可独立运行在服务器上，也可以代码形式被集成到第三方管理软件

网络设计规划

首先是必不可少的网络规划，这一步需由工程师基于实际业务需求设计逻辑隔离，一般是采用 VLAN、VXLAN 技术划分虚拟网络，规划 IP 地址池及子网，避免地址冲突。VLAN 适合较小规模，而 VXLAN 扩展性更好，适合大规模部署。

作为示例，我们在EasyRoCE-AID（AI基础设施蓝图规划）工具引导下快速完成网络设计，并自动生成包含了以下信息的 JSON 配置文件(mvd.json) 作为 MVD 工具的输入。

自动生成配置

MVD 工具将解析上一步骤得到的JSON文件中的设备信息、BGP邻居信息，并为集群中的交换机生成对应配置。运行过程示例如下：

可视化呈现和远程下发

用户点进配置文件可看到配置下的具体信息，对其进行二次核对后再自行决定下一步操作，比如选择批量下发或针对某一设备单独下发。

多租户网络技术是云计算技术架构中的重要环节，并形成了一种新型的云计算服务模型：NaaS（网络服务）。位置等同于IaaS，PaaS及其SaaS。未来NaaS将会随着云计算技术的发展，而不断成熟，支撑服务于云计算的其他服务。

【拓展阅读】

云服务的形式

IaaS(Infrastructure-as-a-Service)：基础设施即服务。消费者通过Internet可以从完善的计算机基础设施获得服务。基于 Internet 的服务（如存储和数据库）是 IaaS的一部分。
PaaS(Platform-as-a-Service)：平台即服务。把服务器平台作为一种服务提供的商业模式。通过网络进行程序提供的服务称之为SaaS(Software as a Service)，而云计算时代相应的服务器平台或者开发环境作为服务进行提供就成为了PaaS。PaaS实际上是指将软件研发的平台作为一种服务，以SaaS的模式提交给用户。
SaaS(Software-as-a-Service)：软件即服务。它是一种通过Internet提供软件的模式，用户无需购买软件，而是向提供商租用基于Web的软件，来管理企业经营活动。

返回资源中心

近期文章

在长期服务于用户AI训练/推理生产网络的实践中，我们深刻观察到传统静态或简单度量（如跳数）的选路策略难以满足高性能AI集群网络的严苛要求。AI工作负载，特别是涉及大规模参数同步（如All-Reduce操作）和RDMA（如RoCEv2）流量时，对网络的带宽可用性、低延迟和极低抖动有着近乎极致的需求。

网络路径上的微小波动，如短暂拥塞导致的队列积压或转发延迟增加，都可能显著拖慢整个训练作业的完成时间，造成昂贵的算力资源浪费。

智能选路的路径质量如何判定？

为了从根本上优化AI流量的传输效率并最大化集群利用率，我们设计并实践了基于多维度网络状态感知的动态智能选路技术。该技术的核心创新在于，聚焦关键影响因子，摒弃单一指标，精准识别并引入在AI集群网络环境中对性能影响最为显著的动态参数作为核心计算因子：

实时带宽利用率：精确测量路径上关键链路的当前可用带宽。避免将高吞吐量的AI流量（如梯度同步）引导至已接近饱和的链路，防止拥塞崩溃和PFC反压风暴。
队列深度/使用情况：直接监控网络设备（交换机）出口队列的瞬时和平均深度。队列深度是拥塞的先行指标，深度过大意味着数据包排队等待时间（Bufferbloat）增加，直接导致传输延迟上升和抖动加剧，这对依赖确定性的RDMA和集合通信操作是致命的。
转发时延/延迟变化：不仅测量路径的基础传播延迟，更关键的是持续监测数据包转发处理延迟及其变化（抖动）。这反映了设备本身的处理能力和当前负载状态，高或波动的处理时延会破坏AI流量的同步性。

智能选路中的统计计数：ASIC赋能的高精度数据采集

在动态智能选路系统的实现中，带宽利用率与队列深度这两大关键指标的采集直接依赖于网络设备的ASIC硬件级能力。具体而言：

硬件级实时监测（百毫秒级精度）

ASIC芯片内置的硬件寄存器持续执行线速统计，对每个端口的字节转发计数（Byte Counter）和各优先级队列的缓存占用计数（Queue Depth Counter）进行原子级累加。这种基于硅片级电路的计数机制摆脱了软件轮询的延迟与性能开销，可实现百毫秒级精度的数据捕获，精准反映瞬时网络拥塞状态。

控制面高效采集（亚秒级同步）

运行于设备控制面的SONiC网络操作系统，通过标准化的SAI（Switch Abstraction Interface）接口以亚秒级周期（通常为500ms）主动读取ASIC寄存器的统计快照。此设计确保控制面能够近乎实时地感知转发芯片的状态变化，为动态选路提供高时效性数据输入。

流水线式数据处理与存储

采集的原始计数器数据通过以下高效流水线处理：

① 增量计算：SAI层将本次读数与上次读数做差，计算出时间窗口内的实际流量增量（ΔBytes）与队列深度变化值（ΔQueue-Occupancy）。
② Redis高速缓存：处理后的增量数据被写入内存数据库Redis的时序结构（TSDB）中，形成带时间戳的指标序列。此架构满足高吞吐、低延迟的数据存取需求，为后续分析提供支撑。

BGP宣告的优化设计（秒级间隔）

若按ASIC的亚秒级精度（如每100ms）通过BGP宣告路径质量，会导致控制面压力剧增，频繁生成和传输BGP Update消息，占用CPU和带宽资源。微秒级变化也可能触发不必要的路由更新，影响网络稳定性。所以，采用秒级间隔（例如每秒1次）向邻居发送BGP Update消息，携带加权平均后的路径质量值。路径质量通过BGP扩展社区属性（如Path Bandwidth Extended Community）传递，格式为浮点数（单位Gb/s）

纳秒级时延测量：INT与HDC技术负载均衡中的深度应用

转发时延计算因子基于INT（In-band Network Telemetry）技术，精度可达纳秒级。HDC（High Delay Capture）是一种能捕获ASIC中经历高延迟的数据包信息的INT技术。

INT硬件流水线实现原理

数据包进入交换机ASIC时，入口流水线在包头插入INT Shim头部，并记录精确入端口时间戳（基于芯片级高精度时钟，分辨率达纳秒级）。转发过程中，每个流水线阶段（如Ingress/Egress队列）实时追加时延元数据。包离开出口队列时，ASIC计算，此设计消除了交换机基础转发延迟的影响，仅保留队列排队时延这一关键变量。

HDC（高延迟捕获）技术深度解析

HDC是INT的功能扩展，专为捕捉网络中的尾延迟（Tail Latency）事件设计。只捕获超过用户预设阈值（如10μs）的异常延迟报文，实现靶向抓包而非全量监控。ASIC硬件实时比对报文时延与阈值——当报文在队列/缓存中的滞留时间超过阈值，立即触发抓取动作。并将原始数据包的前150字节连同INT元数据（包含出入端口、时延等关键信息）作为HDC数据包发送到收集器。

动态阈值触发机制

用户可基于业务需求设置多级延迟阈值（如：关键RDMA流：>5μs、普通TCP流：>50μs）
ASIC硬件实时比对每个包的实际队列时延与阈值，触发零拷贝抓包。

元数据结构化封装

HDC告警包包含两类关键信息：

原始包摘要：截取L2-L4层头部（150字节），保留五元组、TCP标志位等特征
INT元数据：

落地实践：AI RoCE交换机上的智能选路

动态智能选路技术在星融元交换机上开启HDC功能，并将CPU作为HDC的收集分析器，通过分析HDC报文实现高精度测量交换机转发时延，并将时延信息作为路径质量评价因子，提高路径质量评价精度。

命令行配置HDC功能控制INT进程运行，之后通过socket连接进行收包循环，将收取到的报文进行解析并将关键信息（出入端口、转发时延等）写入数据库。

返回资源中心

近期文章

在人工智能迅速发展的今天，大模型训练已成为推动技术进步的核心动力。然而，随着大模型规模的不断扩大和训练需求的增加，智算网络面临的挑战也日益严峻。网络作为连接计算集群的重要基础设施，其性能直接影响着AI训练的效率和效果。

智算网络的主流架构

目前智算网络的领域的两大主流架构：InfiniBand 和RoCEv2 在性能、成本、通用性等多个关键维度上展现出各自的优势，相互竞争。我们将细致分析这两种架构的技术特性、它们在 AI 智算网络中的应用场景，以及各自的优势和局限性。

InfiniBand

InfiniBand 网络主要通过子网管理器（Subnet Manager，简称 SM）来进行集中管理。SM 通常部署在子网内的某台服务器上，充当网络核心控制器。通过 SM 的集中控制，InfiniBand网络实现了拓扑发现、路径优化、故障恢复等功能的自动化，保障高性能与高可靠性。

InfiniBand网络架构示意图（来源：2023智算中心网络架构白皮书）

RoCEv2

RoCE（RDMA over Converged Ethernet）协议是一种能在以太网上进行 RDMA（Remote Direct Memory Access 远程内存直接访问）的集群网络通信协议。RoCEv1作为链路协议层，要求通信双方位于同一二层网络内。而RoCEv2 则为网络层协议，它采用以太网网络层和 UDP 传输层，取代了 InfiniBand 的网络层，从而提供了更为优秀的可扩展性。与 InfiniBand 网络的集中管理方式不同，RoCEv2 采用的是纯分布式架构，通常由两层构成，在扩展性和部署灵活性方面具有显著优势。

RoCEv2网络架构示意图（来源：2023智算中心网络架构白皮书）

智算网络中的负载均衡与流量控制

AI大模型时代下，数据中心与智算网络，如Spine-Leaf架构，拓扑规整，选路简易。就网络流量模式而言，GPU服务器间常存在多条并行路径，如Fat tree网络中会有数十条。

如何在这些路径中实现负载均衡路由，成为智算中心路由设计的核心挑战。

InfiniBand网络的负载均衡和流控机制

InfiniBand网络通过多层次技术协同，实现了高效的数据传输与资源管理。在负载均衡方面，子网管理器（SM）作为核心调度者，首先基于最短路径算法构建初始路由表，为流量分布奠定基础。尽管SM的动态路径优化能根据链路负载实时调整路径，但其对控制带宽和计算资源的消耗不容忽视。为进一步提升灵活性，自适应路由（AR）技术应运而生，允许交换机基于队列深度、拥塞情况等实时状态独立选择路径，既降低了延迟，又增强了网络可靠性。

然而，AR的动态特性可能导致数据包乱序，这需要上层协议或应用进行额外处理。为弥补单一路径的局限性，应用程序还可通过创建多个队列对（QP），利用硬件队列的并行传输能力分散流量，例如MPI库或Lustre存储中间件通过任务分配避免路径瓶颈，形成应用层与网络层的双重负载均衡。

负载均衡机制的高效运行，离不开底层流控机制的强力支撑。InfiniBand采用信用令牌（credit）系统，在每条链路上预设缓冲区，确保发送端仅在确认接收端资源充足时传输数据，从根本上避免了缓冲区溢出或丢包问题。与此同时，网络还结合逐包自适应路由技术，为每个数据包独立选择传输路径，实时响应拥塞、延迟等状态变化。这种细粒度的动态调整能力，不仅与信用令牌机制形成互补，更在超大规模网络中实现了资源的实时优化配置，使负载均衡从局部扩展到全局。

由此可见，InfiniBand通过负载均衡与流控机制的深度耦合，构建了一个兼具敏捷性、可靠性与扩展性的高性能网络架构。

RoCE网络的负载均衡和流控机制

图片引用自：公众号西北吹风

负载均衡技术

1、基于流（Flow-based）ECMP（Equal Cost Multi Path）是一种路由技术，用于在IP交换网络中实现负载均衡。即等价多路径路由，当存在多条到达同一个目的地址的相同开销的路径，网络设备按照自有的Hash根据流量N元组计算多路径下一跳。由于通用计算以“多流”、“小流”为主，能够实现较好的负载均衡效果。

当AIDC中的大象流连续到达交换机，传统Hash通常会将大象流集中在少数链路上传输，庞大的数据流占用相当大的带宽资源，导致传输链路发生拥塞，而其他链路上则处于空闲。这种Hash不均导致了链路负载不均，进而出现拥塞和时延加剧。

2、基于包（Packet based）随机包喷洒（Random Packet Spraying，RPS）是一种基于包级别的负载均衡策略。当交换机发现有多条等价路径指向同一目的地址时，RPS会将数据包以单个包为单位分散到这些路径上。与ECMP不同，RPS以数据包为单位进行操作，将同一流中的不同数据包转发到不同的等价路径上。

RPS的优点在于简单易实施，通过细粒度的负载均衡，可以在多条并行路径之间实现较为均衡的路由选择，提升端到端的网络吞吐率，可以将并行链路利用率提高到90%以上。缺点在于可能会造成同一个流的包乱序问题，所以这种方式必须要解决乱序问题。

3、基于流片（Flowlet）Flowlet是根据流中的“空闲”时间间隔将一个流划分为若干片段。在一个flowlet内，数据包在时间上紧密连续；而两个flowlet之间，存在较大的时间间隔。这一间隔远大于同一流分片内数据包之间的时间间隔，足以使两个流分片通过不同的网络路径传输而不发生乱序。

4、基于遥测的路由 为了将包、flowlet或整个流调度到不同的路径上，需要路由协议的控制。传统的路由协议，基于静态的网络信息来计算最优路径，如OSPF基于网络带宽计算最短路径，BGP根据AS-PATH长度计算ECMP等。这种控制与网络实际负载脱节，需要加以改进，星融元提出的基于遥测的路由（Int-based Routing）技术结合OSPF、BGP和在网遥测（INT）技术，为网络中任意一对节点之间计算多条路径，每个路径的开销是动态测量的延迟，从而能够根据实时的网络负载进行路由，从而充分利用每个路径的带宽。

流控机制

1、优先流控制（PFC）是一种逐跳流控策略，通过合理配置水位标记来充分利用交换机的缓存，以实现以太网络中的无丢包传输。当下游交换机端口的缓存过载时，该交换机就会向上游设备请求停止传输。已发送的数据则会存储在下游交换机的缓存中，等到缓存恢复正常，端口将会请求恢复数据包的发送，从而维持网络的流畅运行。

【参考白皮书：https://asterfusion.com/priority-based_flow_control_pfc/ 】

2、显式拥塞通知（ECN）定义了一种基于 IP 层和传输层的流量控制和端到端拥塞通知机制。通过在交换机上向服务器端传递特定拥塞信息，然后服务器端再发送至客户端通知源端降速从而实现拥塞控制的目的。

【参考技术手册：https://asterfusion.com/t20250416-ecn/ 】

3、数据中心量化拥塞通知（DCQCN）是显式拥塞通知（ECN）和优先流控制（PFC）两种机制的结合，旨在支持端到端的无损以太网通信。

对比项	InfiniBand	RoCEv2
流控机制	基于Credit的流控机制	PFC/ECN，DCQCN等
转发模式	基于Local ID转发	基于IP转发
负载均衡模式	逐包的自适应路由	ECMP方式路由、基于包（Packet based）、基于流片（Flowlet）、基于遥测的路由
故障恢复	Self-Healing Interconnect Enhancement for Intelligent Datacenters	路由收敛
网络配置	通过UFM实现零配置（按端口收费）	手工配置、或基于开放网络技术实现的 EasyRoCE

技术选型

根据前文我们了解到，InfiniBand和RoCEv2是两种支持RDMA的高性能网络协议，但其负载均衡机制在实现方式、性能和应用场景上存在显著差异：

InfiniBand依赖专用硬件和动态自适应路由，通过子网管理器实时优化路径，实现超低延迟和高吞吐，但成本高且扩展受限，适合HPC/AI等极致性能场景

RoCEv2基于以太网，采用静态ECMP哈希多路径分发，成本低、扩展性强，但依赖无损网络配置（如PFC/ECN），易受哈希不均影响，适合云数据中心等性价比优先场景。虽然RoCE还是很难应对大象流/老鼠流分布不均的影响，但是各厂家也在做各种努力尝试：

WCMP

结合前文，ECMP技术将包、Flowlet或整个流均匀的分布到多个路径上，很大程度上忽略了不同路径上的实际负载。为了进一步提升网络利用率。星融元采用加权代价多路径（Weighted Cost Multiple Path）算法，基于遥测获取的时延等信息，在时延更低的路径上调度更多的流量，在时延更高的路径上调度更少的流量，从而实现所有路径的公平利用。在理想情况下，流量经过不同路径的总时延是相等的，可充分利用所有可用带宽。

星融元CX864E等超级以太网交换机通过支持Flowlet、基于遥测的路由以及WCMP（加权代价多路径）三大创新技术，将AI训练和推理网络的利用率提升至90%以上，从而加速AI训练和推理过程，为AI数据中心进一步节省建设成本和运营成本。

【参考文档】

返回资源中心

	HPC	AI 训练
相似点	采用并行计算和可扩展的集群设计提高效率，要求大存储和大内存资源处理数据集，计算和存储节点使用高速网络（IB/RoCE）实现互联，资源分配和作业管理系统都依赖复杂的软件栈实现
算力硬件	主要是CPU、可能包括GPU或FPGA，但使用频率低于AI训练	GPU，以及专为AI优化的TPU
运算精度	FP64高精度计算	FP32、FP16，概率性的近似计算
流量模型	点对点的局部通信或邻居通信，多传递64B-16MB的小消息	大多是大规模集合通信，传递128MB以上大消息
数据管理	结构化的、模拟数据	非结构化数据
软件栈	MPI、OpenMP、科学计算数值库	TensorFlow、PyTorch
工作负载	紧密耦合的、同步的	迭代的、异步的

云化园区

网络操作系统（SONiC）

可视交换机

开放硬件平台

标签： 科普-数据中心

近期文章

演进基石：400G为800G铺平道路

核心突破：800G实现的技术关键

核心技术与标准

接口类型与扇出支持

如何选择适合的800G光模块？

未来展望：超越800G，迈向1.6T

最新动态

近期文章

400G时代：数据中心高速网络的演进

实现400G驱动因素与趋势

数据中心架构演进：从三层到Spine-Leaf

技术进展：推动400G实现

400G应用标准与部署方案

成本考量与未来展望

最新动态

近期文章

BFD加速的技术实现方式

硬件卸载

｜CPU的角色转变为“管理者”。它只负责初始配置，将会话参下发到硬件表项中。之后，只有在会话状态发生改变时（如从Up变为Down），硬件才会通过中断方式通知CPU。

内核旁路

｜类比理解​：这就像在邮局（操作系统）旁边开了一个专门的“加急包裹处理中心”（DPDK程序）。包裹不再进入拥挤的常规分拣系统（内核协议栈），而是在专用通道被快速处理，效率大大提升。

硬件BFD的优势

最新动态

近期文章

BFD 是什么？

BFD 要解决什么问题？

BFD的工作原理

BFD会话建立过程

BFD会话建立模式

BFD故障检测机制

当 OSPF 和 BFD 一起使用时，BFD会话建立

最新动态

近期文章

深入理解：与传统方式的对比

静态路由交换

自适应路由交换

自适应路由交换的关键机制都有哪些？

网络状态感知

路由决策

负载均衡

如何为每个Flowlet选择“最佳”路径？

工作流程示例

高效、无损的自适应路由：基于INT的Flowlet 负载均衡技术

最新动态

近期文章

什么是多租户网络？

多租户网络的实现

Underlay 底层网络

Overlay 虚拟化网络技术

多租户网络的运维挑战

多租户网络配置工具

网络设计规划

自动生成配置

可视化呈现和远程下发

最新动态

近期文章

智能选路的路径质量如何判定？

智能选路中的统计计数：ASIC赋能的高精度数据采集

硬件级实时监测（百毫秒级精度）

控制面高效采集（亚秒级同步）

流水线式数据处理与存储

BGP宣告的优化设计（秒级间隔）​

纳秒级时延测量：INT与HDC技术负载均衡中的深度应用

INT硬件流水线实现原理

HDC（高延迟捕获）技术深度解析

动态阈值触发机制

元数据结构化封装

落地实践：AI RoCE交换机上的智能选路

最新动态

近期文章

算力基础设施—AI 智算RoCE网络交换机

外观展示

内部架构

AI RoCE 交换机操作系统（AsterNOS）

标签：科普-数据中心

｜类比理解：这就像在邮局（操作系统）旁边开了一个专门的“加急包裹处理中心”（DPDK程序）。包裹不再进入拥挤的常规分拣系统（内核协议栈），而是在专用通道被快速处理，效率大大提升。

BGP宣告的优化设计（秒级间隔）