Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

标签: 科普-数据中心

800G光模块选型指南

近期文章


800G实现之路并非一蹴而就,而是建立在400G的坚实技术基础之上,并通过持续的创新来应对新的挑战。本文将从技术驱动、核心突破、部署挑战及未来展望等方面,勾勒出800G实现的技术演进路径。

演进基石:400G为800G铺平道路

800G并非一次革命性的跳跃,而是400G技术的自然演进与扩展。其技术根基深深植根于当前400G的成熟体系。

  • PAM4编码的延续与强化:400G广泛应用的四级脉冲幅度调制(PAM4)技术,通过在每个信号符号中承载2比特信息,将NRZ编码的效能翻倍,是实现单通道50G/100G速率的关键。800G将继续沿用并深化PAM4技术,将单通道速率提升至100G,从而通过8个通道实现8x100G=800G的总速率。对PAM4信号更高效的调制和更精确的信号完整性管理,是演进的核心。
  • 可插拔收发器架构的演进:400G时代成熟的QSFP-DD(双密度)和OSFP(可插拔)等封装形式,为800G提供了物理基础。这些高密度、可插拔的接口标准,通过增加通道数量或提升单通道速率,能够平滑地支持800G光模块的设计,保护了用户在基础设施上的投资。
  • 光纤基础设施的提前布局:800G及未来的1.6T应用将推动对Base-16 MTP连接的需求。这意味着,当前为400G部署的、支持Base-8或Base-12的布线系统,需要为更高速率做好向更高光纤芯数升级的准备。提前规划高性能OM4/OM5多模或OS2单模光纤布线,是通往800G的必经之路。

核心突破:800G实现的技术关键

在400G的基础上,实现800G仍需一系列关键技术的突破。了解800G收发器的核心技术参数,下面这个表格汇总了主流类型的核心规格。

收发器标准接口类型扇出支持光纤类型传输距离光纤芯数连接器
800G-SR8IEEE 802.3ck及相关MSAQSFP-DD800, OSFP支持OM3/OM4/OM5(多模)≤ 100m (OM4/OM5)16 (8Tx + 8Rx)16F/24F MTP
800G-DR8IEEE 802.3ck及相关MSAQSFP-DD800, OSFP支持单模500m8(4Tx+4Rx)12F/16F MTP
800G-2FR4/FR4IEEE 802.3ck及相关MSAQSFP-DD800, OSFP支持单模2km2(1Tx+1Rx)双工LC/单芯的CS
800G-LR4IEEE 802.3ck及相关MSAQSFP-DD800, OSFP支持单模10km2(1Tx+1Rx)双工 LC
800G ZR/ZR+OIF Implementation AgreementsQSFP-DD支持单模80km-120km以上(ZR+Pro)2(1Tx+1Rx)双工 LC

核心技术与标准

800G以太网由 IEEE 802.3ck工作组标准化,其物理层基础建立在 PAM4(4级脉冲幅度调制)技术上。PAM4每个符号周期可传输2个比特,使单通道100Gbps的速率得以实现,从而聚合达到800G的总带宽。

在硬件机械规格和互联互通性方面,则由多个MSA组织制定关键规范。其中,QSFP-DD800外形是当前主流,它在QSFP-DD基础上增强,优化信号完整性和散热,并保持向后兼容性。OSFP外形略大,散热能力更优,为800G及更高速率设计。

对于超长距离传输,OIF制定的 800G ZR标准采用相干光学技术,实现在一对光纤上传输800G信号至80公里以上 。

接口类型与扇出支持

800G光模块的物理接口和连接器选择与传输方案紧密相关。

  • 并行光学接口:如SR8和DR8,采用多根光纤并行传输。SR8使用16芯多模光纤,适用于极短距离;DR8使用8芯单模光纤,传输距离可达500米。它们通常使用MPO多芯连接器。
  • 波分复用接口:如FR4和LR4,采用波分复用技术将多个波长信道复用到一对光纤中传输,极大节省光纤资源。它们使用常见的双工LC连接器,传输距离分别为2公里和10公里 。
  • 扇出功能:这是800G收发器提升网络灵活性的关键特性。它允许将一个高速端口拆分为多个低速端口使用,实现网络资源的按需分配和平滑升级 。

如何选择适合的800G光模块?

1、数据中心内部(短距)

  • 机柜内或相邻机柜(≤100米):优先考虑800G SR8(多模)或超低功耗的800G LPO AOC(多模)。若布线受限,也可使用800G AOC有源光缆。
  • 机房内不同模块间(500米):800G DR8 或 800G DR4 是经济高效的选择。

2、数据中心园区互联(中长距)

  • 2公里距离:800G FR4(双纤双向)或 800G DR8+ 都能满足要求。
  • 10公里距离:可以选择 800G DR8++ 模块。

3、数据中心互连/DCI(长距):对于40公里甚至80公里的超长距离互联,则需要采用800G相干光模块技术。

未来展望:超越800G,迈向1.6T

800G只是一个驿站。技术演进的下一个目标是1.6T(1600G)。其实现路径可能有两种

  1. 通道数量翻倍:在800G的8通道基础上,通过16个100G通道实现1.6T,但这将需要更复杂的32芯光纤连接,挑战难度可想而知。
  2. 单通道速率再提升:开发下一代200G PAM4 per lane技术,通过8个200G通道实现1.6T。这将是对芯片和材料科学的终极考验。

在800G数据中心时代,RoCE交换机以其卓越的设计,完美呼应了技术演进的核心需求。我们基于QSFP112-DD可插拔的模块架构,为客户提供从400G平滑升级的路径。通过强化PAM4信号完整性管理,确保单通道100G的稳定性能。

返回资源中心

最新动态

为何需要400G?驱动数据中心升级的关键因素

近期文章


400G时代:数据中心高速网络的演进

在当今数字浪潮中,企业数据中心开始在交换机上行链路中采用100G速率,然而行业标准已经为400G应用铺平道路,相关网络设备也已投入市场。尽管对多数企业而言,实现这一高速率仍需一些时间过度,但超大规模云服务提供商已经加速推进,不仅定义了市场方向,推动技术进步,更将在未来几年内将高速应用渗透至企业领域。

事实上,这些行业引领者正将目光投向800G,并致力于发展光通信技术,为未来1.6T乃至3.2T速率铺路。

实现400G驱动因素与趋势

数据中心已成为组织核心运营的基石。全球数字化进程持续推动对更高带宽的需求,以支持日益增长的数据流量。据预测,到2025年,数据中心流量将突破180ZB (注:1 ZB的数据相当于10亿TB或1万亿GB)。为应对这一增长,Frost & Sullivan预计到2025年,数据中心市场的投资将达4320亿美元。

Statista 2021

以下关键因素正推动400G需求上升:

  • 数字化转型与新兴应用:企业数字化进程及新兴应用的普及,推动云数据中心对400G的需求。远程办公、在线交易和视频流媒体等应用显著增加了云服务使用量。2020年第一季度云支出增长25%,而传统IT市场则下降3%。据思科预测,到2021年底,94%的工作负载将在云环境中运行;Gartner则预计,到2025年,公共云服务支出将接近7000亿美元。

Synergy Research Group

  • 新兴应用对数据的需求:传媒行业采用未压缩的高分辨率视频格式(如RedCode Raw),使文件大小急剧增加。智能建筑和工业4.0计划推动物联网设备数量在2025年超过300亿台。虚拟现实、人工智能、机器学习、自动驾驶及高频交易等应用要求极低延迟和高速连接。医疗影像、远程医疗及金融科技进一步增加对带宽的依赖。5G移动技术、边缘计算、虚拟化和软件定义网络(SDN)正重塑数据中心架构,要求高性能连接。

Studio Post,AJA Data Calc, 4K Shooters Fredrik Lonn

数据中心架构演进:从三层到Spine-Leaf

传统三层架构

为适应东西向数据流和低延迟需求,数据中心也从传统的三层架构向Spine-Leaf架构演进。在Spine-Leaf架构中,每一台leaf交换机都连接到每一台spine交换机,减少了数据传输过程中虚拟服务器间的交换机跳数,并显著降低了延迟,同时当服务器A需要与服务器B“通讯”时,还可提供下图所示更好的冗余性。

二层Spine-Leaf架构

进一步地,超级Spine架构通过二级Spine互联多个Spine-Leaf网络,实现模块化扩展,支持数据中心互联(DCI),满足大规模云服务需求。同时,边缘数据中心的兴起为5G和实时应用提供本地数据处理,推动对400G连接的需求,以聚合数据并回传至核心云数据中心。

SuperSpine

技术进展:推动400G实现

多项技术进步为400G提供了技术与经济可行性

  • PAM4编码:比传统NRZ编码比特率翻倍,支持每通道25G、50G和100G速率,为25G至800G的演进提供高效路径。
  • 可插拔收发器:QSFP-DD和OSFP等接口支持8通道50G传输,实现400G应用,并兼容多种多模和单模光纤。
  • 光通信技术:短波分复用(SWDM)等技术可在单芯多模光纤上以多个波长传输数据,减少光纤数量。新型低功耗单模收发器则支持500米传输,适应数据中心短距离需求。
  • 网卡速率也从10G逐步升级至25G、50G乃至100G,支持高度虚拟化、低延迟的环境需求。

400G应用标准与部署方案

IEEE已制定多种400G标准,涵盖多模和单模应用,如下表所示:

收发器标准接口类型核心技术扇出支持光纤类型距离(米)光纤芯数连接器
400G-SR8IEEE 802.3cmQSFP-DD, OSFP50G PAM4/通道支持OM3/OM4(多模)70 (OM3) / 100 (OM4)16 (8Tx+8Rx)16F/24F MTP
400G-SR4(主流)IEEE 802.3dbQSFP-DD, OSFP100G PAM4/通道支持OM4/OM5 (多模) 100(OM4)/150(OM5 )8(4Tx+4Rx)12F/16F MTP
400G-SR4.2(400G-BIDI)IEEE 802.3cm/ MSA QSFP-DD,BiDi/SWDM / MWDM支持OM3/OM4/OM570/100/1502( (1根双向光纤对)双工LC/单芯的CS
400G-DR4IEEE 802.3bsQSFP-DD,OSFP100G PAM4/通道支持OS2(单模)5008(4Tx+4Rx)8F/12F MTP
400G-FR4IEEE 802.3bs/ MSA (CWDM4)QSFP-DD,OSFP100G PAM4/通道不支持OS2(单模)20002(1Tx+1Rx)LC 双工接口
400G QSFP-DD DAC/AOC/QSFP-DD//铜缆/有源光缆≤3m (DAC) / ≤100m (AOC)

在查阅表格时,理解以下几个核心概念能帮你更好地做出选择:

  • 接口命名规则:后缀中的字母代表传输距离(如SR:短距,DR:500米,FR:2公里,LR:10公里),数字代表光通道数量。例如,FR4表示传输距离2公里、有4个光通道。
  • PAM4调制技术:这是实现400G速率的关键。与传统的NRZ(非归零)编码相比,PAM4每个信号周期可以传输2个比特,使有效数据速率翻倍,但也对链路质量要求更高。
  • 扇出(Breakout)功能:这是400G收发器的一个重要特性,允许将一个高速端口拆分为多个低速端口使用。例如,一个400G-SR8端口可以拆分为4个独立的100G链路,这对于网络平滑升级和连接不同速率的设备非常有用。

为优化端口利用率和交换机密度,扇出设计可将400G端口拆分为4个100G或8个50G连接。Base-8 MTP连接系统支持即插即用部署,替代传统的模块盒与跳线方案。

在企业数据中心中,交换机至服务器链路可通过DAC(直连铜缆)、AOC(有源光缆)或结构化布线实现。

成本考量与未来展望

400G部署需根据具体需求权衡,多模方案通常成本较低,但短距离单模方案因大规模应用已显著降价,在某些场景下更具吸引力。

尽管400G已成为现实,但技术演进并未止步。IEEE Beyond 400Gb/s研究组正致力于800G标准,目标包括在8对多模光纤上支持100米传输,在单模光纤上支持500米至2千米传输。1.6T标准也在制定中,超大规模云服务商正通过多源协议(MSA)推动相关技术发展。

每一项新技术都伴随挑战与选择,无论数据中心的规模与类型如何,星融元作为开放网络先行者与推动者,提供从10G到400G及更高速率的全面解决方案与专业服务,助力企业网络实现平滑演进。

本文基于西蒙白皮书《通往400G之路》整理,内容仅供参考。

返回资源中心

最新动态

为什么说硬件BFD是现代高性能网络的必备能力?

近期文章


在前文中,我们深入探讨了BFD(双向转发检测)的工作原理。它通过在网络设备间建立会话、周期性地发送毫秒级检测报文,为OSPF、VRRP等上层协议提供了前所未有的快速故障检测能力。

然而,一个关键问题随之而来:当网络规模急剧扩张、链路数量激增时,数以千计的BFD会话所带来的CPU中断和处理负载,是否会变为新的“性能瓶颈”?

这是 BFD Acceleration(BFD加速) 要解决的核心问题,核心思路是让BFD报文的收发和状态维护不再完全依赖设备的中央处理器(CPU)。目标在于:在维持毫秒级检测精度的同时,极大地降低CPU占用率,并支持大规模BFD会话的稳定运行。

BFD Acceleration主要通过以下几种关键技术路径实现,并由此带来了显著的性能提升。

BFD加速的技术实现方式

硬件卸载

这是最高效的BFD加速方式,也称硬件BFD。通常在高性能交换机和路由器中实现。实现原理:

  • BFD会话配置下发:控制面初始化BFD会话配置,并通过SDK将参数(检测间隔、传输间隔、接收间隔、远端IP等)下发至转发芯片。
  • 报文处理​:芯片硬件直接识别BFD协议报文(通常为UDP封装),并直接从数据面发出。CPU不再参与每个报文的处理。收到对端发来的BFD报文后,由本地芯片直接处理,并进行会话状态判断 (Up, Down, Init等),更新本地BFD会话状态。
  • 检测结果回报控制面​:一旦链路异常或报文超时未收到,转发芯片会将BFD状态变更信息上报给控制面(如出发路由切换)。
|CPU的角色转变为“管理者”。它只负责初始配置,将会话参下发到硬件表项中。之后,只有在会话状态发生改变时(如从Up变为Down),硬件才会通过中断方式通知CPU。

内核旁路

这种方式常见于基于通用服务器(x86)的NFV(网络功能虚拟化)环境,使用如DPDK(Data Plane Development Kit)​ 或FD.io VPP 等技术。实现原理​:

  • 初始化与环境设置:在用户空间直接轮询网卡,绕过操作系统内核复杂的协议栈和中断处理机制。
  • 数据包接收:使用专用的高性能用户态轮询驱动,直接从网卡收发报文,避免了内核上下文切换和内存拷贝的开销。
  • 虽然BFD状态机仍在CPU上运行,但由于报文处理效率极高,单个CPU核心可以支撑的数万级会话,且延迟和抖动远低于内核处理。
|类比理解​:这就像在邮局(操作系统)旁边开了一个专门的“加急包裹处理中心”(DPDK程序)。包裹不再进入拥挤的常规分拣系统(内核协议栈),而是在专用通道被快速处理,效率大大提升。

硬件BFD的优势

当前,CX-N数据中心交换机的硬件BFD特性已支持与BGP、QSPF、ISIS、VRRP协议联动,相较于软件BFD,硬件BFD有如下优势:

对比维度软件BFD硬件BFD
检测间隔通常>=100ms(太低易误报)可支持3ms-50ms,满足低时延网络需求
抖动容忍度易受系统调度、CPU负载波动影响受控制面负载影响极小,检测更加稳定
会话数量上限受限于CPU和线程管理能力,规模较小由硬件表项决定,可支持上千个会话大规模部署
CPU占用率占用主控CPU资源,密集检测会显著增加负载由硬件offload,主控几乎零负载
误报风险高,系统繁忙时易误判会话down低,判断由硬件完成,时延抖动影响小
调试与可控性可通过软件灵活调试和打印调试信息调试接口依赖芯片SDK或驱动,调试复杂
部署适用性适合中小规模网络,或对检测间隔不敏感的场景适合大规模、低时延要求场景,如骨干、IDC、金融网络

在大型数据中心、5G核心网、运营商骨干网中为每一条路由或每一个服务部署BFD成为可能,实现真正的全网级快速故障检测。

硬件BFD已从一项高级功能演变为现代高性能网络设备的必备能力。它解决了BFD技术在大规模应用中的核心矛盾,是连接BFD“快速检测理念”与“现网规模化部署”之间的关键桥梁。选择具备强大BFD加速能力的网络设备,是构建面向未来、既智能又坚韧的高可靠网络基础设施的基石。

返回资源中心

最新动态

BFD 故障检测机制详解

近期文章


BFD 是什么?

BFD (Bidirectional Forwarding Detection)的是双向转发检测。是一种用于检测两个转发引擎之间路径故障的标准化全网统一检测机制。该机制能够为上层应用提供毫秒级检测服务,并实现链路的快速故障检测。通过BFD检测到链路故障后,上层协议可以采取措施及时纠正故障。

BFD 要解决什么问题?

随着网络应用日益广泛,对网络的可靠性要求越来越高。为减少设备故障对业务的影响,要尽可能缩短故障检测时间,从而触发保护倒换,确保业务快速恢复。现有路由协议(如OSPF、IS-IS)或冗余网关协议(如VRRP)的故障检测时间通常在秒级,难以满足关键业务的高可靠性要求。BFD能提供毫秒级故障检测,并与其他协议联动,实现业务的快速切换。

BFD的工作原理

BFD通过建立会话,在系统之间周期性地发送BFD数据包。若某一方在指定时间内未收到对端响应,即判定会话状态为”Down”(即检测到路径故障)。 本节从三个维度描述BFD的工作原理:BFD会话建立过程、BFD会话建立模式和BFD故障检测机制。

BFD会话建立过程

BFD会话具有以下状态:Down(关闭)、Init(初始化)、Up(已建立)和AdminDown(管理性关闭)。BFD报文中的State字段指示会话状态。系统根据本地会话状态和接收到的对端会话状态来更改会话状态。

  • Down:初始状态或链路故障状态。
  • Init:初始化状态,表示BFD会话正在建立。
  • Up:正常状态,表示链路正常。
  • AdminDown(管理性关闭):BFD会话被管理性关闭。

BFD状态机实现了用于BFD会话建立或删除的三次握手,以确保两个系统检测到状态变化。下图显示了BFD会话的建立过程,以描述状态机的转换过程。

BFD

会话建立过程

BFD会话建立模式

“BFD会话建立模式”指的是在两个设备之间创建和初始化一个BFD会话所采用的具体方法。它主要定义了关键的会话参数(尤其是标识符)是如何被确定和交换的。BFD会话可以通过静态或动态模式建立。静态和动态BFD会话的区别在于本地和远程鉴别符的配置方式不同。

  • 静态建立BFD会话参数,包括本地和远程鉴别符,在CLI上手动指定。BFD会话建立请求手动分发。
  • 动态建立当动态建立BFD会话时,系统按以下方式处理本地和远程鉴别。

动态分配的本地鉴别符:当上层协议(如OSPF)发现邻居并需要BFD进行检测时,它会通知BFD模块,BFD模块自动生成一个本地标识符。

自学习的远程鉴别符:通过自我学习获得。初始建立时,设备发送的BFD报文中“远程标识符”字段为0,表示“请告诉我你的本地标识符”。对端设备收到后,会回复包含自己本地标识符的报文。这样,双方就学习到了对方的标识符。

BFD故障检测机制

两个网络设备建立一个 BFD 会话以监控它们之间的路径并服务于上层应用程序。BFD 不提供邻居发现。相反,BFD 从其服务的上层应用程序获取邻居信息。两个设备建立 BFD 会话后,它们周期性地相互发送 BFD 数据包。如果一个设备在设定的时间限制内未收到响应,则该设备认为转发路径存在故障。然后 BFD 将此故障通知上层协议。

BFD

当 OSPF 和 BFD 一起使用时,BFD会话建立

在上图中,SwitchA 和 SwitchB 上都配置了 OSPF 和 BFD,建立 BFD 会话的过程如下:1OSPF 使用 Hello 机制发现邻居并建立邻居关系。2OSPF 将邻居信息(包括源地址和目的地址)通知给 BFD。3BFD 根据接收到的邻居信息建立会话。4BFD 会话建立后,BFD 开始监控链路并对任何链路故障做出快速响应。

BFD

上图中,1被监控的链路发生故障。2BFD 快速检测到链路故障并将 BFD 会话状态更改为 Down。3BFD 通知本地 OSPF 进程该邻居不可达。4本地 OSPF 进程终止 OSPF 邻居关系。
数据中心和运营商网络中交换机作为核心转发设备,承担着数据包的高速转发、VLAN划分、流量控制等关键功能。它的稳定性和可靠性直接决定了整个网络的性能和业务的连续性。其中支持的高可靠性BFD通过与路由协议(如OSPF、IS-IS)、网关协议(如VRRP)等联动,能够在毫秒级内检测到链路或设备故障,并立即触发保护切换,确保业务流量不会因单点故障而中断。

返回资源中心

最新动态

基于INT与Flowlet的自适应路由:提升数据中心性能的关键

近期文章


自适应路由交换是一种智能的网络数据转发技术。它能够让网络设备(如路由器、交换机)实时地根据当前网络的状况(如链路拥堵、故障),自动地、动态地为数据包选择一条最优的传输路径。

深入理解:与传统方式的对比

自适应路由交换也可以称为“动态路由交换”,为了更好地理解“自适应”,我们先来了解一下什么是静态路由交换。

静态路由交换

工作方式:网络管理员手动配置好固定的路径。比如,命令数据从A到B必须经过路径C ( A -> C -> B)

  • 优点:不消耗设备计算资源。
  • 缺点:不灵活。如果路径中的C点发生故障或者严重拥堵,数据包依然会“固执地”试图走这条路径,导致通信中断或延迟,直到管理员手动修改配置。

它是构建中小型网络或特定网络区域的经典、可靠且低成本的方法。但在大型、动态的网络中,通常会被动态路由协议所取代或补充。

自适应路由交换

工作方式:网络设备之间会运行动态路由协议(如 OSPF, BGP 等)。这些协议会让设备互相通信,告知彼此自己所连接的链路状态、带宽、延迟等信息。每个设备都会根据这些信息,建立一个“网络地图”。

  • 优点:灵活、智能、高可靠性,容错率高当某条链路中断时,设备能立刻从“地图”上发现,并在毫秒级内自动将数据流转发到其他可用路径。可以同时利用多条路径来传输数据,避免单条链路拥堵,提升整体网络效率。
  • 缺点:配置相对复杂,设备需要消耗计算资源来运行路由算法和交换信息。

自适应路由交换的关键机制都有哪些?

网络状态感知

只有准确感知网络状态,才能实现自适应的路由选择。

队列深度:交换机会持续监控其输出端口的队列长度。队列长度是衡量拥塞程度的最直接、最简单的指标。

  • 链路利用率:通过监控端口在特定时间窗口内的实际流量与理论带宽的比值来衡量。这有助于了解链路的负载情况,为路由决策提供依据。
  • 带内网络遥测(INT):这是一种先进的感知机制。数据包在传输过程中会“携带”路径上各节点的状态信息,如延迟、队列深度等。http://asterfusion.com/a20250424-int-based-routing/
  • 显式拥塞通知(ECN):当交换机队列超过设定的阈值时,它会在经过的数据包头部打上标记。这是一种间接的、端到端的感知机制,通过这种方式,发送端可以根据拥塞情况调整发送速率,避免进一步加重拥塞。https://asterfusion.com/blog20250923-ecn/

总的来说,网络状态感知通过以上几种方式,为自适应路由交换系统提供了全面、准确的网络状态信息。

路由决策

根据感知到的信息决定数据包的走向。

  • 集中式决策:一个中央控制器收集全网信息,计算最优路径,并将流表下发给交换机。
  • 分布式决策:每个交换机基于本地信息和来自邻居交换机的有限信息(如通过PFC暂停帧或特定信令传递的信息),自主地做出路由决策不需要依赖中央控制器。

负载均衡

它是决定如何将流量分配到不同路径上的关键部分,通常有以下几种方式:

解锁AI数据中心潜力:网络利用率如何突破90%?

  • 逐流负载均衡:传统的 ECMP 路由通常采用逐流负载分担机制,其核心是基于数据包的特征字段(例如 IP 五元组等信息)作为计算因子去进行哈希运算,根据哈希值选择转发链路。
  • 逐包负载均衡:逐包的负载均衡技术则是将数据包均匀地负载到各条链路上,又被形象地称为“数据包喷洒”(Packet Spray)。问题在于逐包负载均衡无法保证报文依照原有时序到达接收端。
  • Flowlet负载均衡:不同于传统负载均衡的逐流负载分担或逐包负载分担,基于子流的负载均衡不光是对数据流进行分割以实现更精细均匀的负载分担,而且保持了报文到达的时序性。是目前最主流的先进机制。

如何为每个Flowlet选择“最佳”路径?

Flowlet

这就是INT发挥作用的地方了。

与传统通过SNMP轮询或NetFlow采样不同,INT直接将测量指令和数据嵌入到正在转发的数据包中。

  • 数据包在进入网络时被“植入”一个INT头部。
  • 当该数据包经过每个支持INT的网络设备(交换机)时,设备会将自己的信息(如入口/出口时间戳、队列深度、链路利用率等)写入到这个数据包的INT头部中。
  • 最终,接收端或网络边缘设备可以将这些信息收集起来,形成一个精确的、逐跳的路径状态视图。

工作流程示例

  1. 主机A开始向主机B发送一个TCP流。
  2. 第一个数据包被标记INT,它经过路径 Switch1 -> Switch2 -> Switch4,并在INT头中记录了这条路径上各交换机的队列深度。
  3. INT信息被发送到控制器。控制器发现Switch2到Switch4的链路队列很长。
  4. 此时,TCP流出现了一个短暂的间隙(Flowlet边界)。
  5. 当下一个数据包(属于第二个Flowlet)到达Switch1时,控制器已经计算出一条新的、不拥塞的路径:Switch1 -> Switch3 -> Switch4。
  6. Switch1将所有属于第二个Flowlet的数据包都转发到Switch3。
  7. 后续的Flowlet会重复此过程,始终选择当前最优的路径。

配图

高效、无损的自适应路由:基于INT的Flowlet 负载均衡技术

技术优点缺点
自适应路由动态避障,高网络利用率容易导致数据包乱序,损害TCP性能
Flowlet细粒度负载均衡,天然避免乱序路由决策依赖准确、及时的网络状态信息
INT提供精确、实时、逐跳的网络状态信息增加数据包开销,需要硬件支持
CX-N系列RoCE交换机 支持基于INT的Flowlet非常先进的数据中心网络负载均衡技术,它巧妙地结合了三者的优势:
  • 利用 Flowlet 解决了自适应路由的乱序问题。
  • 利用 INT 为Flowlet路由提供了精准、及时的决策依据。
最终实现了高效、无损的自适应路由,显著提升了大规模数据中心网络的性能。

返回资源中心

最新动态

多租户网络运维破局:自动化配置实战

近期文章


什么是多租户网络?

多租户网络(Multi-Tenant Network)是一种在云计算环境中实现网络资源虚拟化的关键技术,其核心目标是通过共享底层物理网络基础设施,为多个独立租户(用户、企业或部门)提供逻辑隔离的专属网络环境,同时还要满足动态性、安全性和服务质量需求。

在传统软件项目中,服务商为客户专门开发一套特定的软件系统并部署在独立的环境中。此时不同客户间资源是绝对隔离的,不存在多租户共享问题。而在SaaS(Software as a Service,软件即服务) 模式下,软件服务不再部署到客户的物理机环境而是部署到服务商提供的云端环境。在云端环境下一些资源共享成为了可能,这使不同客户可以共用一部分资源以达到高效利用资源的目的。

以公有云为例,云服务提供商所设计的应用系统会容纳数个以上的租户在同一个环境下使用。比如亚马逊公司就在其数据中心为上千个企业用户提供虚拟服务器,其中包括像Twitter以及华盛顿邮报等知名企业。同时可以按需启用或回收资源(如为华盛顿邮报每日定时(某个时段)分配200台服务器);

那么问题来了,在提升资源利用率和降低成本的同时,多租户也面临数据隔离、性能干扰、安全风险和运维复杂度等各种挑战。现行的物理网络必须实现网络资源虚拟化,共享物理网络拓扑,并为多租户提供隔离的策略驱动的适应动态、快速部署的虚拟网络。

seo图

多租户网络的实现

拓扑

Underlay 底层网络

Underlay 网络指的是物理网络设施,由交换机、光缆等网络硬件构成,负责底层数据的物理传输,运行高效的路由协议(如 BGP)实现互联,通常采用 Spine-Leaf 架构组网,负责提供提供稳定带宽、低延迟和高可靠性,这是多租户网络的基础。

Overlay 虚拟化网络技术

底层共享,逻辑独立:VPC(Virtual Private Cloud,虚拟私有云)基于Overlay技术(如VXLAN、GRE、Geneve)在共享的物理网络基础设施上构建租户专属的虚拟网络层。每个租户的流量通过隧道封装(如24位VXLAN标识VNI)隔离,即使物理网络相同,不同VPC的流量在逻辑上完全不可见。

通过BGP EVPN为不同租户构建独立的虚拟网络,支持灵活的业务扩展。

BGP EVPN(Border Gateway Protocol Ethernet Virtual Private Network)是一种结合了 BGP 协议 和 EVPN 技术 的标准化解决方案,主要用于构建大规模、高性能的 二层(L2)和三层(L3)虚拟化网络,广泛应用于数据中心、云服务、多租户园区网络等场景。其核心目标是通过控制平面优化,实现高效的 MAC/IP 地址学习、灵活的多租户隔离和网络虚拟化。
维度传统物理隔离VPC逻辑隔离
资源粒度整台物理设备独占(如独立交换机)单台设备虚拟切割(共享硬件)
租户边界VLAN划分(最多4094个)Overlay虚拟网络(理论无限租户)
隔离机制基于MAC/IP隔离VxLAN/EVPN封装(租户ID标识)
扩展性扩容需增购硬件软件定义,秒级增减租户
传统物理隔离 vs VPC逻辑隔离

在通用云数据中心和智算中心,随着部署规模的增大,这些虚拟网络技术的配置和维护可能变得复杂,如果配置不规范,可能导致租户间冲突影响业务运行甚至严重的数据泄露。

如何在共享物理资源的前提下,确保每个租户的服务质量(QoS)?答案的核心在于智能化的网络性能监控体系。

多租户网络的运维挑战

  • 租户差异化需求​:不同租户需定制网络策略(如防火墙规则、VLAN划分),但共享底层资源时配置易冲突。例如,VLAN划分过细增加管理开销,过粗则引发跨租户干扰。
  • 自动化程度低​:依赖人工操作易出错,且缺乏统一标准。某电商平台需通过Intent-Based Networking策略实现故障路径自动切换,依赖API与SDN集成。
  • 扩展性瓶颈​:单一控制器需支持超10万监控对象,且需兼容VXLAN/Geneve等云网络协议,否则难以适应多云环境

多租户网络配置工具

想分享一款用于多租户网络的配置工具:EasyRoCE-MVD(Multi-Tenant VPC Deployer )。MVD能帮助用户快速实现租户隔离,参数、存储、业务的多网联动和自动化部署。

EasyRoCE Toolkit 是星融元依托开源、开放的网络架构与技术,为AI 智算、超算等场景的RoCE网络提供的一系列实用特性和小工具,如一键配置RoCE,高精度流量监控等… 详情访问:https://asterfusion.com/easyroce/

  • 根据配置脚本自动批量部署,支持图形化界面呈现配置细节并远程下发
  • MVD工具可独立运行在服务器上,也可以代码形式被集成到第三方管理软件

网络设计规划

首先是必不可少的网络规划,这一步需由工程师基于实际业务需求设计逻辑隔离,一般是采用 VLAN、VXLAN 技术划分虚拟网络,规划 IP 地址池及子网,避免地址冲突。VLAN 适合较小规模,而 VXLAN 扩展性更好,适合大规模部署。

作为示例,我们在EasyRoCE-AID(AI基础设施蓝图规划)工具引导下快速完成网络设计,并自动生成包含了以下信息的 JSON 配置文件(mvd.json) 作为 MVD 工具的输入。

aid

自动生成配置

MVD 工具将解析上一步骤得到的JSON文件中的设备信息、BGP邻居信息,并为集群中的交换机生成对应配置。 运行过程示例如下:

配置过程

可视化呈现和远程下发

配置远程下发

用户点进配置文件可看到配置下的具体信息,对其进行二次核对后再自行决定下一步操作,比如选择批量下发或针对某一设备单独下发。

mvd

批量下发配置

多租户网络技术是云计算技术架构中的重要环节,并形成了一种新型的云计算服务模型:NaaS(网络服务)。位置等同于IaaS,PaaS及其SaaS。未来NaaS将会随着云计算技术的发展,而不断成熟,支撑服务于云计算的其他服务。

【拓展阅读】

云服务的形式

  • IaaS(Infrastructure-as-a-Service):基础设施即服务。消费者通过Internet可以从完善的计算机基础设施获得服务。基于 Internet 的服务(如存储和数据库)是 IaaS的一部分。
  • PaaS(Platform-as-a-Service):平台即服务。把服务器平台作为一种服务提供的商业模式。通过网络进行程序提供的服务称之为SaaS(Software as a Service),而云计算时代相应的服务器平台或者开发环境作为服务进行提供就成为了PaaS。PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。
  • SaaS(Software-as-a-Service):软件即服务。它是一种通过Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。

返回资源中心

最新动态

智算网络路径质量三要素:带宽/队列/时延在智能选路中的协同优化

近期文章


在长期服务于用户AI训练/推理生产网络的实践中,我们深刻观察到传统静态或简单度量(如跳数)的选路策略难以满足高性能AI集群网络的严苛要求。AI工作负载,特别是涉及大规模参数同步(如All-Reduce操作)和RDMA(如RoCEv2)流量时,对网络的带宽可用性、低延迟和极低抖动有着近乎极致的需求。

网络路径上的微小波动,如短暂拥塞导致的队列积压或转发延迟增加,都可能显著拖慢整个训练作业的完成时间,造成昂贵的算力资源浪费。

智能选路的路径质量如何判定?

为了从根本上优化AI流量的传输效率并最大化集群利用率,我们设计并实践了基于多维度网络状态感知的动态智能选路技术。该技术的核心创新在于,聚焦关键影响因子,摒弃单一指标,精准识别并引入在AI集群网络环境中对性能影响最为显著的动态参数作为核心计算因子:

  • 实时带宽利用率:精确测量路径上关键链路的当前可用带宽。避免将高吞吐量的AI流量(如梯度同步)引导至已接近饱和的链路,防止拥塞崩溃和PFC反压风暴。
  • 队列深度/使用情况: 直接监控网络设备(交换机)出口队列的瞬时和平均深度。队列深度是拥塞的先行指标,深度过大意味着数据包排队等待时间(Bufferbloat)增加,直接导致传输延迟上升和抖动加剧,这对依赖确定性的RDMA和集合通信操作是致命的。
  • 转发时延/延迟变化: 不仅测量路径的基础传播延迟,更关键的是持续监测数据包转发处理延迟及其变化(抖动)。这反映了设备本身的处理能力和当前负载状态,高或波动的处理时延会破坏AI流量的同步性。

智能选路中的统计计数:ASIC赋能的高精度数据采集

在动态智能选路系统的实现中,带宽利用率与队列深度这两大关键指标的采集直接依赖于网络设备的ASIC硬件级能力。具体而言:

硬件级实时监测(百毫秒级精度)

ASIC芯片内置的硬件寄存器持续执行线速统计,对每个端口的字节转发计数(Byte Counter) 和各优先级队列的缓存占用计数(Queue Depth Counter) 进行原子级累加。这种基于硅片级电路的计数机制摆脱了软件轮询的延迟与性能开销,可实现百毫秒级精度的数据捕获,精准反映瞬时网络拥塞状态。

控制面高效采集(亚秒级同步)

运行于设备控制面的SONiC网络操作系统,通过标准化的SAI(Switch Abstraction Interface)接口以亚秒级周期(通常为500ms) 主动读取ASIC寄存器的统计快照。此设计确保控制面能够近乎实时地感知转发芯片的状态变化,为动态选路提供高时效性数据输入。
统计计数

流水线式数据处理与存储

采集的原始计数器数据通过以下高效流水线处理:

  • ① 增量计算:SAI层将本次读数与上次读数做差,计算出时间窗口内的实际流量增量(ΔBytes)与队列深度变化值(ΔQueue-Occupancy)。
  • ② Redis高速缓存:处理后的增量数据被写入内存数据库Redis的时序结构(TSDB)中,形成带时间戳的指标序列。此架构满足高吞吐、低延迟的数据存取需求,为后续分析提供支撑。

BGP宣告的优化设计(秒级间隔)​

若按ASIC的亚秒级精度(如每100ms)通过BGP宣告路径质量,会导致控制面压力剧增,频繁生成和传输BGP Update消息,占用CPU和带宽资源。微秒级变化也可能触发不必要的路由更新,影响网络稳定性。所以,采用秒级间隔​(例如每秒1次)向邻居发送BGP Update消息,携带加权平均后的路径质量值。路径质量通过BGP扩展社区属性​(如Path Bandwidth Extended Community)传递,格式为浮点数(单位Gb/s)

纳秒级时延测量:INT与HDC技术负载均衡中的深度应用

转发时延计算因子基于INT(In-band Network Telemetry)技术,精度可达纳秒级。HDC(High Delay Capture)是一种能捕获ASIC中经历高延迟的数据包信息的INT技术。

INT硬件流水线实现原理

数据包进入交换机ASIC时,入口流水线在包头插入INT Shim头部,并记录精确入端口时间戳(基于芯片级高精度时钟,分辨率达纳秒级)。转发过程中,每个流水线阶段(如Ingress/Egress队列)实时追加时延元数据。包离开出口队列时,ASIC计算,此设计消除了交换机基础转发延迟的影响,仅保留队列排队时延这一关键变量。

HDC(高延迟捕获)技术深度解析

HDC是INT的功能扩展,专为捕捉网络中的尾延迟(Tail Latency) 事件设计。只捕获超过用户预设阈值(如10μs)的异常延迟报文,实现靶向抓包而非全量监控。ASIC硬件实时比对报文时延与阈值——当报文在队列/缓存中的滞留时间超过阈值,立即触发抓取动作。并将原始数据包的前150字节连同INT元数据(包含出入端口、时延等关键信息)作为HDC数据包发送到收集器。

INT

动态阈值触发机制

  • 用户可基于业务需求设置多级延迟阈值(如:关键RDMA流:>5μs、普通TCP流:>50μs)
  • ASIC硬件实时比对每个包的实际队列时延与阈值,触发零拷贝抓包。

元数据结构化封装

HDC告警包包含两类关键信息:

  • 原始包摘要:截取L2-L4层头部(150字节),保留五元组、TCP标志位等特征
  • INT元数据:

hdc

落地实践:AI RoCE交换机上的智能选路

动态智能选路技术在星融元交换机上开启HDC功能,并将CPU作为HDC的收集分析器,通过分析HDC报文实现高精度测量交换机转发时延,并将时延信息作为路径质量评价因子,提高路径质量评价精度。

HDC

命令行配置HDC功能控制INT进程运行,之后通过socket连接进行收包循环,将收取到的报文进行解析并将关键信息(出入端口、转发时延等)写入数据库。

RoCE交换机

返回资源中心

最新动态

推理性能提升30%?RoCE vs InfiniBand实测数据大揭秘!

近期文章


在人工智能与大数据技术爆发的时代,算力基础设施的革新成为驱动产业升级的核心引擎。作为 AI 数据中心网络架构的关键枢纽,800G 智能交换机正以其极致的性能、灵活的扩展性和智能化的管理能力,重新定义高速网络的标准。

本文将深度解析 AI 智算场景打造的800G AI RoCE交换机,从外部规格的硬件创新到内部架构的芯片级设计,从企业级操作系统的功能突破到实测数据的性能验证,全方位展现其如何通过领先的技术架构破解 AI 训练与推理中的网络效率瓶颈,助力数据中心在高带宽、低延迟、高可靠性的需求下实现算力资源的最优配置。

算力基础设施—AI 智算RoCE网络交换机

外观展示

这款 800G AI 智能交换机在配备了 64 个 800G OSFP 网络接口,能够支持25G/50G/100G/200G/400G 等多种速率,可灵活适配不同的网络环境需求。

配图

管理接口提供了 RJ45 MGMT Port、USB 2.0 Port 以及 RJ45 Console Port,为设备的管理和配置提供了丰富的选择。还具备 2 个 10G 端口,可作为 INT 端口用于其他管理功能,为设备的扩展应用提供了可能。

交换机设有 6 个 LED 指示灯,左侧的 LED 指示灯(LINK/ACT)用于展示管理口的网络链路状态和数据活动情况,右侧的 LED 指示灯(SYS)则显示系统整体状态,此外还有 BMC(面板管理控制器状态)、P(电源模块状态)、F(风扇模块状态)和 L(定位指示灯,用于维护期间识别设备),通过这些指示灯,运维人员可以快速了解设备的运行状况。

采用 1+1 热插拔电源设计,每个电源额定功率 3200W,且符合 80Plus 钛金能效标准,确保了设备供电的稳定和高效。同时,配备 3+1 个热插拔风扇模块,为设备的散热提供了可靠保障。

内部架构

配图

采用了 Marvell Teralynx 10 ASIC(以下简称TL10),这是一款 5 纳米单芯片可编程处理器,能提供 51.2Tbps 带宽和约 560 纳秒的端口转发时延,在业内处于领先水平。更详细的内部架构请参见:51.2T 800G AI智算交换机软硬件系统设计全揭秘

散热设计上,采用 3D 均热风冷散热,这种高效的风冷设计使系统在 2180W 满负荷运行时仍能有效控制温度和噪音,即便在高负荷使用状态下,风扇转速仅为 60%,保证了设备的稳定运行和良好的工作环境。

精确时间协议 PTP 模块支持热插拔,PTP 和 SyncE 同步精度高达 10 纳秒,为对时间同步要求高的应用场景提供了有力支持。

COMe 模块由 x86 英特尔至强处理器和 AsterNOS 驱动,为先进的数据中心 / 人工智能路由提供智能控制平面。面板管理控制器(BMC)模块采用可插拔式设计,适用于模块化、可升级的带外管理,支持性能升级扩展,增强了设备的可扩展性和灵活性。

AI RoCE 交换机操作系统(AsterNOS)

基于企业级SONiC的增强特性

  • 超高速以太网优化:通过动态流量整形和优先级队列技术,实现网络利用率超90%,较传统以太网提升30%。
  • AI场景专属功能:flowlet级负载均衡:根据GPU集群负载动态分配流量,减少数据拥塞。INT+WCMP路由:结合带内遥测与加权多路径算法,训练任务延迟降低20.4%,token生成速率提升27.5%。

配图

  • EasyRoCE EasyRoCE 是星融元依托开源、开放的网络架构与技术,为AI 智算、高性能计算等场景的RDMA 融合以太网(RoCE)提供的一系列实用特性和小工具。从前期规划实施到日常运维监控, EasyRoCE 简化了各环节的复杂度并改善了操作体验,更提供二次开发和集成空间,供网络架构师充分利用开放网络的最新技术成果。(RE)RoCE Exporter:以容器的方式运行在AsterNOS网络操作系统内,从运行AsterNOS的交换机设备上导出RoCE网络相关监控指标(到自定义HTTP端口),供统一监控平台进行可视化呈现。

  • 接口收发带宽和速率
  • RoCE、PFC、ECN、DSCP配置状态信息
  • 拥塞控制信息(ECN标记包,PFC帧数等)
  • 队列Buffer信息
  • ……

企业版 SONiC vs 社区版

SONiCSONiCSONiC

AsterNOS 同时支持 Linux Bash 和思科风格命令行界面(Klish),这种双风格命令行界面帮助网络工程师轻松适应并快速部署,提升了操作的便利性和效率。

AsterNOS

800G 数据中心交换机(TL10平台)实测数据

实测数据

CX864E-N蛇形吞吐测试

实测数据

CX864E-N的端口转发时延

实测数据展示了该交换机在不同测试场景下的出色表现,各项指标均达到较高水平,验证了其性能的稳定性和可靠性。

DeepSeek模型推理指标对比:IB vs RoCE

  • 推理时延:90% token 间隔延迟,指 90% token 间隔时间的最大值,用以衡量模型连续生成 token 的稳定性和连贯性。推理时延越低,系统的稳定性越高。
  • Token 平均生成速率(Token Generation Rate):单位为 token 每秒(tokens/s)。反映了模型推理的整体吞吐能力,TGR 越高,表示系统单位时间内处理能力越强。

推理时延

Token生成速率

与IB网络场景下数据对比可见,星融元RoCEv2组网,推理时延明显优于IB,token 连贯性更好;token生成速度、中文字符速度明显优于IB。

800G AI智能交换机通过硬件革新与AsterNOS软件协同,为AI算力集群与超大规模数据中心提供“高吞吐、低时延、易运维”的一站式解决方案。其模块化设计、企业级SONiC支持及RoCEv2性能优势,正加速AI基础设施向开放解耦、智能高效的下一代架构演进。

返回资源中心

最新动态

InfiniBand与RoCEv2负载均衡机制的技术梳理与优化实践

近期文章


在人工智能迅速发展的今天,大模型训练已成为推动技术进步的核心动力。然而,随着大模型规模的不断扩大和训练需求的增加,智算网络面临的挑战也日益严峻。网络作为连接计算集群的重要基础设施,其性能直接影响着AI训练的效率和效果。

智算网络的主流架构

目前智算网络的领域的两大主流架构:InfiniBand 和RoCEv2 在性能、成本、通用性等多个关键维度上展现出各自的优势,相互竞争。我们将细致分析这两种架构的技术特性、它们在 AI 智算网络中的应用场景,以及各自的优势和局限性。

InfiniBand

InfiniBand 网络主要通过子网管理器(Subnet Manager,简称 SM)来进行集中管理。SM 通常部署在子网内的某台服务器上,充当网络核心控制器。通过 SM 的集中控制,InfiniBand网络实现了拓扑发现、路径优化、故障恢复等功能的自动化,保障高性能与高可靠性。

Infiniband 架构

InfiniBand网络架构示意图(来源:2023智算中心网络架构白皮书)

RoCEv2

RoCE(RDMA over Converged Ethernet)协议是一种能在以太网上进行 RDMA(Remote Direct Memory Access 远程内存直接访问)的集群网络通信协议。RoCEv1作为链路协议层,要求通信双方位于同一二层网络内。而RoCEv2 则为网络层协议,它采用以太网网络层和 UDP 传输层,取代了 InfiniBand 的网络层,从而提供了更为优秀的可扩展性。与 InfiniBand 网络的集中管理方式不同,RoCEv2 采用的是纯分布式架构,通常由两层构成,在扩展性和部署灵活性方面具有显著优势

RoCEv2 架构

RoCEv2网络架构示意图(来源:2023智算中心网络架构白皮书)

智算网络中的负载均衡与流量控制

AI大模型时代下,数据中心与智算网络,如Spine-Leaf架构,拓扑规整,选路简易。就网络流量模式而言,GPU服务器间常存在多条并行路径,如Fat tree网络中会有数十条。

如何在这些路径中实现负载均衡路由,成为智算中心路由设计的核心挑战。

InfiniBand网络的负载均衡和流控机制

InfiniBand网络通过多层次技术协同,实现了高效的数据传输与资源管理。在负载均衡方面,子网管理器(SM)作为核心调度者,首先基于最短路径算法构建初始路由表,为流量分布奠定基础。尽管SM的动态路径优化能根据链路负载实时调整路径,但其对控制带宽和计算资源的消耗不容忽视。为进一步提升灵活性,自适应路由(AR)技术应运而生,允许交换机基于队列深度、拥塞情况等实时状态独立选择路径,既降低了延迟,又增强了网络可靠性。

然而,AR的动态特性可能导致数据包乱序,这需要上层协议或应用进行额外处理。为弥补单一路径的局限性,应用程序还可通过创建多个队列对(QP),利用硬件队列的并行传输能力分散流量,例如MPI库或Lustre存储中间件通过任务分配避免路径瓶颈,形成应用层与网络层的双重负载均衡。

负载均衡机制的高效运行,离不开底层流控机制的强力支撑。InfiniBand采用信用令牌(credit)系统,在每条链路上预设缓冲区,确保发送端仅在确认接收端资源充足时传输数据,从根本上避免了缓冲区溢出或丢包问题。与此同时,网络还结合逐包自适应路由技术,为每个数据包独立选择传输路径,实时响应拥塞、延迟等状态变化。这种细粒度的动态调整能力,不仅与信用令牌机制形成互补,更在超大规模网络中实现了资源的实时优化配置,使负载均衡从局部扩展到全局。

由此可见,InfiniBand通过负载均衡与流控机制的深度耦合,构建了一个兼具敏捷性、可靠性与扩展性的高性能网络架构。

RoCE网络的负载均衡和流控机制

RoCE负载均衡机制

图片引用自:公众号西北吹风

负载均衡技术

1、基于流(Flow-based)ECMP(Equal Cost Multi Path)是一种路由技术,用于在IP交换网络中实现负载均衡。即等价多路径路由,当存在多条到达同一个目的地址的相同开销的路径,网络设备按照自有的Hash根据流量N元组计算多路径下一跳。由于通用计算以“多流”、“小流”为主,能够实现较好的负载均衡效果。

当AIDC中的大象流连续到达交换机,传统Hash通常会将大象流集中在少数链路上传输,庞大的数据流占用相当大的带宽资源,导致传输链路发生拥塞,而其他链路上则处于空闲。这种Hash不均导致了链路负载不均,进而出现拥塞和时延加剧。

2、基于包(Packet based)随机包喷洒(Random Packet Spraying,RPS)是一种基于包级别的负载均衡策略。当交换机发现有多条等价路径指向同一目的地址时,RPS会将数据包以单个包为单位分散到这些路径上。与ECMP不同,RPS以数据包为单位进行操作,将同一流中的不同数据包转发到不同的等价路径上。

RPS的优点在于简单易实施,通过细粒度的负载均衡,可以在多条并行路径之间实现较为均衡的路由选择,提升端到端的网络吞吐率,可以将并行链路利用率提高到90%以上。缺点在于可能会造成同一个流的包乱序问题,所以这种方式必须要解决乱序问题。

3、基于流片(Flowlet)Flowlet是根据流中的“空闲”时间间隔将一个流划分为若干片段。在一个flowlet内,数据包在时间上紧密连续;而两个flowlet之间,存在较大的时间间隔。这一间隔远大于同一流分片内数据包之间的时间间隔,足以使两个流分片通过不同的网络路径传输而不发生乱序。

Flowlet

4、基于遥测的路由 为了将包、flowlet或整个流调度到不同的路径上,需要路由协议的控制。传统的路由协议,基于静态的网络信息来计算最优路径,如OSPF基于网络带宽计算最短路径,BGP根据AS-PATH长度计算ECMP等。这种控制与网络实际负载脱节,需要加以改进,星融元提出的基于遥测的路由(Int-based Routing)技术结合OSPF、BGP和在网遥测(INT)技术,为网络中任意一对节点之间计算多条路径,每个路径的开销是动态测量的延迟,从而能够根据实时的网络负载进行路由,从而充分利用每个路径的带宽。

负载均衡机制

流控机制

1、优先流控制(PFC)是一种逐跳流控策略,通过合理配置水位标记来充分利用交换机的缓存,以实现以太网络中的无丢包传输。当下游交换机端口的缓存过载时,该交换机就会向上游设备请求停止传输。已发送的数据则会存储在下游交换机的缓存中,等到缓存恢复正常,端口将会请求恢复数据包的发送,从而维持网络的流畅运行。

【参考白皮书:https://asterfusion.com/priority-based_flow_control_pfc/

2、显式拥塞通知(ECN)定义了一种基于 IP 层和传输层的流量控制和端到端拥塞通知机制。通过在交换机上向服务器端传递特定拥塞信息,然后服务器端再发送至客户端通知源端降速从而实现拥塞控制的目的。

【参考技术手册:https://asterfusion.com/t20250416-ecn/

3、数据中心量化拥塞通知(DCQCN)是显式拥塞通知(ECN)和优先流控制(PFC)两种机制的结合,旨在支持端到端的无损以太网通信。

对比项InfiniBandRoCEv2
流控机制基于Credit的流控机制PFC/ECN,DCQCN等
转发模式基于Local ID转发基于IP转发
负载均衡模式逐包的自适应路由ECMP方式路由、基于包(Packet based)、基于流片(Flowlet)、基于遥测的路由
故障恢复Self-Healing Interconnect Enhancement for Intelligent Datacenters路由收敛
网络配置通过UFM实现零配置(按端口收费)手工配置、或基于开放网络技术实现的 EasyRoCE

技术选型

根据前文我们了解到,InfiniBand和RoCEv2是两种支持RDMA的高性能网络协议,但其负载均衡机制在实现方式、性能和应用场景上存在显著差异:

InfiniBand依赖专用硬件和动态自适应路由,通过子网管理器实时优化路径,实现超低延迟和高吞吐,但成本高且扩展受限,适合HPC/AI等极致性能场景

RoCEv2基于以太网,采用静态ECMP哈希多路径分发,成本低、扩展性强,但依赖无损网络配置(如PFC/ECN),易受哈希不均影响,适合云数据中心等性价比优先场景。虽然RoCE还是很难应对大象流/老鼠流分布不均的影响,但是各厂家也在做各种努力尝试:

WCMP

结合前文,ECMP技术将包、Flowlet或整个流均匀的分布到多个路径上,很大程度上忽略了不同路径上的实际负载。为了进一步提升网络利用率。星融元采用加权代价多路径(Weighted Cost Multiple Path)算法,基于遥测获取的时延等信息,在时延更低的路径上调度更多的流量,在时延更高的路径上调度更少的流量,从而实现所有路径的公平利用。在理想情况下,流量经过不同路径的总时延是相等的,可充分利用所有可用带宽。

星融元CX864E等超级以太网交换机通过支持Flowlet、基于遥测的路由以及WCMP(加权代价多路径)三大创新技术,将AI训练和推理网络的利用率提升至90%以上,从而加速AI训练和推理过程,为AI数据中心进一步节省建设成本和运营成本。

800G 51.2T

【参考文档】

返回资源中心

最新动态

HPC集群网络测试和IB/RoCE交换机性能对比

HPC集群架构和通信流量特征

HPC 集群由多个联网的高速算力服务器组成,广泛使用CPU-CPU的多节点并行计算,并结合GPU、FPGA加速器的异构计算进一步提升性能。节点之间通过高速网络互联完成实时通信,并有一个集中式的管理节点来管理并行计算工作负载。HPC领域专注于解决复杂的科学问题、完成各类场景模拟等任务,与之相关的仿真和模拟技术对计算精度要求极高,通常采用双精度浮点运算(FP64)。

从方法论的角度来看,AI和HPC都是借助并行计算提高运算效率,并通过可扩展设计(Scale-up或Scale-out方向)来适应不断增加的工作负载。但对比AI集群中的大规模集合通信,HPC流量模型多为点对点的局部通信或邻居通信,传递64B-128MB的小消息,主要是对时延极其敏感——例如电磁仿真、流体动力学和汽车碰撞等计算场景高度依赖各节点间的工作协调、计算同步以及信息高速传输。

当然也有相对数据密集型的场景,如气象预报、基因测序、图形渲染和能源勘探等,计算节点在处理大量数据的同时又产生了大量中间数据,虽然也需要较高的网络吞吐量,但与AI训练不在一个量级。(🔗一文揭秘AI智算中心网络流量 – 大模型训练篇

下表简单总结了HPC集群与AI智算集群的的联系与区别:

HPCAI 训练
相似点采用并行计算和可扩展的集群设计提高效率,要求大存储和大内存资源处理数据集,计算和存储节点使用高速网络(IB/RoCE)实现互联,资源分配和作业管理系统都依赖复杂的软件栈实现
算力硬件主要是CPU、可能包括GPU或FPGA,但使用频率低于AI训练GPU,以及专为AI优化的TPU
运算精度FP64高精度计算FP32、FP16,概率性的近似计算
流量模型点对点的局部通信或邻居通信,多传递64B-16MB的小消息大多是大规模集合通信,传递128MB以上大消息
数据管理结构化的、模拟数据非结构化数据
软件栈MPI、OpenMP、科学计算数值库TensorFlow、PyTorch
工作负载紧密耦合的、同步的迭代的、异步的

无论是在AI智算还是HPC,或是二者的融合,业界已普遍采用RDMA技术的内核旁路机制大幅降低了服务器侧的I/O时延。而为了切实提高集群生产效率,应用RDMA需同时建立端到端的超低时延无损网络,目前两大主流路线是Infiniband与RoCEv2。前者为专有协议,需要专用硬件搭建专网,后者则在IB基础上改进了报文格式,使其支持在以太网上传输,关于两种协议栈的详细对比可参考(RoCE与IB对比分析(一):协议栈层级篇

选择IB还是RoCEv2已是老生常谈的话题了,IB因其属于是RDMA原生的协议,由Mellanox/NVIDIA独家供应的IB交换机可提供极致性能,但RoCEv2在互操作性和带宽成本上优势明显,且随着开放网络技术的快速迭代,基于SONiC的高性能以太网交换机的端到端通信效率也可做到IB相当,甚至局部超越。

星融元产品
星融元CX-N系列超低时延交换机

HPC网络性能测试方案设计

围绕HPC业务的实际要求和当前市场关注的IB替代问题,我们构建了面向典型HPC场景的网络测试,在同一测试环境下,部署同等规格速率的Mellanox IB和星融元的RoCE交换机(32 x 100G)互为对照。测试项目包括转发测试、MPI基准测试、Linpack基准测试和HPC应用测试。

HPC-test-topo

完成基础环境部署后(步骤见附录),我们在服务器Centos7.8系统下切换Mellanox InfiniBand卡的工作模式,确保两台服务器上的网卡工作模式正确对应被测交换机(IB或RoCE)

端到端转发时延测试

测试两款交换机在相同拓扑E2E(End to End)场景下的转发时延和带宽。采用Mellanox IB发包工具进行发包,测试遍历2~8388608字节。星融元交换机的E2E表现与IB交换机基本持平,带宽利用率与IB同为96%左右,两者时延差异保持在纳秒级。

MPI基准测试

MPI是一种消息传递接口,用于实现在多个计算节点之间进行并行计算和数据通信。MPI的核心思想是通过发送和接收消息进行节点间的数据交换,实现分布式计算的目标。

MPI提供了一系列的并行计算函数,如任务分发、结果收集和同步操作等,以及消息传递函数,如发送消息、接收消息和广播以实现高效的数据通信。通过合理地设计数据通信模式,可以避免数据冗余和通信瓶颈,提高计算效率。此外,MPI还提供进程管理函数来控制进程的创建、销毁、通信等。

MPI基准测试使用OSU Micro-Benchmark工具MPI run方式测试网卡直连和通过两台交换机的端到端时延。星融元RoCE交换机与IB交换机的端到端性能基本一致,时延差异保持在纳秒级

LinPack基准测试

Linpack现在在国际上已经成为最流行的用于测试高性能计算机系统浮点性能的Benchmark,通过高斯消元法求解N元一次稠密线性代数方程组,评价HPC的浮点运算性能。算力使用效率=实际峰值/理论峰值*100%,其中理论峰值来自于服务器的规格参数,即主频率*核心数*每周期浮点运算次数。在测试环境下,星融元RoCE交换机与IB交换机的LinPack效率基本一致

HPC 应用测试

WRF(天气研究和预报模型)、LAMMPS(大尺度原子/分子并行模拟工具)和VASP(维也纳全始计算模拟包)分别是气象预报、分子动力学、量子化学领域的专用工具。测试结果为被测设备和对照组完成一次相同计算任务所需时间,最终结果取连续进行三次测试的平均用时。

星融元RoCE交换机组网条件下完成一次相同计算任务的平均用时与使用IB交换机组网的用时基本相当,两者差异在0.5%~3%之内。

附录:基础环境配置

网卡MLNX_OFED驱动程序安装

检查网卡及网卡驱动状态

HPC基础环境

MPI Benchamarks工具安装

HPC 应用测试的基础环境需要在Server服务器上完成编译器的安装以及基础环境变量的配置,在Server服务器上安装第三方库以及完成zlib、libpng、mpich、jasper和netcdf软件的编译,并对依赖库进行测试。具体参考各类工具官方文档。

交换机和服务器上的配置参考

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2