Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

星融元与焱融科技AI分布式存储软硬件完成兼容性互认证

近期文章


近日,星融元 CX-N 系列超低时延交换机(25G/100G/200G/400G/800G)与焱融科技的 AI 分布式存储软硬件产品完成兼容性测试。双方产品兼容性良好,运行稳定,性能优异,能够为用户提供值得信赖的高性能分布式存储解决方案,满足其在复杂计算场景中的高效需求。

互认证
科技发展日新月异,计算、网络、存储作为现代数据基础设施的三大支柱,日益成为企业业务和 IT 规划的核心考量。特别是在人工智能(AI)和高性能计算(HPC)场景中,AI/ML 应用对底层基础设施提出了更高要求,如高吞吐量、低时延和无损数据传输等。然而,在智算集群、超算集群等计算集群的部署中,先进芯片并不能直接等同于先进算力的实现。先进算力的发挥遵循着 “木桶效应”,即真正的先进算力是计算、存储和网络三个核心环节深度协同的结果。任何一个环节出现短板,都将导致整体系统性能的严重下滑。

焱融科技和星融元,分别作为专业、领先的 AI 存储服务提供商和开放网络解决方案提供商,致力于提供高带宽、低延时、高可靠的数据存储与传输解决方案,为 AI 和 HPC 等高性能工作负载提供坚实支撑,保障先进算力的高效释放,加速企业创新成果落地。

焱融科技自主研发的高性能分布式并行文件系统 YRCloudFile,不断贴近用户业务进行性能优化,满足用户业务中大文件、小文件全流程高带宽、低延迟需求。公司推出的软硬一体化全闪存储一体机已在 AI 大模型、智算中心、自动驾驶、金融量化、教育科研等领域头部企业的业务环境中得到了广泛应用。

星融元 CX-N 系列超低时延交换机,面向 AI/ML 智算中心和云计算数据中心提供一站式全开放网络解决方案,以其构建的超低时延无损以太网,通过 RDMA 技术在以太网上的实现,帮助高性能计算方案突破网络瓶颈,为计算集群提供低时延、零丢包、高性能的网络环境。

CX-N系列产品
此次,星融元与焱融科技完成产品兼容性认证,通过各自在网络和存储领域技术实力的整合,为行业带来新的高性能存储与网络解决方案,消除数据访问与传输的性能瓶颈,充分释放计算潜能。同时,还为用户提供了更具灵活性的多元网络选择,助力企业在快速发展的 AI 时代占得先机。

未来,随着 AI/ML 技术的不断发展及大模型 Scaling law 的继续演进,高性能分布式存储解决方案的需求将持续攀升。星融元将继续与焱融科技等合作伙伴深化技术协同,为用户提供具备更加卓越性能、更高效可靠的现代化 AI 智算基础设施,共同赋能 AI 时代前行发展。

返回资源中心

最新动态

揭秘超以太网联盟(UEC)1.0 规范最新进展(2024Q4)

近期文章


近期,由博通、思科、Arista、微软、Meta等国际顶级半导体、设备和云厂商牵头成立的超以太网联盟(UEC)在OCP Global Summit上对外公布其最新进展——UEC规范1.0的预览版本。让我们一睹为快吧!
配图1

UEC 旨在提出一种“升级版”的以太网通信协议栈用以应对AI智算、HPC等领域对RDMA网络的性能挑战——当前大规模计算节点互联场景下主要有InfiniBand和基于以太网协议的RoCE两大技术路线。有关IB和RoCE协议栈的详尽对比可参阅:

高性能网络传输:RoCE与IB协议栈对比解析

相比较为封闭的IB架构,以太网在互操作性和带宽成本上的优势已在市场层面得到了广泛认可,尤其是大规模的AI算力中心场景。当前全球TOP500的超级计算机中RoCE和IB的占比相当,以端口带宽总量计算,IB占比为39.2%,RoCE已达48.5%。

尽管IB和RoCE在高性能传输的拥塞控制、QoS皆有应对设计,但也暴露出一些缺陷。例如乱序需要重传、不够完美的负载分担、Go-back-N问题,DCQCN 部署调优复杂等等。

面向GPU Scale-out网络的UEC 1.0 规范从软件API、运输层到链路层以及网络安全和拥塞控制皆有涉及,较传统RDMA网络有了大量改进,我们将挑出重点介绍。

配图2
 

什么是超级以太网系统

一个超级以太网系统的组成如下。一个集群(Cluster)由节点(Node)和网络(Fabric)组成,节点通过网卡(Fabric Interface)连接到网卡,一个网卡中可以有多个逻辑的网络端点(Fabric End Point,FEP)。网络由若干平面(Plane)组成,每个平面是多个FEP的集合,通常通过交换机互联。

配图3
 

超以太网协议栈概览

配图4

▣ 物理层与传统以太网完全兼容,可选支持FEC(前向纠错)统计功能

▣ 链路层可选支持链路层重传(LLR),并支持包头压缩,为此扩展了LLDP的协商能力

▣ 网络层依然是IP协议,没有变化

▣ 传输层是全新的,作为UEC协议栈的核心数据包传输子层(Packet Delivery)和消息语义子层(Message Semantics)。包传输子层实现新一代拥塞控制、灵活的包顺序等功能,消息语义子层支持xCCL和MPI等消息。可选支持安全传输。另外,在网集合通信(In Network Collective,INC)也在这一层实现

 软件API层。提供UEC扩展的Libfabrics 2.0

物理层

UEC 1.0规范下的物理层与传统以太网(符合IEEE802.3标准)完全兼容,支持每通道100Gbps和200Gbps速率,在此基础上实现800Gbps和更高的端口速率。

另外可选支持物理层性能指标统计功能(PHY metrics)。这些指标基于 FEC 码字进行计算,不受流量模式和链路利用率的影响。估计算法基于FEC错误计数器的数据,从而得出不可纠正错误率(UCR )和数据包错误平均间隔(MTBPE)。这些指标衡量了物理层的传输性能和可靠性,用于上层的遥测和拥塞控制等。为了支持新的 UEC 链路层功能,UEC规范中也对协调子层(RS)进行了相应的修改。

链路层

UEC链路层最大的变化是引入了LLR(Link Level Retry)协议。它可以让以太网不依赖PFC,实现无损传输。

LLR 机制是基于帧的。每个帧都分配了一个序列号,接收端成功接收这一帧后,检查帧的序列号是否符合预期,如果正确,发送确认消息(ACK),如果发现帧乱序或者丢失,则发送否定确认消息 (NACK)。发送端具有超时机制,用于保证在 NACK 丢失时重传。

传输层:UET,新一代协议栈的核心

前文提过,传统的RDMA网络传输层(包括IB和RoCE)在多路径传输、负载分担、拥塞控制以及参数调优等方面存在着不足之处。随着AI/HPC集群规模增长,网络的确定性和可预测性越来越困难,需要全新的方法来解决。

UEC传输层(UEC Transport Layer,简称UET)运行在IP和UDP协议之上, 支持实现以下几大技术目标:
▣ 支持高达 100 万个 GPU/TPU 的算力集群
▣ 往返时间低于 10μs
▣ 单接口带宽800Gbps及以上
 网络利用率超过85%
 

选择性重传(Selective Retransmit)

传统传输协议,如TCP需要严格的传输顺序,并采用了Go-Back-N机制。而一个RDMA消息通常包含多个数据包,只要有一个数据包错误,则从这个数据包起的所有数据包都要重传。这让偶尔的传输错误被放大,加剧了网络拥塞。UEC采用选择性重传机制,仅传输错误的数据包。
 

乱序交付(Out-of-Order Delivery)

UET不仅支持有序传输,也支持无序传输。这是因为现代网络中通常有多路径存在,同一个流的数据包经过不同路径传输,就可能造成乱序。如果还要求严格的顺序传输,就无法利用多路径来实现负载分担。此外,选择性重传也需要无序传输的支持。为了实现无序传输,需要接收方有更大的数据包缓冲区,从而将乱序的数据包组成一个完整的RDMA消息。

UET支持四种传输方式:
▣ ROD (Reliable Ordered Delivery)
– 需要拥塞控制、有序、可靠、无重传(依旧采用Go-Back-N)
▣ RUD (Reliable Unordered Delivery) 
– 需要拥塞控制、无序、可靠、无重传
▣ RUDI (RUD for Idempotent Operations)
– 可选拥塞控制、无序、可靠、重传
▣ UUD (Unreliable Unordered Delivery) 
– 可选拥塞控制、无序、不可靠、重传

包喷洒(Packet Spraying)

包喷洒是一种基于包的多路径传输。由于传统传输协议不支持无序传输,同一个数据流必须按照同一个路径传输,否则就会造成乱序,引发重传。而在AI/HPC应用中,存在大量的“大象流”,它们数据量大、持续时间长,如果能使用多路径传输一个流,将显著提高整个网络的利用率。

由于支持了RUD,UET就可以将同一个流的不同包分散到多个路径上同时传输,实现包喷洒功能。这让交换机可以充分发挥ECMP甚至WCMP(Weighted Cost Multi- Pathing)路由能力,将去往同一目的地的数据包通过多条路径发送,大幅度提高网络利用率。

拥塞控制(Congestion Control)

UET 拥塞控制包含以下重要特性,由端侧硬件和交换机配合完成,有效减小了尾部延迟。

▣  Incast管理。它用于解决集合通信(Collective)中下行链路上的扇入问题。AI和HPC应用经常采用集合通信在多个节点之间同步信息,当多个发送者同时向一个接收者发送流量,就会产生Incast拥塞

▣  速率调整加速。现有的拥塞控制算法,在发生网络拥塞后调整速率的过程较长,而 UET 可以快速上升到线速。方法是测量端到端延迟来调节发送速率,以及根据接收方的能力通知发送方调整速率。

▣  基于遥测。源自网络的拥塞信息可以通告拥塞的位置和原因,缩短拥塞信令路径并向终端节点提供更多信息,从而实现响应速度更快的拥塞控制。

▣  基于包喷洒的自适应路由当拥塞发生时,通过包喷洒技术将流量重新路由到其它路径上,绕过拥塞点。

端到端的安全

UEC在传输层内置安全。它是基于作业(Job)的,可以对整个作业的流量进行端到端的AES加密,充分利用 IPSec 和PSP(Packet Security Protocol)的能力,减小安全加密的开销,提供可扩展安全域,并且可以由硬件卸载。
 

在网计算(In Network Collectives)

在网计算最早应用在HPC集群,业界主要有两个思路,一是基于网卡的,二是基于交换机。

UEC V1.0 的目标是后者,即将集合操作卸载到各级交换机上完成,避免过多的收发次数,降低节点交互频率和处理时延开销,减少约一半数据传输量,从而加速All-Reduce操作。

在部署实现上,目前AI智算领域唯一大规模商用的案例仅有英伟达的SHARP(在ASIC层面实现的硬件加速),以太网设备厂家仍处在探索阶段,例如将算力内置于交换机或外接,甚至P4可编程都是可能的思路方向。

 

软件层:Extended Libfabrics 2.0

在软件层,UEC提供简化的API。它简化了RDMA操作,并为AI和HPC应用提供专用的API,如xCCL, MPI, PGAS和OpenShmem等。

配图5
硬件升级:支持UEC的交换机和网卡

UEC在规范中定义了支持超级以太网交换机的架构,可以看到大体是继承了SONiC的架构。这部分的主要关注在于控制平面上支持INC和SDN控制器;数据平面升级了SAI(Switch Abstraction Interface)API调用硬件提供的INC等能力。

配图6

UEC同样定义了网络端点(Fabric End Point)的软硬件架构。在硬件层,网卡升级支持UEC功能。在操作系统内核态,实现网卡驱动。在用户态,基于libfabric扩展实现INC管理等功能,支持上层的xCCL/MPI/SHMEM等应用。

配图7

总的来说,UEC v1.0规范重构了数据中心以太网以完全替代传统的RDMA网络,用更高的性能、更低的成本实现稳定可靠、具有百万节点的AI/HPC集群。

 

星融元RoCE交换机与UEC

作为UEC成员单位,星融元提供的超低时延RoCE交换机(CX-N系列)全系采用高性能的标准白盒网络硬件,搭载为生产环境深度调优的企业级SONiC发行版——多项 Easy RoCE 特性,全面兼容现有规范并提供灵活、广大的升级空间,未来将平滑演进与新一代以太网标准保持同步。
星融元产品
 
配图8

返回资源中心

最新动态

RoCE与IB对比分析(二):功能应用篇

近期文章


在上一篇中,我们对RoCE、IB的协议栈层级进行了详细的对比分析,二者本质没有不同,但基于实际应用的考量,RoCE在开放性、成本方面更胜一筹。本文我们将继续分析RoCE和IB在拥塞控制、QoS、ECMP三个关键功能中的性能表现。

拥塞控制

拥塞控制即用来减少丢包或者拥塞传播,是传输层的主要功能,但需要借助链路层和网络层的帮助。

RoCEv2 的拥塞控制机制

RoCEv2通过链路层PFC、网络层ECN、传输层DCQCN三者协同配合,实现更高效的拥塞管理,可见,RoCEv2虽然使用了IB的传输层协议,但在拥塞控制方面有所不同。
  1. 基于优先级的流量控制(PFC)

PFC在RoCEv2中被用于创建无损的以太网环境,确保RDMA流量不因链路层拥塞而丢失。核心原理是下游控制上游某个通道开启和停止发送数据包,控制方式是发送PFC Pause和Resume帧,触发时机是根据下游SW的ingress的队列数量是否达到某个阈值。
而PFC允许在一条以太网链路上创建8个虚拟通道,并为每条虚拟通道指定一个优先等级,允许单独暂停和重启其中任意一条虚拟通道,同时允许其它虚拟通道的流量无中断通过。这一方法使网络能够为单个虚拟链路创建无丢包类别的服务,使其能够与同一接口上的其它流量类型共存。
如图1所示,DeviceA发送接口分成了8个优先级队列,DeviceB接收接口有8个接收缓存(buffer),两者一一对应(报文优先级和接口队列存在着一一对应的映射关系),形成了网络中 8 个虚拟化通道,缓存大小不同使得各队列有不同的数据缓存能力。
当DeviceB的接口上某个接收缓存产生拥塞时,超过一定阈值(可设定为端口队列缓存的 1/2、3/4 等比例),DeviceB即向数据进入的方向(上游设备DeviceA)发送反压信号“STOP”,如图中第7个队列。
DeviceA接收到反压信号,会根据反压信号指示停止发送对应优先级队列的报文,并将数据存储在本地接口缓存。如果DeviceA本地接口缓存消耗超过阈值,则继续向上游反压,如此一级级反压,直到网络终端设备,从而消除网络节点因拥塞造成的丢包。
  1. 显式拥塞通知(ECN)

ECN(Explicit Congestion Notification)是一种IP头部用于的拥塞控制的标记位,允许网络设备在发生拥塞时标记数据包,而不是丢弃它们。
RoCEv2利用ECN位来标记发生拥塞的数据包,接收方在检测到ECN标记后,发送CNP(Congestion Notification Packet)给发送方,后者通过拥塞控制算法(如DCQCN)调整发送速率。
  1. 数据中心量化拥塞通知(DCQCN)

DCQCN(Data Center Quantized Congestion Notification)是一种适用于RoCEv2的拥塞控制算法,是数据中心TCP(DCTCP)和量化通知算法的结合,最初在SIGCOMM’15论文”Congestion control for large scale RDMA deployments”中提出。DC-QCN算法依赖于交换机端的ECN标记。结合了ECN和速率限制机制,工作在传输层。当接收方检测到ECN标记时,触发CNP发送给发送方,发送方根据反馈调整发送速率,从而缓解拥塞。
综上,PFC、ECN、DCQCN分别工作在链路层、网络层和传输层。在RoCEv2中,它们被组合使用,以实现更高效的拥塞管理。
  • PFC:防止数据包在链路层被丢弃,提供无损传输,解决一段链路的问题。
  • ECN/DCQCN:发送方根据拥塞标记主动调整发送速率,减轻网络负载。解决端到端网络的问题。

InfiniBand 的拥塞控制机制

InfiniBand 的拥塞控制机制可分为三个主要部分:
  1. 基于信用的流量控制

IB在链路层实现基于信用的流量控制(Credit-based Flow Control),该机制实现了无损传输,是 InfiniBand 高性能的基础。发送方根据接收方提供的信用(表示可用缓冲区空间)来控制数据包的发送,接收方在处理完数据包后发送信用给发送方,以允许继续发送新的数据包,从而避免网络拥塞和数据包丢失。
如下图所示,发送方当前可用信用值2,通过流水线传输(pipelined transfer)连续向接收方发送数据包,但此时接收方缓冲区已满,发送方会暂停发送新的数据包,直到接收方发送新的信用。
  1. ECN机制
当网络中的交换机或其他设备检测到拥塞时,会在数据包的 IP 头中标记 ECN(Explicit Congestion Notification)。接收方的 CA(Channel Adapter)接收到带有 ECN 标记的数据包后,会生成拥塞通知包(CNP),并将其反馈给发送方,通知其网络出现拥塞需要降低传输速率。
  1. 端到端拥塞控制

发送方的 CA 在收到 CNP 后,根据 InfiniBand 拥塞控制算法调整发送速率。发送方首先降低数据发送速率以缓解拥塞,之后逐步恢复发送速率,直到再次检测到拥塞信号。这个动态调整过程帮助维持网络的稳定性和高效性。IBA没有具体定义特定的拥塞控制算法,通常由厂商定制实现。(HCA,Host Channel Adapters,or IB NIC)

 RoCEv2与IB拥塞控制机制比较

两者的拥塞控制机制比较如下:
拥塞控制机制比较

可见,RoCE与IB的拥塞控制机制基本相同,区别在于IB的拥塞控制机制集成度较高,通常由单个厂家提供从网卡到交换机的全套产品,由于厂商锁定,价格高昂。而RoCE的拥塞控制机制基于开放协议,可以由不同厂家的网卡和交换机来配合完成。
随着大规模AI训练和推理集群的扩展,集合通信流量导致了日益严重的拥塞控制问题,由此出现了一些新的拥塞控制技术,如基于In-band Network Telemetry (INT)的HPCC(High Precision Congestion Control),即通过精确的网络遥测来控制流量,以及基于Clear-to-Send (CTS)的Receiver-driven traffic admission,即通过接收方的流量准入控制来管理网络拥塞等。这些新技术在开放的以太网/IP网络上更容易实现。

QoS

在RDMA网络中,不光RDMA流量要获得优先保证。一些控制报文,如CNP、INT、CTS,也需要特别对待,以便将这些控制信号无损、优先的传输。
  • RoCEv2的QoS
在链路层,RoCEv2采用ETS机制,为不同的流量分配不同的优先级,为每个优先级提供带宽保证。
在网络层,RoCEv2则使用DSCP,结合PQ、WFQ等队列机制,为不同的流量分配不同的优先级和带宽,实现更精细的QoS。
  • InfiniBand的QoS
在链路层,IB采用SL、VL及它们之间的映射机制,将高优先级的流量分配到专门的VL,优先传输。虽然VL仲裁表 (VL Arbitration Table)能够通过分配不同的权重来影响和控制带宽的分配,但这种方式不能保证每个VL的带宽。
在网络层,IB的GRH支持8个bit的Traffic Class字段,用于在跨子网的时候提供不同的优先级,但同样无法保证带宽。
由此可见,RoCE能够为不同的流量类型提供更精细的QoS 保证和带宽控制,而 InfiniBand 只能提供优先级调度,而非带宽的明确保障。

ECMP

  1.   RoCE的ECMP

数据中心IP网络为了高可靠和可扩展性,通常采用Spine-Leaf等网络架构。它们通常在一对RoCE网卡之间提供了多条等价路径,为了实现负载平衡和提高网络拓扑的利用率,采用ECMP(Equal Cost Multiple Paths) 技术。对于给定的数据包,RoCE交换机使用某些数据包字段上的哈希(Hash)值在可能的多条等价路径中进行选择。由于可靠传输的要求,同一个RDMA操作应当保持在同一个路径中,以避免由于不同路径造成的乱序问题。
在IP网络中,BGP/OSPF等协议均可以在任意拓扑上计算出等价路径,然后由交换机数据平面基于IP/UDP/TCP等头部字段(如五元组)计算哈希值并轮流转发到不同路径上。在RoCE网络中,为了进一步细分RDMA操作,可以进一步识别BTH头部中的目的QP信息,从而实施更细粒度的ECMP。
  1.   InfiniBand的ECMP

在控制平面,IB的路由基于子网管理器,在拓扑发现的基础上实现ECMP,但由于集中式的子网管理器与网络设备分离,可能无法及时感知网络拓扑的变化,进而实现动态的负载均衡。
在数据平面,IB的ECMP同样基于哈希计算和轮转机制。

总结

  • 在拥塞控制方面,RoCE结合了PFC, ECN和DCQCN提供了一套开放的方案,IB则拥有基于Credit的一套高度集成的方案,但在应对大规模集合通信流量时均有所不足。
  • 在QoS方面,RoCE可以实现每个优先级的带宽保证,而IB仅能实现高等级的优先转发。
  • 在ECMP方面,两者均实现了基于Hash的负载分担。
总结来看,IB具备已验证的高性能和低延时优势,RoCEv2则在互操作性、开放性、成本效益方面更胜一筹,且从市场占比及认可度来看,RoCEv2逐渐比肩IB;但不得不承认的是,RoCE和IB在应对大规模AI训练和推理中高带宽、突发式和广播型的集合通信流量时,均有所不足,而RoCE基于其广泛的以太网生态系统,能够更快速地拥抱新技术新协议,其潜力和可塑性更胜一筹,未来有望在网络格局中扮演更重要的角色。
  • 10G-800G的全场景互联:星融元CX-N数据中心交换机的单机转发时延(400ns)低至业界平均水平的1/4~1/5;采用BGP-EVPN、VXLAN、MC-LAG等技术构建可靠的大二层网络满足生产网络稳定性需求。
  • 搭载开放网络操作系统:星融元AsterNOS以SONiC为内核、依托容器化的系统架构,并提供RESTful API支持第三方应用快速集成,或对接上层管理调度平台,例如OpenStack,K8s等。
  • EasyRoCE极简运维:支持无损网络一键部署,Prometheus + Grafana 可视化监控大屏配合专用命令行,问题快速定位解决。

参考文档:
https://zhuanlan.zhihu.com/p/643007675
https://blog.csdn.net/essencelite/article/details/135492115
https://support.huawei.com/enterprise/zh/doc/EDOC1100075566/d1e17776
https://www.researchgate.net/publication/4195833_Congestion_Control_in_InfiniBand_Networks

返回资源中心

最新动态

RoCE与IB对比分析(一):协议栈层级篇

近期文章


在 AI 算力建设中, RDMA 技术是支持高吞吐、低延迟网络通信的关键。目前,RDMA技术主要通过两种方案实现:Infiniband和RoCE(基于RDMA的以太网技术,以下简称为RoCE)。

RoCE与IB网络架构概述

RoCE和InfiniBand均是InfiniBand Trade Association(IBTA)定义的网络协议栈,其中Infiniband是一种专为RDMA设计的高性能网络,它从硬件层面确保了数据传输的可靠性,为了进一步发挥RDMA的优势,IBTA在2010年定义了RoCE。RoCE则是Infiniband与以太网技术的融合,它在保持Infiniband核心优势的同时,实现了与现有以太网基础设施的兼容性。具体来说,RoCE在链路层和网络层与Infiniband有所不同,但在传输层和RDMA协议方面,RoCE继承了Infiniband的精髓。
从市场应用占比来看,2000年,IB架构规范的1.0版本正式发布,2015年,InfiniBand技术在TOP500榜单中的占比首次超过了50%,但据最新统计,在全球TOP500的超级计算机中,RoCE和IB的占比相当。以计算机数量计算,IB占比为47.8%,RoCE占比为39%;而以端口带宽总量计算,IB占比为39.2%,RoCE为48.5%。
图1 超级计算机 500 强中 RoCE 和 InfiniBand 的利用率
图2 超级计算机 500 强中 RoCE 和 InfiniBand 的利用率
图2 超级计算机 500 强中 RoCE 和 InfiniBand 的利用率

RoCE与IB报文格式对比

  • RoCE报文格式下图所示:
其中,RoCEv1使用了IB的全局路由头(Global Routing Header),IB BTH是IB的基本传输头(Base Transport Header),ICRC是对InfiniBand层不变字段进行校验的循环冗余校验码,FCS是以太网链路层的校验序列码。
RoCEv2中添加了IP Header和UDP Headrer,引入IP解决了扩展性问题。
图3 RoCE数据包格式
  • IB报文格式如下图所示:
在一个子网(Subnet)内部,只有Local Routing Header(LRH),对应OSI的链路层。在子网之间,还有一个Global Routing Header(GRH),对应OSI的网络层。在Routing Header之上,是Transport Header,提供端到端的传输服务,包括数据的分段、重组、确认和流量控制。接着就是报文的数据部分,包含应用层数据或上层协议信息。最后是不变字段和可变字段的循环冗余校验码(CRC),用于检测报文在传输过程中的错误。
图4 IB数据包格式

RoCE与IB网络层级对比

IB与RoCE协议栈在传输层以上是相同的,在链路层与网络层有所区别:
RoCEv1中,以太网替代了IB的链路层(交换机需要支持PFC等流控技术,在物理层保证可靠传输),然而,由于RoCEv1中使用的是L2 Ethernet网络,依赖于以太网的MAC地址和VLAN标签进行通信,而不涉及网络层(IP层,即OSI模型的第三层)的路由功能,因此,RoCE v1数据包不能实现跨不同的IP子网传输,只能在同一广播域或L2子网内进行传输。
RoCEv2在RoCEv1的基础上,融合以太网网络层,IP又替代了IB的网络层,因此也称为IP routable RoCE,使得RoCE v2协议数据包可以在第3层进行路由,可扩展性更优。
图5 RoCE和IB协议栈对比
  1. 物理层

  • RoCE的物理层基于标准以太网,使用PAM4 (Pulse Amplitude Modulation 4)编码方式和64/66b编码。支持铜缆和光纤,接口有 SFP+、QSFP+ 、OSFP等。支持速率从 10GbE到800GbE。
  • IB的物理层则是专有的,采用更传统的NRZ(Non-Return-to-Zero)调制技术和64/66b编码。支持铜缆和光纤,接口通常为 QSFP、OSFP,支持速率从 10Gbps 到 400Gbps,并可以通过多通道的组合实现更高的总带宽(如 800Gbps)。
对比来看,IB采用的NRZ每个符号只有两个电平,而RoCE采用的PAM4使用 4个不同的电压电平来表示数据,也就是说RZ信号中,每个周期传输1bit的逻辑信息,PAM4每个周期可以传输2bit的信息,因此在相同的波特率下,PAM4的数据传输速率是NRZ的两倍,具有更高的带宽效率,在支持更高速率(如1.6T,3.2T)时具有潜在的优势。目前,六进制(PAM6)和八进制(PAM8)调制技术正处于实验和测试阶段,而InfiniBand(IB)也在逐渐从传统的NRZ(非归零)调制技术转型至PAM4,例如,400G光模块现已能够同时支持IB和以太网标准。相比之下,以太网在调制技术的应用上展现出更为迅速的发展势头。
  图6 频域中 PAM4 与 NRZ 信号的频率内容
  1. 链路层

  • RoCE的链路层是标准以太网,为了在传统以太网上实现无损传输,引入了PFC(Priority-based Flow Control),由IEEE 802.1Qbb标准定义,当交换机的某个优先级队列的缓冲区接近满载时,会发送 PFC帧给上游设备,通知其暂停发送该优先级的流量,防止缓冲区溢出,避免数据包在链路层被丢弃。
此外,以太网引入了ETS(Enhanced Transmission Selection) ,它是DCB (Data Center Bridging)标准的一部分,由 IEEE 802.1Qaz 规范定义。ETS 将流量分配到不同的队列,为每个队列分配一个权重,控制每个流量队列能够使用的带宽百分比,保证高优先级的流量,如RDMA等,获得足够的带宽资源。
  • IB的链路层是专有的,包头称为Local Routing Header,如图所示。
其中,VL是虚拟通道 (Virtual Lanes),SL是服务等级 (Service Level),Source/Destination Local Identifier则是链路层地址。
它内建了对无损传输的支持,这是因为它实现了基于信用的流量控制(Credit-based Flow Control)。接收方在每个链路上提供一个信用值,表示其缓冲区能够接收的数据量。发送方根据此信用值发送数据,确保不会超过接收方的处理能力,从而避免缓冲区溢出和数据丢失。
IB链路层结合SL和VL实现QoS,SL共有16个业务等级,用于标识流量优先级,每个数据包可以根据业务需求被分配到不同的服务等级,通过SL-VL映射,将不同优先级的流量分配到不同的VL上,从而确保高优先级流量(如RDMA)不会因低优先级流量的拥塞而受到影响。
对比而言,IB的链路层由专用硬件实现,效率较高,具有超低时延的特点,而RoCE基于标准以太网硬件,时延稍长。但由于两者都达到了100ns级别,而根据UEC的最新定义,在传输RDMA时,端到端性能要求通常为10μs左右,它们的差别不大。
  1. 网络层

  • RoCE的网络层使用IP,可以是IPv4或IPv6。它采用成熟的BGP/OSPF等路由协议,适应任何网络拓扑并具有快速自愈能力;支持ECN(EXPLICIT CONGESTION NOTIFICATION ),用于端到端的拥塞控制;支持DSCP,替代IB的TRAFFIC CLASS,用于实现QoS。
  • IB的网络层借鉴了IPv6。Global Routing Header的格式与IPv6完全相同,具有128bit地址,只是字段命名不同。但它没有定义路由协议,而是采用子网管理器(Subnet Manager)来处理路由问题,这是一种集中式的服务器,每个网卡端口和交换芯片都通过由SM分配的唯一身份标识(Local ID,LID)进行识别,不具备互操作性,因此很难快速响应网络的变化。
显然,IB网络层是专有的、集中管理的,而RoCE的网络层基于标准以太网和UDP,在互联网数以十亿计算的设备上使用,技术成熟,并在持续发展中;引入SRv6等技术后,IP进一步增强了流量工程、业务链、灵活性和可扩展性等能力,非常适合组建超大规模可自愈的RDMA网络。
  1. 传输层

  1. RoCE

RoCE采用了IB的传输层。RoCEv2协议栈虽然包含UDP,但它仅借用了UDP的封装格式,传输层的连接、重传、拥塞控制等功能由IB传输层完成。UDP层的目的端口固定分配给RDMA协议,源端口则是动态分配的,但在一个连接过程中保持固定。这样可以让网络设备通过源端口区分不同的RDMA数据流。
  1. InfiniBand

IB的传输层采用了模块化的灵活设计,通常包含一个基本传输头BTH(Base Transport Header)和若干个(0到多个)扩展的传输头(Extended Transport Header)。
BTH(Base Transport Header)是InfiniBand传输层头部的一部分。它是InfiniBand网络协议中L4传输层的基本头部,用于描述数据包传输的控制信息。格式如下,
关键信息有:
  • OpCode操作码。由8个bit组成。前3个bit代表传输服务类型,如可靠连接/不可靠连接/可靠数据报/不可靠数据报/RAW数据报等。后5个bit代表操作类型,如SEND/READ/WRITE/ACK等。
  • Destination QP,目的QP号(Queue Pair Number)。与TCP端口号类似,代表了RDMA连接(称为Channel)的目的端。但与TCP端口不同的是,QP由Send/Recv两个队列组成,但用同一个号码标识。
  • Packet Sequence Number,包序列号,简称PSN。与TCP序列号类似,用于检查数据包的传输顺序。
  • Partition Key,分区键。可以将一个RDMA网络分为多个逻辑分区。在RoCE中可采用新一代的VxLAN等技术替代。
  • ECN,显示拥塞通知。用于拥塞控制,包含Forward和Backward两个bit,分别表示在发送和返回路径上遇到了拥塞,在RoCE中被IP头部的ECN替代。
BTH帮助接收方理解该包属于哪个连接以及如何处理接收到的包,包括验证包的顺序、识别操作类型等。
在BTH之后,还有RDMA Extended Transport Header,它包含远端的虚拟地址、密钥和数据长度等信息。格式如下,
其中:
  • VirtualAddress,虚拟地址,代表目的端内存地址。
  • DMA Length,直接内存访问长度,是要读写的数据长度,以字节为单位。
  • Remote Key,用于访问远端内存的密钥。
IB传输层通常由RDMA网卡硬件实现,在IB中称为Channel Adapter(CA),在RoCE中称为RoCE网卡,从而提升RDMA传输的性能。在一些高级的RoCE交换机中,还可以感知IB传输层信息并对RDMA数据流做加速处理。
  1. RDMA操作

借助RDMA扩展头,RoCE和IB的传输层对远程主机的地址进行直接的读写操作(Operation)。
  • RDMA写操作 (RDMA Write)
QP(Queue Pair) 建立后可以直接进行,允许发送方直接写入接收方的内存,不需要接收方的CPU参与,并且无需请求。这种操作方式是 RDMA 高性能和低延迟的核心特性之一。
RDMA Write 是一种单向操作。写入方在写入数据后不需要等待接收方的响应,这种操作与常规的 Send/Receive 模式不同,不需要接收方预先准备接收队列。
  • RDMA读操作 (RDMA Read)
允许发送方从接收方的内存中读取数据,不需要接收方CPU参与。目标地址和数据大小在发送方指定。如下图所示,在一次请求后,可以通过多次响应返回数据,提高了数据传输效率。
图7 RDMA 读操作
  • 发送/接收操作 (Send/Receive)
这是传统的消息传递操作,数据从发送方传递到接收方的接收队列中,需要接收方预先准备接收队列。
在RoCE中,RDMA跳过操作系统的TCP/IP协议栈,直接与RoCE网卡上的传输层连接,借助DMA机制,直接访问本地和远端内存,实现了零拷贝传输,大幅度提升了性能。
同样,IB网卡在硬件上实现RDMA操作,零拷贝传输,两者的性能相当。
当然,无论在RoCE还是IB中,RDMA 连接的初始化、资源分配、队列对 (QP) 管理、以及一些控制路径上的操作(如连接建立、内存注册等)仍然依赖于软件栈。
  1. 应用层

RDMA在数据中心、HPC集群、超级计算机中获得了广泛的应用,用于承载AI训练、推理、分布式存储等数据中心内部的关键业务。
例如,在AI训练/推理时, xCCL或者MPI使用RDMA实现点对点和集合通信;在分布式存储时,NVMEoF, Ceph使用RDMA对网络存储器进行读写操作。
  1. 网络层级对比小结

  • 在物理层,RoCE和IB都支持800G,但PAM4相比NRZ具有更强的升级潜力,以太网成本也低于IB,RoCE更胜一筹。
  • 在链路层,两者均实现了无损传输,RoCE的ETS能够为不同优先的流量提供带宽保证,且RoCE和IB的时延均达到了100ns级别,在实际应用中差不大。
  • 在网络层,RoCE借助IP的成熟的持续发展,更能适应大规模网络。
  • 传输层及以上,RoCE和IB使用同样的协议,没有区别。

RoCE与IB的较量,究竟谁更胜一筹

总的来说,RoCE和InfiniBand都由IBTA定义,没有本质的不同。RoCE实际上是将成熟的IB传输层和RDMA移植到了同样成熟的以太网和IP网络上,是一种强强联合,在保持高性能的同时,降低了RDMA网络的成本,能够适应更大规模的网络。
根据亚马逊的高级首席工程师Brian Barrett,AWS之所以放弃IB方案,主要是因为:“云数据中心很多时候是要满足资源调度和共享等一系列弹性部署的需求,专用的IB网络构建的集群如同在汪洋大海中的孤岛”。
出于AI算力建设对于成本和开放性的考量,越来越多的公司已经在使用以太网交换机用于大规模AI算力中心,例如当前全球最大的AI超级集群(xAI Colossus,造价数亿美元、配备十万片NVIDIA H100 GPU),便是采用64 x 800G,51.2T以太网方案构建集群网络。
CX864E-N是星融元专为AI训练、推理、高性能计算(HPC)等场景设计的一款行业内顶尖规格的RoCE交换机,拥有51.2T的超大交换容量,助力客户用更优的投入成本,实现与IB网络相当的性能。
CX864E-N
  • 8 x CX864E 支持 512 个 GPU 互连,每个端口速度为 400G
  • 192 x CX864E 支持 8192 GPU 互连,每个端口速度为 400G
  • 192 x CX864E 支持 128k ML/AI 节点互连,每端口速度为 100G

参考文献

https://mp.weixin.qq.com/s/PZ_Q5rS5a5YJlczao9SMXw
https://support.huawei.com/enterprise/zh/doc/EDOC1100203347
https://community.fs.com/cn/article/roce-technology-in-high-performance-computing.html
https://ascentoptics.com/blog/cn/understanding-infiniband-a-comprehensive-guide/
https://blog.csdn.net/jkh920184196/article/details/141461235
https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/

返回资源中心

最新动态

算力基础篇:从零开始了解算力

近期文章


什么是算力

算力即计算能力(Computing Power),狭义上指对数字问题的运算能力,而广义上指对输入信息处理后实现结果输出的一种能力。虽然处理的内容不同,但处理过程的能力都可抽象为算力。比如人类大脑、手机以及各类服务器对接收到的信息处理实际都属于算力的应用。
随着信息技术的不断发展,《中国算力白皮书(2022)》中将算力明确定义为数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。当前行业中讨论的算力,狭义上可理解为CPU、GPU等芯片的计算能力,广义上可理解为芯片技术的计算能力,内存、硬盘等存储技术的存力,以及操作系统、数据库等软件技术的算法的三者集合。

算力的分类

随着数字经济时代的到来,算力发展迎来高潮,广泛应用于各个领域,其中包括但不限于日常消费领域、人工智能领域、半导体技术领域。不同应用场景对算力的需求各异,需要不同类型的算力支撑。目前算力主要分为通用算力、智能算力和超算算力。未来还会出现比传统计算更高效、更快速的新一代算力,例如量子算力等。

通用算力

通用算力主要以CPU为代表,即CPU芯片执行计算任务时所表现出的计算能力。不同架构的CPU计算能力不同,因为CPU算力受核心数量、主频、缓存大小等多种因素影响。目前可以根据DMIPS指标来衡量CPU性能。该指标表示CPU每秒能执行多少百万条Dhrystone指令。
分类特点引领者优劣势
x86复杂指令集、单核能力强Intel、AMD、海光、兆芯软件生态好,占有率高;指令集实现复杂,功耗高
ARM精简指令集、追求多核、低功耗安谋、高通、Amazon授权厂商多,能效比高;软件生态劣于x86
MIPS精简指令集、低功耗龙芯软件生态弱、市占率正在下降
Power
单核能力强、高可靠性、高成本IBMIBM掌控技术,应用于金融领域
RISC-V
精简指令集RISC-V基金会、阿里巴巴、兆易创新完全开放开源、模块化、可扩展
Alpha
精简指令集、速度快申威软件生态弱,市占率小
通用算力计算量小,但能够提供高效、灵活、通用的计算能力。因为CPU的架构属于少量的高性能核心结构,即核心数量少,但核心频率高,更加擅长处理复杂的逻辑判断和串行计算的单线程任务,如操作系统的管理、应用程序的执行以及各类后台服务等。而这样的设计在面对大规模并行计算任务时则显得力不从心。

智能算力

智能算力主要以GPU、FPGA、ASIC芯片为代表。每种类型的芯片具有各自的特点和优势。
  • GPU(Graphics Processing Unit,图形处理器):GPU在设计之初用于图形渲染,即同时处理大量简单的计算任务。不同于CPU的少量高性能核心架构,GPU拥有大量的核心数但较小的控制单元和缓存,能够完成高度并行的计算任务。GPU主要应用在机器学习的训练阶段,因为机器学习的操作并不依赖于复杂指令,而是大规模的并行计算。
  • FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列):FPGA是在PAL、GAL 等可编程器件的基础上进一步发展的产物。FPGA是半定制集成电路,具有可重配置的逻辑结构。其内部的电路不是硬刻蚀的,而是可以通过HDL(硬件描述语言)编程来重新配置。这种可编程灵活性使其可以完成人工神经网络的特定计算模式,轻松升级硬件以适应AI场景中新的应用需求。除此以外,FPGA的每个组件功能在重新配置阶段都可以定制,因此在运行时无需指令,可显著降低功耗并提高整体性能。
  • ASIC(Application-Specific Integrated Circuit,应用特定集成电路):ASIC是专为满足特定需求而设计的全定制集成电路芯片。ASIC的优势在于其能够针对特定任务进行深度优化,从而实现更高的性能和更低的功耗。一旦量产,其单位成本会显著降低,尤其适合于大规模生产和应用。然而,ASIC设计周期长、成本高,一旦设计完成,很难进行修改或升级以适应新的应用需求。因此,在选择使用ASIC还是FPGA时,需要根据具体的应用场景和需求进行权衡。对于需要高性能、低功耗且应用场景相对固定的系统,ASIC可能是更好的选择;而对于需要快速适应新技术和市场需求变化的应用场景,FPGA则更具优势。
GPU、FPGA、ASIC能力对比表格:
 GPUFPGAASIC
并行计算能力
强大灵活配置高效但定制
灵活性较低(专用于图形和计算)高(可编程)低(定制后固定)
功耗适中
成本中等高(设计和制造)
整体性能中等(因可重置而消耗芯片资源)非常高(高度定制针对性强 )
应用领域图形处理、机器学习等实时计算、原型设计等特定应用场景(如数据中心)

超算算力

超算即超级计算,又称高性能计算 (HPC),利用并行工作的多台计算机系统的集中式计算资源,通过专用的操作系统来处理极端复杂的或数据密集型的问题。超算算力则是由这些超级计算机等高性能计算集群所提供的算力,主要应用于尖端科研、国防军工等大科学、大工程、大系统中,是衡量一个国家或地区科技核心竞争力和综合国力的重要标志。目前,美国的Frontier以 1.206 EFlop/s的HPL性能位居全球超级计算机Top500榜第一,达到了E级计算。
中国信息通信研究院结合业内实践和设想,提出了超算参考架构,由计算系统、存储系统、网络系统、管理系统、安全系统五部分构成。
  • 计算系统:由CPU和异构加速卡计算节点共同组成。
  • 存储系统:采用分布式存储,可提供PB级别以上的容量来进行数据和算据存储。
  • 网络系统:分为存储网络、业务网络以及监控网络等多个网络平面,实现超算系统间各个硬件设备以及子系统间的通信互联。
  • 管理系统:包括资源与业务监控、告警监控、可视化等功能。
  • 安全系统:由防火墙、负载均衡、堡垒机、抗DDoS、日志审计、漏洞扫描、DNS服务器等设备组成。

新一代算力

自人工智能加速应用后,算力需求激增,人们很难保证在未来经典计算能一直满足指数级的算力增长并应用于重大计算问题。于是在全球科技竞争加剧、数字经济快速发展以及新兴技术的推动下出现了以量子计算为代表的新一代算力。
量子计算运用量子态的叠加性,使得量子比特拥有更强的信息编码能力,并可实现多个量子比特的量子纠缠,性能上限远超经典计算。量子计算机使用亚原子粒子的物理学领域来执行复杂的并行计算,从而取代了当今计算机系统中更简单的晶体管。传统计算机中的字符,要么打开,要么关闭,要么是 1,要么是 0。而在量子比特计算中,计算单元是可以打开,关闭或之间的任何值。量子比特的“叠加态”能力,为计算方程增加了强大的功能,使量子计算机在某种数学运算中更胜一筹。
目前阿里巴巴、Google、Honeywell、IBM 、IonQ 和 Xanadu 等少数几家公司都运营着量子计算机,但仍存在退相干、噪声与误差、可扩展性等问题,处于硬件开发的早期阶段。根据专家预测,想要进入量子计算机真正有用的高保真时代,还得需要几十年。

数据中心算力组成

数据中心的计算能力主要依赖于服务器。目前CPU类型的服务器几乎部署在所有的数据中心中,而高性能算力GPU等更多的使用在AI应用场景中,小规模部署于部分数据中心中。然而随着机器学习、人工智能、无人驾驶、工业仿真等新兴技术领域的崛起,传统数据中心遭遇通用CPU在处理海量计算、 海量数据时越来越多的性能瓶颈。 在数据中心加快步伐部署48核以及64核心等更高核心CPU来应对激增的算力需求的同时,为了应对计算多元化的需求,越来越多的场景开始引入加速芯片,如前文提到的GPU、 FPGA、 ASIC 等。这些加速硬件承担了大部分的新算力需求。
然而实际上的数据中心是一个汇集大量服务器、存储设备及网络设备的基础设施,数据中心算力是服务器、存储及网络设备合力作用的结果,计算、存储及网络传输能力相互协同才能促使数据中心算力水平的提升。单独讨论服务器的算力水平并不能反映数据中心的实际算力水平。
总之,数据中心是人工智能、物联网、区块链等应用服务的重要载体。数据中心算力水平的提升将会在很大程度上推动全社会总体算力供给,满足各行业数字化转型过程中的算力需求。

数据中心网络设备

以实际情况来说,数据中心的算力水平不仅取决于服务器的算力,同时还会在很大程度上受到网络设备的影响,如果网络设备算力水平无法满足要求,很有可能引发“木桶效应”,拉低整个数据中心的实际算力水平。
星融元CX-N系列交换机可以帮助用户构建超低时延、 灵活可靠、按需横向扩展的数据中心网络。
  • 超低时延:所搭载的交换芯片具备业界领先的超低时延能力,最低时延达到400ns左右。
  • 高可靠性:通过MC-LAG、EVPN Multihoming、ECMP构建无环路、高可靠、可独立升级的数据中心网络。
  • RoCEv2能力:全系列标配RoCEv2能力,提供PFC、ECN等一系列面向生产环境的增强网络特性。
  • RESTful API:支持REST架构的第三方平台和应用都能自动化地管理、调度星融元数据中心网络。
不论是在AI智算还是HPC高性能计算场景下,CX-N交换机都达到了媲美InfiniBand专用交换机的性能,以下是场景测试数据表:
表一:AIGC场景性能测试结果
 带宽时延备注
E2E网卡直连392.95Gb/s1.95us
E2E跨交换机392.96Gb/s2.51us交换机时延560ns
NCCL网卡直连371.27GB/s/
NCCL跨交换机368.99GB/s/CX-N交换机端口利用率95%。
表二:HPC应用测试(对比IB交换机)
HPC应用测试CX-N交换机   MSB7000   
HPC应用Test1[sec]Test2[sec]Test3[sec]avg[sec]Test1[sec]Test2[sec]Test3[sec]avg[sec]
WRF1140.351134.641128.351134.441106.721099.361112.681106.25
LAMMPS341.25347.19342.61343.69330.47335.58332.46332.83

参考文献:

https://13115299.s21i.faiusr.com/61/1/ABUIABA9GAAgqvv2nAYowLyGBA.pdf
https://13115299.s21i.faiusr.com/61/1/ABUIABA9GAAgk4DrjQYo76ziRQ.pdf

返回资源中心

最新动态

P4可编程技术详解:从理论到硬件实现

近期文章


P4的诞生

为打破传统的固定封装模式,充分解放数据平面的编程能力,Nick McKeown领导的斯坦福大学研究团队于2014年提出可编程处理语言P4。借助P4的数据平面编程能力,用户可在网卡、交换机、路由器等网络设备上实现包括VXLAN、MPLS等在内的各种网络协议。

P4语言特性

P4语言具有如下三点特性,同时也是P4语言的设计目标。
  • 协议无关性:P4语言不与特定网络协议绑定。用户只需根据现网协议支持情况和P4语法要素来实现转发逻辑自定义,可按需加入新协议,也可删去冗余协议。
  • 平台无关性:P4语言无需关注底层平台细节。用户能够独立于底层硬件对报文处理功能编程。用户不需要关心底层硬件的细节就可实现对数据包的处理方式的编程描述。前端编译器将P4高级语言程序转换成中间表示IR,后端编译器再将IR编译成目标设备配置。
  • 可重构性:P4语言支持在不更换硬件的情况下动态修改数据包处理方式。允许“朝令夕改”,同一台设备可根据现网需求随时重新配置。

P4转发模型

为了实现上述目标,P4语言定义了如图2所示的抽象转发模型。该转发模型主要包括解析器、多级流水线和缓冲区三部分。
  • 解析器(Parser):在利用P4语言编码时,用户可自定义数据报文的格式以及解析流程,接着解析流程会被编译器编译为数据包头解析图并配置到解析器上。在数据包进入可编程设备时,解析器会从报文中提取头部域,并将该头部与余下的数据载荷分离,然后按照编译器生成的数据包头解析图解析。
  • 多级流水线(Multistage Pipeline):由多个匹配动作表(Match-Action )组成,这些表以流水线的形式组织起来,分为入口流水线和出口流水线两部分。入口流水线的匹配动作表负责报文头部的修改并决定报文的输出端口与队列,而出口流水线的匹配动作表仅负责修改报文头部。在编写P4程序时,用户可自定义每张匹配动作表所匹配的数据包类型,执行动作及其参数等,以及各条流水线中每张匹配动作表的执行顺序。在运行时,数据平面会按控制流顺序依次处理数据报文。
  • 缓冲区(Buffer):用于缓存数据载荷以及队列中等待被处理的已解析头部报文。

P4的硬件实现

P4语言在设计之初就是以硬件的网络可编程为目标。在其平台无关性中提到在前后端编译器的共同工作下,P4语言程序最终会被编译成目标设备配置。这个过程实际上是P4的硬件下发。P4通过硬件相关的编译器编译成硬件机器码或汇编代码,下发到硬件中,真正实现硬件的网络可编程。
  • 硬件基础:Barefoot公司的Tofino是业界首款P4可编程网络交换ASIC芯片,后被intel公司收购。不过截至上月,intel已宣布停止了向全球市场的Tofino/Tofino2芯片的生产供货, 目前星融元是唯一一个能提供tofino停产后P4方案的厂家。星融元提供可编程交换机X-T/CX-T,并构建了可编程芯片+DPU的开放网络解决方案,持续助力P4的硬件实现。
  • 工作流程:以P4可编程交换机为例,其工作流程基于P4抽象转发模型。用户首先自定义数据帧的解析器和流控制程序命名为test.p4,test.p4文件通过编译器编译,得到test.json和 test.p4info两个文件。其中test.json是针对交换机硬件逻辑的配置文件,当配置文件载入交换机硬件后,交换机硬件逻辑得到更新,而test.p4info作为控制接口的配置文件,分别需要更新控制面和P4运行时的服务,完成控制面对交换机控制接口的更新。业务逻辑全部更新后完成P4的硬件实现。

P4技术的应用

  • 数据中心互联的云边界网关:云边界网关作为连接云内外网络的桥梁,需要处理大量的数据流量,且云服务场景丰富,设计时需要考虑灵活可扩展,充分利用了P4语言的高度灵活性和可编程性。
  • 分布式的带内网络遥测:分布式带内网络遥测允许网络中的多个节点协同工作,实时收集和报告网络状态信息,而无需控制平面的干预。这就需要定义数据包INT头部,用于携带遥测指令和元数据,再利用P4程序定义数据包的解析逻辑,以识别和提取INT头部。
  • 负载均衡和流量缓解:P4程序通过定义哈希函数、设置转发表、动态分配流量以及实现流量控制策略和拥塞控制算法等步骤,实现负载均衡和流量缓解从而有效地优化网络性能并提高用户体验。

总结

综上所述,P4网络可编程技术在提升网络性能、降低投资和运维成本以及促进网络创新方面具有显著价值。面对灵活多变的网络需求,P4提供了新的解决方案。在未来三年内,我们仍可使用P4可编程技术来应对不断增长和演变的网络挑战。

返回资源中心

最新动态

星融元P4交换机:为网络可编程的未来提供稳定支持

星融元P4可编程硬件平台


数字化趋势正引领着一场技术革命,云计算、物联网、5G和人工智能等技术正以前所未有的速度发展,这不仅提升了我们对网络性能的期待,也对网络的可塑性和灵活性提出了新的要求。在这样的背景下,网络的可编程性成为了行业发展的新焦点。P4可编程交换机以其卓越的可定制性和灵活性,引发了科研和工业界的重大关注。

P4可编程交换机具备哪些优势和特性?

面对网络中不断出现新的协议与特性,传统主流的OpenFlow协议并不支持弹性地增加匹配域支持,导致每次实现支持新特性时都需要投入大量的成本,OpenFlow协议本身也变得越来越臃肿;P4语言的诞生,就是为了解决上述问题。

P4 具有独特的优势:

1)P4 吸收了 SDN 数据平面与控制平面分离的思想,促进了网络设备的开放性,加快了新协议与新应用的部署;
2)P4 着眼于数据平面的可编程性,具备 OpenFlow 等技术并不具有的可重配置、协议无关、平台无关的特性,进一步抽象了网络设备转发模型,提升了数据平面灵活性,降低了网络运维成本;
3)由于 P4 融合了数据平面高性能报文处理能力与可编程能力,因此许多在中间件与终端服务器上完成的工作可以在数据平面上完成,从而获得性能上的大幅提升。
P4语言的编译器设计体现了模块化思想,各个模块通过标准化配置文件进行信息交换。这种设计赋予了P4语言三大关键特性:协议无关性、目标无关性和可重构性。它允许用户自定义数据平面的报文处理逻辑,提高了数据平面的可编程性,使得网络设备能够灵活地支持各种新兴的协议和功能。
P4可编程交换机架构图
P4可编程交换机架构图

P4 ASIC芯片供应格局变局下,星融元持续为您提供P4可编程交换机解决方案

然而,随着传统网络设备制造商逐步退出PISA P4交换芯片市场,企业客户面临着前所未有的挑战。在这个关键时刻,企业必须审慎思考,如何在变革中保持业务的连续性和创新能力,以及如何选择合适的产品与解决方案以满足当前和未来的业务需求。
星融元自主研发的CX-T系列交换机,搭载业界领先的P4可编程交换芯片,实现了高吞吐量、低延迟的硬转发,支持资源可编程、转发逻辑可编程、解析协议可编程。与传统ASIC相比,业务验证、部署、上线的周期缩短了95%,更能满足业务功能平滑升级的需求,让网络基建真正成为业务发展的助推器。
“硬转发+软转发+SONiC”的黄金组合,构成了星融元CX-T系列产品全栈可编程能力的核心,能够在智能网关、NFV、教育科研等众多应用场景中,满足全开放、可编程、高性能的业务需求。
星融元P4可编程交换机规格型号
星融元P4可编程交换机规格型号

P4可编程交换机的应用场景及价值

面向负载均衡与资源分配的应用

P4可编程交换机通过使用P4语言来实现数据平面的自定义,非常适合于实现负载均衡和资源分配。它能灵活地处理网络流量,优化数据中心内部的服务器负载,以及实现高效的流量工程。例如,在数据中心网络中,P4交换机可以根据实时流量动态调整资源分配策略,优化网络性能,确保关键业务流量的优先处理。

数据中心互联的云边界网关

CX3-T系列可作为数据中心互联的边界网关设备,为集团的多个数据中心之间、以及集团数据中心与各分公司数据中心站点之间互通搭建一个大二层的网络,并且满足网络中不同部署位置对交换机所提出的不同需求。(如通过QoS限速实现对专线用户的带宽管理)。除提供通用算力外,还提供增强算力,算力带宽≥200G,大存储(≥1.5TB)
P4可编程交换机在云边界网关的应用示意
P4可编程交换机在云边界网关的应用示意

精准带内网络遥测数据,打造数据中心智能化网络

CX-T系列可提供实时、精准和全面的INT(Inband Network Telemetry)和vINT(virtual INT)网络遥测数据。根据分析INT数据的结果,智能化网络可实现自我运行、自我优化和自我修复。从业务维度出发的INT/vINT数据分析具有更高的价值和更强的针对潜在问题的诊断能力,从而帮助客户打造“业务永不断线”的数据中心智能网络。
P4可编程交换机带内网络遥测数据的应用示意
P4可编程交换机带内网络遥测数据的应用示意

星融元客户案例:P4网络解决方案在电商领域的应用

在电商领域,星融元助力中国一家TOP电商平台实现了后端系统处理能力的重大突破。原先,客户日常海量交易上云后向后端交易系统的分发是由运行在服务器上的软件分发网关来实现的,但在传统的架构中,由于x86服务器的处理限制,平台需要大量服务器来运行交易分发网关软件,这不仅占用了宝贵的机房空间,还增加了运营成本。通过将自研的分发网关软件移植到星融元X-T平台,借助X-T平台线速的数据平面处理能力和灵活的控制平面可编程能力,该电商平台仅用2台X-T设备就完成了之前20~30台服务器的工作量,显著提高了数据处理效率和系统稳定性,同时也降低了能耗和维护成本。
星融元为TOP级电商海量流量的处理降本增效
星融元为TOP级电商海量流量的处理降本增效
目前,星融元P4可编程交换机具备充足库存,可确保及时满足客户的部署需求;同时,面向未来可能的供应链风险,星融元已经形成了完善的替代方案,为客户提供了更大的芯片资源、更高的编程效率,保障客户业务运行平滑过渡,免受芯片供应波动的影响。此外,星融元基于坚实的技术实力,以及在开放网络领域深耕多年的行业经验,能够为客户提供全面的服务保障、专业的技术支持、产品交付,确保客户网络的稳定运行和业务连续性。

返回资源中心

近期文章


最新动态

800G以太网:解锁下一代数据中心的高速互联

近期文章


随着AI技术的快速发展,尤其是大模型的训练推理过程,数据量呈爆炸式增长,这也对底层基础设施提出了更高的要求,网络传输必须朝着更高带宽和更高密度的方向发展以满足需求。800G以太网在400G的基础上进行扩展,提供800Gbps的数据传输速率。

800G以太网优势何在?

  • 高带宽与高速率:提供800Gbps的数据传输速率,远超当前主流网络标准。
  • 高吞吐量和低延迟:显著提升数据传输的吞吐量和降低延迟。当下已推出51.2T交换芯片。
  • 支持高密度与大规模传输:800Gps的传输速率使其能够在有限的物理空间或资源下,有效传输更多的数据,支持更广泛的网络拓扑和大规模部署。

800G以太网的技术解读

如图1所示,800G以太网实际上是一种接口技术,可以支持单个MAC以800Gb/s的速率运行。800G以太网通过集成两个400G PCS实例来实现其高速率传输。这两个400G PCS实例在数据传输过程中协同工作,共同支撑800G的带宽需求。800G-ETC-CR8/KR8规定,800G PMD子层基于IEEE 802.3ck标准的400Gb/s技术,将原来的4个并行通道扩展为8个并行通道。这就将PAM4(四电平调制)和SerDes速度从上一代的50Gbps翻倍至100Gbps,实现了网络的高带宽与高速率。

图1:800G以太网架构图
图1:800G以太网架构图

800G以太网行业现状

目前市场上的800G交换芯片主要有Broadcom Tomahawk 5、Marvell Teralynx 10和Cisco Silicon One G200,NVIDIA Spectrum-4芯片不对外售卖。它们的制作工艺大多基于5nm,吞吐量都为51.2Tb/s,在端口速率配置和一些特色功能上略有不同。比如Broadcom Tomahawk 5芯片更侧重其高效的SerDes设计降低功耗,Marvell Teralynx 10强调其业界超低延迟表现,Cisco Silicon One G200采用P4可编程并行处理器,更加灵活可定制,而NVIDIA Spectrum-4则是专注于AI网络性能的提升。下面附上芯片能力表格以便直观对比。

厂商BroadcomMarvellNVIDIACisco
芯片名称 Tomahawk 5Teralynx 10Spectrum-4Silicon One G200
制程工艺5nm5nm定制4N工艺5nm
吞吐量51.2Tb/s51.2Tb/s51.2Tb/s51.2Tb/s
端口速率
及配置
64x800Gb/s, 128x400Gb/s, 256x200Gb/s32x1.6Tb/s, 64x800Gb/s, 128x400Gb/s"64x800Gb/s
(可做两条400Gb/s链路)"
"64x800Gb/s,128x400Gb/s,
256x200Gb/s"
特色功能高效SerDes设计(借助多达 64 × [PM8x100] SerDes灵活配置端口)延迟表现低至500纳秒显著提升AI云网性能采用P4可编程并行分组处理器,高度灵活可定制

基于这些主流的800G交换芯片已有交换机厂商率先推出800G以太网交换机,例如Arista 7060X5、edgecore AIS800-64D、Cisco Nexus 9232E、星融元Asterfusion CX864E-N

图2:800G交换机组网方案
图2:800G交换机组网方案

这代表了网络硬件技术的飞跃,满足高速数据传输需求的同时推动了相关行业应用,但800G以太网技术仍未完善,所有市面上的相关产品仍旧有各自的提升空间和要面临的网络挑战。

800G以太网技术如何破局?

挑战一:误码问题

信号在高速传输的过程中受多种因素影响,例如信号衰减、反射散射和噪声抖动等。这些因素会导致信号质量下降,甚至出现比特错误,即误码。误码率指数据传输中错误比特数与总传输比特数的比例,是数字通信系统中衡量传输质量的关键指标。误码率越高,数据损耗程度越严重。然而在更高速的800G以太网中,常规的信号处理技术不足以解决误码问题,需要更复杂的方式来应对。

解决方案:

  • 更复杂的FEC算法:FEC是一种前向纠错技术,可以在数据传输过程中添加冗余信息,以便在接收端检测和纠正错误。800G以太网目前所有通道均采用 400 Gb/s 标准支持的 RS(544,514)FEC。然而正在开发的下一代800G收发器将使每个通道的速率达到200Gbps,需要更多的冗余数据、更多的纠错机制和更复杂FEC算法来确保数据传输的可靠性。
    图3:FEC工作原理
    图3:FEC工作原理
  • 更先进的DSP技术:优化数字信号处理技术,使得DSP芯片对接收到的信号进行更精确的处理,提高信号的质量和稳定性,减少误码的发生。

挑战二:能耗问题

随着数据中心容量和密度的提升,采用传统可插拔光模块方式逐渐遇到一个困难。传统交换芯片与光模块之间有一条较长的电通道,电通道在速率提升时数据损耗越来越大,为了克服通道上的数据损耗,需要在电通道上做复杂信号处理,这些处理会显著增加系统功耗。再加上光模块本身功耗大,尽管已经进行了高效设计,但在大型数据中心中拥有数以万计的光模块,其整体功耗仍是问题。除了光模块外,SerDes的通道数量和单个通道的速率也在不断提升。在800G以太网中,SerDes的速度增加到100Gbps,芯片周围的SerDes通道数量增加到512,这都会导致功耗的上升。

解决方案

  • CPO光电共封装技术:OFC 2022的Workshops针对高速以太网的功耗问题提到了CPO(Co-packaged Optics)技术。该技术将交换芯片和光引擎共同装配在同一个Socketed(插槽)上,形成芯片和模组的共封装。这样的封装方式显著减小了电通道带来的能耗损失和信号干扰,为800G以太网提供更高的功效。
  • 更高效的SerDes设计:SerDes需要支持更高的速率和更低的功耗,同时保持较小的面积和成本。
    图4:CPO技术的电路板组装
    图4:CPO技术的电路板组装
  • 优化电路板设计:采用更高效的电路设计和低功耗材料来减少功耗,提高整体能效。

800G以太网的未来

  • 从技术创新的角度来说:交换机和光模块技术不断发展,比如100Gbps SerDes广泛应用,都为800G以太网的实现提供了技术基础,有望在未来几年实现800G以太网的大规模商用。目前一些领先的芯片制造商已经发布了支持1.6T以太网PHY解决方案的产品,这表明800G以太网将向着更高速率迈进。
  • 从行业标准的制定来说:2022年,OIF完成了400ZR标准规范,并正在制定800G LR和ZR的规范,包括光系统参数、FEC算法、DSP技术、OTN映射等技术方面。2023年,IEEE 802.3dj项目中就800G 10km应用是否采用IMDD(强度调制和直接检测)还是其他相关技术进行了讨论。目前,IEEE 802.3正在积极推进800G及1.6T以太网接口的标准化工作。预计在未来两年内,IEEE 802.3、OIF等国际标准组织将陆续完成800G以太网物理层标准的制定,并推动其在实际应用中的开发和验证。
  • 从市场的角度来说:5G 网络、云计算和人工智能等领域快速发展,数据中心对带宽的需求日益增长。800G以太网能够提供更高的带宽和更低的延迟,必定会投入使用,扩大市场规模。再加上目前国内外市场不断有企业在800G通信领域取得显著进展,不难看出800G以太网将成为通信市场的重要增长点。有相关机构预测,到2025年,800G以太网将占数据中心交换机端口的25%以上,表明在未来几年内,800G以太网将实现快速普及。

总结

综上,800G以太网技术是应对未来网络需求的关键解决方案,不断推动数据中心和网络基础设施的升级,满足日益增长的数据传输和处理需求。未来,随着技术的不断进步和市场的扩大,800G以太网有望在未来几年内实现更广泛的商业化和部署。

参考:https://ethernettechnologyconsortium.org/wp-content/uploads/2021/10/Ethernet-Technology-Consortium_800G-Specification_r1.1.pdf

https://bbs.huaweicloud.com/blogs/415694

返回资源中心

最新动态

WiFi 6、WiFi 7的无线漫游技术及方案实现


关注星融元


WiFi 6 无线漫游技术

WiFi 6实现的无缝漫游主要基于802.11k/v/r协议。
802.11k/v/r是WiFi 6中三个与WLAN相关的协议,又称为“快速漫游三协议”,用于解决传统漫游过程中的丢包严重、漫游触发不及时、选择漫游的目标AP不合适等问题。以下是对这三个协议的详细解析:
分别解决了何时漫游漫游到何处以及如何快速重连的问题。

802.11k协议

802.11k协议,又称无线局域网频谱资源测量协议(Radio Resource Measurement of Wireless LANs,RRM),解决了何时漫游的问题。
该协议定义了AP和STA如何协同工作,以确定STA在移动时能够漫游到最佳AP的时机。在漫游开始前,802.11k协议通过AP与STA之间的信息交换,提前告知STA漫游时可选择的AP列表。这是因为AP会定期或根据STA的请求收集周围邻居AP的信息,包括信号强度、吞吐量、可用频道等,并整理成邻居报告。当STA检测到当前连接的AP信号不佳时,会向AP发起请求,请求AP提供可漫游AP的列表和相关信息。AP将邻居报告发送给STA,STA根据报告中的信息评估周围AP的状态,并确定是否需要漫游。同时,STA也可以向AP发送自己的测量报告,包括当前连接的AP的信号质量、丢包率等参数,以便AP评估STA的连接状态。STA根据接收到的邻居报告和自己的测量报告,评估当前连接的AP和其他潜在漫游目标的AP之间的优劣。在802.11k之前,STA通常只会连接到信号最强的AP,而802.11k协议则提供了更多的信息,帮助STA做出更合理的漫游选择。

802.11v协议

802.11v协议,又称无线网络管理协议(Wireless Network Management,WNM),解决了漫游到何处的问题。
该协议允许STA与AP之间交换网络拓扑信息,包括信号环境、拓扑状态等,以促进无线网络的整体优化。AP响应STA的报告请求后,会评估无线终端的连接质量,引导终端漫游到能提供更优网络体验的AP,从而实现负载均衡,提升整个无线网络的性能和用户漫游体验。简单来说,802.11v的作用是让STA可以请求到漫游目标AP,而AP给STA一个建议漫游的目标AP。

802.11r协议

802.11r协议,又称快速漫游协议(Fast Roaming),解决了如何快速重连的问题。
该协议定义了STA在不同AP间漫游时的交互细则,提供了实现BSS快速切换的标准。它使用了FT(快速基本服务集转换)功能来简化认证,省略了802.1x认证过程和四次握手过程,使STA能够快速且安全地漫游至新AP。在此之前,无线终端每次在加密网络中漫游时都需要重新关联验证无线密码,而通过该协议简化认证流程后,大幅缩短漫游切换时间,减少用户感知到的中断时间,确保在漫游过程中业务数据流的低延时传输,提高用户上网体验。

WiFi 7在无线漫游方面的优势

尽管WiFi 7 的标准尚未完全批准,但已有产品上市。WiFi 7 与WiFi 6 的对比如下:
 WiFi 6WiFi 7
IEEE标准802.11ax802.11be
最大传输速率9.6Gbps23Gbps
频段2.4GHz、5GHz、6GHz(仅WiFi 6E)2.4GHz、5GHz、6GHz
安全协议WPA3WPA3
信道带宽20MHz、40MHz、80MHz、
160MHz、80+80MHz
最大可到320MHz
调制方式1024-QAM OFDMA4096-QAM OFDMA

更高的带宽和传输速率:

从表格中可以看出WiFi 7的最大传输速率为23Gbps,支持最大320MHz带宽,相比WiFi 6又有所提高。对于无线漫游来说,高速率的数据传输能够确保在AP切换过程中数据传输的连续性和流畅性,避免因延迟或速率不足导致的卡顿、掉线等问题。

更低的业务时延

Wi-Fi 7支持Multi-RU机制,允许将多个RU分配给单用户。而在WiFi 6 中同一周期单用户只能分配到单个特定RU ,存在部分 RU 资源被闲置的情况。WiFi 7相比WiFi 6 大大提升了频谱资源调度的灵活性并降低了业务时延。与高速率相通,低时延也是无线漫游中保障数据传输完整和稳定的重要因素。

增强的多用户性能:

WiFi 7引入了16x16MIMO和更高阶的4096-QAM调制技术。数据流由原来的8条变为16条,每个符号位传输数据由原来的10bit变为12bit,相比Wi-Fi 6 提升20%。WiFi 7进一步增强了多用户性能和高并发能力,能够更好地处理大量设备同时连接和漫游的情况,减少冲突和延迟。

更可靠的链路机制

WiFi 7 引入Multi-Link多链路机制,定义了多链路聚合相关的技术。即AP和客户端之间同时建立多个链路进行数据通信,多发选收,负载均衡以提高链路的可靠性,从整体上提高用户在无线漫游中的体验。

更精简的无缝漫游方案

基于前文提到的快速漫游三协议以及传统组网方案的局限性,星融元在此提出无线网新架构。

基于分布式网关的无线网

在无线漫游工作原理篇我们提到集中式网关极易成为整网性能瓶颈,那不妨试试将一个子网的网关分布于每一个接入交换机上。这样做可以分担数据流量,充分利用每一个接入交换机的能力,实现负载均衡。进而提升整网转发速率,并避免了单一设备导致整网瘫痪的风险。
除此以外,该方案还能够提高转发效率。因为相比传统集中式网关,分布式网关方案中的业务报文无需到某个集中式网关上“兜圈子”,而是直接在本地接入交换机以最短路径完成漫游后的转发。这种高效的转发路径大大提高了流量转发效率。

用标准VXLAN替代CAPWAP的集中式转发

鉴于上述分布式无线方案依赖于云化后的有线网络,我们又提出了在不改变现网架构基础上单独升级无线网络的另一方案——无CAPWAP的集中式转发。
该方案借助VXLAN实现了极简的无线漫游,即AP和网关交换机之间建立的是VXLAN 隧道。AP上运行 VTEP 对用户原始数据帧进行封装和解封装,并且用不同的VNI实现网络隔离。
除了无需改变现网外,该方案还可以打破CAPWAP协议的厂商锁定。这是因为方案中用VXLAN替代了CAPWAP隧道,而VXLAN是更加标准化的技术。该方案也可应用于园区网络,客户只需引入一对具备一定可编程能力的“网关交换机”以及合适的AP即可。

方案测试

值得注意的是,不管是基于分布式网关的无线网还是用标准VXLAN替代CAPWAP的集中式转发,星融元都是基于开放的软硬件实现,即:SONiC+OpenWiFi+白盒化的接入交换机和AP。
对于该组合,我们进行了无线漫游的实际测试。
测试区域:单层办公空间(约180平米,有墙面硬隔断,日常办公场景存在一定网络干扰) 交换机:星融元CX-M系列(CX206P),其上运行AsterNOS(企业级SONiC发行版)
AP配置:SSID-Asterfusion,射频参数设置为5G,40MHz,加密方式WPA2-PSK
测试终端:同时支持802.11k/v/r、WiFi5、WiFi6的华为 mate60 pro和联想win10专业版 Comfast CF-952AX
测试结果显示,在智能手机的漫游过程中,发生了20次AP切换数据,漫游耗时稳定在10ms上下,平均8.7ms,丢包率为0;在笔记本电脑的漫游过程中,发生了5次漫游,漫游耗时稳定在10ms左右。该测试结果足以说明无线网新架构的可靠性,更详细的测试内容可参考小于10ms!基于SONIC+白盒AP的WiFi无缝漫游实测

什么是无线漫游?无线漫游的工作原理是什么?


关注星融元


什么是无线漫游

无线漫游是指在相同SSID(Service Set Identifier,服务集标识)的无线网络中,确保无线终端STA(如手机、电脑等终端设备)在移动过程中能够保持不间断网络连接的技术。因为在无线局域网中,每个AP(Access Point,无线访问接入点)设备的信号覆盖范围都有限,无线终端用户在通信过程中会从一个AP信号覆盖区进入到另一个AP覆盖区域,为了避免用户在不同的AP之间切换时,网络通讯中断,需要借助无线漫游技术,确保用户设备与新的AP自动关联,与原有AP断开关联,同时保持网络连接的连续性,使用户在移动通信的过程中自由切换且无感知地保持对网络的持续访问。

无线漫游分类

根据无线终端STA是否在同一子网内漫游,可将其分为二层漫游和三层漫游。如果STA在不同的AP间漫游切换时始终处在一个VLAN子网中,则为二层漫游;如果STA漫游前后处于不同的子网,则为三层漫游。
根据无线终端STA是否在同一个AC(Access Controller,无线控制器)管理的不同AP之间移动,可将其分为AC内漫游和AC间漫游。如果STA在同一个AC管理的AP之间移动,则为AC内漫游;如果STA在不同AC管理的AP之间移动,则为AC间漫游。值得注意的是,由于AC间漫游涉及到不同AC之间的数据同步和转发,可能需要借助隧道技术(如CAPWAP隧道)来实现数据的跨AC转发,在下文“无线漫游的工作原理”中会详细讲解。

无线漫游的工作原理

无线漫游阶段

漫游过程中,当STA进行通信时,会持续寻找其他无线AP,并与信号覆盖范围内的多台无线AP进行认证,但只和其中一台AP进行关联。终端远离其原本关联的AP后,信号强度会逐渐降低,当低于预设信号阈值时,它将尝试连接到周围信号最强的另一台AP,从当前的BSS(Basic Service Set)漫游到新的BSS,并提供终端的无缝切换。
根据以上工作原理,我们可以将漫游过程分为如下四个阶段:
  1. 信号检测:STA在移动过程中持续检测周围AP的信号强度。当其移动到两个AP覆盖范围的临界区域时,开始评估哪个AP的信号更强、更稳定。
  2. 漫游决策:根据信号检测结果,STA会做出漫游决策。如果新的AP信号强度明显高于当前连接的AP,且满足漫游条件(如信号强度阈值、漫游延迟等),设备将开始漫游过程。
  3. 认证与关联:STA向新AP发送认证请求,并进行必要的认证过程(如WPA/WPA2的PSK、EAP认证)。认证成功后与新AP建立关联,与原AP断开连接。
  4. 数据转发:漫游过程中STA的数据传输不会中断。对于AC内漫游的设备,数据可以直接在本地转发,无需经过额外的隧道或路由。而对于AC间漫游,可能需要通过隧道技术(如CAPWAP隧道)进行数据转发。

隧道协议CAPWAP

在隧道转发模式下,AP和AC之间需要建立隧道用以传输管理报文和数据报文,数据包被封装在CAPWAP隧道中,然后由AC转发到上层网络。CAPWAP协议本身并不包括任何无线技术, 协议目前由两部组成,一是我们常说的CAPWAP隧道协议,二是无线BINDING协议。CAPWAP隧道协议主要负责完成AP发现AC等基本协议功能并规定各个阶段需要完成的任务,无线BINDING协议则说明了在各种接入方式下如何完成CAPWAP协议规定的任务。
CAPWAP建立需要经历以下六个过程:
  1. AP获取AC的IP地址,AP本身IP地址有两种,静态地址和动态地址,并且AC通过广播的方式让AP获取自己的Loopback地址,为Discovery阶段。
  2. AC和AP建立控制信道的交互,称为Join状态。
  3. AC通过镜像下发使AP升级,称为Image Data状态。
  4. AC下发配置至AP,称为Configuration状态。
  5. AP发送Data Check报文确认配置,称为Data Check。
  6. AP与AC控制和数据信道均建立成功后进入Run状态。

星融元园区无线网新架构——基于SONiC+OpenWiFi+白盒硬件无CAPWAP集中式转发

星融元借助VXLAN实现了极简的无线漫游,即AP和网关交换机之间建立的是VXLAN 隧道。AP上运行 VTEP 对用户原始数据帧进行封装和解封装,并且用不同的VNI实现网络隔离。
该方案可应用于园区网络,客户只需引入一对具备一定可编程能力的“网关交换机”以及合适的AP即可。在此我们推荐Asterfusion CX-M系列园区交换机和基于OpenWiFi 的白盒AP设备。

总结

上述的经典“AP+AC”组网解决了STA的无线漫游问题。AC统一管理AP和下发配置,能给无线用户统一做认证,无疑做到了方便管理。除此之外,该模式在很多成熟方案中可以通过设置漫游阈值来促使终端自动切换到信号更好的AP,保证漫游过程中信号不中断。
但随着物联网加速普及、网络规模不断扩大,这种传统的无线漫游设计也存在一定的问题。在大规模网络下不仅多台AC的部署,冗余的设备、链路和交换策略的设计会使运维难度逐渐增加到难以掌控的地步,无线网络中心节点AC也极易成为整网性能瓶颈。除此之外,CAPWAP大多为厂商的私有协议,不同厂商的协议标准仍在修改迭代中,这就导致不同厂家产品,甚至同厂商的一些新旧产品都无法混合组网。要想突破这些局限性,还需要对现网升级,做到精简和高效。
具体升级方案会在后续文章中讨论,详情可参考园区无线网新架构:无CAPWAP的集中式转发

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2