Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

标签: 科普-AI

星融元与焱融科技AI分布式存储软硬件完成兼容性互认证

近期文章


近日,星融元 CX-N 系列超低时延交换机(25G/100G/200G/400G/800G)与焱融科技的 AI 分布式存储软硬件产品完成兼容性测试。双方产品兼容性良好,运行稳定,性能优异,能够为用户提供值得信赖的高性能分布式存储解决方案,满足其在复杂计算场景中的高效需求。

互认证
科技发展日新月异,计算、网络、存储作为现代数据基础设施的三大支柱,日益成为企业业务和 IT 规划的核心考量。特别是在人工智能(AI)和高性能计算(HPC)场景中,AI/ML 应用对底层基础设施提出了更高要求,如高吞吐量、低时延和无损数据传输等。然而,在智算集群、超算集群等计算集群的部署中,先进芯片并不能直接等同于先进算力的实现。先进算力的发挥遵循着 “木桶效应”,即真正的先进算力是计算、存储和网络三个核心环节深度协同的结果。任何一个环节出现短板,都将导致整体系统性能的严重下滑。

焱融科技和星融元,分别作为专业、领先的 AI 存储服务提供商和开放网络解决方案提供商,致力于提供高带宽、低延时、高可靠的数据存储与传输解决方案,为 AI 和 HPC 等高性能工作负载提供坚实支撑,保障先进算力的高效释放,加速企业创新成果落地。

焱融科技自主研发的高性能分布式并行文件系统 YRCloudFile,不断贴近用户业务进行性能优化,满足用户业务中大文件、小文件全流程高带宽、低延迟需求。公司推出的软硬一体化全闪存储一体机已在 AI 大模型、智算中心、自动驾驶、金融量化、教育科研等领域头部企业的业务环境中得到了广泛应用。

星融元 CX-N 系列超低时延交换机,面向 AI/ML 智算中心和云计算数据中心提供一站式全开放网络解决方案,以其构建的超低时延无损以太网,通过 RDMA 技术在以太网上的实现,帮助高性能计算方案突破网络瓶颈,为计算集群提供低时延、零丢包、高性能的网络环境。

CX-N系列产品
此次,星融元与焱融科技完成产品兼容性认证,通过各自在网络和存储领域技术实力的整合,为行业带来新的高性能存储与网络解决方案,消除数据访问与传输的性能瓶颈,充分释放计算潜能。同时,还为用户提供了更具灵活性的多元网络选择,助力企业在快速发展的 AI 时代占得先机。

未来,随着 AI/ML 技术的不断发展及大模型 Scaling law 的继续演进,高性能分布式存储解决方案的需求将持续攀升。星融元将继续与焱融科技等合作伙伴深化技术协同,为用户提供具备更加卓越性能、更高效可靠的现代化 AI 智算基础设施,共同赋能 AI 时代前行发展。

返回资源中心

最新动态

揭秘超以太网联盟(UEC)1.0 规范最新进展(2024Q4)

近期文章


近期,由博通、思科、Arista、微软、Meta等国际顶级半导体、设备和云厂商牵头成立的超以太网联盟(UEC)在OCP Global Summit上对外公布其最新进展——UEC规范1.0的预览版本。让我们一睹为快吧!
配图1

UEC 旨在提出一种“升级版”的以太网通信协议栈用以应对AI智算、HPC等领域对RDMA网络的性能挑战——当前大规模计算节点互联场景下主要有InfiniBand和基于以太网协议的RoCE两大技术路线。有关IB和RoCE协议栈的详尽对比可参阅:

高性能网络传输:RoCE与IB协议栈对比解析

相比较为封闭的IB架构,以太网在互操作性和带宽成本上的优势已在市场层面得到了广泛认可,尤其是大规模的AI算力中心场景。当前全球TOP500的超级计算机中RoCE和IB的占比相当,以端口带宽总量计算,IB占比为39.2%,RoCE已达48.5%。

尽管IB和RoCE在高性能传输的拥塞控制、QoS皆有应对设计,但也暴露出一些缺陷。例如乱序需要重传、不够完美的负载分担、Go-back-N问题,DCQCN 部署调优复杂等等。

面向GPU Scale-out网络的UEC 1.0 规范从软件API、运输层到链路层以及网络安全和拥塞控制皆有涉及,较传统RDMA网络有了大量改进,我们将挑出重点介绍。

配图2
 

什么是超级以太网系统

一个超级以太网系统的组成如下。一个集群(Cluster)由节点(Node)和网络(Fabric)组成,节点通过网卡(Fabric Interface)连接到网卡,一个网卡中可以有多个逻辑的网络端点(Fabric End Point,FEP)。网络由若干平面(Plane)组成,每个平面是多个FEP的集合,通常通过交换机互联。

配图3
 

超以太网协议栈概览

配图4

▣ 物理层与传统以太网完全兼容,可选支持FEC(前向纠错)统计功能

▣ 链路层可选支持链路层重传(LLR),并支持包头压缩,为此扩展了LLDP的协商能力

▣ 网络层依然是IP协议,没有变化

▣ 传输层是全新的,作为UEC协议栈的核心数据包传输子层(Packet Delivery)和消息语义子层(Message Semantics)。包传输子层实现新一代拥塞控制、灵活的包顺序等功能,消息语义子层支持xCCL和MPI等消息。可选支持安全传输。另外,在网集合通信(In Network Collective,INC)也在这一层实现

 软件API层。提供UEC扩展的Libfabrics 2.0

物理层

UEC 1.0规范下的物理层与传统以太网(符合IEEE802.3标准)完全兼容,支持每通道100Gbps和200Gbps速率,在此基础上实现800Gbps和更高的端口速率。

另外可选支持物理层性能指标统计功能(PHY metrics)。这些指标基于 FEC 码字进行计算,不受流量模式和链路利用率的影响。估计算法基于FEC错误计数器的数据,从而得出不可纠正错误率(UCR )和数据包错误平均间隔(MTBPE)。这些指标衡量了物理层的传输性能和可靠性,用于上层的遥测和拥塞控制等。为了支持新的 UEC 链路层功能,UEC规范中也对协调子层(RS)进行了相应的修改。

链路层

UEC链路层最大的变化是引入了LLR(Link Level Retry)协议。它可以让以太网不依赖PFC,实现无损传输。

LLR 机制是基于帧的。每个帧都分配了一个序列号,接收端成功接收这一帧后,检查帧的序列号是否符合预期,如果正确,发送确认消息(ACK),如果发现帧乱序或者丢失,则发送否定确认消息 (NACK)。发送端具有超时机制,用于保证在 NACK 丢失时重传。

传输层:UET,新一代协议栈的核心

前文提过,传统的RDMA网络传输层(包括IB和RoCE)在多路径传输、负载分担、拥塞控制以及参数调优等方面存在着不足之处。随着AI/HPC集群规模增长,网络的确定性和可预测性越来越困难,需要全新的方法来解决。

UEC传输层(UEC Transport Layer,简称UET)运行在IP和UDP协议之上, 支持实现以下几大技术目标:
▣ 支持高达 100 万个 GPU/TPU 的算力集群
▣ 往返时间低于 10μs
▣ 单接口带宽800Gbps及以上
 网络利用率超过85%
 

选择性重传(Selective Retransmit)

传统传输协议,如TCP需要严格的传输顺序,并采用了Go-Back-N机制。而一个RDMA消息通常包含多个数据包,只要有一个数据包错误,则从这个数据包起的所有数据包都要重传。这让偶尔的传输错误被放大,加剧了网络拥塞。UEC采用选择性重传机制,仅传输错误的数据包。
 

乱序交付(Out-of-Order Delivery)

UET不仅支持有序传输,也支持无序传输。这是因为现代网络中通常有多路径存在,同一个流的数据包经过不同路径传输,就可能造成乱序。如果还要求严格的顺序传输,就无法利用多路径来实现负载分担。此外,选择性重传也需要无序传输的支持。为了实现无序传输,需要接收方有更大的数据包缓冲区,从而将乱序的数据包组成一个完整的RDMA消息。

UET支持四种传输方式:
▣ ROD (Reliable Ordered Delivery)
– 需要拥塞控制、有序、可靠、无重传(依旧采用Go-Back-N)
▣ RUD (Reliable Unordered Delivery) 
– 需要拥塞控制、无序、可靠、无重传
▣ RUDI (RUD for Idempotent Operations)
– 可选拥塞控制、无序、可靠、重传
▣ UUD (Unreliable Unordered Delivery) 
– 可选拥塞控制、无序、不可靠、重传

包喷洒(Packet Spraying)

包喷洒是一种基于包的多路径传输。由于传统传输协议不支持无序传输,同一个数据流必须按照同一个路径传输,否则就会造成乱序,引发重传。而在AI/HPC应用中,存在大量的“大象流”,它们数据量大、持续时间长,如果能使用多路径传输一个流,将显著提高整个网络的利用率。

由于支持了RUD,UET就可以将同一个流的不同包分散到多个路径上同时传输,实现包喷洒功能。这让交换机可以充分发挥ECMP甚至WCMP(Weighted Cost Multi- Pathing)路由能力,将去往同一目的地的数据包通过多条路径发送,大幅度提高网络利用率。

拥塞控制(Congestion Control)

UET 拥塞控制包含以下重要特性,由端侧硬件和交换机配合完成,有效减小了尾部延迟。

▣  Incast管理。它用于解决集合通信(Collective)中下行链路上的扇入问题。AI和HPC应用经常采用集合通信在多个节点之间同步信息,当多个发送者同时向一个接收者发送流量,就会产生Incast拥塞

▣  速率调整加速。现有的拥塞控制算法,在发生网络拥塞后调整速率的过程较长,而 UET 可以快速上升到线速。方法是测量端到端延迟来调节发送速率,以及根据接收方的能力通知发送方调整速率。

▣  基于遥测。源自网络的拥塞信息可以通告拥塞的位置和原因,缩短拥塞信令路径并向终端节点提供更多信息,从而实现响应速度更快的拥塞控制。

▣  基于包喷洒的自适应路由当拥塞发生时,通过包喷洒技术将流量重新路由到其它路径上,绕过拥塞点。

端到端的安全

UEC在传输层内置安全。它是基于作业(Job)的,可以对整个作业的流量进行端到端的AES加密,充分利用 IPSec 和PSP(Packet Security Protocol)的能力,减小安全加密的开销,提供可扩展安全域,并且可以由硬件卸载。
 

在网计算(In Network Collectives)

在网计算最早应用在HPC集群,业界主要有两个思路,一是基于网卡的,二是基于交换机。

UEC V1.0 的目标是后者,即将集合操作卸载到各级交换机上完成,避免过多的收发次数,降低节点交互频率和处理时延开销,减少约一半数据传输量,从而加速All-Reduce操作。

在部署实现上,目前AI智算领域唯一大规模商用的案例仅有英伟达的SHARP(在ASIC层面实现的硬件加速),以太网设备厂家仍处在探索阶段,例如将算力内置于交换机或外接,甚至P4可编程都是可能的思路方向。

 

软件层:Extended Libfabrics 2.0

在软件层,UEC提供简化的API。它简化了RDMA操作,并为AI和HPC应用提供专用的API,如xCCL, MPI, PGAS和OpenShmem等。

配图5
硬件升级:支持UEC的交换机和网卡

UEC在规范中定义了支持超级以太网交换机的架构,可以看到大体是继承了SONiC的架构。这部分的主要关注在于控制平面上支持INC和SDN控制器;数据平面升级了SAI(Switch Abstraction Interface)API调用硬件提供的INC等能力。

配图6

UEC同样定义了网络端点(Fabric End Point)的软硬件架构。在硬件层,网卡升级支持UEC功能。在操作系统内核态,实现网卡驱动。在用户态,基于libfabric扩展实现INC管理等功能,支持上层的xCCL/MPI/SHMEM等应用。

配图7

总的来说,UEC v1.0规范重构了数据中心以太网以完全替代传统的RDMA网络,用更高的性能、更低的成本实现稳定可靠、具有百万节点的AI/HPC集群。

 

星融元RoCE交换机与UEC

作为UEC成员单位,星融元提供的超低时延RoCE交换机(CX-N系列)全系采用高性能的标准白盒网络硬件,搭载为生产环境深度调优的企业级SONiC发行版——多项 Easy RoCE 特性,全面兼容现有规范并提供灵活、广大的升级空间,未来将平滑演进与新一代以太网标准保持同步。
星融元产品
 
配图8

返回资源中心

最新动态

RoCE与IB对比分析(二):功能应用篇

近期文章


在上一篇中,我们对RoCE、IB的协议栈层级进行了详细的对比分析,二者本质没有不同,但基于实际应用的考量,RoCE在开放性、成本方面更胜一筹。本文我们将继续分析RoCE和IB在拥塞控制、QoS、ECMP三个关键功能中的性能表现。

拥塞控制

拥塞控制即用来减少丢包或者拥塞传播,是传输层的主要功能,但需要借助链路层和网络层的帮助。

RoCEv2 的拥塞控制机制

RoCEv2通过链路层PFC、网络层ECN、传输层DCQCN三者协同配合,实现更高效的拥塞管理,可见,RoCEv2虽然使用了IB的传输层协议,但在拥塞控制方面有所不同。
  1. 基于优先级的流量控制(PFC)

PFC在RoCEv2中被用于创建无损的以太网环境,确保RDMA流量不因链路层拥塞而丢失。核心原理是下游控制上游某个通道开启和停止发送数据包,控制方式是发送PFC Pause和Resume帧,触发时机是根据下游SW的ingress的队列数量是否达到某个阈值。
而PFC允许在一条以太网链路上创建8个虚拟通道,并为每条虚拟通道指定一个优先等级,允许单独暂停和重启其中任意一条虚拟通道,同时允许其它虚拟通道的流量无中断通过。这一方法使网络能够为单个虚拟链路创建无丢包类别的服务,使其能够与同一接口上的其它流量类型共存。
如图1所示,DeviceA发送接口分成了8个优先级队列,DeviceB接收接口有8个接收缓存(buffer),两者一一对应(报文优先级和接口队列存在着一一对应的映射关系),形成了网络中 8 个虚拟化通道,缓存大小不同使得各队列有不同的数据缓存能力。
当DeviceB的接口上某个接收缓存产生拥塞时,超过一定阈值(可设定为端口队列缓存的 1/2、3/4 等比例),DeviceB即向数据进入的方向(上游设备DeviceA)发送反压信号“STOP”,如图中第7个队列。
DeviceA接收到反压信号,会根据反压信号指示停止发送对应优先级队列的报文,并将数据存储在本地接口缓存。如果DeviceA本地接口缓存消耗超过阈值,则继续向上游反压,如此一级级反压,直到网络终端设备,从而消除网络节点因拥塞造成的丢包。
  1. 显式拥塞通知(ECN)

ECN(Explicit Congestion Notification)是一种IP头部用于的拥塞控制的标记位,允许网络设备在发生拥塞时标记数据包,而不是丢弃它们。
RoCEv2利用ECN位来标记发生拥塞的数据包,接收方在检测到ECN标记后,发送CNP(Congestion Notification Packet)给发送方,后者通过拥塞控制算法(如DCQCN)调整发送速率。
  1. 数据中心量化拥塞通知(DCQCN)

DCQCN(Data Center Quantized Congestion Notification)是一种适用于RoCEv2的拥塞控制算法,是数据中心TCP(DCTCP)和量化通知算法的结合,最初在SIGCOMM’15论文”Congestion control for large scale RDMA deployments”中提出。DC-QCN算法依赖于交换机端的ECN标记。结合了ECN和速率限制机制,工作在传输层。当接收方检测到ECN标记时,触发CNP发送给发送方,发送方根据反馈调整发送速率,从而缓解拥塞。
综上,PFC、ECN、DCQCN分别工作在链路层、网络层和传输层。在RoCEv2中,它们被组合使用,以实现更高效的拥塞管理。
  • PFC:防止数据包在链路层被丢弃,提供无损传输,解决一段链路的问题。
  • ECN/DCQCN:发送方根据拥塞标记主动调整发送速率,减轻网络负载。解决端到端网络的问题。

InfiniBand 的拥塞控制机制

InfiniBand 的拥塞控制机制可分为三个主要部分:
  1. 基于信用的流量控制

IB在链路层实现基于信用的流量控制(Credit-based Flow Control),该机制实现了无损传输,是 InfiniBand 高性能的基础。发送方根据接收方提供的信用(表示可用缓冲区空间)来控制数据包的发送,接收方在处理完数据包后发送信用给发送方,以允许继续发送新的数据包,从而避免网络拥塞和数据包丢失。
如下图所示,发送方当前可用信用值2,通过流水线传输(pipelined transfer)连续向接收方发送数据包,但此时接收方缓冲区已满,发送方会暂停发送新的数据包,直到接收方发送新的信用。
  1. ECN机制
当网络中的交换机或其他设备检测到拥塞时,会在数据包的 IP 头中标记 ECN(Explicit Congestion Notification)。接收方的 CA(Channel Adapter)接收到带有 ECN 标记的数据包后,会生成拥塞通知包(CNP),并将其反馈给发送方,通知其网络出现拥塞需要降低传输速率。
  1. 端到端拥塞控制

发送方的 CA 在收到 CNP 后,根据 InfiniBand 拥塞控制算法调整发送速率。发送方首先降低数据发送速率以缓解拥塞,之后逐步恢复发送速率,直到再次检测到拥塞信号。这个动态调整过程帮助维持网络的稳定性和高效性。IBA没有具体定义特定的拥塞控制算法,通常由厂商定制实现。(HCA,Host Channel Adapters,or IB NIC)

 RoCEv2与IB拥塞控制机制比较

两者的拥塞控制机制比较如下:
拥塞控制机制比较

可见,RoCE与IB的拥塞控制机制基本相同,区别在于IB的拥塞控制机制集成度较高,通常由单个厂家提供从网卡到交换机的全套产品,由于厂商锁定,价格高昂。而RoCE的拥塞控制机制基于开放协议,可以由不同厂家的网卡和交换机来配合完成。
随着大规模AI训练和推理集群的扩展,集合通信流量导致了日益严重的拥塞控制问题,由此出现了一些新的拥塞控制技术,如基于In-band Network Telemetry (INT)的HPCC(High Precision Congestion Control),即通过精确的网络遥测来控制流量,以及基于Clear-to-Send (CTS)的Receiver-driven traffic admission,即通过接收方的流量准入控制来管理网络拥塞等。这些新技术在开放的以太网/IP网络上更容易实现。

QoS

在RDMA网络中,不光RDMA流量要获得优先保证。一些控制报文,如CNP、INT、CTS,也需要特别对待,以便将这些控制信号无损、优先的传输。
  • RoCEv2的QoS
在链路层,RoCEv2采用ETS机制,为不同的流量分配不同的优先级,为每个优先级提供带宽保证。
在网络层,RoCEv2则使用DSCP,结合PQ、WFQ等队列机制,为不同的流量分配不同的优先级和带宽,实现更精细的QoS。
  • InfiniBand的QoS
在链路层,IB采用SL、VL及它们之间的映射机制,将高优先级的流量分配到专门的VL,优先传输。虽然VL仲裁表 (VL Arbitration Table)能够通过分配不同的权重来影响和控制带宽的分配,但这种方式不能保证每个VL的带宽。
在网络层,IB的GRH支持8个bit的Traffic Class字段,用于在跨子网的时候提供不同的优先级,但同样无法保证带宽。
由此可见,RoCE能够为不同的流量类型提供更精细的QoS 保证和带宽控制,而 InfiniBand 只能提供优先级调度,而非带宽的明确保障。

ECMP

  1.   RoCE的ECMP

数据中心IP网络为了高可靠和可扩展性,通常采用Spine-Leaf等网络架构。它们通常在一对RoCE网卡之间提供了多条等价路径,为了实现负载平衡和提高网络拓扑的利用率,采用ECMP(Equal Cost Multiple Paths) 技术。对于给定的数据包,RoCE交换机使用某些数据包字段上的哈希(Hash)值在可能的多条等价路径中进行选择。由于可靠传输的要求,同一个RDMA操作应当保持在同一个路径中,以避免由于不同路径造成的乱序问题。
在IP网络中,BGP/OSPF等协议均可以在任意拓扑上计算出等价路径,然后由交换机数据平面基于IP/UDP/TCP等头部字段(如五元组)计算哈希值并轮流转发到不同路径上。在RoCE网络中,为了进一步细分RDMA操作,可以进一步识别BTH头部中的目的QP信息,从而实施更细粒度的ECMP。
  1.   InfiniBand的ECMP

在控制平面,IB的路由基于子网管理器,在拓扑发现的基础上实现ECMP,但由于集中式的子网管理器与网络设备分离,可能无法及时感知网络拓扑的变化,进而实现动态的负载均衡。
在数据平面,IB的ECMP同样基于哈希计算和轮转机制。

总结

  • 在拥塞控制方面,RoCE结合了PFC, ECN和DCQCN提供了一套开放的方案,IB则拥有基于Credit的一套高度集成的方案,但在应对大规模集合通信流量时均有所不足。
  • 在QoS方面,RoCE可以实现每个优先级的带宽保证,而IB仅能实现高等级的优先转发。
  • 在ECMP方面,两者均实现了基于Hash的负载分担。
总结来看,IB具备已验证的高性能和低延时优势,RoCEv2则在互操作性、开放性、成本效益方面更胜一筹,且从市场占比及认可度来看,RoCEv2逐渐比肩IB;但不得不承认的是,RoCE和IB在应对大规模AI训练和推理中高带宽、突发式和广播型的集合通信流量时,均有所不足,而RoCE基于其广泛的以太网生态系统,能够更快速地拥抱新技术新协议,其潜力和可塑性更胜一筹,未来有望在网络格局中扮演更重要的角色。
  • 10G-800G的全场景互联:星融元CX-N数据中心交换机的单机转发时延(400ns)低至业界平均水平的1/4~1/5;采用BGP-EVPN、VXLAN、MC-LAG等技术构建可靠的大二层网络满足生产网络稳定性需求。
  • 搭载开放网络操作系统:星融元AsterNOS以SONiC为内核、依托容器化的系统架构,并提供RESTful API支持第三方应用快速集成,或对接上层管理调度平台,例如OpenStack,K8s等。
  • EasyRoCE极简运维:支持无损网络一键部署,Prometheus + Grafana 可视化监控大屏配合专用命令行,问题快速定位解决。

参考文档:
https://zhuanlan.zhihu.com/p/643007675
https://blog.csdn.net/essencelite/article/details/135492115
https://support.huawei.com/enterprise/zh/doc/EDOC1100075566/d1e17776
https://www.researchgate.net/publication/4195833_Congestion_Control_in_InfiniBand_Networks

返回资源中心

最新动态

RoCE与IB对比分析(一):协议栈层级篇

近期文章


在 AI 算力建设中, RDMA 技术是支持高吞吐、低延迟网络通信的关键。目前,RDMA技术主要通过两种方案实现:Infiniband和RoCE(基于RDMA的以太网技术,以下简称为RoCE)。

RoCE与IB网络架构概述

RoCE和InfiniBand均是InfiniBand Trade Association(IBTA)定义的网络协议栈,其中Infiniband是一种专为RDMA设计的高性能网络,它从硬件层面确保了数据传输的可靠性,为了进一步发挥RDMA的优势,IBTA在2010年定义了RoCE。RoCE则是Infiniband与以太网技术的融合,它在保持Infiniband核心优势的同时,实现了与现有以太网基础设施的兼容性。具体来说,RoCE在链路层和网络层与Infiniband有所不同,但在传输层和RDMA协议方面,RoCE继承了Infiniband的精髓。
从市场应用占比来看,2000年,IB架构规范的1.0版本正式发布,2015年,InfiniBand技术在TOP500榜单中的占比首次超过了50%,但据最新统计,在全球TOP500的超级计算机中,RoCE和IB的占比相当。以计算机数量计算,IB占比为47.8%,RoCE占比为39%;而以端口带宽总量计算,IB占比为39.2%,RoCE为48.5%。
图1 超级计算机 500 强中 RoCE 和 InfiniBand 的利用率
图2 超级计算机 500 强中 RoCE 和 InfiniBand 的利用率
图2 超级计算机 500 强中 RoCE 和 InfiniBand 的利用率

RoCE与IB报文格式对比

  • RoCE报文格式下图所示:
其中,RoCEv1使用了IB的全局路由头(Global Routing Header),IB BTH是IB的基本传输头(Base Transport Header),ICRC是对InfiniBand层不变字段进行校验的循环冗余校验码,FCS是以太网链路层的校验序列码。
RoCEv2中添加了IP Header和UDP Headrer,引入IP解决了扩展性问题。
图3 RoCE数据包格式
  • IB报文格式如下图所示:
在一个子网(Subnet)内部,只有Local Routing Header(LRH),对应OSI的链路层。在子网之间,还有一个Global Routing Header(GRH),对应OSI的网络层。在Routing Header之上,是Transport Header,提供端到端的传输服务,包括数据的分段、重组、确认和流量控制。接着就是报文的数据部分,包含应用层数据或上层协议信息。最后是不变字段和可变字段的循环冗余校验码(CRC),用于检测报文在传输过程中的错误。
图4 IB数据包格式

RoCE与IB网络层级对比

IB与RoCE协议栈在传输层以上是相同的,在链路层与网络层有所区别:
RoCEv1中,以太网替代了IB的链路层(交换机需要支持PFC等流控技术,在物理层保证可靠传输),然而,由于RoCEv1中使用的是L2 Ethernet网络,依赖于以太网的MAC地址和VLAN标签进行通信,而不涉及网络层(IP层,即OSI模型的第三层)的路由功能,因此,RoCE v1数据包不能实现跨不同的IP子网传输,只能在同一广播域或L2子网内进行传输。
RoCEv2在RoCEv1的基础上,融合以太网网络层,IP又替代了IB的网络层,因此也称为IP routable RoCE,使得RoCE v2协议数据包可以在第3层进行路由,可扩展性更优。
图5 RoCE和IB协议栈对比
  1. 物理层

  • RoCE的物理层基于标准以太网,使用PAM4 (Pulse Amplitude Modulation 4)编码方式和64/66b编码。支持铜缆和光纤,接口有 SFP+、QSFP+ 、OSFP等。支持速率从 10GbE到800GbE。
  • IB的物理层则是专有的,采用更传统的NRZ(Non-Return-to-Zero)调制技术和64/66b编码。支持铜缆和光纤,接口通常为 QSFP、OSFP,支持速率从 10Gbps 到 400Gbps,并可以通过多通道的组合实现更高的总带宽(如 800Gbps)。
对比来看,IB采用的NRZ每个符号只有两个电平,而RoCE采用的PAM4使用 4个不同的电压电平来表示数据,也就是说RZ信号中,每个周期传输1bit的逻辑信息,PAM4每个周期可以传输2bit的信息,因此在相同的波特率下,PAM4的数据传输速率是NRZ的两倍,具有更高的带宽效率,在支持更高速率(如1.6T,3.2T)时具有潜在的优势。目前,六进制(PAM6)和八进制(PAM8)调制技术正处于实验和测试阶段,而InfiniBand(IB)也在逐渐从传统的NRZ(非归零)调制技术转型至PAM4,例如,400G光模块现已能够同时支持IB和以太网标准。相比之下,以太网在调制技术的应用上展现出更为迅速的发展势头。
  图6 频域中 PAM4 与 NRZ 信号的频率内容
  1. 链路层

  • RoCE的链路层是标准以太网,为了在传统以太网上实现无损传输,引入了PFC(Priority-based Flow Control),由IEEE 802.1Qbb标准定义,当交换机的某个优先级队列的缓冲区接近满载时,会发送 PFC帧给上游设备,通知其暂停发送该优先级的流量,防止缓冲区溢出,避免数据包在链路层被丢弃。
此外,以太网引入了ETS(Enhanced Transmission Selection) ,它是DCB (Data Center Bridging)标准的一部分,由 IEEE 802.1Qaz 规范定义。ETS 将流量分配到不同的队列,为每个队列分配一个权重,控制每个流量队列能够使用的带宽百分比,保证高优先级的流量,如RDMA等,获得足够的带宽资源。
  • IB的链路层是专有的,包头称为Local Routing Header,如图所示。
其中,VL是虚拟通道 (Virtual Lanes),SL是服务等级 (Service Level),Source/Destination Local Identifier则是链路层地址。
它内建了对无损传输的支持,这是因为它实现了基于信用的流量控制(Credit-based Flow Control)。接收方在每个链路上提供一个信用值,表示其缓冲区能够接收的数据量。发送方根据此信用值发送数据,确保不会超过接收方的处理能力,从而避免缓冲区溢出和数据丢失。
IB链路层结合SL和VL实现QoS,SL共有16个业务等级,用于标识流量优先级,每个数据包可以根据业务需求被分配到不同的服务等级,通过SL-VL映射,将不同优先级的流量分配到不同的VL上,从而确保高优先级流量(如RDMA)不会因低优先级流量的拥塞而受到影响。
对比而言,IB的链路层由专用硬件实现,效率较高,具有超低时延的特点,而RoCE基于标准以太网硬件,时延稍长。但由于两者都达到了100ns级别,而根据UEC的最新定义,在传输RDMA时,端到端性能要求通常为10μs左右,它们的差别不大。
  1. 网络层

  • RoCE的网络层使用IP,可以是IPv4或IPv6。它采用成熟的BGP/OSPF等路由协议,适应任何网络拓扑并具有快速自愈能力;支持ECN(EXPLICIT CONGESTION NOTIFICATION ),用于端到端的拥塞控制;支持DSCP,替代IB的TRAFFIC CLASS,用于实现QoS。
  • IB的网络层借鉴了IPv6。Global Routing Header的格式与IPv6完全相同,具有128bit地址,只是字段命名不同。但它没有定义路由协议,而是采用子网管理器(Subnet Manager)来处理路由问题,这是一种集中式的服务器,每个网卡端口和交换芯片都通过由SM分配的唯一身份标识(Local ID,LID)进行识别,不具备互操作性,因此很难快速响应网络的变化。
显然,IB网络层是专有的、集中管理的,而RoCE的网络层基于标准以太网和UDP,在互联网数以十亿计算的设备上使用,技术成熟,并在持续发展中;引入SRv6等技术后,IP进一步增强了流量工程、业务链、灵活性和可扩展性等能力,非常适合组建超大规模可自愈的RDMA网络。
  1. 传输层

  1. RoCE

RoCE采用了IB的传输层。RoCEv2协议栈虽然包含UDP,但它仅借用了UDP的封装格式,传输层的连接、重传、拥塞控制等功能由IB传输层完成。UDP层的目的端口固定分配给RDMA协议,源端口则是动态分配的,但在一个连接过程中保持固定。这样可以让网络设备通过源端口区分不同的RDMA数据流。
  1. InfiniBand

IB的传输层采用了模块化的灵活设计,通常包含一个基本传输头BTH(Base Transport Header)和若干个(0到多个)扩展的传输头(Extended Transport Header)。
BTH(Base Transport Header)是InfiniBand传输层头部的一部分。它是InfiniBand网络协议中L4传输层的基本头部,用于描述数据包传输的控制信息。格式如下,
关键信息有:
  • OpCode操作码。由8个bit组成。前3个bit代表传输服务类型,如可靠连接/不可靠连接/可靠数据报/不可靠数据报/RAW数据报等。后5个bit代表操作类型,如SEND/READ/WRITE/ACK等。
  • Destination QP,目的QP号(Queue Pair Number)。与TCP端口号类似,代表了RDMA连接(称为Channel)的目的端。但与TCP端口不同的是,QP由Send/Recv两个队列组成,但用同一个号码标识。
  • Packet Sequence Number,包序列号,简称PSN。与TCP序列号类似,用于检查数据包的传输顺序。
  • Partition Key,分区键。可以将一个RDMA网络分为多个逻辑分区。在RoCE中可采用新一代的VxLAN等技术替代。
  • ECN,显示拥塞通知。用于拥塞控制,包含Forward和Backward两个bit,分别表示在发送和返回路径上遇到了拥塞,在RoCE中被IP头部的ECN替代。
BTH帮助接收方理解该包属于哪个连接以及如何处理接收到的包,包括验证包的顺序、识别操作类型等。
在BTH之后,还有RDMA Extended Transport Header,它包含远端的虚拟地址、密钥和数据长度等信息。格式如下,
其中:
  • VirtualAddress,虚拟地址,代表目的端内存地址。
  • DMA Length,直接内存访问长度,是要读写的数据长度,以字节为单位。
  • Remote Key,用于访问远端内存的密钥。
IB传输层通常由RDMA网卡硬件实现,在IB中称为Channel Adapter(CA),在RoCE中称为RoCE网卡,从而提升RDMA传输的性能。在一些高级的RoCE交换机中,还可以感知IB传输层信息并对RDMA数据流做加速处理。
  1. RDMA操作

借助RDMA扩展头,RoCE和IB的传输层对远程主机的地址进行直接的读写操作(Operation)。
  • RDMA写操作 (RDMA Write)
QP(Queue Pair) 建立后可以直接进行,允许发送方直接写入接收方的内存,不需要接收方的CPU参与,并且无需请求。这种操作方式是 RDMA 高性能和低延迟的核心特性之一。
RDMA Write 是一种单向操作。写入方在写入数据后不需要等待接收方的响应,这种操作与常规的 Send/Receive 模式不同,不需要接收方预先准备接收队列。
  • RDMA读操作 (RDMA Read)
允许发送方从接收方的内存中读取数据,不需要接收方CPU参与。目标地址和数据大小在发送方指定。如下图所示,在一次请求后,可以通过多次响应返回数据,提高了数据传输效率。
图7 RDMA 读操作
  • 发送/接收操作 (Send/Receive)
这是传统的消息传递操作,数据从发送方传递到接收方的接收队列中,需要接收方预先准备接收队列。
在RoCE中,RDMA跳过操作系统的TCP/IP协议栈,直接与RoCE网卡上的传输层连接,借助DMA机制,直接访问本地和远端内存,实现了零拷贝传输,大幅度提升了性能。
同样,IB网卡在硬件上实现RDMA操作,零拷贝传输,两者的性能相当。
当然,无论在RoCE还是IB中,RDMA 连接的初始化、资源分配、队列对 (QP) 管理、以及一些控制路径上的操作(如连接建立、内存注册等)仍然依赖于软件栈。
  1. 应用层

RDMA在数据中心、HPC集群、超级计算机中获得了广泛的应用,用于承载AI训练、推理、分布式存储等数据中心内部的关键业务。
例如,在AI训练/推理时, xCCL或者MPI使用RDMA实现点对点和集合通信;在分布式存储时,NVMEoF, Ceph使用RDMA对网络存储器进行读写操作。
  1. 网络层级对比小结

  • 在物理层,RoCE和IB都支持800G,但PAM4相比NRZ具有更强的升级潜力,以太网成本也低于IB,RoCE更胜一筹。
  • 在链路层,两者均实现了无损传输,RoCE的ETS能够为不同优先的流量提供带宽保证,且RoCE和IB的时延均达到了100ns级别,在实际应用中差不大。
  • 在网络层,RoCE借助IP的成熟的持续发展,更能适应大规模网络。
  • 传输层及以上,RoCE和IB使用同样的协议,没有区别。

RoCE与IB的较量,究竟谁更胜一筹

总的来说,RoCE和InfiniBand都由IBTA定义,没有本质的不同。RoCE实际上是将成熟的IB传输层和RDMA移植到了同样成熟的以太网和IP网络上,是一种强强联合,在保持高性能的同时,降低了RDMA网络的成本,能够适应更大规模的网络。
根据亚马逊的高级首席工程师Brian Barrett,AWS之所以放弃IB方案,主要是因为:“云数据中心很多时候是要满足资源调度和共享等一系列弹性部署的需求,专用的IB网络构建的集群如同在汪洋大海中的孤岛”。
出于AI算力建设对于成本和开放性的考量,越来越多的公司已经在使用以太网交换机用于大规模AI算力中心,例如当前全球最大的AI超级集群(xAI Colossus,造价数亿美元、配备十万片NVIDIA H100 GPU),便是采用64 x 800G,51.2T以太网方案构建集群网络。
CX864E-N是星融元专为AI训练、推理、高性能计算(HPC)等场景设计的一款行业内顶尖规格的RoCE交换机,拥有51.2T的超大交换容量,助力客户用更优的投入成本,实现与IB网络相当的性能。
CX864E-N
  • 8 x CX864E 支持 512 个 GPU 互连,每个端口速度为 400G
  • 192 x CX864E 支持 8192 GPU 互连,每个端口速度为 400G
  • 192 x CX864E 支持 128k ML/AI 节点互连,每端口速度为 100G

参考文献

https://mp.weixin.qq.com/s/PZ_Q5rS5a5YJlczao9SMXw
https://support.huawei.com/enterprise/zh/doc/EDOC1100203347
https://community.fs.com/cn/article/roce-technology-in-high-performance-computing.html
https://ascentoptics.com/blog/cn/understanding-infiniband-a-comprehensive-guide/
https://blog.csdn.net/jkh920184196/article/details/141461235
https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/

返回资源中心

最新动态

算力基础篇:从零开始了解算力

近期文章


什么是算力

算力即计算能力(Computing Power),狭义上指对数字问题的运算能力,而广义上指对输入信息处理后实现结果输出的一种能力。虽然处理的内容不同,但处理过程的能力都可抽象为算力。比如人类大脑、手机以及各类服务器对接收到的信息处理实际都属于算力的应用。
随着信息技术的不断发展,《中国算力白皮书(2022)》中将算力明确定义为数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。当前行业中讨论的算力,狭义上可理解为CPU、GPU等芯片的计算能力,广义上可理解为芯片技术的计算能力,内存、硬盘等存储技术的存力,以及操作系统、数据库等软件技术的算法的三者集合。

算力的分类

随着数字经济时代的到来,算力发展迎来高潮,广泛应用于各个领域,其中包括但不限于日常消费领域、人工智能领域、半导体技术领域。不同应用场景对算力的需求各异,需要不同类型的算力支撑。目前算力主要分为通用算力、智能算力和超算算力。未来还会出现比传统计算更高效、更快速的新一代算力,例如量子算力等。

通用算力

通用算力主要以CPU为代表,即CPU芯片执行计算任务时所表现出的计算能力。不同架构的CPU计算能力不同,因为CPU算力受核心数量、主频、缓存大小等多种因素影响。目前可以根据DMIPS指标来衡量CPU性能。该指标表示CPU每秒能执行多少百万条Dhrystone指令。
分类特点引领者优劣势
x86复杂指令集、单核能力强Intel、AMD、海光、兆芯软件生态好,占有率高;指令集实现复杂,功耗高
ARM精简指令集、追求多核、低功耗安谋、高通、Amazon授权厂商多,能效比高;软件生态劣于x86
MIPS精简指令集、低功耗龙芯软件生态弱、市占率正在下降
Power
单核能力强、高可靠性、高成本IBMIBM掌控技术,应用于金融领域
RISC-V
精简指令集RISC-V基金会、阿里巴巴、兆易创新完全开放开源、模块化、可扩展
Alpha
精简指令集、速度快申威软件生态弱,市占率小
通用算力计算量小,但能够提供高效、灵活、通用的计算能力。因为CPU的架构属于少量的高性能核心结构,即核心数量少,但核心频率高,更加擅长处理复杂的逻辑判断和串行计算的单线程任务,如操作系统的管理、应用程序的执行以及各类后台服务等。而这样的设计在面对大规模并行计算任务时则显得力不从心。

智能算力

智能算力主要以GPU、FPGA、ASIC芯片为代表。每种类型的芯片具有各自的特点和优势。
  • GPU(Graphics Processing Unit,图形处理器):GPU在设计之初用于图形渲染,即同时处理大量简单的计算任务。不同于CPU的少量高性能核心架构,GPU拥有大量的核心数但较小的控制单元和缓存,能够完成高度并行的计算任务。GPU主要应用在机器学习的训练阶段,因为机器学习的操作并不依赖于复杂指令,而是大规模的并行计算。
  • FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列):FPGA是在PAL、GAL 等可编程器件的基础上进一步发展的产物。FPGA是半定制集成电路,具有可重配置的逻辑结构。其内部的电路不是硬刻蚀的,而是可以通过HDL(硬件描述语言)编程来重新配置。这种可编程灵活性使其可以完成人工神经网络的特定计算模式,轻松升级硬件以适应AI场景中新的应用需求。除此以外,FPGA的每个组件功能在重新配置阶段都可以定制,因此在运行时无需指令,可显著降低功耗并提高整体性能。
  • ASIC(Application-Specific Integrated Circuit,应用特定集成电路):ASIC是专为满足特定需求而设计的全定制集成电路芯片。ASIC的优势在于其能够针对特定任务进行深度优化,从而实现更高的性能和更低的功耗。一旦量产,其单位成本会显著降低,尤其适合于大规模生产和应用。然而,ASIC设计周期长、成本高,一旦设计完成,很难进行修改或升级以适应新的应用需求。因此,在选择使用ASIC还是FPGA时,需要根据具体的应用场景和需求进行权衡。对于需要高性能、低功耗且应用场景相对固定的系统,ASIC可能是更好的选择;而对于需要快速适应新技术和市场需求变化的应用场景,FPGA则更具优势。
GPU、FPGA、ASIC能力对比表格:
 GPUFPGAASIC
并行计算能力
强大灵活配置高效但定制
灵活性较低(专用于图形和计算)高(可编程)低(定制后固定)
功耗适中
成本中等高(设计和制造)
整体性能中等(因可重置而消耗芯片资源)非常高(高度定制针对性强 )
应用领域图形处理、机器学习等实时计算、原型设计等特定应用场景(如数据中心)

超算算力

超算即超级计算,又称高性能计算 (HPC),利用并行工作的多台计算机系统的集中式计算资源,通过专用的操作系统来处理极端复杂的或数据密集型的问题。超算算力则是由这些超级计算机等高性能计算集群所提供的算力,主要应用于尖端科研、国防军工等大科学、大工程、大系统中,是衡量一个国家或地区科技核心竞争力和综合国力的重要标志。目前,美国的Frontier以 1.206 EFlop/s的HPL性能位居全球超级计算机Top500榜第一,达到了E级计算。
中国信息通信研究院结合业内实践和设想,提出了超算参考架构,由计算系统、存储系统、网络系统、管理系统、安全系统五部分构成。
  • 计算系统:由CPU和异构加速卡计算节点共同组成。
  • 存储系统:采用分布式存储,可提供PB级别以上的容量来进行数据和算据存储。
  • 网络系统:分为存储网络、业务网络以及监控网络等多个网络平面,实现超算系统间各个硬件设备以及子系统间的通信互联。
  • 管理系统:包括资源与业务监控、告警监控、可视化等功能。
  • 安全系统:由防火墙、负载均衡、堡垒机、抗DDoS、日志审计、漏洞扫描、DNS服务器等设备组成。

新一代算力

自人工智能加速应用后,算力需求激增,人们很难保证在未来经典计算能一直满足指数级的算力增长并应用于重大计算问题。于是在全球科技竞争加剧、数字经济快速发展以及新兴技术的推动下出现了以量子计算为代表的新一代算力。
量子计算运用量子态的叠加性,使得量子比特拥有更强的信息编码能力,并可实现多个量子比特的量子纠缠,性能上限远超经典计算。量子计算机使用亚原子粒子的物理学领域来执行复杂的并行计算,从而取代了当今计算机系统中更简单的晶体管。传统计算机中的字符,要么打开,要么关闭,要么是 1,要么是 0。而在量子比特计算中,计算单元是可以打开,关闭或之间的任何值。量子比特的“叠加态”能力,为计算方程增加了强大的功能,使量子计算机在某种数学运算中更胜一筹。
目前阿里巴巴、Google、Honeywell、IBM 、IonQ 和 Xanadu 等少数几家公司都运营着量子计算机,但仍存在退相干、噪声与误差、可扩展性等问题,处于硬件开发的早期阶段。根据专家预测,想要进入量子计算机真正有用的高保真时代,还得需要几十年。

数据中心算力组成

数据中心的计算能力主要依赖于服务器。目前CPU类型的服务器几乎部署在所有的数据中心中,而高性能算力GPU等更多的使用在AI应用场景中,小规模部署于部分数据中心中。然而随着机器学习、人工智能、无人驾驶、工业仿真等新兴技术领域的崛起,传统数据中心遭遇通用CPU在处理海量计算、 海量数据时越来越多的性能瓶颈。 在数据中心加快步伐部署48核以及64核心等更高核心CPU来应对激增的算力需求的同时,为了应对计算多元化的需求,越来越多的场景开始引入加速芯片,如前文提到的GPU、 FPGA、 ASIC 等。这些加速硬件承担了大部分的新算力需求。
然而实际上的数据中心是一个汇集大量服务器、存储设备及网络设备的基础设施,数据中心算力是服务器、存储及网络设备合力作用的结果,计算、存储及网络传输能力相互协同才能促使数据中心算力水平的提升。单独讨论服务器的算力水平并不能反映数据中心的实际算力水平。
总之,数据中心是人工智能、物联网、区块链等应用服务的重要载体。数据中心算力水平的提升将会在很大程度上推动全社会总体算力供给,满足各行业数字化转型过程中的算力需求。

数据中心网络设备

以实际情况来说,数据中心的算力水平不仅取决于服务器的算力,同时还会在很大程度上受到网络设备的影响,如果网络设备算力水平无法满足要求,很有可能引发“木桶效应”,拉低整个数据中心的实际算力水平。
星融元CX-N系列交换机可以帮助用户构建超低时延、 灵活可靠、按需横向扩展的数据中心网络。
  • 超低时延:所搭载的交换芯片具备业界领先的超低时延能力,最低时延达到400ns左右。
  • 高可靠性:通过MC-LAG、EVPN Multihoming、ECMP构建无环路、高可靠、可独立升级的数据中心网络。
  • RoCEv2能力:全系列标配RoCEv2能力,提供PFC、ECN等一系列面向生产环境的增强网络特性。
  • RESTful API:支持REST架构的第三方平台和应用都能自动化地管理、调度星融元数据中心网络。
不论是在AI智算还是HPC高性能计算场景下,CX-N交换机都达到了媲美InfiniBand专用交换机的性能,以下是场景测试数据表:
表一:AIGC场景性能测试结果
 带宽时延备注
E2E网卡直连392.95Gb/s1.95us
E2E跨交换机392.96Gb/s2.51us交换机时延560ns
NCCL网卡直连371.27GB/s/
NCCL跨交换机368.99GB/s/CX-N交换机端口利用率95%。
表二:HPC应用测试(对比IB交换机)
HPC应用测试CX-N交换机   MSB7000   
HPC应用Test1[sec]Test2[sec]Test3[sec]avg[sec]Test1[sec]Test2[sec]Test3[sec]avg[sec]
WRF1140.351134.641128.351134.441106.721099.361112.681106.25
LAMMPS341.25347.19342.61343.69330.47335.58332.46332.83

参考文献:

https://13115299.s21i.faiusr.com/61/1/ABUIABA9GAAgqvv2nAYowLyGBA.pdf
https://13115299.s21i.faiusr.com/61/1/ABUIABA9GAAgk4DrjQYo76ziRQ.pdf

返回资源中心

最新动态

星融元P4交换机:为网络可编程的未来提供稳定支持

星融元P4可编程硬件平台


数字化趋势正引领着一场技术革命,云计算、物联网、5G和人工智能等技术正以前所未有的速度发展,这不仅提升了我们对网络性能的期待,也对网络的可塑性和灵活性提出了新的要求。在这样的背景下,网络的可编程性成为了行业发展的新焦点。P4可编程交换机以其卓越的可定制性和灵活性,引发了科研和工业界的重大关注。

P4可编程交换机具备哪些优势和特性?

面对网络中不断出现新的协议与特性,传统主流的OpenFlow协议并不支持弹性地增加匹配域支持,导致每次实现支持新特性时都需要投入大量的成本,OpenFlow协议本身也变得越来越臃肿;P4语言的诞生,就是为了解决上述问题。

P4 具有独特的优势:

1)P4 吸收了 SDN 数据平面与控制平面分离的思想,促进了网络设备的开放性,加快了新协议与新应用的部署;
2)P4 着眼于数据平面的可编程性,具备 OpenFlow 等技术并不具有的可重配置、协议无关、平台无关的特性,进一步抽象了网络设备转发模型,提升了数据平面灵活性,降低了网络运维成本;
3)由于 P4 融合了数据平面高性能报文处理能力与可编程能力,因此许多在中间件与终端服务器上完成的工作可以在数据平面上完成,从而获得性能上的大幅提升。
P4语言的编译器设计体现了模块化思想,各个模块通过标准化配置文件进行信息交换。这种设计赋予了P4语言三大关键特性:协议无关性、目标无关性和可重构性。它允许用户自定义数据平面的报文处理逻辑,提高了数据平面的可编程性,使得网络设备能够灵活地支持各种新兴的协议和功能。
P4可编程交换机架构图
P4可编程交换机架构图

P4 ASIC芯片供应格局变局下,星融元持续为您提供P4可编程交换机解决方案

然而,随着传统网络设备制造商逐步退出PISA P4交换芯片市场,企业客户面临着前所未有的挑战。在这个关键时刻,企业必须审慎思考,如何在变革中保持业务的连续性和创新能力,以及如何选择合适的产品与解决方案以满足当前和未来的业务需求。
星融元自主研发的CX-T系列交换机,搭载业界领先的P4可编程交换芯片,实现了高吞吐量、低延迟的硬转发,支持资源可编程、转发逻辑可编程、解析协议可编程。与传统ASIC相比,业务验证、部署、上线的周期缩短了95%,更能满足业务功能平滑升级的需求,让网络基建真正成为业务发展的助推器。
“硬转发+软转发+SONiC”的黄金组合,构成了星融元CX-T系列产品全栈可编程能力的核心,能够在智能网关、NFV、教育科研等众多应用场景中,满足全开放、可编程、高性能的业务需求。
星融元P4可编程交换机规格型号
星融元P4可编程交换机规格型号

P4可编程交换机的应用场景及价值

面向负载均衡与资源分配的应用

P4可编程交换机通过使用P4语言来实现数据平面的自定义,非常适合于实现负载均衡和资源分配。它能灵活地处理网络流量,优化数据中心内部的服务器负载,以及实现高效的流量工程。例如,在数据中心网络中,P4交换机可以根据实时流量动态调整资源分配策略,优化网络性能,确保关键业务流量的优先处理。

数据中心互联的云边界网关

CX3-T系列可作为数据中心互联的边界网关设备,为集团的多个数据中心之间、以及集团数据中心与各分公司数据中心站点之间互通搭建一个大二层的网络,并且满足网络中不同部署位置对交换机所提出的不同需求。(如通过QoS限速实现对专线用户的带宽管理)。除提供通用算力外,还提供增强算力,算力带宽≥200G,大存储(≥1.5TB)
P4可编程交换机在云边界网关的应用示意
P4可编程交换机在云边界网关的应用示意

精准带内网络遥测数据,打造数据中心智能化网络

CX-T系列可提供实时、精准和全面的INT(Inband Network Telemetry)和vINT(virtual INT)网络遥测数据。根据分析INT数据的结果,智能化网络可实现自我运行、自我优化和自我修复。从业务维度出发的INT/vINT数据分析具有更高的价值和更强的针对潜在问题的诊断能力,从而帮助客户打造“业务永不断线”的数据中心智能网络。
P4可编程交换机带内网络遥测数据的应用示意
P4可编程交换机带内网络遥测数据的应用示意

星融元客户案例:P4网络解决方案在电商领域的应用

在电商领域,星融元助力中国一家TOP电商平台实现了后端系统处理能力的重大突破。原先,客户日常海量交易上云后向后端交易系统的分发是由运行在服务器上的软件分发网关来实现的,但在传统的架构中,由于x86服务器的处理限制,平台需要大量服务器来运行交易分发网关软件,这不仅占用了宝贵的机房空间,还增加了运营成本。通过将自研的分发网关软件移植到星融元X-T平台,借助X-T平台线速的数据平面处理能力和灵活的控制平面可编程能力,该电商平台仅用2台X-T设备就完成了之前20~30台服务器的工作量,显著提高了数据处理效率和系统稳定性,同时也降低了能耗和维护成本。
星融元为TOP级电商海量流量的处理降本增效
星融元为TOP级电商海量流量的处理降本增效
目前,星融元P4可编程交换机具备充足库存,可确保及时满足客户的部署需求;同时,面向未来可能的供应链风险,星融元已经形成了完善的替代方案,为客户提供了更大的芯片资源、更高的编程效率,保障客户业务运行平滑过渡,免受芯片供应波动的影响。此外,星融元基于坚实的技术实力,以及在开放网络领域深耕多年的行业经验,能够为客户提供全面的服务保障、专业的技术支持、产品交付,确保客户网络的稳定运行和业务连续性。

返回资源中心

近期文章


最新动态

800G以太网:解锁下一代数据中心的高速互联

近期文章


随着AI技术的快速发展,尤其是大模型的训练推理过程,数据量呈爆炸式增长,这也对底层基础设施提出了更高的要求,网络传输必须朝着更高带宽和更高密度的方向发展以满足需求。800G以太网在400G的基础上进行扩展,提供800Gbps的数据传输速率。

800G以太网优势何在?

  • 高带宽与高速率:提供800Gbps的数据传输速率,远超当前主流网络标准。
  • 高吞吐量和低延迟:显著提升数据传输的吞吐量和降低延迟。当下已推出51.2T交换芯片。
  • 支持高密度与大规模传输:800Gps的传输速率使其能够在有限的物理空间或资源下,有效传输更多的数据,支持更广泛的网络拓扑和大规模部署。

800G以太网的技术解读

如图1所示,800G以太网实际上是一种接口技术,可以支持单个MAC以800Gb/s的速率运行。800G以太网通过集成两个400G PCS实例来实现其高速率传输。这两个400G PCS实例在数据传输过程中协同工作,共同支撑800G的带宽需求。800G-ETC-CR8/KR8规定,800G PMD子层基于IEEE 802.3ck标准的400Gb/s技术,将原来的4个并行通道扩展为8个并行通道。这就将PAM4(四电平调制)和SerDes速度从上一代的50Gbps翻倍至100Gbps,实现了网络的高带宽与高速率。

图1:800G以太网架构图
图1:800G以太网架构图

800G以太网行业现状

目前市场上的800G交换芯片主要有Broadcom Tomahawk 5、Marvell Teralynx 10和Cisco Silicon One G200,NVIDIA Spectrum-4芯片不对外售卖。它们的制作工艺大多基于5nm,吞吐量都为51.2Tb/s,在端口速率配置和一些特色功能上略有不同。比如Broadcom Tomahawk 5芯片更侧重其高效的SerDes设计降低功耗,Marvell Teralynx 10强调其业界超低延迟表现,Cisco Silicon One G200采用P4可编程并行处理器,更加灵活可定制,而NVIDIA Spectrum-4则是专注于AI网络性能的提升。下面附上芯片能力表格以便直观对比。

厂商BroadcomMarvellNVIDIACisco
芯片名称 Tomahawk 5Teralynx 10Spectrum-4Silicon One G200
制程工艺5nm5nm定制4N工艺5nm
吞吐量51.2Tb/s51.2Tb/s51.2Tb/s51.2Tb/s
端口速率
及配置
64x800Gb/s, 128x400Gb/s, 256x200Gb/s32x1.6Tb/s, 64x800Gb/s, 128x400Gb/s"64x800Gb/s
(可做两条400Gb/s链路)"
"64x800Gb/s,128x400Gb/s,
256x200Gb/s"
特色功能高效SerDes设计(借助多达 64 × [PM8x100] SerDes灵活配置端口)延迟表现低至500纳秒显著提升AI云网性能采用P4可编程并行分组处理器,高度灵活可定制

基于这些主流的800G交换芯片已有交换机厂商率先推出800G以太网交换机,例如Arista 7060X5、edgecore AIS800-64D、Cisco Nexus 9232E、星融元Asterfusion CX864E-N

图2:800G交换机组网方案
图2:800G交换机组网方案

这代表了网络硬件技术的飞跃,满足高速数据传输需求的同时推动了相关行业应用,但800G以太网技术仍未完善,所有市面上的相关产品仍旧有各自的提升空间和要面临的网络挑战。

800G以太网技术如何破局?

挑战一:误码问题

信号在高速传输的过程中受多种因素影响,例如信号衰减、反射散射和噪声抖动等。这些因素会导致信号质量下降,甚至出现比特错误,即误码。误码率指数据传输中错误比特数与总传输比特数的比例,是数字通信系统中衡量传输质量的关键指标。误码率越高,数据损耗程度越严重。然而在更高速的800G以太网中,常规的信号处理技术不足以解决误码问题,需要更复杂的方式来应对。

解决方案:

  • 更复杂的FEC算法:FEC是一种前向纠错技术,可以在数据传输过程中添加冗余信息,以便在接收端检测和纠正错误。800G以太网目前所有通道均采用 400 Gb/s 标准支持的 RS(544,514)FEC。然而正在开发的下一代800G收发器将使每个通道的速率达到200Gbps,需要更多的冗余数据、更多的纠错机制和更复杂FEC算法来确保数据传输的可靠性。
    图3:FEC工作原理
    图3:FEC工作原理
  • 更先进的DSP技术:优化数字信号处理技术,使得DSP芯片对接收到的信号进行更精确的处理,提高信号的质量和稳定性,减少误码的发生。

挑战二:能耗问题

随着数据中心容量和密度的提升,采用传统可插拔光模块方式逐渐遇到一个困难。传统交换芯片与光模块之间有一条较长的电通道,电通道在速率提升时数据损耗越来越大,为了克服通道上的数据损耗,需要在电通道上做复杂信号处理,这些处理会显著增加系统功耗。再加上光模块本身功耗大,尽管已经进行了高效设计,但在大型数据中心中拥有数以万计的光模块,其整体功耗仍是问题。除了光模块外,SerDes的通道数量和单个通道的速率也在不断提升。在800G以太网中,SerDes的速度增加到100Gbps,芯片周围的SerDes通道数量增加到512,这都会导致功耗的上升。

解决方案

  • CPO光电共封装技术:OFC 2022的Workshops针对高速以太网的功耗问题提到了CPO(Co-packaged Optics)技术。该技术将交换芯片和光引擎共同装配在同一个Socketed(插槽)上,形成芯片和模组的共封装。这样的封装方式显著减小了电通道带来的能耗损失和信号干扰,为800G以太网提供更高的功效。
  • 更高效的SerDes设计:SerDes需要支持更高的速率和更低的功耗,同时保持较小的面积和成本。
    图4:CPO技术的电路板组装
    图4:CPO技术的电路板组装
  • 优化电路板设计:采用更高效的电路设计和低功耗材料来减少功耗,提高整体能效。

800G以太网的未来

  • 从技术创新的角度来说:交换机和光模块技术不断发展,比如100Gbps SerDes广泛应用,都为800G以太网的实现提供了技术基础,有望在未来几年实现800G以太网的大规模商用。目前一些领先的芯片制造商已经发布了支持1.6T以太网PHY解决方案的产品,这表明800G以太网将向着更高速率迈进。
  • 从行业标准的制定来说:2022年,OIF完成了400ZR标准规范,并正在制定800G LR和ZR的规范,包括光系统参数、FEC算法、DSP技术、OTN映射等技术方面。2023年,IEEE 802.3dj项目中就800G 10km应用是否采用IMDD(强度调制和直接检测)还是其他相关技术进行了讨论。目前,IEEE 802.3正在积极推进800G及1.6T以太网接口的标准化工作。预计在未来两年内,IEEE 802.3、OIF等国际标准组织将陆续完成800G以太网物理层标准的制定,并推动其在实际应用中的开发和验证。
  • 从市场的角度来说:5G 网络、云计算和人工智能等领域快速发展,数据中心对带宽的需求日益增长。800G以太网能够提供更高的带宽和更低的延迟,必定会投入使用,扩大市场规模。再加上目前国内外市场不断有企业在800G通信领域取得显著进展,不难看出800G以太网将成为通信市场的重要增长点。有相关机构预测,到2025年,800G以太网将占数据中心交换机端口的25%以上,表明在未来几年内,800G以太网将实现快速普及。

总结

综上,800G以太网技术是应对未来网络需求的关键解决方案,不断推动数据中心和网络基础设施的升级,满足日益增长的数据传输和处理需求。未来,随着技术的不断进步和市场的扩大,800G以太网有望在未来几年内实现更广泛的商业化和部署。

参考:https://ethernettechnologyconsortium.org/wp-content/uploads/2021/10/Ethernet-Technology-Consortium_800G-Specification_r1.1.pdf

https://bbs.huaweicloud.com/blogs/415694

返回资源中心

最新动态

智算与算力网络、算网融合的关系是什么?


关注星融元


前文介绍了智算与云网融合的关系,那么智算与算力网络、算网融合的关系又是什么?让我们先来复习一下智算的概念。

AI智算的概念

智算即人工智能计算,主要面向人工智能应用,提供人工智能算法模型训练与模型运行服务的计算机系统能力,代表了人工智能领域的飞速发展。它主要用于处理复杂、高维、动态、非结构化的数据和问题。智能计算融合了计算机科学、数学、物理、统计学等多学科知识,并广泛应用于大数据分析、智能机器人、自动驾驶、智能家居、智能城市、智能医疗、金融科技等多个领域。智算不仅提升了计算能力,还为各行各业带来了智慧的变革,成为推动科技进步的重要引擎。

算力网络的概念

算力网络是实现泛在算力的手段。算力即计算能力(Computing Power),它集成了信息计算力、网络运载力和数据存储力,是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。而这种能力向边缘的扩展和延伸需要与网络结合,催生了算力网络。算力网络是以算为中心、网为根基,提供一体化服务的新型信息基础设施,可以理解为计算设施和网络设施共同建设的一张传输网络。我们可以利用算力网络实现云、边、端计算存储资源的灵活调度与分配。

算网融合的概念

算网融合是指算力与网络深度融合,这种融合可以发生在多个层面,包括硬件、软件、平台和应用等,有助于实现算网服务的极简一体化转变。算网融合通过深度整合这计算和网络资源做到算力的智能编排和灵活使用,进而加快算力传递提高系统的整体性能和效率。算网融合逐步推动算力成为与水电一样,可“一点接入、即取即用”的社会级服务,达成“网络无所不达、算力无所不在、智能无所不及”的愿景。
尽管算网融合听起来与算力网络十分相近,二者仍有区别。算力网络强调网络在算力资源管理和调度中的核心作用,是一种基础建设一张传输网络;而算网融合强调计算资源和网络资源的深度融合,更偏向于一种技术概念一种服务。可以理解为建设算力网络的目标是实现算网融合。
图3:算网融合应用 (来源中国移动研究院:算力网络白皮书2021)
图3:算网融合应用 (来源中国移动研究院:算力网络白皮书2021)

三者的关系是什么

通过上文对智算概念的描述,我们可以将智算翻译为“数据+算力+算法”,如图4所示。智算涉及丰富的计算场景,需要用到大模型计算,处理海量数据。基于智算的这种特性,算力需求激增。通用算力将增长10倍到3.3ZFLOPS 、人工智能算力将增长500倍超过100ZFLOPS,相当于一百万个中国超级计算机神威“太湖之光”的算力总和。云数据中心无法承载如此巨大的数据和算力,那么传统的云计算方式就无法满足海量数据的处理要求。除此之外,传统云计算是先将所有数据资源上传至云计算中心,设备端提出访问请求后再将计算结果返回,这其中会产生较长的响应时间而无法满足实时数据的处理要求。此时需要网络对算力进行调度,使得云、边、端都能得到灵活的资源分配,便催生出了算力网络。而算力网络整合了强大的计算能力和高效的网络资源,为智算提供坚实的基础设施。
建设算力网络的目标是实现“算力泛在、算网共生、智能编排、一体服务”,那么算网融合的概念自然而然地被提出。算力与网络在形态和协议方面深度融合,推动算力和网络由网随算动到融为一体,最终打破网络和算力基础设施的边界。网络从支持连接算力,演进为感知算力、承载算力,实现网在算中、算在网中。网络根据业务需求,按需进行算力网络编程,灵活调度泛在的算力资源,协同全网的算力和网络资源,实现算力路由。通过灵活部署的在网计算,对数据进行就近加速处理,降低应用响应时延,提升系统处理效率,实现算网发展互促互进,共生共赢。
总的来说,智算对算力激增的需求催生出算力网络,算力网络又提出了算网融合的目标。算力网络和算网融合为智算提供了强大的技术支撑,而智算的发展推动了算网融合和算力网络的进步,他们三者是相互促进的关系。

智算时代如何打造算力网络

在智算时代下,如何打造算力网络,做到算网融合呢?我们需要从其特点出发进行技术匹配。

算力网络的特点

  1. 灵活敏捷:根据业务需求,算力网络需要具备敏捷接入的能力来快速获取算力,并灵活动态地在云、边、端之间按需分配和灵活调度算力资源,进而实现资源的最大化利用,并应对各种突发情况。
  2. 无损安全:据测算,即使是0.1%的丢包率也可能导致高达50%的算力损失。这种损失对于依赖大规模计算资源的应用来说是不可接受的。因为在算力网络中,每一个数据包的丢失都可能对算力计算产生负面影响。无损传输能够保证数据在传输过程中不丢失、不损坏,从而确保数据的完整性和准确性。
  3. 感知可视:算力网络需要实时感知算力资源与网络资源的状态,结合不同业务的SLA要求、网络整体负载、可用算力资源池分布等因素,智能、动态地进行资源调度和计算协同策略。并构建可视网络数字地图,实时监控网络的状态和性能,优化网络拓扑和布局,提高网络运维的效率和准确性。

Kubernetes容器化技术

利用Kubernetes可以实现大模型算力的灵活调度,高效合理地分配管理资源。
Kubernetes(又称K8s)是一个开源的容器编排和管理平台。它采用了容器化的思想,将应用程序打包成容器并在集群中运行。Kubernetes中的调度器组件Scheduler可以把用户提交的Pod(最小调度单元,是一组容器的抽象)放到 Kubernetes 管理集群的某一节点Node上。具体位置依据它对 CPU、对 memory 请求大小后确定。这个过程就是一次调度工作,可用于大模型算力调度。
除此之外,Kubernetes 有业务负载检查的能力,可以实现资源合理分配、高效利用。它会监测业务上所承担的负载,如果这个业务本身的 CPU 利用率过高或响应时间过长,它可以对这个业务进行一次扩容。这种水平扩张是由Kubernetes 中的 Controller 来完成的,Controller控制器用于完成对集群状态的管理。
K8s的这些功能主要得益于其自身架构。Kubernetes 架构是一个相对典型的server-client架构。Master作为中央管控节点与Node进行连接,而所有user侧的组件,只会和Master进行连接,把希望的状态或者想执行的命令下发给 Master,再由Master把这些命令或状态下发给相应节点Node,完成最终执行。节点 Node是真正运行业务负载的,每个业务负载会以Pod的形式运行。Node中运行这些Pod的组件是 kubelet,它通过APIServer接收到所需要Pod的运行状态,然后提交到Container Runtime组件中,由Container Runtime负责创建、运行、停止和销毁容器。

DCB协议

利用DCB协议可以优化网络性能、提高网络可靠性,实现算力网络的无损运输。
DCB(Data Center Bridging)协议是一组由IEEE 802.1工作组定义的以太网扩展协议,用于构建无丢包以太网,满足网络无损传输的需求。主要包括以下技术:
  • PFC(Priority-based Flow Control)优先级流量控制技术,允许交换机基于数据帧的优先级标签来暂停或恢复数据流的发送。如图8所示,DeviceA发送接口分成了8个优先级队列,DeviceB接收接口有8个接收缓存,两者一一对应。当DeviceB的接口上某个接收缓存产生拥塞时,发送一个反压信号“STOP”到DeviceA,DeviceA停止发送对应优先级队列的报文。
图8:PFC工作机制
图8:PFC工作机制
  • ETS(Enhanced Transmission Selection)增强型传输选择技术,允许网络管理员根据流量的优先级或类别来分配带宽。ETS提供两级调度,分别基于优先级组PG(Priority Group)和优先级队列,如图9所示。接口首先对优先级组进行第一级调度,然后对优先级组的优先级队列进行第二级调度。
  • DCBX(Data Center Bridging Exchange Protocol)数据中心桥接交换协议,用于在支持DCB的设备之间自动协商和配置DCB参数,减少人为错误的可能性。DCBX能够交换的配置参数包括ETS的优先级组信息和PFC,以PFC参数为例,DCBX将其封装入链路层发现协议LLDP中的TLV中,由LLDP来进行链路两端设备的DCB配置交换。

INT技术

利用INT技术可以实现算力网络的精准感知和监控分析,帮助管理者提高运维效率。
在网络规模不断扩大,网络设备和链路数量急剧增加的情况下,传统的网络监控手段如SNMP、NetFlow、sFlow等,存在监控精度低、数据收集不全面、响应速度慢等问题,已无法跟上时代的步伐,满足不了数据中心的网络运维需求。网络的感知与监控应该具备实时性、准确性和全面性。
INT(In-band Network Telemetry)带内网络遥测技术提供了更实时、全面、精细的运维模式。它可以通过数据平面收集和报告网络状态,并且不需要控制平面再从数据平面收集和传送状态时进行干预和工作,大大缩短响应时间。在INT体系结构中,交换设备转发和处理携带遥测指令的数据包。当遥测数据包通过设备时,遥测指令指示INT设备收集和插入网络信息。INT数据包的转发需要经过三个过程:INT源交换机创建INT报头并插入到发送的数据包中;INT中转交换机根据INT报头中的指令收集数据平面中的元数据;INT汇聚交换机提取INT报头,并决定将收集的信息发送给监控系统。
我们可以看出INT技术采用主动推送模式,主动将网络的即时性能、状态、参数等信息收集并记录下来并发送给分析系统。这种方式确保了信息的实时性,有助于运维人员快速响应网络问题。除此以外,INT技术能够收集到网络各个层面的状态信息,能够实现纳秒级的时间戳采集,可以确保网络感知监控的全面性和精细性。如果结合图形化界面工具可以实现网络的可视化展示。

为泛在算力构建开放网络——星融元CX-N系列交换机

Asterfusion CX-N交换机面向AI/ML智算中心和云计算数据中心提供卓越的网络服务。
  • 高带宽低时延:CX864E-N交换机每秒能够传输800Gbps数据,单机转发时延(400ns)低至业界平均水平的1/4~1/5,能够确保大量数据在极短时间内完成传输,满足高性能计算和大数据处理的需求。
  • 无损可靠:支持DCB等数据中心高级功能,通过构建零丢包、高性能的无损以太网络来满足不同业务场景对数据中心网络提出的不同需求。
  • 灵活可扩展:采用模块化设计,提供开放RESTful API,搭载支持K8s的AsterNOS,实现功能的灵活扩展。将网络完全融入到云计算软件定义、弹性调度、按需扩展、自动运维的世界中。
  • 智能运维:提供INT功能,为网络分析平台提供实时、精细、准确和全面的网络遥测数据(包括出入接口、时间戳、延迟、队列长度等),并且全部由交换芯片实现,无需管理 CPU 参与。

智算与云网融合的关系是什么?


关注星融元


在了解智算与云网融合的关系之前,我们首先需要明确智算和云网融合各自的含义。

AI智算的概念

智算即人工智能计算,主要面向人工智能应用,提供人工智能算法模型训练与模型运行服务的计算机系统能力,代表了人工智能领域的飞速发展。它主要用于处理复杂、高维、动态、非结构化的数据和问题。智能计算融合了计算机科学、数学、物理、统计学等多学科知识,并广泛应用于大数据分析、智能机器人、自动驾驶、智能家居、智能城市、智能医疗、金融科技等多个领域。智算不仅提升了计算能力,还为各行各业带来了智慧的变革,成为推动科技进步的重要引擎。

云网融合的概念

而云网融合顾名思义包含云与网两个方面。云即云计算,包括计算能力、存储能力以及相关的软硬件。网是通信网,包括接入网、承载网、核心网等电信网络的方方面面。站在技术的角度,就是在云计算中引入网络的技术,通信网中引入云计算的技术,进而实现计算资源、网络资源和服务资源的无缝对接和高效协同。云网融合的核心技术可概括为“云调网、网随云”,重心是资源的调度。

智算与云网融合的关系

回到标题,那么二者的关系是什么呢?上文提到智算能够处理复杂的数据和任务,满足各种应用场景的需求,无疑智算的发展离不开强大的算力支持,而云网融合则为智算场景提供了强大的算力基础。云网融合通过软件定义网络(software defined network,SDN)和网络功能虚拟化(network functions virtualization,NFV)技术来构建高效的计算网络,将分散的计算资源、存储资源和网络资源进行统一管理和调度。

软件定义网络(software defined network,SDN)

SDN是一种异于传统的网络体系架构,理论上它将网络控制平面与数据转发平面分离,通过集中式的控制器对网络进行管理和控制,使得网络管理变得更加灵活且可编程管理,具有开放性和可编程性。被人们所熟知的框架结构为:应用层、控制层和数据层。
但在现实应用中,SDN往往与理论上存在差异。市场中很多已落实的商业SDN产品的数据转发平面与控制平面并不完全分离。随着SDN的不断发展,网络架构逐渐多样化。
图3中的(2a)为传统SDN架构,数据平面和控制平面完全分离。然而图3中的架构(3)才是当前市场上许多软件定义产品的一部分——基于SDN的Overlay架构。Overlay网络是在使用网络虚拟化在物理基础设施之上建立连接的逻辑网络。也有一些方案采用的是图3中的(2b)架构,例如 SD-WAN,控制整个网络的组件集中在控制器上,但控制平面保留在设备上,以便设备可以相对独立地运行。
对于SDN,我们了解其本质即可,提出SDN是为了灵活网络配置,高效率网络管理以及动态流量调控等。SDN本身不是产品,它更像是一种理念,最终产品形态还是取决于具体的解决方案。

网络功能虚拟化(network functions virtualization,NFV)

NFV是将传统上依赖于专用硬件设备的网络功能(如路由、防火墙、负载均衡等)从硬件中解耦,通过虚拟化技术转变为可在通用服务器上运行的软件,这些软件实体被称为虚拟网络功能(Virtual Network Functions,VNF)。

NFV架构的核心模块包括以下3个组成部分:

(1)虚拟化基础设施(Network Function Virtualization Infrastructure, NFVI)。包括计算和存储网络资源,用于承载网络功能的虚拟化实例。
(2)虚拟化网络功能(Virtual Network Functions,VNF)。能将传统的网络功能设备抽象为可在虚拟化基础设施上部署和管理的虚拟实例。
(3)虚拟化管理和编排(Network Function Virtualization Management and Orchestration, NFV-MANO)。负责虚拟网络功能的生命周期管理、资源编排和自动化操作,以实现对整个NFV环境的统一管理和控制。 NFV的架构使得传统的专用网络设备能够以软件的方式在通用服务器上运行,从而提高了网络功能的灵活性、可扩展性和可编程性,为传输网络的优化提供技术支持。

NFV在云网融合场景中的优势 :

(1)灵活性和可编程性。传统专用网络设备的功能和配置较为固定,难以适应快速变化的业务需求。采用NFV可以将网络功能以软件的形式部署在通用服务器上,实现对网络功能的灵活配置和编程控制,更好地满足不断变化的业务需求。
(2)资源利用率提升。通过NFV实现了计算资源、网络资源和服务资源在同一物理设备上的共享,提高了硬件资源的利用率。在智算场景中,这种共享机制可以确保计算资源的高效利用。
(3)成本降低。NFV可以降低网络部署和运维的成本。传统的专用网络设备需要大量硬件设备和人力资源进行部署和运维,而采用NFV可以通过软件定义和自动化操作简化网络运维流程,降低网络部署和运维的总成本。
(4)快速部署和创新。NFV可以加快新网络功能的部署速度和缩短创新周期。通过软件定义和自动化编排,可以大幅缩短网络新功能的上线时间,加快业务创新和服务交付的速度。

总结

综上所述,云网融合通过SDN和NFV技术为智算提供了强大的算力支持和资源共享机制,在服务层面也实现协同,而智算则通过引入智能算法和模型反向推动云网融合平台的创新和发展。

智算新时代的云网设备支撑

Asterfusion CX-N交换机帮助用户构建超低时延、 灵活可靠、按需横向扩展的数据中心网络,为AI/ML、高性能计算、分布式存储、多业务融合、云计算等场景提供卓越的网络服务。
  • 业界领先超低时延:单机转发时延(400ns)低至业界平均水平的1/4~1/5,将网络时延在AI/ML应用端到端时延中的占比降至最低,帮助大模型的训练大幅度降低训练时间、提升整体效率。
  • 云网融合,灵活开放:支持REST架构的Cloud OS、DevOps平台、第三方应用都能自动化地管理、调度星融元数据中心网络。同时,开放的RESTful API协同第三方云网控制器,简化网络管理和运维难度。将网络完全融入到云计算软件定义、弹性调度、按需扩展、自动运维的世界中。
  • 低投资,高可靠:CX-N全系列数据中心交换机标配RoCEv2、BGP EVPN、VXLAN、容器网络能力,400G/200G标配智能负载均衡能力。用户无须为此类高级特性额外增加网络建设成本的同时还能构建高可靠、可独立升级的数据中心网络,帮助用户获得更高的ROI(投资回报率)。

网络如何承载AI大模型流量?


关注星融元


前言

随着AI大模型的兴起,数据中心正在经历前所未有的变革。AI模型的规模巨大并持续快速增长。自2017年起,AI模型的规模每半年翻一番,从初代Transformer的6500万增长到GPT-4的1.76万亿,预计下一代大语言模型的尺寸将达到10万亿。

什么是AI大模型?

AI大模型(Artificial Intelligence Large Model)是指具有庞大参数规模和复杂程度的神经网络模型,它们通过大规模的数据训练,能够在各种任务中表现出高度准确和广泛的泛化能力(即对新鲜样本或未知数据的适应能力)。

AI大模型具备以下特点:

  • 参数规模庞大:AI大模型通常包含数十亿至数千亿个参数,这使得它们能够处理更加复杂的数据和任务。
  • 学习能力强:由于参数众多,AI大模型能够从海量数据中学习到丰富的特征和模式,从而实现对复杂问题的准确预测和判断。
  • 应用广泛:AI大模型在自然语言处理、计算机视觉、自动驾驶、医疗健康等多个领域都有广泛的应用。

不过AI大模型在展现其强大能力的同时,也为我们带来了如下挑战:

  1. 训练成本高昂:由于参数规模庞大,AI大模型的训练需要大量的计算资源和时间。
  2. 数据隐私和安全性问题:训练过程中可能涉及大量的敏感数据,如何保护这些数据不被泄露是一个重要问题。
  3. 泛化能力限制:尽管AI大模型在大规模数据上表现出色,但在少样本、小样本场景下的泛化能力仍有待提高。

AI模型是如何训练的?

上文提到AI大模型训练成本昂贵,那么AI模型是如何来训练的呢?它的训练步骤有哪些?

AI训练程序首先将模型参数加载到GPU内存中,之后进行多个epoch的训练。

每个epoch的处理过程可以简单描述为4步:

  1. 加载训练数据,在每个epoch中,根据batch size将整个数据集分为若干个mini-batch,分批次加载训练数据,直到遍历整个训练数据集。
  2. 训练,包括前向传播、计算损失、反向传播和参数/梯度更新,每个mini-batch都进行上述步骤。
  3. 评估,使用评估数据集对模型的指标进行评估。这一步是可选的,可以在整个训练完成后单独进行,也可以间隔若干个epoch进行一次。
  4. 保存checkpoint,包括模型状态、优化器状态和训练指标等。为了减少存储需求,通常经过多个epoch后保存一次。

AI大模型训练的网络流量有哪些?

在大模型出现之前,整个过程在一台AI服务器内部完成,训练程序从服务器本地磁盘读取AI模型和训练集,加载到内存中,训练、评估,然后将结果存储回本地磁盘。而大模型的出现改变了这一切。

首先是模型的参数规模超出了单个GPU的内存,以GPT-3为例,要加载1750亿参数及其优化器状态,需要至少125块H100/A100。其计算量也非常庞大,为了加速计算,需要更多的GPU,OpenAI在训练GPT-3时使用了1024块A100。 这些GPU要协同起来一起计算,需要相互之间通信以交换信息,包括参数/梯度、中间激活等。

同时,庞大的数据集被所有GPU共享,需要集中存放到存储服务器中。另一方面,定期保存的checkpoint包含了所有参数和优化器状态,也需要通过存储服务器共享。这样,在每个训练epoch中,都要通过网络读写数据,这些网络流量分为两类,如图1所示:

并行训练技术

图1 AI训练时的网络流量分类
  • 第一类是GPU之间同步梯度和中间激活的网络流量,它发生在所有GPU之间,是一种广播式流量,逻辑上需要所有GPU全连接。
  • 第二类是GPU和存储服务器之间的流量,它仅仅发生在GPU和存储服务器之间,是一种单播流量,逻辑上仅需要以存储服务器为中心的星型连接。

网络如何承载AI大模型流量?

上述第一类网络流量——GPU之间的网络流量,与传统数据中心内部的流量迥然不同,具有广播式、超大流量、超低时延、超高频率、零容忍丢包和严格时间同步的特点。毋庸置疑,这样的流量特点对网络提出了新的需求。网络承载AI大模型流量是一个复杂而关键的任务,需要从多个方面进行优化和应对。

(一)网络架构优化

1. 高带宽网络:AI大模型训练需要处理大量的数据,因此网络必须具备高带宽以支持高速数据传输。传统数据中心的100Gbps带宽接入可能无法满足需求,需要升级到800Gbps、1.6Tbps甚至更高的接入带宽。

2. 多轨道网络架构:采用多轨道网络架构可以提高集群通信效率,减少跨交换机的通信量。例如星融元的星智AI网络——基于LLM大模型的Rail Only网络,架构图如下。

Asterfusion星智AI网络解决方案

Rail-Only网络架构

3. 全互联架构:在AI大模型训练场景中,采用全互联架构可以减少网络跳数,降低时延。例如,在星融智算中心网络中,每个通道内Spine交换机和Leaf交换机之间做fullmesh全互联,如图2所示。

图2:full-mesh全互联组网

(二)协议与技术升级

1. RDMA:使用RDMA(远程直接内存访问)协议可以减少传输时延和提升网络吞吐。

RDMA工作原理

图3:RDMA工作原理

从图3可以看出,RDMA绕过了操作系统提供的协议栈,规避了TCP/IP的限制,直接在网络传输层之下进行数据传输,并且允许网络适配器直接从内存缓冲区中读写数据,而无需CPU的干预。与传统模式相比,RDMA大幅度降低了消息传输中的处理延迟,能够充分利用网络带宽,提高数据传输的效率。

RDMA架构图

传统模式和RDMA模式的对比

国际组织(InfiniBand Trade Association, IBTA)发布了最早的 RDMA技术——IB。IB是为 RDMA 量身定制的网络技术,能够提供极高的网络带宽,以满足高性能计算中对数据传输速度的需求。但RDMA 在早期采用 IB 作为传输层,必须使用专门的IB 交换机和 IB 网卡才可实现,导致设备成本和维护成本高,兼容性和灵活性差。

而后IBTA 发布了RoCE技术,允许应用通过以太网实现远程内存访问。RoCE 技术可通过普通以太网交换机实现,只需服务器支持 RoCE 网卡即可。目前的 RoCEv2标准是UDP 协议,虽然 UDP 协议效率比较高,但不像 TCP 协议那样有重传机制等来保障可靠的传输,一旦出现丢包,必须依靠上层应用发现了再做重传,这就会大大降低 RDMA 的传输效率。因此,要想发挥 RoCE 真正的效果,必须为 RDMA 搭建一套不丢包的无损网络环境。星融元的CX-N系列云交换机搭建的超低时延无损以太网能够很好地承载RoCEv2,并基于RoCEv2打造了一张低时延、零丢包、高性能的HPC高性能计算网络。

RDMA技术网络协议概览

2. 流量调控:流量控制技术的核心是限制单个客户端向服务器发送的数据量,以确保服务器能够及时处理这些数据。例如,星融元Asterfusion CX-N系列云交换机使用PFC技术来进行流控。

PFC是一种基于优先级的流量控制技术,如图所示,DeviceA发送接口被分成了8个优先级队列,DeviceB接收接口则存在8个接收缓存,二者一一对应。DeviceB接收接口上某个接收缓存发生拥塞时,会发送一个反压信号“STOP”到DeviceA,DeviceA则停止发送对应优先级队列的流量。

PFC工作机制

图5:PFC工作机制

3. 负载均衡:负载均衡技术的核心是将请求分发到多个服务器上,以提高系统的性能和可用性,避免拥塞和瓶颈。目前的负载均衡技术有DNS负载均衡、七层负载均衡、四层负载均衡等。下图是典型分布式架构的多层负载方案。

多层负载方案

图6:多层负载方案

(三)硬件与设备优化

  • 高性能交换机:使用高性能的交换机来支持高速数据转发和交换。交换机需要具备足够的端口数量和带宽,以支持大规模GPU集群的通信需求。如星融元CX864E-N 800G交换机等。
  • DPU硬件卸载:通过DPU(数据处理单元)硬件卸载技术,可以将网络处理任务从CPU转移到DPU上,从而减轻CPU的负担并提高网络性能。例如,GPU Direct RDMA和GPU Direct Storage等技术可以优化GPU之间的通信路径和数据传输效率。

为AI流量而生——800G超级以太网交换机

上文提到优化硬件以承载AI大模型流量,数据中心交换机需要马不停蹄地升级换代,而星融元CX864E-N 800G交换机正是这样一款超级以太网交换机。它具有如下特点:

  • 超大容量,支持64个800G以太网接口,共51.2T交换容量。
  • 超低时延交换网,在800G端口上实现业界最强的560ns cut-through时延。
  • 200+ MB大容量高速片上包缓存,显著减小集体通信时RoCE流量的存储转发时延。
  • Intel至强CPU + 大容量可扩展内存,运行持续进化的企业级SONiC——AsterNOS网络操作系统,并通过DMA直接访问包缓存,对网络流量进行实时加工。
  • INNOFLEX可编程转发引擎,可以根据业务需求和网络状态实时调整转发流程,最大程度避免网络拥塞和故障而造成的丢包。
  • FLASHLIGHT精细化流量分析引擎,实时测量每个包的延迟和往返时间等,经过CPU的智能分析,实现自适应路由和拥塞控制。
  • 10纳秒级别的PTP/SyncE时间同步,保证所有GPU同步计算。
  • 开放API,通过REST API开放全部功能给AI数据中心管理系统,与计算设备相互协同,实现GPU集群的自动化部署。

总之,星融元CX864E-N 800G交换机在保持极致性能的同时,实现可编程、可升级的能力,与计算设备形成协同,共同打造10万级别的计算节点互联,将数据中心重构为可与超级计算机媲美的AI超级工厂。

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2