Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

智慧园区建设中面临的网络基础设施挑战

更多相关内容


什么是智慧园区?

相比传统商业地产运营模式,AI时代下的智慧园区运营结合了多种新兴技术手段:例如基于统一的平台,将办公协作、招商引资、工程项目、物业管理、产业分析、项目孵化等业务进行一体化的协调管理;通过标准化的接口,将智能设备及系统整合至园区内部运营平台,对数据统一监管,并运用大数据技术为客户提供个性化、定制化、智慧化服务。

智慧园区建设面临的挑战

智慧产业园区作为园区信息化和产业互联网的基础,是帮助企业向自动化、智能化转型的有力推动者。随着“互联网+园区管理”理念的实践不断深入,智慧产业园区建设也将从上层的应用软件平台的信息化、智慧化深入到数字经济转型的底层基础设施——园区基础网络。

终端接入数量和承载的业务复杂度剧增,对于园区基础网络的可靠性、规模和功能的扩展性都提出了更高要求,然而,上面提及的智慧园区应用都是在传统的租户自建网络模式下无法实现,或者部署起来相当受限的。

携手商业地产运营商共同进入AI时代

星融元云化园区解决方案

星融元的云化园区网络方案采用了先进的云网技术,基于Spine-Leaf架构的三层路由网络能为园区内的海量用户终端、园区物联网设备以及后端平台提供稳定的高速互联能力,轻松实现“一网多用”、Wifi“无缝漫游”等等实用功能,并且大大降低了租户和园区运营商的运维成本。

此外,星融元的园区网络设备开放出了丰富的软件可编程接口,可通过集成各类自动化工具和分析平台,赋能AI智能运维和精准的客户定位和大数据分析等等,推动运营服务的升级优化,甚至从中探索出新的商业增值点。

云化园区解决方案

体验优化

  • 毫秒级漫游切换,业务不中断
  • 25G高速上行,海量数据并发接入无压力

超高可靠

  • 天然无广播风暴,天然无环路
  • 去堆叠/去MC-LAG,更低复杂度的多路径负载分担网络

极简运维

  • 轻量级的网络集群管理
  • 同层设备业务配置相同,开局自动下发

更多案例和方案详细信息,请关注微信公众号:@星融元Asterfusion

返回资源中心

AIGC承载网优化设计方案(下)

更多相关内容


AIGC承载网优化设计思路

网络性能瓶颈问题

通信时长的考虑

带宽:与单机不同,多机之间的网络带宽是比单机内部的带宽要低很多的,

多机之间的网络通信往往会受到网络拓扑、物理连接和网络设备等因素的限制,导致实际的带宽较单机内部的带宽低很多。如单机内部NVLink3.0带宽高达600GB/s;而多机之间的网络一般是400Gb/s或200Gb/s(且是Gb/s)
在AIGC承载网络中,多机之间的通信是必要的,尤其是在分布式计算环境下,不同计算节点之间需要进行数据传输、模型同步和参数更新等操作。这些通信过程可能影响到整体的网络性能和计算效率。

设备转发时延:IB交换机或低时延交换机

设备转发时延

性能提升

(1)提升单机网络宽带

提升单机网卡带宽,同时需要匹配主机PCIe带宽和网络交换机的带宽

网卡速率40G100G200G400G
PCIe3.0*83.0*164.0*164.0或5.0*16
交换机Serdes4*10G4*25G4*50G8*50G

增加网卡的数量,初期业务量少,可以考虑CPU和GPU共用,后期给CPU准备单独的1到2张网卡,给GPU准备4或8张网卡。

增加网卡的数量

(2)应用RDMA网络(IB或RoCE)

借助RDMA技术,减少了GPU通信过程中的数据复制次数,优化通信路径,降低通信时延。

优化通信路径,降低通信时延

优化通信路径,降低通信时延

(3)减少网络拥塞

胖树结构:通过多路径的布线和聚合链路的利用,可以提供高带宽、低延迟和高可靠性的通信。
1:1收敛比

1:1收敛比

双网分流:通过同时连接到两个不同的网络,将流量分流到两个路径上,从而减轻单一网络的负载和拥塞情况。这里, CPU的流量与GPU流量彻底分离开。

CPU的流量与GPU流量彻底分离开

(4)通信算法优化

单机优化

单机优化

多级优化

多级优化

  • 利用NVLink高带宽优势在单机内部的GPU之间完成数据同步
  • 多机之间的GPU利用多网卡建立多个环,对不同分段数据进行同步
  • 最后单机内部的GPU再同步一次,最终完成全部GPU的数据同步

大规模网络扩展问题

算力昂贵是大家普遍的共识,由于GPU资源本身稀缺的特性,尽可能多的把GPU资源集中在一个统一的资源池里面,将有利于任务的灵活调度,减少AI任务的排队、减少资源碎片的产生、提升GPU的利用率。

要组成大规模GPU集群,网络的组网方式需要进行优化。

(1)网络架构横向扩展

ToR交换机用于和GPU Server直接连接,构成一个Block。

ToR交换机向上一层是Leaf交换机,一组ToR交换机和一组Leaf交换机之间实现无阻塞全连接架构,构成一个Pod
不同Pod之间使用Spine交换机连接。

ToR交换机用于和GPU Server直接连接,构成一个Block

接入能力分析

Pod是典型集群规模

  • Block是最小单元,包括256个GPU
  • Pod是典型集群规模,包括8个Block,2048个GPU
  • 超过2048个GPU,通过Fabric-Pod模式进行扩展

GPU网卡的连接建议

GPU网卡的连接

异构网络自适应通信技术
基于异构网络自适应通信技术,不同服务器上相同位置的GPU,在同一轨道平面,仍然走机间网络通

以某厂家的技术实现为例:基于异构网络自适应通信技术,不同服务器上相同位置的GPU,在同一轨道平面,仍然走机间网络通信。

要去往不同位置的GPU(比如host1上的GPU1,需要向其它host上的GPU8 送数据),则先通过机内网络,转发到host1上的GPU8上,然后通过机间网络,来完成通信。机间网络的流量,大部分都聚合在轨道内传输(只经过一级ToR)。机间网络的流量大幅减少,冲击概率也明显下降,从而提供了整网性能。根据实测,异构网络通信在大规模All-to-All场景下,对中小数据包的传输性能提升在30%左右。

(2) 计算与存储网络分离

CPU的流量与GPU流量彻底分离开

网络可用性问题

可用性问题在GPU集群中要求不高

因为大规模分布式的AI任务基本都是离线的训练任务,网络中断不会对主业务造成直接影响。

但是也需要关注,因为一个AI训练持续的时间可能会很长,如果没有中间状态保存的话,网络中断就意味着前面花费时间训练出来的成果全部失效,所使用的GPU资源也全部被浪费掉。

AI训练任务对网络拓扑的高度敏感性

某一处网络的中断,会导致其他节点网络的非对称,无限增加上层处理的复杂度,因此,在设计集群的时候需要考虑中断容忍的网络架构。

(1)存储双上联

由于网络中断,导致一个存储节点下线,可能会在网络内触发大量数据恢复流量,增加网络负载,因此,建议采用双上联设计,确保某个交换机或上联链路中断不会影响存储节点的可用性。

(2) 计算网单上行

由于AI训练的特殊性,综合性能与成本考虑,暂不考虑双上联设计。

(3)采用GPU网卡连接方式

同一个GPU Server上的8块卡连接到8个ToR,可以节省机间网络的流量,大部分都聚合在轨道内传输(只经过一级ToR),机间网络的流量大幅减少,冲击概率也明显下降,从而提供了整网性能

但是,上面的方案,GPU Server上任何一个网卡或链接中断都会导致网络的非对称,整个GPU Server都会受到影响。所以,干脆让所有网卡共享同一个交换机,好处是,如果ToR交换机故障,影响到的GPU Server会尽可能少,从整个系统的角度出发,可用性反而提高了

采用GPU网卡连接方式

AIGC承载网设计实践

需求汇总(以某客户项目模型为例)

RoCE的计算网络 RoCE存储网络
1.不少于600端口200G以太网接入端口,未来可扩容至至少1280端口1.不少于100端口200G以太网接入端口,未来可扩容至至少240端口
2. 全网无收敛(1:1收敛比),全线速交换2. 带宽收敛比不大于3:1
3. 支持RoCE实现无损以太网3. 支持 RoCE 实现无损以太网

整网的方案设计

AIGC承载网方案架构图

AIGC承载网方案架构图

计算网络设计—-方案1(整网1:1无收敛)

不考虑GPU的8个接口的接入方式,8个接口接入1台或多台ToR

计算网络设计方案

  • 交换机 10 Leaf + 20 ToR= 30 台,提供640个接入端口(20*32=640),每台GPU服务器8端口,可以最大可接入GPU服务器 80台
  • 接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧600条,Fabric侧600条,合计1200条
方案1扩展性

计算网络设计方案

基于该架构,最多可以接入64台ToR,最大可以扩展到2048个200G接口接入,满足1280接口接入的扩展性要求

计算网络设计—-方案2(整网1:1无收敛)

考虑GPU的8个接口的接入方式,8个接口接入到8台Leaf,每8台Leaf作为一个分组

计算网络设计方案2

  • 交换机 13 Leaf + 24 ToR = 37 台,按600个接入端口(75台GPU服务器),每组8个ToR接入25台GPU服务器,3组ToR接入75台
  • 每组ToR接入25台GPU服务器,下行接入带宽为200*200GE,因此,上行也需要至少是200*200GE带宽,每台ToR到每台Leaf为2条200G,总上行带宽为2*13*8*200GE,满足1:1收敛要求
  • 接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧600条,Fabric侧624条,合计1224条
方案2扩展性

计算网络设计方案2的扩展性

  • 基于该架构,最多可以接入8组ToR ,每组8个ToR接入32台GPU服务器,8组ToR接入256台
  • 最大可以扩展到2048个200G接口接入,满足1280接口接入的扩展性要求

存储网络设计(整网3:1收敛)

存储网络设计方案

  • 交换机 2 Leaf + 3 ToR = 5 台,提供最大144个接入端口(满足100个接入需求)
  • 如果不考虑Leaf高可靠部署,也可以单Leaf接入
  • 接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧100条,Fabric侧36条,合计136条
存储网络设计的扩展性

存储网络设计的扩展性

  • 交换机 2 Leaf + 5 ToR = 7 台,提供最大240个接入端口(满足240个接入的扩展需求)

设备配置汇总

网络类型设备类型设备型号台数合计
方案1
计算网络(600*200GE端口)SpineCX664D-N1035
LeafCX664D-N20
存储网络(100*200GE端口)SpineCX664D-N2
LeafCX664D-N3
AOC线缆(含模块)AOC1336条
方案2
计算网络(600*200GE端口)SpineCX664D-N1342
LeafCX664D-N24
存储网络(100*200GE端口)SpineCX664D-N2
LeafCX664D-N3
AOC线缆(含模块)AOC1360条

星融元方案价值与优势

  1. 超低TCO、超高性价比:相较于IB方案,大幅度降低用户的网络TCO,同时确保高性能
  2. 横向平滑扩容、1:1收敛无阻塞:无收敛的网络设计确保无阻塞的大容量网络,按需横向扩展
  3. 整网RoCEv2:基于CEE/DCB能力,提供可与IB媲美的性能和同样无损的网络服务
  4. 开放网络操作系统:星融元网络操作系统AsterNOS,SONiC企业级发行版,支持灵活的功能扩展、在线升级
  5. 无缝对接云管:AsterNOS 利用简单易用的REST API,可轻松让第三方的云平台/控制器快速纳管
  6. 专家级服务:专业、全面、可靠的研发、方案与服务团队,为客户提供小时级的快速响应服务

返回资源中心

什么是TIP OpenWiFi?

更多相关内容


星融元于2023年4月加入电信基础设施项目 (TIP) 开放融合无线(OCW) 项目组,并已基于开源 TIP OpenWiFi 项目构建了云化园区网络解决方案中的控制器和无线AP部分。

开放融合无线(OCW) 项目组

与专有解决方案相比,OpenWiFi 结合了部署节省 (CAPEX) 和自动化驱动的运营节省 (OPEX),显着降低了总体拥有成本 (TCO);OpenWiFi支持多样化的供应商云控制器和接入点选择,为服务提供商提供了企业级 Wi-Fi 基础设施的选择和灵活性。

结合社区路标规划,星融元会在后续控制器版本中不断更新完善,更多信息请持续关注星融元官网和公众号。

社区路标规划

星融元为什么要基于TIP OpenWiFi 开发园区控制器?

OpenWiFi是开放融合无线(OCW) 项目组贡献的第一个项目。它于 2021 年 5 月推出,包括接入点 (AP) 硬件、开源 AP 网络操作系统 (NOS) 和用于构建云原生 Wi-Fi 的 SDK面向 Wi-Fi 服务提供商和企业的控制器和管理软件。

OpenWiFi是开放融合无线(OCW) 项目组贡献的第一个项目

借助于优秀的开源开放底层框架打造企业级产品已经是当前常见的产品创新模式,可以避免”重复造轮子”,集中精力在应用层面的创新,节约部署和开发成本。当前全球已有很多基于OpenWiFi的大规模商业部署案例。

OpenWiFi高度开放解耦的特性,云控制器SDK提供开放的北向API,支持无缝接入很多白盒硬件,应用广泛。来自不同供应商的AP、云控制器和 OTT 分析解决方案能够在同一网络上放心地互操作和协同工作。

基于OpenWiFi的大规模商业部署案例

Openwifi的架构

微服务组件微服务组件

  • 基于RBAC(角色访问控制)的安全框架
  • 基于OpenAPI北向接口
  • Kafka消息队列
  • 固件管理
  • 集中式仪表盘(WEBUI)
  • 用户接口
  • Docker Compose & Helm 自动化部署

OpeWiFi采用的是基于微服务的架构。通过微服务,可将大型应用分解成多个独立的组件,其中每个组件都有各自的责任领域。在处理一个用户请求时,基于微服务的应用可能会调用许多内部微服务来共同生成其响应。现代云原生应用通常使用容器构建微服务,Docker是微服务架构的绝佳示例,因为它们可让您专注于开发服务,而无需担心依赖项。

星融元园区控制器的微服务界面预览

星融元园区控制器的微服务界面预览

OpenWiFi 的ucentral数据模型

  • OpenWiFi 的ucentral数据模型OpenWiFi 2.0 设备管理数据模型基于uCentral 协议实现
  • uCentral 组件集成到OpenWrt,具备通用性
  • 消息交互采用 JSON 消息体
  • 支持通过 WEBUI 根据配置项自动生成配置文件

OpenWiFi的部署

OpenWiFi采用Docker Compose部署管理,该工具用于定义和运行多容器 Docker 应用程序的工具, YML 文件来配置应用程序需要的所有服务;Docker处于同一OpenWiFi网桥下,容器之间可以通过IP互访,也可以通过别名互访。

星融元园区控制器容器部署页面预览

星融元园区控制器容器部署页面预览


附录:电信基础设施项目 (TIP)简介

电信基础设施项目 (TIP) 是一个致力于推动基础设施解决方案以促进全球连接的社区组织,成员包括数百家参与公司——从服务提供商和技术合作伙伴到系统集成商和其他连接利益相关者,共同致力于加速开放、分类和基于标准的技术解决方案的开发和部署,以提供世界现在和未来几十年所需的高质量网络连接。
鉴于世界上一半的人口仍然没有连接到互联网,而对于那些已经连接到互联网的人来说,连接往往是不够的。这限制了互联网提供的众多消费者和商业利益,从而影响了全球 GDP 增长。然而,当前解决方案缺乏灵活性(由于技术提供商的选择有限而加剧这种矛盾),使得运营商高效构建和升级网络面临挑战。

电信基础设施项目

返回资源中心

服务于RDMA应用的融合增强型以太网

更多相关内容


RoCE应用在以太网中通信时,通信质量最重要的两个衡量指标主要是高带宽和低延迟。

高带宽由硬件设备本身决定,延迟主要包括:处理延迟和网络传输延迟,可以通过一些技术手段来改善。处理延迟开销指的就是消息在发送和接收阶段的处理时间,在第一章节中介绍的RDMA可以大幅度降低服务器处理延迟;网络传输延迟指的就是消息从发送方到接收方的网络传输时延,

如果网络通信状况很好的情况下,网络基本上可以达到高带宽和低延迟,但网络通信状况需要利用网络中的各种流量控制、拥塞控制、高可靠等机制来保驾护航。在传统以太网中我们可以采用QoS技术来实现业务流量的服务质量保障,但是存储RoCE流量、计算RoCE流量等对于网络服务质量的需求以太网的QoS无法满足,且存在较大的差异:

  • 存储RoCE流量对丢包很敏感,且要求报文在传输过程中是保序的;
  • 业务RoCE流量允许一定的丢包和时延,只需要设备提供尽力而为的服务;
  • 计算RoCE流量用于高性能服务器之间的通信,流量要求低时延。

于是为了保障融合网络的网络性能、满足各种类型的RoCE流量对网络服务质量的需求,需要应用和发展一些新兴的融合网络技术。

面对不同类型的RoCE流提出的需求,传统以太网显得无能为力

传输RDMA的三个技术中,IB网络可以实现无损通信,能够完全满足RDMA对网络性能的需求,但是需要搭建专用的IB网络,成本太高;而RoCE可以实现RDMA在以太网上的承载,且建设、管理、运维等方面的成本低廉,但为了达到InfiniBand相近的性能要求,需要为RoCEv2流量建设无损的传输网络。无损以太网具备低时延、零丢包和高吞吐等特性,而针对以上几点需求传统以太网的QoS技术却显得无能为力:

  1. RoCEv2是基于UDP的不可靠传输,发生拥塞时会主动丢弃报文,且无报文重传机制,无法保证零丢包,因此无法保障RDMA流量的可靠性;
  2. CEE中存在多种流量类型,每一种类型的流量对网络质量有着不同的需求,任何一种类型的流量拥塞,都会对RoCE流量造成影响,导致RoCE流量的延时和丢包。原因是传统以太网的QoS技术在发生拥塞时,设备会发送Jamming信号或者Pause帧去干扰或者阻止上游设备发送端口的流量发送,该流控机制是基于端口的,因此不论是发生拥塞的流量还是RoCE流量或是其他流量都会被阻塞掉。

构建融合增强型以太网CEE

RDMA巧遇及时雨“CEE”,解决网络时延和丢包难题

在RDMA不断发展的同时,数据中心也在不断发生变化,计算云化、存储云化的快速普及使数据中心网络流量由“南北”为主转变为“东西”为主,如何保证数据在网络中更快、更高效的传输,成为提高数据中心性能的关键所在。

早期,数据中心建设者为了获得高性能的计算环境,会同时运营多张网络:

  • 用于IP联网的业务网络(如以太网)
  • 用于存储的存储网络(如FCSAN、IPSAN、FCoE、IB)
  • 用于高性能计算的计算网络(如IB)等。

为了降低部署复杂度和管理难度,降低人员的技术要求以及高昂的建设费用,业界提出了将三张网络融合成一张网络的建设方案,即构建融合增强型以太网CEE(Convergence Enhanced Ethernet)。

但在融合网络中,数据中心又面临了“使用相同的以太网物理基础设施传送特性差异较大的不同类型流量时,需要满足其不同的QoS需求”这一问题,于是IEEE 802.1工作组在2008-2010年期间定义了一组以太网扩展协议,即数据中心桥DCB(Data Center Bridging)协议。通过利用DCB构建CEE可满足融合网络中各种类型流量对时延、丢包和吞吐率的不同需求。

DCB标准出现后不久,IBTA发布了RoCEv1,同时还建议RoCE需要承载于CEE之上去保障其网络服务质量。RoCEv1与CEE的结合虽然可以保证在CEE中高可靠的传输RDMA流量,但是却受限于二层广播域。于是在2014年,IBTA对RoCEv1做了一些改进,引入了UDP/IP协议,使RDMA流量可以跨越三层,在路由器间路由,相比于TCP,UDP更加高效且适用于各种交互场景。

由于DCB中的拥塞通知协议工作在二层,所以IBTA在定义RoCEv2的同时还定义了显示拥塞通知ECN(Explicit Congestion Notification)协议,为RoCEv2流量在三层的路由转发提供高可靠性保障。至此,CEE、ECN的结合可解决CEE中RoCE流量的时延和丢包难题。

RDMA巧遇及时雨“CEE”,解决网络时延和丢包难题

图7:RDMA巧遇及时雨“CEE”,解决网络时延和丢包难题

融合增强型以太网CEE:IEEE802.1 DCB & ECN

随着各种应用在云平台上不断被部署和使用,以低延时、零丢包、高吞吐为目的融合增强型以太网CEE将更好为应用和租户提升云平台在计算、存储等各方面的网络性能。构建CEE的DCB协议组是由IEEE802.1工作组定义的一组以太网扩展协议,包含四个标准协议,分别为IEEE 802.1Qbb Priority-based Flow Control(PFC)、IEEE 802.1Qaz Enhanced Transmission Selection(ETS)、IEEE 802.1Qaz Data Center Bridging eXchange(DCBX)、IEEE 802.Qau Congestion Notification(CN)。由于CN工作于二层,所以IBTA在定义RoCEv2的同时也定义了可工作于三层的拥塞通知协议ECN(Explicit Congestion Notification)。

DCB协议组和ECN协议对比

标准协议 技术特点
IEEE802.1 Data Center Bridging(DCB)IEEE 802.1Qbb Priority-based Flow Control(PFC)用于满足三种流量在以太网中共存时,存储流量无丢包,且对其它的两种流量无影响的要求
IEEE 802.1Qaz Enhanced Transmission Selection(ETS)用于避免一种流量类型的大规模流量突发对其它流量类型产生影响,为不同的流量类型提供最小带宽保证。一种流量类型只有在其它流量类型带宽不占用的情况下,才能使用分配带宽之外的额外带宽。这使多种流量类型可在同一网络中和谐共存
IEEE 802.1Qaz Data Center Bridging eXchange(DCBX)IEEE 802.1Qaz定义了两部分协议,一个是ETS,另一个就是DCBX。DCBX是基于LLDP(Link Layer Discovery Protocol)的扩展协议,用于在设备间自动协商并配置PFC、ETS及CN等
IEEE 802.Qau Congestion Notification(CN)用于降低引起拥塞的端点站的报文发送速率,从根源上避免拥塞,以保持网络的畅通,解决因拥塞引发报文重传或流量控制,导致报文时延增加的问题
Explicit Congestion Notification(ECN) 用于当设备的转发队列中的报文超过ECN门限时,向宿端服务器发送携带ECN标记的报文以告知宿端设备网络中出现拥塞。而宿端设备收到携带ECN标记的报文后会向源端服务器发送CNP(Congestion Notification Protocol)拥塞通知报文,以通知源端服务器进行流量降速,以达到消除拥塞的目的,保持网络通畅

DCB和ECN技术得到了数据中心网络厂商的认同后进行了大量部署,这加快了数据中心网络融合的进程。而网络融合可以带来非常多的优势:

  1. 可以便于管理,一次连接服务器,光纤存储和以太网共享同一个端口,需要更少的线缆和适配器,简化系统的复杂性;
  2. 数据中心不再需要部署多类技术人才,只需要懂以太网技术的人员即可;
  3. 大幅降低数据中心网络建设成本,不仅包括网络基础设施的建设,还包括线缆、监控、散热、管理等其它附加费用。所以网络融合将成为数据中心网络发展的必然趋势。

融合增强型以太网解决方案>>>>>

返回资源中心

交换机堆叠:提升网络性能与可扩展性的关键技术

更多相关内容


用于科普文章的图片交换机堆叠是一种网络技术,通过将多台交换机物理连接并逻辑上组成一个单一的高性能交换系统,以提供更高的网络性能、可靠性和可扩展性。本文将介绍交换机堆叠的概念、工作原理以及在企业网络中的应用。

随着企业网络规模和带宽需求的不断增长,构建高性能、可靠的网络基础设施变得至关重要。在这样的背景下,交换机堆叠技术应运而生。交换机堆叠是一种网络技术,通过将多台交换机物理连接并逻辑上组成一个单一的高性能交换系统,以提供更高的网络性能、可靠性和可扩展性。

交换机堆叠的核心思想是将多台交换机视为一个逻辑单元,形成一个共享的交换平面。这样做的好处是:

  1. 提升网络性能:交换机堆叠可以提供更高的网络性能。通过将多台交换机物理连接在一起,数据可以在这些交换机之间以高带宽的方式传输,从而降低数据传输延迟并提高网络响应速度。此外,堆叠技术还可以实现交换机之间的负载均衡,确保网络流量得到有效的分配。
  2. 增强网络可靠性:交换机堆叠可以增强网络的可靠性。当其中一台交换机出现故障时,堆叠系统可以自动检测到并将故障交换机排除在堆叠集群之外,而不会对整个网络造成中断。这种冗余设计提高了网络的容错性和可靠性。
  3. 实现网络可扩展性:交换机堆叠可以实现网络的可扩展性。通过将多台交换机组成一个逻辑单元,可以轻松地扩展网络规模。当需要增加更多的交换机时,只需简单地将新的交换机添加到堆叠中,而无需对整个网络进行复杂的重配置或重新布线。

交换机堆叠的工作原理是通过特定的物理连接和协议来实现的。在堆叠集群中,一台交换机被指定为主交换机(Master Switch),其他交换机则作为成员交换机(Member Switch)连接到主交换机上。主交换机负责管理整个堆叠集群,包括配置和控制交换机的功能。成员交换机则通过特定的堆叠协议与主交换机进行通信,共享交换机的配置和状态信息。

交换机堆叠技术在企业网络中有广泛的应用。它可以用于构建高密度数据中心网络、提供高可靠性的核心交换网络以及构建大规模企业校园网等。通过堆叠技术,企业可以简化网络管理和维护,减少物理设备数量和复杂性,提高网络的灵活性和可管理性。

总结:交换机堆叠是一种关键的网络技术,通过将多台交换机物理连接并逻辑上组成一个单一的高性能交换系统,提供了更高的网络性能、可靠性和可扩展性。通过堆叠技术,企业可以构建高性能的网络基础设施,实现快速的数据传输和高可靠性的网络连接。交换机堆叠技术在企业网络中具有广泛的应用前景,为企业提供了灵活、可管理和可扩展的网络解决方案。

返回资源中心

RDMA四个发展阶段的技术特点

更多相关内容


支持RDMA的协议特点
IB1) 建设成本高昂,服务器需要专用的IB网卡,专用的IB交换机搭建专用网络,一般是普通网络设备的五到十倍,只有在金融、期货交易等环境中才会考虑使用;
2) 网络基础设施增多使相应的配套设施增加,如线缆、模块、监控、环动、电耗等;
3) InfiniBand网络具备高带宽、无丢包、配置和运维简单等优势;
4) InfiniBand交换机的延迟始终低于以太网交换机,一种特定类型的以太网交换机的端口到端口延迟为230ns,而具有相同端口数量的InfiniBand交换机的端口到端口延迟为100ns。
iWARP1) iWARP协议较复杂,包含DDP、MPA和RDMAP三层子协议;
2) 基于TCP提供可靠的服务,但拥塞控制机制复杂,重传机制导致时延增大;
3) TCP需建立连接,工作效率低,且只能适用于点到点的场景,不适合多播场景;
4) 在大规模数据中心和大规模应用程序的场景中,大量的TCP连接会占用较多的系统资源(TCP流量将导致接近100%的CPU资源被占用),影响网络扩展性和性能;
5) iWARP与传统TCP流共享协议号空间,因此需要使用上下文状态来确定数据包是否为iWARP,增加处理延时;
6) iWARP是一个全新的协议,所以服务器网卡需要支持该协议;
7) 未被市场广泛采用,且目前只有Chelsio一家供应商的产品支持iWARP。
RoCEv11) RoCEv1承载于以太网之上,大幅度降低数据中心网络建设成本;
2) RDMA只能在同一以太网广播域中通信,可伸缩性受限;
3) RoCEv1依赖无损以太网,保障RDMA的低时延、零丢包和高可靠;
4) 无损以太网配置较IB网络更加复杂,运维也更加复杂。
RoCEv21) 引入IP解决了网络扩展性问题,可以在三层间路由;引入UDP解决负载均衡的问题,提高网络利用率;
2) RoCEv2依赖无损以太网,并定义了拥塞控制协议ECN,保障低时延、零丢包和高可靠;
3) UDP是无连接的,高效,具有较好的实时性,且支持一对一,一对多,多对一和多对多的交互通信;
4) UDP具有较少的开销,占用较少的系统资源,网络扩展性和性能不受影响;
5) 根据UDP端口号可以快速识别RoCE流,处理时延低。

通过对支持RDMA网络协议的分析,将三种技术的特点归纳为性能、延时、成本、可靠性、稳定性、配置/运维复杂度以及支持厂商等几个市场比较关心的点进行优劣势对比,更加简明、直观,如表2所示:

优劣势对比

特性IBiWARPRoCEv1RoCEv2
标准组织IBTAIETFIBTAIBTA
L2/L3网络环境IB专网L3TCP/IP以太网L3以太网L2UDP/IP以太网L3
交互场景一对一,一对多,多对一,多对多一对一一对一,一对多,多对一,多对多一对一,一对多,多对一,多对多
性能(吞吐率)
延时
成本
可靠性/稳定性
CPU占用率
配置/运维简单中等较复杂较复杂
支持厂商IBM/Microsoft/Intel/Wintel/HP/Dell/Sun等70多家,目前已所剩无几Intel/Chelsio等Mellanox/Emulex/Broadcom/QLogic/Cavium/Huawei/ATTO Technology等
Marvel/Microsoft/Linux/Kazan等两个都支持

传统模式 与RDMA模式对比图通过上述对比得出,RoCE相对于iWARP有着明显的优势,因此RoCE被很多主流厂商的方案所支持,成为该领域的发展方向。而在RoCE流量的传输中,网络的传输性能和质量直接影响了RDMA应用的体验,承载RoCE流量的以太网的建设就变得非常重要。

返回资源中心

网络融合大趋势下RDMA的发展演进过程

更多相关内容


RDMAC(RDMA Consortium)和IBTA(InfiniBand Trade Association)主导了RDMA。其中,IBTA是InfiniBand的全部标准制定者,并补充了RoCEv1/v2的标准化,而RDMAC是IETF的一个补充,它与IETF一起定义了iWARP(Internet Wide Area RDMA Protocol)和iSER(iSCSI Extensions for RDMA)。上层应用要想使用RDMA,需要支持与RNIC之间的传输接口层(software transport interface),也被称为Verbs。

IBTA解释了RDMA传输过程中应具备的特性行为,而并没有规定Verbs的具体接口和数据结构原型,这部分工作由另一个组织OFA(Open Fabric Alliance)来完成,OFA提供了RDMA传输的一系列Verbs API。OFA还开发出了OFED(Open Fabric Enterprise Distribution)协议栈,可支持多种RDMA传输层协议。

OFED中除了提供向下与RNIC基本的队列消息服务,向上还提供了ULP(Upper Layer Protocols),通过ULPs使得上层应用不需要直接到Verbs API对接,而是借助于ULP与应用对接,常见的应用不需要做修改,就可以跑在RDMA传输层上。

支持RDMA的网络协议在发展过程中的四个阶段

支持RDMA的网络协议在发展过程中的四个阶段

图1:支持RDMA的网络协议在发展过程中的四个阶段

如图1所示,支持RDMA的网络协议的发展过程主要包括四个阶段:

IB(InfiniBand)

InfiniBand是IBTA(InfiniBand Trade Association)在2000年正式发布的规范,而RDMA是IBM和HP在2003年提出的,因此基于InfiniBand架构的RDMA属于原生RDMA,通过支持IB传输协议专用的IB网卡和IB网络设备提供硬件级的高可靠和高性能,因此在高性能计算应用场景中被广泛采纳。

InfiniBand是一种用于高性能计算的计算机网络通信标准,具有很高的吞吐量和非常低的延迟,它用于计算机之间和内部的数据互连。InfiniBand还可用作服务器和存储系统之间的直接互连或交换互连,以及存储系统之间的互连。

iWARP(Internet Wide Area RDMA Protocol)

由于搭建InfiniBand专网的费用非常昂贵,于是IBM和HP联合Intel、Microsoft、Dell、EMC、NetApp、Adaptec、Broadcom、Cisco等业界先进厂商一起成立了RDMA Consortium组织,旨在开发必要的体系结构规范,以实现可通过TCP/IP网络(包括基于以太网的网络)提供RDMA的产品。

RDMA联盟作为Internet工作任务组(IETF)的补充,将规范草案提交给IETF工作组“Internet协议套件RDMA”进行审议,于2007年形成基于TCP/IP的RDMA,称作iWARP。iWARP主要包括MPA(Markers PDU Aligned Framing)、DDP(Direct Data Placement Protocol)、RDMAP(Remote Direct Memory Access Protocol)三层子协议,如图2所示。iWARP是一种全新的协议,使用iWARP协议对以太网络没有任何要求,但是服务器的网卡RNIC要能支持该协议,同时还要能实现RDMA的卸载和TCP的卸载(即TOE,TCP/IP Offload Engine)。

传统模式和RDMA模式的对比

图2:传统模式和RDMA模式的对比

RoCEv1(RDMA over Converged Ethernet)

许多年来,人们仍一直设法使以太网能够支持基于IB协议的RDMA。IBTA作为InfiniBand的全部标准制定者,在2010年时补充了RoCE,其MAC层的网络头是以太网头,Ethernet Type位是0x8915,MAC层以上的网络头(包括数据)是InfiniBand头,如图2所示。RoCEv1是以太网链路层协议,该协议允许RDMA可以在同一以太网广播域中的任何两个主机之间进行通信,但这限制了RoCE功能的应用范围。与此同时,为保障其可靠性,协议建议将RoCE承载在无损网络上,即融合增强型以太网CEE(Converged Enhanced Ethernet)。

RoCEv2

IBTA在2014年又发布了RoCEv2的标准化协议,对RoCE做了进一步的改进,用以太网链路层上的IPv4/IPv6报头和UDP报头(UDP端口号为4791)替代InfiniBand的网络层和传输层,如图2所示。其中,引入IP解决了网络扩展性问题,可以跨三层组网,在基于IP的传统路由器之间路由RDMA;引入UDP解决负载均衡的问题,提高网络利用率,但RoCEv2仍然需要无损网络保障其低延时和无丢包。

要实现RDMA流量的正常传输,除了要支持上述的技术外,还需要建立从RDMA NIC到应用程序内存的数据路径,而这个路径是由Verbs API接口来建立的,一旦数据路径建立后,就可以直接访问用户空间buffer。

从图3中可以看出,网络传输侧RDMA的实现方式主要分为InfiniBand和Ethernet两种。在以太网上,又可以根据与以太网融合的协议栈的差异分为iWARP和RoCE(包括RoCEv1和RoCEv2)。

其中,InfiniBand网络使用的是支持IB协议的专用交换机;RoCEv1、RoCEv2和iWARP流量可以在传统以太网上进行传输,承载RoCEv1协议的网络只能局限于广播域内传输RDMA流量,而另外两种协议可以在传统路由器之间传输RDMA流量。在服务器端,承载IB、RoCEv1/v2流量的发送端和接收端服务器的网卡均需要支持IB协议,在使用iWARP协议的网络中服务器网卡需要支持iWARP协议。

承载RDMA技术的网络架构

图3:承载RDMA技术的网络架构

在RDMA的不同发展阶段,都会涌现出一些率先支持该阶段技术的供应商,比如支持IB协议栈的网卡供应商有IBM、Microsoft、Intel、Wintel、HP、Dell等70多家,支持iWARP的有Intel、Chelsio等,支持RoCEv1/v2的有Mellanox、Emulex、Broadcom、QLogic、Cavium、Huawei、ATTO Technology等,为了满足用户的不同需求,部分厂商推出了可同时支持iWARP、RoCEv1/v2两种协议的网卡,如Marvel、Microsoft、Linux、Kazan等。

返回资源中心

RDMA为什么出现,它有什么好处

更多相关内容


科技发展催生RDMA诞生

随着AI、5G网络的兴起,大数据分析、边缘计算的飞速发展,以及“唤醒万物,万物互联”时代的到来,各种应用、各种行业对高效通信的需求越来越强烈,在这一风口浪尖上,英特尔、NVIDIA、AMD、亚马逊、微软、联想、阿里巴巴、百度、Dell、EMC、阿托斯、华为、曙光、浪潮、Cray、Fujitsu、HP和NEC等众多公有云厂商推出了解决方案“为用户提供灵活、强弹性和高可扩展的基础通讯设施以及几乎无限的存储容量”,吸引了越来越多的新兴业务应用和企业将数据中心建设于公有云之上。当客户将数据中心建设于公有云上时,数据中心网络中的东西向流量剧增,占据了80%的网络带宽,于是出现了大量的远程内存访问需求。

一个应用的访问会在数据中心产生一系列的连锁反应,举例说明,如图1所示,在大数据分析的数据中心应用场景中,某终端用户访问某一业务,首先访问的是Web应用区中的业务链接;然后返回访问结果,于此同时,还需要根据终端用户的访问行为推送与该行为相关的其他业务链接,此时需要依赖大数据分析系统对该用户终端的一系列行为进行分析,在分析过程中会调用存储区中终端的其他相关行为数据,再进行深入的综合分析;

最后将终端用户行为和大数据分析结果存储到存储区,并作为用户行为分析的结论传输给应用显示系统进行排列组合,最终将呈现结果推送至用户终端,并通过Web界面显示。Web应用服务器、大数据分析服务器、存储服务器以及显示系统之间存在大量的内存访问需求。

一个应用访问行为引起的连锁反应

远程内存访问的低效直接导致业务应用的低效

由于在数据中心领域中人们总是将目光集中在云计算、100G/400G单端口带宽的提升等技术的发展上,而忽略了如何提升计算节点接收到数据后的数据处理性能和内存带宽的利用率。当AI、5G、AR/VR/MR、大数据分析、IoT等高性能计算应用大量兴起时,面对网络带宽、处理器速度与内存带宽三者的严重“不匹配性”,就造成了网络延迟效应的加剧。远程内存访问这一常态性业务处理性能的低效就直接导致了业务应用的低效。

如图2所示,在典型的IP数据传输过程中(包括数据接收和发送两个过程),其数据处理原理是:

数据发送

Server-A上的应用程序APP-A向Server-B上的应用程序APP-B发送数据。作为传输的一部分,需要将数据从用户应用空间的Buffer中复制到Sever-A的内核空间的Socket Buffer中,然后在内核空间中添加数据包头、封装数据包,再通过一系列网络协议的数据包处理工作,诸如传输控制协议(TCP)或用户数据报协议(UDP)、互联网协议(IP)以及互联网控制消息协议(ICMP)等,最后被Push到NIC网卡的Buffer中进行网络传输。

数据接收

消息接受方Sever-B接收从远程服务器Sever-A发送的数据包后会进行应答,当Sever-A收到应答数据包时,首先将数据包从NIC Buffer中复制数据到内核Socket Buffer中,然后经过协议栈进行数据包的解析,解析后的数据会被复制到相应位置的用户应用空间的Buffer中,最后唤醒应用程序APP-A,等待应用程序A执行读操作。

典型的IP数据的传输中,服务器发送和接收的处理过程

当网络流量以很高的速率交互时,发送和接收的数据处理性能非常的低效,这种低效表现在:

  • 处理延时过大,达数十微妙。在数据发送和接收的过程中,大多数网络流量必须至少两次跨系统内存总线进行数据复制,一次是在主机适配器使用DMA将数据放入内核提供的内存缓冲区中,另一次是从内核将数据移至应用程序的内存缓冲区中。这意味着计算机必须执行两次中断,才能在内核上下文和应用程序上下文之间进行切换。因此服务器收到数据后的处理过程需要经过多次内存拷贝、中断处理、上下文切换、复杂的TCP/IP协议处理等,造成流量传输时延加剧;
  • 单位时间内收到的报文越多,处理报文消耗的CPU和内存资源越高。交换机往往做三层解析就足够,而且是由专门的芯片来完成,不消耗CPU资源。而服务器要将收到的每个报文的内容都解析出来,网络层和传输层的解析都需要消耗CPU资源和占用内存资源,由CPU来查询内存地址、检验CRC、还原TCP/UDP包并送到应用空间。单位时间内进来的报文数量越多,消耗CPU和内存资源就越多;
  • 较低的灵活性。主要原因是所有网络通信协议通过内核传递,而这种方式很难去支持新的网络协议、新的消息通信协议及发送和接收接口,使用传统的IP数据传输在后期网络的演进过程中,想要跳脱这种“困局”就变得非常的困难。

低时延、超低CPU和内存资源占用率的RDMA技术,变低效为高效

为了解决远程内存访问过程中“服务器端数据处理延迟大、资源消耗大”的问题,IBM和HP在2003年提出了RDMA(Remote Direct Memory Access,远程直接内存存取),通过使用支持该技术的网络适配器能够将数据从线路直接传输到应用程序内存或从应用程序内存直接传输到线路,从而支持零拷贝网络,无需在应用程序内存和操作系统中的数据缓冲区之间复制数据。这样的传输不需要CPU、缓存或上下文切换器完成任何工作,大幅度降低了消息传输中的处理延迟,同时传输与其他系统操作并行进行,提高了交换机的性能。

在具体的远程内存读写过程中,用于RDMA读写操作的远程虚拟内存地址包含在RDMA消息中传送,所以远程应用程序要做的只是在其本地网卡中注册相应的内存缓冲区,而远程节点的CPU除在连接建立、注册调用等之外,在整个RDMA数据传输过程中并不提供服务,因此没有给CPU带来资源消耗。举例说明,假设应用和远程应用之间已经建立了连接,并注册了远端的内存缓存区,当该应用执行RDMA读操作,其工作过程如下:

  • 当一个应用执行RDMA读操作时,不执行任何数据复制。在不需要任何内核参与的条件下,RDMA请求从运行在用户空间的应用中发送到本地NIC;
  • 本地NIC读取缓存的内容,并通过网络传送到远程NIC;
  • 在网络上传输的RDMA信息包含目标虚拟内存地址、内存钥匙和数据本身;
  • 目标NIC确认内存钥匙,并直接读取应用缓存中的数据,其中用于操作的远程虚拟内存地址包含在RDMA信息中。

传统模式和RDMA模式的对比

如图3所示,通过对比传统模式和RDMA模式对发送和接收数据的处理过程,RDMA技术最大的突破在于给数据中心通信架构带来了低时延、超低的CPU和内存资源占用率等特性。

星融元:浅谈RDMA与低时延网络

低延时体现在:

  1. 在网卡上将RDMA协议固化于硬件。在网卡硬件上就完成四层解析,然后直接将解析后的数据上送到应用层软件,硬件的处理速率远高于软件,降低了报文的处理延时;
  2. 零拷贝网络。网卡可以直接与应用内存相互传输数据,消除了在应用内存与内核内存之间的数据复制操作,使传输延迟显著降低;
  3. 内核内存旁路。应用程序无需执行内核内存调用就可向网卡发送命令。在不需要任何内核内存参与的条件下,RDMA请求从User Space发送到本地NIC,再通过网络发送给远程网卡,这就减少了在处理网络传输流时内核内存空间与用户空间之间环境切换的次数,降低了时延;
  4. 消息基于事务。数据被处理为离散消息而不是流,消除了应用程序将流切割为不同消息/事务的需求;
  5. 支持分散/聚合条目。RDMA原生态支持分散/聚合,也就是说,读取多个内存缓冲区然后作为一个流发出去或者接收一个流然后写入到多个内存缓冲区里去。

超低CPU和内存资源占用率体现在:

应用程序可以直接访问远程内存,而不占用远程服务器中的任何CPU资源,远程CPU中的缓存资源也不会被访问的内容填满,服务器可以将几乎100%的CPU资源和内存资源提供给计算或其他的服务,节省了服务器资源占用的同时,提高了服务器数据处理带宽。

返回资源中心

简述AI网络

更多相关内容


人工智能(AI)是一项革命性技术,正在改变许多行业和领域。

技术正在从医学到金融服务和娱乐,它正在改变我们日常生活的许多行业和方面。

娱乐,实时游戏、虚拟现实、生成式人工智能和元宇宙应用的快速发展,正在改变我们的日常生活、 虚拟现实、生成式人工智能和元宇宙应用的快速发展正在改变网络、计算、内存、存储和互连 I/O 的交互方式、 存储和互连 I/O 的交互方式。随着人工智能以前所未有的速度 以前所未有的速度发展,网络需要适应 流量的巨大增长。

随着人工智能以前所未有的速度不断发展,网络需要适应数以百计和数以千计的处理器通过数万亿次交易和千兆位 吞吐量。随着人工智能迅速从实验室和研究项目向主流应用迈进的同时,也要求增加网络和计算资源。

最近的发展 ,只是未来十年发展的基石。

我们认为,人工智能集群在未来几年将大幅增长。

这些人工智能工作负载的一个共同特点是,它们都是数据和计算密集型的。典型的人工智能训练工作负载 涉及数十亿个参数和分布在数百或数千个处理器(CPU、GPU 或 TPU)上的大型稀疏矩阵计算。CPU、GPU 或 TPU。这些处理器进行密集计算,然后与同级处理器交换数据。来自对等处理器的数据 或与本地数据合并,然后开始新一轮的处理。在这个计算-交换-还原的循环中,大约有 20-50% 的作业时间用于跨网络通信,因此瓶颈对作业完成时间有很大影响。

典型的人工智能训练工作负载 涉及数十亿个参数和分布在数百或数千个处理器

TCP/IP 和 RDMA

RDMA 是一种关键的卸载技术,可实现现代人工智能应用所需的可扩展并行处理。在 TCP/IP 套接字中、数据必须先从用户空间复制到内核空间,然后才能到达网络驱动程序和网络。当处理与人工智能应用相关的大量数据时,CPU 可能会成为瓶颈。

TCP/IP 和 RDMA

这就是远程直接内存访问(RDMA)的用武之地。在高性能计算系统中,RDMA 无处不在,因为它无需依赖内核即可在主内存中交换数据。RDMA 有助于提高吞吐量和性能,从而提高数据传输速率,降低启用 RDMA 的系统之间的延迟,因为它减少了CPU 周期。

RDMA transfer

RDMA 传输的语义由 InfiniBand Verbs 软件接口定义。这包括内存块的注册、描述符的交换以及 RDMA 读写操作的发布、描述符的交换以及 RDMA 读写操作的发布。该接口独立于作为物理传输层的 Infiniband物理传输层。

RoCE 定义了如何通过以太网传输 InfiniBand 有效载荷。RoCEv2 通过允许流量路由,进一步扩展了这种可扩展性和功能,允许对流量进行路由,并支持在以太网上扩展 RDMA。

RoCE and RoCEv2 Frame Format

集体交流

现代大型语言模型以数十亿或数万亿个参数为基础,并使用大量数据集进行训练,这些数据集无法在任何单个主机 GPU 中运行。任何单个主机 GPU 都无法容纳。这些数据集和模型被分割到多个 GPU 中并行训练,得出的 梯度和权重,然后通过集体通信在各成员 GPU 之间聚合和同步。

集体通信允许在通信器的所有进程之间交换信息。常用的集体通信原语包括广播、聚集、分散、全对全、全局还原(或全还原)和全聚集。最终目标 是确保所有进程在每一步都能同步。在所有参数同步之前,通信器中的任何进程都不能继续运行。

程序员可以利用流行的集体通信库(如 NCCL、oneCCL、RCCL、MSCCL 等),将高效、久经考验的通信算法集成到其应用程序中。应用中集成高效、久经考验的通信算法。

环形算法和二叉树算法通常用于像 allreduce 这样需要在所有 GPU 之间交换信息的集体程序。所有 GPU 之间交换信息。下图显示了用于在四个进程间交换信息的环形算法。

Allreduce using ring algorithm

环路具有带宽最优性,要求网络在所有终端主机之间提供线速带宽。虽然带宽效率高,但随着用于训练模型的 GPU 数量增加,延迟也会随环路线性增加。

树形算法通过对参与进程进行排序并将其拆分为不重叠的二进制树,可在保持低延迟的同时扩展 GPU。

分成不重叠的二叉树。下图显示了 16 个进程被分成两棵不重叠的二叉树。

Non-overlapping binary trees

每个进程从两个对等进程接收信息,并向两个对等进程发送信息。这种模式的延迟 不会像环模式那样线性增加,但它要求网络有效地管理流量传输,以便上游进程能以尽可能接近线速的带宽向每个接收进程发送信息。

必须为人工智能网络选择合适的互连设备,以便高效地交换信息,并让进程通过每个障碍,继续前进,进程越过每个障碍,进入下一阶段的计算。

人工智能网络互联

以太网广泛部署在数据中心、骨干网、边缘网和园区网中,其使用情况各不相同,从非常低的速度到目前的 100G、200G、400G 和 800G 高速度,以及未来的 1.6T。到目前的 100G、200G、400G、800G 等高速,路线图中将达到 1.6T。另一方面,Infiniband 是一种网络技术 而 Infiniband 则是 HPC 集群中常用的一种网络技术。如前所述,AI/ML 工作负载是网络密集型的,不同于传统的 HPC 工作负载。

此外,随着大型语言模型(LLM)的激增 此外,随着大型语言模型(LLM)的激增,对 GPU 和存储容量的需求也在不断增加。容量。现代人工智能应用需要拥有数千个 GPU 和存储设备的大型集群。

现代人工智能应用需要配备数千个 GPU 和存储设备的大型集群,而这些集群 随着需求的增长,这些集群必须扩展到数以万计的设备。增长。随着 GPU 速度每隔一年翻一番,避免计算和网络瓶颈至关重要。通过可扩展的网络设计来避免计算和网络瓶颈。可扩展的网络设计。

当应用团队关注计算能力时 网络团队则必须根据以下几个因素对互连进行仔细评估互连:

绩效

衡量人工智能集群性能的关键指标之一是作业完成时间。工作完成时间。要达到理想的 性能,网络必须是无损的、无阻塞的,并且 提供合理的链路利用率。正如后面所讨论的,有了适当的 拥塞控制机制和高效负载平衡技术 技术,RoCEv2 可提供人工智能工作负载所需的最佳性能。

带宽和速度

随着培训工作的规模越来越大,提供更快的网络非常重要。使用端口速度更快的高密度 更快的端口速度。使用商用硅以太网解决方案,网络带宽可以每两年翻一番。同时降低每比特成本和每比特功耗。

Single Chip Ethernet Switch Silicon Through 2025

Data Center Ethernet Switching Bandwidth Growth, by SerDes Speed

无损网络

虽然更快的速度很有用,但无损网络对作业完成时间至关重要。Infiniband 采用基于信用的流量 流量控制,以避免数据包丢失。发送方在收到目标主机发送的表示有可用缓冲区的数据包之前,等待发送数据包。缓冲区。通过使用显式拥塞通知(ECN)和优先级流量控制(PFC),以太网也可作为无损信道运行。无损信道。这些机制对发送方施加反向压力,以避免主机或交换机缓冲区超限。可靠的传输 通过 IB 流量控制或带有 ECN/PFC 的以太网进行可靠传输,对于最大限度地提高 RDMA 性能至关重要

可扩展性

随着 LLM 模型规模的不断扩大,其能力也得到了可靠且可预测的提升。这反过来又推动了更大 这反过来又推动了更大的 LLM,进而推动了更大的人工智能集群互连。简而言之,网络的可扩展性是一个非常重要的考虑因素。

以太网已经证明了其在全球最大云网络中的扩展能力。网络团队能够采用云 设计,并利用运行边界网关协议(BGP)的 CLOS 架构构建分布式网络。

另一方面,Infiniband 的控制平面通过单个子网管理器集中管理,该子网管理器可发现物理拓扑,并在每个节点上设置转发表和 QoS 策略。它定期扫描网络,并根据拓扑变化重新配置设备。这在小型集群中效果良好,但在大规模集群中可能会成为瓶颈。有一些经过深思熟虑的复杂解决方案可以起到修补作用。不过,以太网中的分布式控制平面的规模超过了 Infiniband 48000 的最大子网规模,并提供了更高的弹性。

恢复能力

当 Infiniband 的子网管理器发生故障时,整个子网都可能瘫痪。Infiniband 确实有一些技术可以在某些情况下实现连续转发。在某些情况下可以连续转发,但最终控制平面仍然是集中式的,而且很脆弱。完全故障切换到 而子网越大,停机时间就越长(需要传输的状态越多、 跨节点的扫描范围越大)。根据与客户的交谈,停机时间可能是 30 秒到几分钟不等。在某些用例中,客户 但对于大型人工智能/ML 工作负载来说,这种故障会严重影响作业完成时间和整体性能。性能。使用以太网和 Arista SSU 等功能的分布式可扩展架构,链路和节点故障对整体性能的影响极小甚至没有影响。对大型人工智能网络的整体性能影响极小甚至没有影响。

可见性

遥测和可视性对于实现网络自动化和无缝操作极为重要。网络团队希望将目前用于数据中心通用计算和存储的工具、流程和解决方案扩展到人工智能集群中。

互操作性

OAI 网络通常与各种存储和通用计算基础设施相连接。基于以太网的人工智能网络实现了高效、灵活的网络设计,避免了通过这些不同系统的管道瓶颈。虽然 IP 流量可以通过物理 Infiniband 网络传输,但所有服务器都必须配备 Infiniband HCA 或通过 Infiniband 至以太网网关,这极大地限制了进出 IB 网络的吞吐量。

开放

以太网拥有一个非常强大的生态系统,包括多个芯片供应商、系统供应商和光学供应商,并推动基于开放和标准的解决方案在各供应商之间实现互操作。InfiniBand 则由于选择有限和锁定解决方案而明显落后。


以太网的人工智能工作负载的关键要求总之,以太网因其可扩展性、互操作性、可靠性、成本效益、灵活性和熟悉度而被认为是人工智能网络的最佳解决方案。以太网的良好记录、广泛采用和对高速网络的支持,使其成为希望建立高效、可扩展的网络基础设施以支持其人工智能工作负载的企业的不二之选。

让我们来看看使用以太网的人工智能工作负载的关键要求。网络需要支持 RoCEv2 的无损传输、优先处理控制流量的服务质量 (QoS)、可调整的缓冲分配、有效的负载平衡和实时监控。

返回资源中心

2023 年三大开源网络发展趋势

更多相关内容


用于企业级交换机文章的配图开源网络技术正引领着企业、云计算和电信的发展方向。这是隶属于 Linux 基金会的 LF Networking (LFN) 提出的方向。

推动开源网络发展的主要趋势:

趋势 1:继分解之后的再分解

就在十多年前,分解趋势从 SDN 开始,这是一种将网络堆栈中的硬件与软件分离的方法。这一趋势随着边缘和接入网络的分解而扩大。

“你猜怎么着?总得有人把它们放在一起,”Joshipura 说。

现在的挑战是,企业要意识到,他们必须将各种分解的网络组件重新组合在一起,才能为企业、云和电信服务提供商提供完整的端到端堆栈。

在谈到 5G 和开源时,Joshipura 说,LFN 已经提出了以该组织称之为 5G 超级蓝图的形式进行重新分解的计划。这些蓝图提供了一个项目参考堆栈,可以将这些项目整合在一起,创建一个完整的解决方案。

趋势 2. 垂直行业的开源网络运动

5G 超级蓝图并不是开源组件中出现的唯一一种完整解决方案堆栈。

Joshipura 表示,在企业、云和接入网络的多个用例中,开发满足特定垂直行业和用例需求的堆栈正成为一种日益增长的趋势。迄今为止,活跃的行业包括能源、商业和制造业。

“我们所做的就是专注于这些对每个市场都很重要的用例。乔希普拉说。

趋势 3. 以前互不相关的细分市场正在合并

另一个趋势是市场合并。

Joshipura 指出,企业、云计算和电信不再各自为战。电信公司现在通常与云提供商合作。企业既与电信公司合作,也与云计算公司合作进行网络建设,需求和解决方案正日益融合。

根据 Johsipura 的说法,企业、云和电信公司都在合作开发从网络核心到边缘的开源服务,包括网络即服务(NaaS)等。合并的原因有很多,开源的 Kubernetes 容器编排系统就是其中之一。Kubernetes 可运行企业、云和电信公司的工作负载。

“现在,Kubernetes 有了一个通用的水平层,”Joshipura 说。”这是这些市场走到一起的原因之一。”

返回资源中心

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2