Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

什么是DCI互联,为什么需要DCI互联

更多相关内容


什么是DCI?

数据中心互联(Data Center Interconnect,DCI) ,是一种跨数据中心实现网络互联互通的网络解决方案,具备灵活互联,高效安全,简化运维等特性,满足了数据中心之间高效数据交换、异地灾备等场景需求。

在云化数据中心,网络资源通过虚拟化技术形成资源池,实现业务与物理网络解耦,通过网络虚拟化,物理网络资源可以被分成多个虚拟网络资源,从而提高网络资源的使用效率。

虚拟网络资源根据业务需求进行分配和调度,可以更好地利用网络资源。此外,虚拟网络资源的快速部署和迁移可以提高业务的灵活性和可用性。

我们对DCI的需求迫切吗?

伴随着用户业务规模的扩大和范围的增加,用户可能需要在多个地理位置建立数据中心以满足业务需求。这些数据中心需要进行互联和资源共享。一些应用程序可能需要在多个数据中心之间进行迁移、复制、备份等操作,而另一些应用程序可能需要快速在不同的数据中心之间进行负载均衡和容灾切换。

具体诉求如下:

  • 业务跨DC部署:客户某些业务可能是跨DC部署的,比如客户可能会针对某大型网站划一个独立的VPC,这个VPC可能会跨多个DC,所以在这个VPC内部流量就有跨Fabric互通的需求,同时路由和防火墙需要进行隔离。
  • 业务之间的互通:客户针对不同的业务会划分不同的VPC,不同VPC可能会部署在不同的DC中,业务之间如果有互通的需求,就要求VPC之间能跨DC进行L3互通(VPC之间互通一般为L3互通,如果需要L2互通则需要将VM划分到同一个VPC中)。
  • 业务容灾/多活:业务容灾和多活主要分为两种方式,首先针对比较新的业务系统,客户自己可以通过GSLB(全局负载均衡)的方式进行容灾和多活,具体方式是两个DC同时部署相同的业务,业务相同同时IP地址不同,这样两套系统可以进行容灾处理。这种方式对网络没有什么特别的诉求,但是针对比较旧的一些系统,会要求迁移到容灾中心后,IP地址不能变化,这种情况下,就需要支持跨DC的二层互通。

多归接入为了解决这些问题,Asterfusion推出了跨DC解决方案Multi-Fabric使用VXLAN、BGP-EVPN等技术对L2和L3网络进行扩展。这样,用户的应用程序就可以在多个数据中心之间进行迁移、负载均衡、容灾切换等操作,而无需担心网络问题,帮助管理多个数据中心之间的网络和资源,提高业务的可扩展性和可靠性。

返回资源中心

企业园区网络云化改造,机箱式核心交换机或将消失?

更多相关内容


核心交换机在企业网络中承担了哪些作用?

核心交换机是一种高容量的交换机,作为通往广域网(WAN)或互联网的网关,为网络提供最后的聚合点,并允许多个模块一起工作。

在企业分层网络设计中,核心层交换机是顶层的,其他接入层和分布层都依赖它。它汇聚了来自分布层设备和接入层设备的所有流量,有时核心交换机还需要处理来自其他出口设备的外部流量。因此,对于核心交换机来说,吞吐量性能、高可用性是非常重要的。

网络功能将多个接入交换机连接在一起,并在不同的网段之间路由数据
部署位置通常位于数据中心或服务器机房中
速率要求专为高速数据传输而设计的高性能网络交换机
设备特性提供高级功能,如冗余、可靠性和高可用性
设备价格由于其先进的特性和功能,比接入交换机更昂贵

所以,在经典的园区网络三层拓扑中,一般使用多模块设计的机框式设备作为核心层的交换机。

核心层的交换机:多模块的机框式设备

由于机箱交换机包含一定数量的固定插槽(通常每个插槽 1U),因此可以将各种类型的线卡插入其中。机箱交换机可以配置各种线卡,以提供相应类型和数量的所需网络端口(铜缆和光纤)。此外,这种基于机箱的网络交换机的核心具有适用于所有线卡的通用背板,背板上包括电源模块、冷却风扇模块、控制平面/处理模块等。

作为核心层交换机,盒式设备能否取代机框设备?

如果在企业网络中工作过,您可能已经很熟悉这类大型机框设备了。很长一段时间以来,在网络核心层使用这类机框式交换机设备已经快成了架构大型网络时的事实标准。但实际上,随着云计算的发展,云数据中心网络已经率先抛弃了机框型交换机,转而使用一种更为先进的分布式交换结构——Leaf-spine架构。

Spine-Leaf架构

Leaf-spine是Clos网络的衍生产品,该架构允许网络中多达一半的交换设备离线,对网络的唯一影响仅仅是减少了冗余和吞吐量。在这架构下,我们可以采用全盒式的设备来组网,无需任何机框式设备,并且这套架构完全可以平移到园区网络。

云化园区解决方案

高可用性

机箱交换的主要卖点之一是高可用性。在机箱内,每个组件都应以 N+1 冗余部署。并且会需要双机部署以确保高可靠性,但不怕一万就怕万一,核心层的机框交换机往往集中承担着路由和网关功能,一旦出现问题时受影响的设备数量多,故障域极大。

扩展性

其实,大多数机箱交换机都依赖于 Clos 网络技术来实现机箱内的可扩展性。通过高速背板和多个线卡插槽的组合,机箱交换机确实具有相当大的灵活性。但这里的挑战在于,为了应对交换机生命周期内的网络扩容需求,一开始就必须购买足够大的交换机,

对于一些公司来说,核心层交换机的使用寿命预计会超过 7-10 年。作为网络的运营管理者,要么需要足够的先见之明,精准拿捏未来五年的业务需求,要么就会在建设初期就大幅超额购买(这也是大多数人的选择),但随之带来了很长一段时间的性能资源浪费。

基于Spine-leaf的分布式交换架构在扩展性方面明显更灵活:如果需要更多接入端口,就增加Leaf交换机,如果需要更多网络吞吐容量,就添加更多spine交换机,并且可以做到平滑扩容。这种架构非常适应各个行业不断变化的网络需求。

可升级性

对于机箱交换机来说,如此多的服务如此紧密地打包在一个控制平面中,升级是一项非常复杂的任务。为了解决这个问题,很多机框式交换机供应商创建了专门的“热升级”方式。但是对于如此高度耦合,位置如此关键的网络设备来说,当每一次升级都高度依赖于这套控制平面的正常运行,尽管厂商提供了升级选项,但一线的工程师还是宁可不升级去确保稳定运行。

在分布式的园区网络架构(Spine/Leaf)之下则无需有此顾虑。由于服务都是分布在许多设备上(比如分布式的网关),因此,单设备的问题对网络的影响很小。另外,由于网络中的设备之间只有松散的耦合,并非所有设备都必须像机框式交换机那样处于相同的软件版本。这意味着,您完全可以先升级一小部分网络作为试点。如果效果不佳将其回滚即可。如果效果不错再应用到整网。

关注vx:星融元Asterfusion了解更多资讯。

返回资源中心

智慧园区建设中面临的网络基础设施挑战

更多相关内容


什么是智慧园区?

相比传统商业地产运营模式,AI时代下的智慧园区运营结合了多种新兴技术手段:例如基于统一的平台,将办公协作、招商引资、工程项目、物业管理、产业分析、项目孵化等业务进行一体化的协调管理;通过标准化的接口,将智能设备及系统整合至园区内部运营平台,对数据统一监管,并运用大数据技术为客户提供个性化、定制化、智慧化服务。

智慧园区建设面临的挑战

智慧产业园区作为园区信息化和产业互联网的基础,是帮助企业向自动化、智能化转型的有力推动者。随着“互联网+园区管理”理念的实践不断深入,智慧产业园区建设也将从上层的应用软件平台的信息化、智慧化深入到数字经济转型的底层基础设施——园区基础网络。

终端接入数量和承载的业务复杂度剧增,对于园区基础网络的可靠性、规模和功能的扩展性都提出了更高要求,然而,上面提及的智慧园区应用都是在传统的租户自建网络模式下无法实现,或者部署起来相当受限的。

携手商业地产运营商共同进入AI时代

星融元云化园区解决方案

星融元的云化园区网络方案采用了先进的云网技术,基于Spine-Leaf架构的三层路由网络能为园区内的海量用户终端、园区物联网设备以及后端平台提供稳定的高速互联能力,轻松实现“一网多用”、Wifi“无缝漫游”等等实用功能,并且大大降低了租户和园区运营商的运维成本。

此外,星融元的园区网络设备开放出了丰富的软件可编程接口,可通过集成各类自动化工具和分析平台,赋能AI智能运维和精准的客户定位和大数据分析等等,推动运营服务的升级优化,甚至从中探索出新的商业增值点。

云化园区解决方案

体验优化

  • 毫秒级漫游切换,业务不中断
  • 25G高速上行,海量数据并发接入无压力

超高可靠

  • 天然无广播风暴,天然无环路
  • 去堆叠/去MC-LAG,更低复杂度的多路径负载分担网络

极简运维

  • 轻量级的网络集群管理
  • 同层设备业务配置相同,开局自动下发

更多案例和方案详细信息,请关注微信公众号:@星融元Asterfusion

返回资源中心

AIGC承载网优化设计方案(下)

更多相关内容


AIGC承载网优化设计思路

网络性能瓶颈问题

通信时长的考虑

带宽:与单机不同,多机之间的网络带宽是比单机内部的带宽要低很多的,

多机之间的网络通信往往会受到网络拓扑、物理连接和网络设备等因素的限制,导致实际的带宽较单机内部的带宽低很多。如单机内部NVLink3.0带宽高达600GB/s;而多机之间的网络一般是400Gb/s或200Gb/s(且是Gb/s)
在AIGC承载网络中,多机之间的通信是必要的,尤其是在分布式计算环境下,不同计算节点之间需要进行数据传输、模型同步和参数更新等操作。这些通信过程可能影响到整体的网络性能和计算效率。

设备转发时延:IB交换机或低时延交换机

设备转发时延

性能提升

(1)提升单机网络宽带

提升单机网卡带宽,同时需要匹配主机PCIe带宽和网络交换机的带宽

网卡速率40G100G200G400G
PCIe3.0*83.0*164.0*164.0或5.0*16
交换机Serdes4*10G4*25G4*50G8*50G

增加网卡的数量,初期业务量少,可以考虑CPU和GPU共用,后期给CPU准备单独的1到2张网卡,给GPU准备4或8张网卡。

增加网卡的数量

(2)应用RDMA网络(IB或RoCE)

借助RDMA技术,减少了GPU通信过程中的数据复制次数,优化通信路径,降低通信时延。

优化通信路径,降低通信时延

优化通信路径,降低通信时延

(3)减少网络拥塞

胖树结构:通过多路径的布线和聚合链路的利用,可以提供高带宽、低延迟和高可靠性的通信。
1:1收敛比

1:1收敛比

双网分流:通过同时连接到两个不同的网络,将流量分流到两个路径上,从而减轻单一网络的负载和拥塞情况。这里, CPU的流量与GPU流量彻底分离开。

CPU的流量与GPU流量彻底分离开

(4)通信算法优化

单机优化

单机优化

多级优化

多级优化

  • 利用NVLink高带宽优势在单机内部的GPU之间完成数据同步
  • 多机之间的GPU利用多网卡建立多个环,对不同分段数据进行同步
  • 最后单机内部的GPU再同步一次,最终完成全部GPU的数据同步

大规模网络扩展问题

算力昂贵是大家普遍的共识,由于GPU资源本身稀缺的特性,尽可能多的把GPU资源集中在一个统一的资源池里面,将有利于任务的灵活调度,减少AI任务的排队、减少资源碎片的产生、提升GPU的利用率。

要组成大规模GPU集群,网络的组网方式需要进行优化。

(1)网络架构横向扩展

ToR交换机用于和GPU Server直接连接,构成一个Block。

ToR交换机向上一层是Leaf交换机,一组ToR交换机和一组Leaf交换机之间实现无阻塞全连接架构,构成一个Pod
不同Pod之间使用Spine交换机连接。

ToR交换机用于和GPU Server直接连接,构成一个Block

接入能力分析

Pod是典型集群规模

  • Block是最小单元,包括256个GPU
  • Pod是典型集群规模,包括8个Block,2048个GPU
  • 超过2048个GPU,通过Fabric-Pod模式进行扩展

GPU网卡的连接建议

GPU网卡的连接

异构网络自适应通信技术
基于异构网络自适应通信技术,不同服务器上相同位置的GPU,在同一轨道平面,仍然走机间网络通

以某厂家的技术实现为例:基于异构网络自适应通信技术,不同服务器上相同位置的GPU,在同一轨道平面,仍然走机间网络通信。

要去往不同位置的GPU(比如host1上的GPU1,需要向其它host上的GPU8 送数据),则先通过机内网络,转发到host1上的GPU8上,然后通过机间网络,来完成通信。机间网络的流量,大部分都聚合在轨道内传输(只经过一级ToR)。机间网络的流量大幅减少,冲击概率也明显下降,从而提供了整网性能。根据实测,异构网络通信在大规模All-to-All场景下,对中小数据包的传输性能提升在30%左右。

(2) 计算与存储网络分离

CPU的流量与GPU流量彻底分离开

网络可用性问题

可用性问题在GPU集群中要求不高

因为大规模分布式的AI任务基本都是离线的训练任务,网络中断不会对主业务造成直接影响。

但是也需要关注,因为一个AI训练持续的时间可能会很长,如果没有中间状态保存的话,网络中断就意味着前面花费时间训练出来的成果全部失效,所使用的GPU资源也全部被浪费掉。

AI训练任务对网络拓扑的高度敏感性

某一处网络的中断,会导致其他节点网络的非对称,无限增加上层处理的复杂度,因此,在设计集群的时候需要考虑中断容忍的网络架构。

(1)存储双上联

由于网络中断,导致一个存储节点下线,可能会在网络内触发大量数据恢复流量,增加网络负载,因此,建议采用双上联设计,确保某个交换机或上联链路中断不会影响存储节点的可用性。

(2) 计算网单上行

由于AI训练的特殊性,综合性能与成本考虑,暂不考虑双上联设计。

(3)采用GPU网卡连接方式

同一个GPU Server上的8块卡连接到8个ToR,可以节省机间网络的流量,大部分都聚合在轨道内传输(只经过一级ToR),机间网络的流量大幅减少,冲击概率也明显下降,从而提供了整网性能

但是,上面的方案,GPU Server上任何一个网卡或链接中断都会导致网络的非对称,整个GPU Server都会受到影响。所以,干脆让所有网卡共享同一个交换机,好处是,如果ToR交换机故障,影响到的GPU Server会尽可能少,从整个系统的角度出发,可用性反而提高了

采用GPU网卡连接方式

AIGC承载网设计实践

需求汇总(以某客户项目模型为例)

RoCE的计算网络 RoCE存储网络
1.不少于600端口200G以太网接入端口,未来可扩容至至少1280端口1.不少于100端口200G以太网接入端口,未来可扩容至至少240端口
2. 全网无收敛(1:1收敛比),全线速交换2. 带宽收敛比不大于3:1
3. 支持RoCE实现无损以太网3. 支持 RoCE 实现无损以太网

整网的方案设计

AIGC承载网方案架构图

AIGC承载网方案架构图

计算网络设计—-方案1(整网1:1无收敛)

不考虑GPU的8个接口的接入方式,8个接口接入1台或多台ToR

计算网络设计方案

  • 交换机 10 Leaf + 20 ToR= 30 台,提供640个接入端口(20*32=640),每台GPU服务器8端口,可以最大可接入GPU服务器 80台
  • 接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧600条,Fabric侧600条,合计1200条
方案1扩展性

计算网络设计方案

基于该架构,最多可以接入64台ToR,最大可以扩展到2048个200G接口接入,满足1280接口接入的扩展性要求

计算网络设计—-方案2(整网1:1无收敛)

考虑GPU的8个接口的接入方式,8个接口接入到8台Leaf,每8台Leaf作为一个分组

计算网络设计方案2

  • 交换机 13 Leaf + 24 ToR = 37 台,按600个接入端口(75台GPU服务器),每组8个ToR接入25台GPU服务器,3组ToR接入75台
  • 每组ToR接入25台GPU服务器,下行接入带宽为200*200GE,因此,上行也需要至少是200*200GE带宽,每台ToR到每台Leaf为2条200G,总上行带宽为2*13*8*200GE,满足1:1收敛要求
  • 接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧600条,Fabric侧624条,合计1224条
方案2扩展性

计算网络设计方案2的扩展性

  • 基于该架构,最多可以接入8组ToR ,每组8个ToR接入32台GPU服务器,8组ToR接入256台
  • 最大可以扩展到2048个200G接口接入,满足1280接口接入的扩展性要求

存储网络设计(整网3:1收敛)

存储网络设计方案

  • 交换机 2 Leaf + 3 ToR = 5 台,提供最大144个接入端口(满足100个接入需求)
  • 如果不考虑Leaf高可靠部署,也可以单Leaf接入
  • 接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧100条,Fabric侧36条,合计136条
存储网络设计的扩展性

存储网络设计的扩展性

  • 交换机 2 Leaf + 5 ToR = 7 台,提供最大240个接入端口(满足240个接入的扩展需求)

设备配置汇总

网络类型设备类型设备型号台数合计
方案1
计算网络(600*200GE端口)SpineCX664D-N1035
LeafCX664D-N20
存储网络(100*200GE端口)SpineCX664D-N2
LeafCX664D-N3
AOC线缆(含模块)AOC1336条
方案2
计算网络(600*200GE端口)SpineCX664D-N1342
LeafCX664D-N24
存储网络(100*200GE端口)SpineCX664D-N2
LeafCX664D-N3
AOC线缆(含模块)AOC1360条

星融元方案价值与优势

  1. 超低TCO、超高性价比:相较于IB方案,大幅度降低用户的网络TCO,同时确保高性能
  2. 横向平滑扩容、1:1收敛无阻塞:无收敛的网络设计确保无阻塞的大容量网络,按需横向扩展
  3. 整网RoCEv2:基于CEE/DCB能力,提供可与IB媲美的性能和同样无损的网络服务
  4. 开放网络操作系统:星融元网络操作系统AsterNOS,SONiC企业级发行版,支持灵活的功能扩展、在线升级
  5. 无缝对接云管:AsterNOS 利用简单易用的REST API,可轻松让第三方的云平台/控制器快速纳管
  6. 专家级服务:专业、全面、可靠的研发、方案与服务团队,为客户提供小时级的快速响应服务

返回资源中心

什么是TIP OpenWiFi?

更多相关内容


星融元于2023年4月加入电信基础设施项目 (TIP) 开放融合无线(OCW) 项目组,并已基于开源 TIP OpenWiFi 项目构建了云化园区网络解决方案中的控制器和无线AP部分。

开放融合无线(OCW) 项目组

与专有解决方案相比,OpenWiFi 结合了部署节省 (CAPEX) 和自动化驱动的运营节省 (OPEX),显着降低了总体拥有成本 (TCO);OpenWiFi支持多样化的供应商云控制器和接入点选择,为服务提供商提供了企业级 Wi-Fi 基础设施的选择和灵活性。

结合社区路标规划,星融元会在后续控制器版本中不断更新完善,更多信息请持续关注星融元官网和公众号。

社区路标规划

星融元为什么要基于TIP OpenWiFi 开发园区控制器?

OpenWiFi是开放融合无线(OCW) 项目组贡献的第一个项目。它于 2021 年 5 月推出,包括接入点 (AP) 硬件、开源 AP 网络操作系统 (NOS) 和用于构建云原生 Wi-Fi 的 SDK面向 Wi-Fi 服务提供商和企业的控制器和管理软件。

OpenWiFi是开放融合无线(OCW) 项目组贡献的第一个项目

借助于优秀的开源开放底层框架打造企业级产品已经是当前常见的产品创新模式,可以避免”重复造轮子”,集中精力在应用层面的创新,节约部署和开发成本。当前全球已有很多基于OpenWiFi的大规模商业部署案例。

OpenWiFi高度开放解耦的特性,云控制器SDK提供开放的北向API,支持无缝接入很多白盒硬件,应用广泛。来自不同供应商的AP、云控制器和 OTT 分析解决方案能够在同一网络上放心地互操作和协同工作。

基于OpenWiFi的大规模商业部署案例

Openwifi的架构

微服务组件微服务组件

  • 基于RBAC(角色访问控制)的安全框架
  • 基于OpenAPI北向接口
  • Kafka消息队列
  • 固件管理
  • 集中式仪表盘(WEBUI)
  • 用户接口
  • Docker Compose & Helm 自动化部署

OpeWiFi采用的是基于微服务的架构。通过微服务,可将大型应用分解成多个独立的组件,其中每个组件都有各自的责任领域。在处理一个用户请求时,基于微服务的应用可能会调用许多内部微服务来共同生成其响应。现代云原生应用通常使用容器构建微服务,Docker是微服务架构的绝佳示例,因为它们可让您专注于开发服务,而无需担心依赖项。

星融元园区控制器的微服务界面预览

星融元园区控制器的微服务界面预览

OpenWiFi 的ucentral数据模型

  • OpenWiFi 的ucentral数据模型OpenWiFi 2.0 设备管理数据模型基于uCentral 协议实现
  • uCentral 组件集成到OpenWrt,具备通用性
  • 消息交互采用 JSON 消息体
  • 支持通过 WEBUI 根据配置项自动生成配置文件

OpenWiFi的部署

OpenWiFi采用Docker Compose部署管理,该工具用于定义和运行多容器 Docker 应用程序的工具, YML 文件来配置应用程序需要的所有服务;Docker处于同一OpenWiFi网桥下,容器之间可以通过IP互访,也可以通过别名互访。

星融元园区控制器容器部署页面预览

星融元园区控制器容器部署页面预览


附录:电信基础设施项目 (TIP)简介

电信基础设施项目 (TIP) 是一个致力于推动基础设施解决方案以促进全球连接的社区组织,成员包括数百家参与公司——从服务提供商和技术合作伙伴到系统集成商和其他连接利益相关者,共同致力于加速开放、分类和基于标准的技术解决方案的开发和部署,以提供世界现在和未来几十年所需的高质量网络连接。
鉴于世界上一半的人口仍然没有连接到互联网,而对于那些已经连接到互联网的人来说,连接往往是不够的。这限制了互联网提供的众多消费者和商业利益,从而影响了全球 GDP 增长。然而,当前解决方案缺乏灵活性(由于技术提供商的选择有限而加剧这种矛盾),使得运营商高效构建和升级网络面临挑战。

电信基础设施项目

返回资源中心

服务于RDMA应用的融合增强型以太网

更多相关内容


RoCE应用在以太网中通信时,通信质量最重要的两个衡量指标主要是高带宽和低延迟。

高带宽由硬件设备本身决定,延迟主要包括:处理延迟和网络传输延迟,可以通过一些技术手段来改善。处理延迟开销指的就是消息在发送和接收阶段的处理时间,在第一章节中介绍的RDMA可以大幅度降低服务器处理延迟;网络传输延迟指的就是消息从发送方到接收方的网络传输时延,

如果网络通信状况很好的情况下,网络基本上可以达到高带宽和低延迟,但网络通信状况需要利用网络中的各种流量控制、拥塞控制、高可靠等机制来保驾护航。在传统以太网中我们可以采用QoS技术来实现业务流量的服务质量保障,但是存储RoCE流量、计算RoCE流量等对于网络服务质量的需求以太网的QoS无法满足,且存在较大的差异:

  • 存储RoCE流量对丢包很敏感,且要求报文在传输过程中是保序的;
  • 业务RoCE流量允许一定的丢包和时延,只需要设备提供尽力而为的服务;
  • 计算RoCE流量用于高性能服务器之间的通信,流量要求低时延。

于是为了保障融合网络的网络性能、满足各种类型的RoCE流量对网络服务质量的需求,需要应用和发展一些新兴的融合网络技术。

面对不同类型的RoCE流提出的需求,传统以太网显得无能为力

传输RDMA的三个技术中,IB网络可以实现无损通信,能够完全满足RDMA对网络性能的需求,但是需要搭建专用的IB网络,成本太高;而RoCE可以实现RDMA在以太网上的承载,且建设、管理、运维等方面的成本低廉,但为了达到InfiniBand相近的性能要求,需要为RoCEv2流量建设无损的传输网络。无损以太网具备低时延、零丢包和高吞吐等特性,而针对以上几点需求传统以太网的QoS技术却显得无能为力:

  1. RoCEv2是基于UDP的不可靠传输,发生拥塞时会主动丢弃报文,且无报文重传机制,无法保证零丢包,因此无法保障RDMA流量的可靠性;
  2. CEE中存在多种流量类型,每一种类型的流量对网络质量有着不同的需求,任何一种类型的流量拥塞,都会对RoCE流量造成影响,导致RoCE流量的延时和丢包。原因是传统以太网的QoS技术在发生拥塞时,设备会发送Jamming信号或者Pause帧去干扰或者阻止上游设备发送端口的流量发送,该流控机制是基于端口的,因此不论是发生拥塞的流量还是RoCE流量或是其他流量都会被阻塞掉。

构建融合增强型以太网CEE

RDMA巧遇及时雨“CEE”,解决网络时延和丢包难题

在RDMA不断发展的同时,数据中心也在不断发生变化,计算云化、存储云化的快速普及使数据中心网络流量由“南北”为主转变为“东西”为主,如何保证数据在网络中更快、更高效的传输,成为提高数据中心性能的关键所在。

早期,数据中心建设者为了获得高性能的计算环境,会同时运营多张网络:

  • 用于IP联网的业务网络(如以太网)
  • 用于存储的存储网络(如FCSAN、IPSAN、FCoE、IB)
  • 用于高性能计算的计算网络(如IB)等。

为了降低部署复杂度和管理难度,降低人员的技术要求以及高昂的建设费用,业界提出了将三张网络融合成一张网络的建设方案,即构建融合增强型以太网CEE(Convergence Enhanced Ethernet)。

但在融合网络中,数据中心又面临了“使用相同的以太网物理基础设施传送特性差异较大的不同类型流量时,需要满足其不同的QoS需求”这一问题,于是IEEE 802.1工作组在2008-2010年期间定义了一组以太网扩展协议,即数据中心桥DCB(Data Center Bridging)协议。通过利用DCB构建CEE可满足融合网络中各种类型流量对时延、丢包和吞吐率的不同需求。

DCB标准出现后不久,IBTA发布了RoCEv1,同时还建议RoCE需要承载于CEE之上去保障其网络服务质量。RoCEv1与CEE的结合虽然可以保证在CEE中高可靠的传输RDMA流量,但是却受限于二层广播域。于是在2014年,IBTA对RoCEv1做了一些改进,引入了UDP/IP协议,使RDMA流量可以跨越三层,在路由器间路由,相比于TCP,UDP更加高效且适用于各种交互场景。

由于DCB中的拥塞通知协议工作在二层,所以IBTA在定义RoCEv2的同时还定义了显示拥塞通知ECN(Explicit Congestion Notification)协议,为RoCEv2流量在三层的路由转发提供高可靠性保障。至此,CEE、ECN的结合可解决CEE中RoCE流量的时延和丢包难题。

RDMA巧遇及时雨“CEE”,解决网络时延和丢包难题

图7:RDMA巧遇及时雨“CEE”,解决网络时延和丢包难题

融合增强型以太网CEE:IEEE802.1 DCB & ECN

随着各种应用在云平台上不断被部署和使用,以低延时、零丢包、高吞吐为目的融合增强型以太网CEE将更好为应用和租户提升云平台在计算、存储等各方面的网络性能。构建CEE的DCB协议组是由IEEE802.1工作组定义的一组以太网扩展协议,包含四个标准协议,分别为IEEE 802.1Qbb Priority-based Flow Control(PFC)、IEEE 802.1Qaz Enhanced Transmission Selection(ETS)、IEEE 802.1Qaz Data Center Bridging eXchange(DCBX)、IEEE 802.Qau Congestion Notification(CN)。由于CN工作于二层,所以IBTA在定义RoCEv2的同时也定义了可工作于三层的拥塞通知协议ECN(Explicit Congestion Notification)。

DCB协议组和ECN协议对比

标准协议 技术特点
IEEE802.1 Data Center Bridging(DCB)IEEE 802.1Qbb Priority-based Flow Control(PFC)用于满足三种流量在以太网中共存时,存储流量无丢包,且对其它的两种流量无影响的要求
IEEE 802.1Qaz Enhanced Transmission Selection(ETS)用于避免一种流量类型的大规模流量突发对其它流量类型产生影响,为不同的流量类型提供最小带宽保证。一种流量类型只有在其它流量类型带宽不占用的情况下,才能使用分配带宽之外的额外带宽。这使多种流量类型可在同一网络中和谐共存
IEEE 802.1Qaz Data Center Bridging eXchange(DCBX)IEEE 802.1Qaz定义了两部分协议,一个是ETS,另一个就是DCBX。DCBX是基于LLDP(Link Layer Discovery Protocol)的扩展协议,用于在设备间自动协商并配置PFC、ETS及CN等
IEEE 802.Qau Congestion Notification(CN)用于降低引起拥塞的端点站的报文发送速率,从根源上避免拥塞,以保持网络的畅通,解决因拥塞引发报文重传或流量控制,导致报文时延增加的问题
Explicit Congestion Notification(ECN) 用于当设备的转发队列中的报文超过ECN门限时,向宿端服务器发送携带ECN标记的报文以告知宿端设备网络中出现拥塞。而宿端设备收到携带ECN标记的报文后会向源端服务器发送CNP(Congestion Notification Protocol)拥塞通知报文,以通知源端服务器进行流量降速,以达到消除拥塞的目的,保持网络通畅

DCB和ECN技术得到了数据中心网络厂商的认同后进行了大量部署,这加快了数据中心网络融合的进程。而网络融合可以带来非常多的优势:

  1. 可以便于管理,一次连接服务器,光纤存储和以太网共享同一个端口,需要更少的线缆和适配器,简化系统的复杂性;
  2. 数据中心不再需要部署多类技术人才,只需要懂以太网技术的人员即可;
  3. 大幅降低数据中心网络建设成本,不仅包括网络基础设施的建设,还包括线缆、监控、散热、管理等其它附加费用。所以网络融合将成为数据中心网络发展的必然趋势。

融合增强型以太网解决方案>>>>>

返回资源中心

交换机堆叠:提升网络性能与可扩展性的关键技术

更多相关内容


用于科普文章的图片交换机堆叠是一种网络技术,通过将多台交换机物理连接并逻辑上组成一个单一的高性能交换系统,以提供更高的网络性能、可靠性和可扩展性。本文将介绍交换机堆叠的概念、工作原理以及在企业网络中的应用。

随着企业网络规模和带宽需求的不断增长,构建高性能、可靠的网络基础设施变得至关重要。在这样的背景下,交换机堆叠技术应运而生。交换机堆叠是一种网络技术,通过将多台交换机物理连接并逻辑上组成一个单一的高性能交换系统,以提供更高的网络性能、可靠性和可扩展性。

交换机堆叠的核心思想是将多台交换机视为一个逻辑单元,形成一个共享的交换平面。这样做的好处是:

  1. 提升网络性能:交换机堆叠可以提供更高的网络性能。通过将多台交换机物理连接在一起,数据可以在这些交换机之间以高带宽的方式传输,从而降低数据传输延迟并提高网络响应速度。此外,堆叠技术还可以实现交换机之间的负载均衡,确保网络流量得到有效的分配。
  2. 增强网络可靠性:交换机堆叠可以增强网络的可靠性。当其中一台交换机出现故障时,堆叠系统可以自动检测到并将故障交换机排除在堆叠集群之外,而不会对整个网络造成中断。这种冗余设计提高了网络的容错性和可靠性。
  3. 实现网络可扩展性:交换机堆叠可以实现网络的可扩展性。通过将多台交换机组成一个逻辑单元,可以轻松地扩展网络规模。当需要增加更多的交换机时,只需简单地将新的交换机添加到堆叠中,而无需对整个网络进行复杂的重配置或重新布线。

交换机堆叠的工作原理是通过特定的物理连接和协议来实现的。在堆叠集群中,一台交换机被指定为主交换机(Master Switch),其他交换机则作为成员交换机(Member Switch)连接到主交换机上。主交换机负责管理整个堆叠集群,包括配置和控制交换机的功能。成员交换机则通过特定的堆叠协议与主交换机进行通信,共享交换机的配置和状态信息。

交换机堆叠技术在企业网络中有广泛的应用。它可以用于构建高密度数据中心网络、提供高可靠性的核心交换网络以及构建大规模企业校园网等。通过堆叠技术,企业可以简化网络管理和维护,减少物理设备数量和复杂性,提高网络的灵活性和可管理性。

总结:交换机堆叠是一种关键的网络技术,通过将多台交换机物理连接并逻辑上组成一个单一的高性能交换系统,提供了更高的网络性能、可靠性和可扩展性。通过堆叠技术,企业可以构建高性能的网络基础设施,实现快速的数据传输和高可靠性的网络连接。交换机堆叠技术在企业网络中具有广泛的应用前景,为企业提供了灵活、可管理和可扩展的网络解决方案。

返回资源中心

RDMA四个发展阶段的技术特点

更多相关内容


支持RDMA的协议特点
IB1) 建设成本高昂,服务器需要专用的IB网卡,专用的IB交换机搭建专用网络,一般是普通网络设备的五到十倍,只有在金融、期货交易等环境中才会考虑使用;
2) 网络基础设施增多使相应的配套设施增加,如线缆、模块、监控、环动、电耗等;
3) InfiniBand网络具备高带宽、无丢包、配置和运维简单等优势;
4) InfiniBand交换机的延迟始终低于以太网交换机,一种特定类型的以太网交换机的端口到端口延迟为230ns,而具有相同端口数量的InfiniBand交换机的端口到端口延迟为100ns。
iWARP1) iWARP协议较复杂,包含DDP、MPA和RDMAP三层子协议;
2) 基于TCP提供可靠的服务,但拥塞控制机制复杂,重传机制导致时延增大;
3) TCP需建立连接,工作效率低,且只能适用于点到点的场景,不适合多播场景;
4) 在大规模数据中心和大规模应用程序的场景中,大量的TCP连接会占用较多的系统资源(TCP流量将导致接近100%的CPU资源被占用),影响网络扩展性和性能;
5) iWARP与传统TCP流共享协议号空间,因此需要使用上下文状态来确定数据包是否为iWARP,增加处理延时;
6) iWARP是一个全新的协议,所以服务器网卡需要支持该协议;
7) 未被市场广泛采用,且目前只有Chelsio一家供应商的产品支持iWARP。
RoCEv11) RoCEv1承载于以太网之上,大幅度降低数据中心网络建设成本;
2) RDMA只能在同一以太网广播域中通信,可伸缩性受限;
3) RoCEv1依赖无损以太网,保障RDMA的低时延、零丢包和高可靠;
4) 无损以太网配置较IB网络更加复杂,运维也更加复杂。
RoCEv21) 引入IP解决了网络扩展性问题,可以在三层间路由;引入UDP解决负载均衡的问题,提高网络利用率;
2) RoCEv2依赖无损以太网,并定义了拥塞控制协议ECN,保障低时延、零丢包和高可靠;
3) UDP是无连接的,高效,具有较好的实时性,且支持一对一,一对多,多对一和多对多的交互通信;
4) UDP具有较少的开销,占用较少的系统资源,网络扩展性和性能不受影响;
5) 根据UDP端口号可以快速识别RoCE流,处理时延低。

通过对支持RDMA网络协议的分析,将三种技术的特点归纳为性能、延时、成本、可靠性、稳定性、配置/运维复杂度以及支持厂商等几个市场比较关心的点进行优劣势对比,更加简明、直观,如表2所示:

优劣势对比

特性IBiWARPRoCEv1RoCEv2
标准组织IBTAIETFIBTAIBTA
L2/L3网络环境IB专网L3TCP/IP以太网L3以太网L2UDP/IP以太网L3
交互场景一对一,一对多,多对一,多对多一对一一对一,一对多,多对一,多对多一对一,一对多,多对一,多对多
性能(吞吐率)
延时
成本
可靠性/稳定性
CPU占用率
配置/运维简单中等较复杂较复杂
支持厂商IBM/Microsoft/Intel/Wintel/HP/Dell/Sun等70多家,目前已所剩无几Intel/Chelsio等Mellanox/Emulex/Broadcom/QLogic/Cavium/Huawei/ATTO Technology等
Marvel/Microsoft/Linux/Kazan等两个都支持

传统模式 与RDMA模式对比图通过上述对比得出,RoCE相对于iWARP有着明显的优势,因此RoCE被很多主流厂商的方案所支持,成为该领域的发展方向。而在RoCE流量的传输中,网络的传输性能和质量直接影响了RDMA应用的体验,承载RoCE流量的以太网的建设就变得非常重要。

返回资源中心

网络融合大趋势下RDMA的发展演进过程

更多相关内容


RDMAC(RDMA Consortium)和IBTA(InfiniBand Trade Association)主导了RDMA。其中,IBTA是InfiniBand的全部标准制定者,并补充了RoCEv1/v2的标准化,而RDMAC是IETF的一个补充,它与IETF一起定义了iWARP(Internet Wide Area RDMA Protocol)和iSER(iSCSI Extensions for RDMA)。上层应用要想使用RDMA,需要支持与RNIC之间的传输接口层(software transport interface),也被称为Verbs。

IBTA解释了RDMA传输过程中应具备的特性行为,而并没有规定Verbs的具体接口和数据结构原型,这部分工作由另一个组织OFA(Open Fabric Alliance)来完成,OFA提供了RDMA传输的一系列Verbs API。OFA还开发出了OFED(Open Fabric Enterprise Distribution)协议栈,可支持多种RDMA传输层协议。

OFED中除了提供向下与RNIC基本的队列消息服务,向上还提供了ULP(Upper Layer Protocols),通过ULPs使得上层应用不需要直接到Verbs API对接,而是借助于ULP与应用对接,常见的应用不需要做修改,就可以跑在RDMA传输层上。

支持RDMA的网络协议在发展过程中的四个阶段

支持RDMA的网络协议在发展过程中的四个阶段

图1:支持RDMA的网络协议在发展过程中的四个阶段

如图1所示,支持RDMA的网络协议的发展过程主要包括四个阶段:

IB(InfiniBand)

InfiniBand是IBTA(InfiniBand Trade Association)在2000年正式发布的规范,而RDMA是IBM和HP在2003年提出的,因此基于InfiniBand架构的RDMA属于原生RDMA,通过支持IB传输协议专用的IB网卡和IB网络设备提供硬件级的高可靠和高性能,因此在高性能计算应用场景中被广泛采纳。

InfiniBand是一种用于高性能计算的计算机网络通信标准,具有很高的吞吐量和非常低的延迟,它用于计算机之间和内部的数据互连。InfiniBand还可用作服务器和存储系统之间的直接互连或交换互连,以及存储系统之间的互连。

iWARP(Internet Wide Area RDMA Protocol)

由于搭建InfiniBand专网的费用非常昂贵,于是IBM和HP联合Intel、Microsoft、Dell、EMC、NetApp、Adaptec、Broadcom、Cisco等业界先进厂商一起成立了RDMA Consortium组织,旨在开发必要的体系结构规范,以实现可通过TCP/IP网络(包括基于以太网的网络)提供RDMA的产品。

RDMA联盟作为Internet工作任务组(IETF)的补充,将规范草案提交给IETF工作组“Internet协议套件RDMA”进行审议,于2007年形成基于TCP/IP的RDMA,称作iWARP。iWARP主要包括MPA(Markers PDU Aligned Framing)、DDP(Direct Data Placement Protocol)、RDMAP(Remote Direct Memory Access Protocol)三层子协议,如图2所示。iWARP是一种全新的协议,使用iWARP协议对以太网络没有任何要求,但是服务器的网卡RNIC要能支持该协议,同时还要能实现RDMA的卸载和TCP的卸载(即TOE,TCP/IP Offload Engine)。

传统模式和RDMA模式的对比

图2:传统模式和RDMA模式的对比

RoCEv1(RDMA over Converged Ethernet)

许多年来,人们仍一直设法使以太网能够支持基于IB协议的RDMA。IBTA作为InfiniBand的全部标准制定者,在2010年时补充了RoCE,其MAC层的网络头是以太网头,Ethernet Type位是0x8915,MAC层以上的网络头(包括数据)是InfiniBand头,如图2所示。RoCEv1是以太网链路层协议,该协议允许RDMA可以在同一以太网广播域中的任何两个主机之间进行通信,但这限制了RoCE功能的应用范围。与此同时,为保障其可靠性,协议建议将RoCE承载在无损网络上,即融合增强型以太网CEE(Converged Enhanced Ethernet)。

RoCEv2

IBTA在2014年又发布了RoCEv2的标准化协议,对RoCE做了进一步的改进,用以太网链路层上的IPv4/IPv6报头和UDP报头(UDP端口号为4791)替代InfiniBand的网络层和传输层,如图2所示。其中,引入IP解决了网络扩展性问题,可以跨三层组网,在基于IP的传统路由器之间路由RDMA;引入UDP解决负载均衡的问题,提高网络利用率,但RoCEv2仍然需要无损网络保障其低延时和无丢包。

要实现RDMA流量的正常传输,除了要支持上述的技术外,还需要建立从RDMA NIC到应用程序内存的数据路径,而这个路径是由Verbs API接口来建立的,一旦数据路径建立后,就可以直接访问用户空间buffer。

从图3中可以看出,网络传输侧RDMA的实现方式主要分为InfiniBand和Ethernet两种。在以太网上,又可以根据与以太网融合的协议栈的差异分为iWARP和RoCE(包括RoCEv1和RoCEv2)。

其中,InfiniBand网络使用的是支持IB协议的专用交换机;RoCEv1、RoCEv2和iWARP流量可以在传统以太网上进行传输,承载RoCEv1协议的网络只能局限于广播域内传输RDMA流量,而另外两种协议可以在传统路由器之间传输RDMA流量。在服务器端,承载IB、RoCEv1/v2流量的发送端和接收端服务器的网卡均需要支持IB协议,在使用iWARP协议的网络中服务器网卡需要支持iWARP协议。

承载RDMA技术的网络架构

图3:承载RDMA技术的网络架构

在RDMA的不同发展阶段,都会涌现出一些率先支持该阶段技术的供应商,比如支持IB协议栈的网卡供应商有IBM、Microsoft、Intel、Wintel、HP、Dell等70多家,支持iWARP的有Intel、Chelsio等,支持RoCEv1/v2的有Mellanox、Emulex、Broadcom、QLogic、Cavium、Huawei、ATTO Technology等,为了满足用户的不同需求,部分厂商推出了可同时支持iWARP、RoCEv1/v2两种协议的网卡,如Marvel、Microsoft、Linux、Kazan等。

返回资源中心

RDMA为什么出现,它有什么好处

更多相关内容


科技发展催生RDMA诞生

随着AI、5G网络的兴起,大数据分析、边缘计算的飞速发展,以及“唤醒万物,万物互联”时代的到来,各种应用、各种行业对高效通信的需求越来越强烈,在这一风口浪尖上,英特尔、NVIDIA、AMD、亚马逊、微软、联想、阿里巴巴、百度、Dell、EMC、阿托斯、华为、曙光、浪潮、Cray、Fujitsu、HP和NEC等众多公有云厂商推出了解决方案“为用户提供灵活、强弹性和高可扩展的基础通讯设施以及几乎无限的存储容量”,吸引了越来越多的新兴业务应用和企业将数据中心建设于公有云之上。当客户将数据中心建设于公有云上时,数据中心网络中的东西向流量剧增,占据了80%的网络带宽,于是出现了大量的远程内存访问需求。

一个应用的访问会在数据中心产生一系列的连锁反应,举例说明,如图1所示,在大数据分析的数据中心应用场景中,某终端用户访问某一业务,首先访问的是Web应用区中的业务链接;然后返回访问结果,于此同时,还需要根据终端用户的访问行为推送与该行为相关的其他业务链接,此时需要依赖大数据分析系统对该用户终端的一系列行为进行分析,在分析过程中会调用存储区中终端的其他相关行为数据,再进行深入的综合分析;

最后将终端用户行为和大数据分析结果存储到存储区,并作为用户行为分析的结论传输给应用显示系统进行排列组合,最终将呈现结果推送至用户终端,并通过Web界面显示。Web应用服务器、大数据分析服务器、存储服务器以及显示系统之间存在大量的内存访问需求。

一个应用访问行为引起的连锁反应

远程内存访问的低效直接导致业务应用的低效

由于在数据中心领域中人们总是将目光集中在云计算、100G/400G单端口带宽的提升等技术的发展上,而忽略了如何提升计算节点接收到数据后的数据处理性能和内存带宽的利用率。当AI、5G、AR/VR/MR、大数据分析、IoT等高性能计算应用大量兴起时,面对网络带宽、处理器速度与内存带宽三者的严重“不匹配性”,就造成了网络延迟效应的加剧。远程内存访问这一常态性业务处理性能的低效就直接导致了业务应用的低效。

如图2所示,在典型的IP数据传输过程中(包括数据接收和发送两个过程),其数据处理原理是:

数据发送

Server-A上的应用程序APP-A向Server-B上的应用程序APP-B发送数据。作为传输的一部分,需要将数据从用户应用空间的Buffer中复制到Sever-A的内核空间的Socket Buffer中,然后在内核空间中添加数据包头、封装数据包,再通过一系列网络协议的数据包处理工作,诸如传输控制协议(TCP)或用户数据报协议(UDP)、互联网协议(IP)以及互联网控制消息协议(ICMP)等,最后被Push到NIC网卡的Buffer中进行网络传输。

数据接收

消息接受方Sever-B接收从远程服务器Sever-A发送的数据包后会进行应答,当Sever-A收到应答数据包时,首先将数据包从NIC Buffer中复制数据到内核Socket Buffer中,然后经过协议栈进行数据包的解析,解析后的数据会被复制到相应位置的用户应用空间的Buffer中,最后唤醒应用程序APP-A,等待应用程序A执行读操作。

典型的IP数据的传输中,服务器发送和接收的处理过程

当网络流量以很高的速率交互时,发送和接收的数据处理性能非常的低效,这种低效表现在:

  • 处理延时过大,达数十微妙。在数据发送和接收的过程中,大多数网络流量必须至少两次跨系统内存总线进行数据复制,一次是在主机适配器使用DMA将数据放入内核提供的内存缓冲区中,另一次是从内核将数据移至应用程序的内存缓冲区中。这意味着计算机必须执行两次中断,才能在内核上下文和应用程序上下文之间进行切换。因此服务器收到数据后的处理过程需要经过多次内存拷贝、中断处理、上下文切换、复杂的TCP/IP协议处理等,造成流量传输时延加剧;
  • 单位时间内收到的报文越多,处理报文消耗的CPU和内存资源越高。交换机往往做三层解析就足够,而且是由专门的芯片来完成,不消耗CPU资源。而服务器要将收到的每个报文的内容都解析出来,网络层和传输层的解析都需要消耗CPU资源和占用内存资源,由CPU来查询内存地址、检验CRC、还原TCP/UDP包并送到应用空间。单位时间内进来的报文数量越多,消耗CPU和内存资源就越多;
  • 较低的灵活性。主要原因是所有网络通信协议通过内核传递,而这种方式很难去支持新的网络协议、新的消息通信协议及发送和接收接口,使用传统的IP数据传输在后期网络的演进过程中,想要跳脱这种“困局”就变得非常的困难。

低时延、超低CPU和内存资源占用率的RDMA技术,变低效为高效

为了解决远程内存访问过程中“服务器端数据处理延迟大、资源消耗大”的问题,IBM和HP在2003年提出了RDMA(Remote Direct Memory Access,远程直接内存存取),通过使用支持该技术的网络适配器能够将数据从线路直接传输到应用程序内存或从应用程序内存直接传输到线路,从而支持零拷贝网络,无需在应用程序内存和操作系统中的数据缓冲区之间复制数据。这样的传输不需要CPU、缓存或上下文切换器完成任何工作,大幅度降低了消息传输中的处理延迟,同时传输与其他系统操作并行进行,提高了交换机的性能。

在具体的远程内存读写过程中,用于RDMA读写操作的远程虚拟内存地址包含在RDMA消息中传送,所以远程应用程序要做的只是在其本地网卡中注册相应的内存缓冲区,而远程节点的CPU除在连接建立、注册调用等之外,在整个RDMA数据传输过程中并不提供服务,因此没有给CPU带来资源消耗。举例说明,假设应用和远程应用之间已经建立了连接,并注册了远端的内存缓存区,当该应用执行RDMA读操作,其工作过程如下:

  • 当一个应用执行RDMA读操作时,不执行任何数据复制。在不需要任何内核参与的条件下,RDMA请求从运行在用户空间的应用中发送到本地NIC;
  • 本地NIC读取缓存的内容,并通过网络传送到远程NIC;
  • 在网络上传输的RDMA信息包含目标虚拟内存地址、内存钥匙和数据本身;
  • 目标NIC确认内存钥匙,并直接读取应用缓存中的数据,其中用于操作的远程虚拟内存地址包含在RDMA信息中。

传统模式和RDMA模式的对比

如图3所示,通过对比传统模式和RDMA模式对发送和接收数据的处理过程,RDMA技术最大的突破在于给数据中心通信架构带来了低时延、超低的CPU和内存资源占用率等特性。

星融元:浅谈RDMA与低时延网络

低延时体现在:

  1. 在网卡上将RDMA协议固化于硬件。在网卡硬件上就完成四层解析,然后直接将解析后的数据上送到应用层软件,硬件的处理速率远高于软件,降低了报文的处理延时;
  2. 零拷贝网络。网卡可以直接与应用内存相互传输数据,消除了在应用内存与内核内存之间的数据复制操作,使传输延迟显著降低;
  3. 内核内存旁路。应用程序无需执行内核内存调用就可向网卡发送命令。在不需要任何内核内存参与的条件下,RDMA请求从User Space发送到本地NIC,再通过网络发送给远程网卡,这就减少了在处理网络传输流时内核内存空间与用户空间之间环境切换的次数,降低了时延;
  4. 消息基于事务。数据被处理为离散消息而不是流,消除了应用程序将流切割为不同消息/事务的需求;
  5. 支持分散/聚合条目。RDMA原生态支持分散/聚合,也就是说,读取多个内存缓冲区然后作为一个流发出去或者接收一个流然后写入到多个内存缓冲区里去。

超低CPU和内存资源占用率体现在:

应用程序可以直接访问远程内存,而不占用远程服务器中的任何CPU资源,远程CPU中的缓存资源也不会被访问的内容填满,服务器可以将几乎100%的CPU资源和内存资源提供给计算或其他的服务,节省了服务器资源占用的同时,提高了服务器数据处理带宽。

返回资源中心

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2