开放网络的先行者与推动者—星融元
技术支持(Support)  TEL:(+86)4000989811

标签: 云网产品

替代IB交换机,如何选择数据中心100G低时延网络设备?


关键词


关注星融元


对比IB专网,基于以太网的 RDMA(或 RoCE)可能是目前性价比最高的方案了,我们唯一要解决的难题就是如何构建出一个无损以太网环境。CX-N系列超低时延交换机提供不输专用IB交换机的性能,可帮助构建承载RDMA应用的高性价比融合无损以太网。

2010年后,数据中心的业务类型逐渐聚焦为三种,分别是高性能计算业务(HPC),存储业务和一般业务(通用计算)。这三种业务,对于网络有着不同的诉求。

  • HPC业务:分布式计算集群,多节点进程间通信对于时延要求非常高
  • 存储业务:对通信可靠性的要求非常高,网络需要实现绝对的0丢包
  • 一般业务:规模巨大,要求网络低成本、易扩展

一般业务的需求,或许传统以太网还能勉强应付,但一旦面向的是高性能计算和存储业务,则实在难以为继。存储从硬盘驱动器(HDD)发展到固态驱动器(SSD)和存储类内存(SCMs),使得存储介质延迟缩短了 100 倍以上;算力也从通用CPU发展到各类支持并行计算的分布式GPU、专用AI芯片等等…反观网络却越发成为数据中心性能提升的瓶颈——通信时延在整个存储的E2E(端到端)时延中占比已经从10%跃迁到60%以上。

试想宝贵的存储资源有一半以上的时间是在等待通信空闲;昂贵的处理器,也有一半时间在等待通信同步…这滋味怎一个“酸爽”了得!

为什么如此虐心虐肺?——这可能需要从传统的TCP/IP协议说起了。
在典型的IP数据传输中,当网络流量以很高的速率交互时,发送和接收的数据处理性能会变得非常的低效,这其中主要有两个原因。

首先,处理时延高:TCP协议栈在收/发报文时,需要做多次上下文切换,每次切换需耗费5μs~10μs左右时延;多次数据拷贝,严重依赖CPU进行协议封装,协议栈本身就有数十微秒的固定时延。

其次,消耗CPU:TCP/IP还需主机CPU多次参与协议栈内存拷贝。网络规模越大,网络带宽越高, CPU在收发数据时的调度负担越大,导致CPU持续高负载。当网络带宽达到25G以上(满载),绝大多数服务器,至少50% CPU资源将不得不用来传输数据。

面对传统TCP/IP协议栈的低效,RDMA技术应运而生

这里我们不妨先回过头来看看数据中心网络流量传输的实际情形。

当前,越来越多的新兴业务应用建设于公有云之上。终端用户看似简单的一个访问行为,会在数据中心内部产生一系列连锁反应——数据信息在web应用服务器,大数据分析服务器,存储服务器、运营数据显示系统之间一通传递之后,最终才会将访问结果推送到终端,这就导致数据中心网络中的东西向流量剧增,甚至占据了80%的网络带宽,出现了大量的远程内存访问需求。

与TCP/IP数据传输相比,远程直接内存访问(Remote Direct Memory Access, RDMA) 可以让数据直接从一台服务器的存储器传输到另一台服务器,无需中央处理器、CPU缓存的干预。这样不仅节省了大量CPU资源,同样也提高了系统吞吐量、降低了系统的网络通信延迟,尤其适合在大规模的并行计算机集群网络中应用。据测算,用 RDMA代替 TCP/IP 进行通信,使得网络化 SSD 存储的 I/O 速度提高了约 50 倍。

我们很容易注意到,应用程序执行RDMA读取/写入请求时的确是走了捷径,但是网络传输侧的压力却依旧存在。

云计算时代的数据中心不断抛出“既要又要还要”的复杂网络需求,有人曾经为此构建了类似这样的网络——

  • 低时延的IB(InfiniBand)网络:用于高性能的分布式计算网络
  • 无丢包的光纤通道(Fiber Channel)网:用于存储区域网络(SAN)
  • 低成本的以太网(Ethernet):用于一般的IP业务网

各取所长,看起来很完美对不对?

非也!
IB专网和FC专网的性能很强,但是价格昂贵,是以太网的数倍。而且,两种专网需要专人运维,会带来更高的维护成本。

我们暂且拿IB专网细说一番:InfiniBand是一种封闭架构,交换机是特定厂家(目前主要是Mellanox)提供的专用产品。要构建这样的无损网络,服务器需要专用的IB网卡,专用的IB交换机,价格一般是普通网络设备的五到十倍,相应的还会带来配套设施成本增加(如线缆、模块、监控、电耗等);而且,IB是私有协议,无法做到与其他网络设备互通互访。另外IB 专网运维依赖原厂,故障定位困难,且解决问题时间较长,网络的升级也取决于Mellanox产品发布的进度,无法做到和业界统一。
存储网络(SAN)创建FC专网的情况也与之类似,尽管性能和扩展性都不错,但仍旧需要专用设备。

综合以上,无论从建设成本还是运维角度来看,上述方案都并非是一个最佳选择。

RDMA究竟需要怎样的网络?

RDMA各类网络技术的比较(via.ODCC智能网络无损技术白皮书 2021)

通过上表我们不难看出,基于以太网的 RDMA(RoCE)可能是目前性价比最高的方案了。这种情况下,我们唯一要解决的难题就是:如何构建出一个适合RDMA传输的以太网环境,让RDMA真正发挥出极致性能。

网络传输好比是快递运输。如果遇到了堵车,一定时间内运量就会大幅减少,运输效率大大降低,如果还不小心弄丢了包裹就需要重新发货,耗时更多。这就是我们常说的网络拥塞和丢包。

  • 一般来说,数据中心内部发生网络拥塞有如下技术原因:
  • 上下行非对称设计。网络设计通常采用非对称的方式,上下行链路带宽不一致(即,收敛比)。当交换机下联的服务器上行发包总速率超过上行链路总带宽时,上行口就会出现拥塞。
  • ECMP。数据中心多采用Fabric架构,并采用ECMP来构建多条等价负载均衡的链路,通过设置HASH因子并HASH选择一条链路来转发,该过程没有考虑所选链路本身是否有拥塞,所选择的链路流量饱和时,就会发生网络拥塞。
  • TCP Incast。当服务器向一组节点发起请求时,集群中的节点会同时收到该请求,并且几乎同时做出响应,从而产生了“微突发流”,如果交换机上连接服务器的出端口缓存不足就会造成拥塞。

丢包对网络数据传输性能的影响也是巨大,如下图所示[1] :0.1%的丢包率,将导致RDMA吞吐率急剧下降;2%的丢包率,会使得RDMA的吞吐率下降为0。

我们需要 “0丢包、低时延、高带宽”的无损以太网,但这绝非易事

  • 0丢包:会抑制链路带宽,导致低吞吐,同时会增加大流的传输时延;
  • 低时延:降低交换机队列排队,容易导致低吞吐;
  • 高带宽:保持链路高利用率,容易导致交换机的拥塞排队,导致小流的“高时延”。

云计算时代下,你需要怎样的数据中心基础网络设备?

从上述“0丢包、低时延、高带宽”三大要素出发,落到实际层面上便对承载云基础网络的交换机提出了以下具体要求。

1. 支持构建无损以太网的关键技术

  • 流量控制技术 – 用于解决发送端与接收端速率匹配,做到无丢包;
  • 拥塞控制技术 – 用于解决网络拥塞时对流量的速率控制问题,做到满吞吐与低时延
  • 流量调度技术 – 用于解决业务流量与网络链路的负载均衡问题,做到不同业务流量的服务质量保障。

星融元CX-N系列超低时延交换机,支持传输RoCE流量和面向数据中心的高级网络功能(如:PFC、ECN、ETS、DCBX),并通过PFC死锁预防机制、VLAG(星融元自研,一种MC-LAG的进阶技术)以及先进的拥塞控制算法(为了实现低时延和高吞吐量之间的平衡,-N有对应方式吗?)等,帮助构建高可靠的无损以太网。
【演示视频在线观看:PFC、ECN…】

2. 设备本身具备尽可能低的转发时延

在设备转发时延方面,我们以采用业界领先的可编程超低时延交换芯片的星融元CX532P-N以太网交换机,对比Mellonox的SB7700 IB交换机进行了对比测试。
结论是:星融元超低时延以太网交换机的端到端性能,可全面超越IB交换机。

3. 全盒式设备提供高密度接口,组网灵活易扩展

得益于高密度高性能端口的规格设计,我们可以从容地选用不同规格的CX-N系列云交换机搭建出Spine-Leaf架构*的两层网络,以实现大规模计算/存储集群的接入与承载。

Spine-Leaf架构相对传统三层组网架构,具有无阻塞转发、可扩展性强和网络可靠性高等优势。而且在这样的网络架构中,任何两台服务器之间的通信不超过三台交换机,进一步降低了网络流量的转发时延。

4. 存储+高性能计算+一般业务三网合一,SDN智能运维

(此外值得一提的是,CX-N系列超低时延交换机搭载的是星融元为云计算时代设计开发的开放网络操作系统,它以标准的Linux、SONiC和SAI为内核,可与第三方云管平台无缝融合,并且提供Cisco风格的命令行;该交换机的硬件平台也全面遵从OCP所制定的开放性原则,涉及的技术标准和开发规范完全开放,确保用户拥有的是一个完全透明的开放系统。)


[1] Zhu, Y., H. Eran, D. Firestone, C. L. M. Guo, Y. Liron, J. Padhye, S. Raindel, M. H. Yahia and M. Zhang,Congestion Control for Large-Scale RDMA in Proceedings of the 2015 ACM Conference on Special Interest Group on Data Communication (SIGCOMM ’15), London, United Kingdom, 2015.
[2]https://www.odcc.org.cn/download/p-1437654565852237825.html ODCC智能无损网络技术白皮书
[3]https://info.support.huawei.com/info-finder/encyclopedia/zh/%E6%99%BA%E8%83%BD%E6%97%A0%E6%8D%9F%E7%BD%91%E7%BB%9C.html
[4]https://blog.csdn.net/SDNLAB/article/details/88746460

相关文章

新课发售 | 白盒与SONiC实战特训营


关键词


关注星融元

全网独家!《白盒交换机与SONiC实战训练营》课程终于和大家见面了!

01、课程背景

随着互联网行业的蓬勃发展,数据和流量开始向数据中心聚集,同时公有云的兴起使得数据中心的规模化效益变得愈发重要。传统网络设备因封闭、黑盒、厂商锁定等限制,无法满足云计算时代对网络提出的开放接口、软件定义、模块化构建、快速迭代等需求,在规模与竞争的驱动下,开放网络应运而生。

开放网络建立在开放标准和白盒裸机硬件之上,可以自由选择网络操作系统,真正实现软硬件的分离,提供灵活、可扩展和可编程的网络,以适应不同场景的应用需求。

在众多开源操作系统中,SONiC异军突起,日渐成为构建开放网络的钥匙,而SAI则是实现钥匙的标准模具,SONiC+SAI为开放网络系统生态的建立开辟了光明之路。SONiC当前的生态是非常开放的,具备大量的产业链合作伙伴,包括‍‍云计算、‍‍运营商、设备商以及大量的芯片厂商,基本上已经‍‍把产业进行了重塑。

在此背景下,各行各业对具备白盒交换机硬件、 SONiC系统等相关专业知识的人才需求也越来越大。

基于此,星融元数据技术有限公司联合未来网络学院和紫金山实验室的一线技术大咖为大家共同开发了《白盒交换机与SONiC实战训练营》课程。

02、课程优势

1、全网独家定制课程

本次特训营为全网独家课程,当前白盒交换机需求大,但相应的学习内容却很少,无法形成体系化的内容帮助使用者入门到精通。

本次课程是基于实战的场景进行课程设置,是在白盒理论课程基础上进行的延申,实用性强,即学即用。

2、多年一线实战经验讲师团

3、理论实操相结合

理论的学习让学员对目前白盒和SONiC的价值、生态、前景有一个全面的了解。并在理论的基础上,通过真实环境的搭建、典型配置案例讲解和实操,掌握真正的相关技能。

4、提供真实设备进行案例实操

实操部分提供实操设备真实搭载SONiC系统的P4可编程交换机进行练习

实操设备:真实搭载SONiC系统的P4可编程交换机

03、课程收获

1. 全面了解白盒和SONIC的生态和前景

2. 掌握SONIC系统的架构、核心组件等技术细节

3. 能够独立进行SONIC系统的编译、安装以及典型应用场景的配置

4.颁发由教育部和科技部认证的能力等级证书

说明:证书由发证单位另行收费,500元/人

04、课程信息

1、培训对象

  • 网络工程师
  • 云计算工程师
  • SDN、开放网络等相关开发人员
  • 有志于从事SDN、开放网络等相关工作的在职人员或者学生

2、技能要求

  • 具备基础的网络知识
  • 具有基本的linux使用经验

✓课程资料

  • 课程PPT讲义
  • 实操手册

05、课程报名

  • 618到手价:2080元(点击阅读原文,详情页领券)
  • 课程形式:线下特训营(自带笔记本电脑)
  • 上课时间:8月5日-6日
  • 课程咨询:13245276252 刘老师

相关文章

数据中心的“天眼”,告诉你什么叫网络监控世界的内卷


关键词


关注星融元

前段时间,有客户咨询我们,他们在处理日常业务的过程中,偶尔感知到数据传输丢失、突发高时延等故障问题。客户的数据中心内部有上千台的交换机,依靠人工排查问题,不仅定位难,而且耗费时间也长,严重影响业务连续性。所以怎么才可以快速定位到具体故障设备,甚至具体故障端口,然后进行故障修复呢?

在超大规模的数据中心里,故障的精准定位是一个普遍存在的网络运维难题。

落后的传统运维模式

大型数据中心,既有由交换机、路由器等物理硬件组成的物理Underlay网络,也有在Underlay网络上为业务或用户构建逻辑隔离的虚拟Overlay网络空间,其网络架构复杂,技术堆栈层次多,对故障的识别、海量策略的下发等网络运维工作带来极大困难。特别是一些对网络时延要求较高的业务, 如高性能计算、人工智能等,业务交互关系更复杂,数据交换更频繁,网络架构更加复杂,对故障的响应时间和定位速度要求极高。

但是当前的网络运维还是以人工为主,当故障一旦出现后,通常要一台台地识别,不仅工作量巨大,甚至会对整个网络产生影响,阻碍业务的正常开展。同时,传统网络基于CLI、SNMP机制的被动运维模式:通过拉模式来获取设备的监控数据,故障定位缓慢;采集精度粗略,只能做到分钟级别的采集,监控到的网络节点数据并不准确;缺乏对设备队列、端口状态信息的查询,故障定位不详细。这种被动响应以及故障定位迟缓、粗略的网络监控方式,管理效率越来越低,已无法跟上时代的步伐,无法满足数据中心网络运维要求。

因此,面对大规模、高性能的网络监控需求,用户需要一种全新的工具,让网络运维更加智能化。

针对传统网络运维方面的种种挑战,星融元在充分了解客户痛点的基础上,将实现客户的网络运维的智能可视化放在重要位置:设计和研发了一款智能网络运维产品——AFF(Asteria Fabric Foresight)云网智能遥测系统,具备网络状态实时监控,网络质量全面感知、网络故障快速定位等功能,帮助用户在星融元为其搭建的网络里,从容解决来自网络运维方面的难题。

AFF云网智能遥测系统

AFF(Asteria Fabric Foresight)云网智能遥测系统,遵循INT(Inband Network Telemetry,带内网络遥测)技术,能够在不影响设备的性能和功能的情况下,实现更高精度的网络数据监控;能够快速、精准地掌握全网设备的实时运行状态,帮助用户提升响应速度和运维效率,告别过往问题发生时的束手无策。

INT作为一种混合测量技术,是一种借助数据面业务进行网络状况的收集、携带、整理、上报的技术。两个关键技术点:第一点是Inband(带内),意味着借助数据面的业务流量,而不是像很多协议那样专门使用协议报文来完成协议想要达到的目的,第二点就是Telemetry(遥测),具备测量网络的数据并远程上报的特点。

1、精细运维

即便是在规模不断增大的数据中心网络,也可以做到纳秒级别的监控粒度,能够完整、准确地反映网络状况,据此预估可能发生的故障。并通过WEB页面清晰完整地展现全网设备的连接拓扑,帮助用户对整体网络质量有全面直观的了解,为用户的网络优化提供有力的数据依据。

2、快速定位

在复杂的网络中,能够帮助用户快速地定位故障,达到纳秒级的故障定位速度,并通过远程预警方式快速告知客户详细网络故障信息;同时当用户需要回溯故障详情时,可以通过系统日志精准定位故障设备,从而大幅减轻了运维工作人员的压力。

3、释放资源

AFF基于INT遥测技术,采用订阅上报机制,通过设备的交换芯片转发INT流量,不占用设备CPU开销;此外,AFF可以直接在生产业务网络环境中进行部署,使用现有的网络链路直接传输INT流量,无需对生产网络环境进行复杂的改动,节省部署成本。

AFF与AFC的智能联动

AFF是星融元为了让客户的网络管控和智能运维更加一体化而研发的一项高级扩展功能,该功能基于星融元自研的SDN云网控制器AFC(Asteria Fabric Controller)。AFC是星融元自研的一款面向各行业云数据中心等应用场景,提供网络设备的智能管控及配置自动下发等功能的SDN云网控制器。

用于AFF的应用场景拓扑图

通过为AFF设计全面的REST API接口,AFF可以与AFC无缝对接,智能联动,为客户提供一个全网健康状态可见的网络分析平台。即便在一个数据中心有成千上万台的星融元交换机,如果想要进行一个时延阈值的设置,只需通过AFC,一键下发配置策略即可,可以极大减轻运维人员的工作难度,帮助客户在业务部署中,减少设备配置的复杂度,提高业务的上线速度。并且面对AFF上报的故障问题,通过AFC可以对业务流量的转发路径进行快速调整,避开故障设备或故障端口,保障业务流量的正常转发。

AFF的出现解决了云网环境中由于网络设备数量过于庞大,从而给运维人员带来的网络故障定位难、运维时间成本高、工作效率低等难题;实现了全网设备健康状态的可视化,提升了网络监控数据的实时性和精确度,保障业务稳定、可靠运行。AFF也让星融元的云网络解决方案功能更加完整,服务更加全面,从网络的搭建,再到网络的管控和运维,一站式全网健康管理,网络质量尽在掌控之中。

相关文章

全闪分布式存储网络解决方案

全闪分布式存储网络解决方案

通过方案级的优化设计,助力全闪分布式存储突破性能瓶颈。

相关产品

业务痛点

当分布式存储的存储介质,从HDD发展到SSD+HDD,再到如今支持NVMe协议的高性能SSD,分布式存储的性能也随之大幅提升。存储介质的快速更迭,以及分布式存储系统层面的不断更新,让网络变成了全闪分布式存储的性能瓶颈。低时延、零丢包、高性能的存储网络,已成全闪分布式存储突破性能瓶颈的关键。

方案亮点

  • 使用RoCEv2,降低传输协议时延

    为存储集群引入RDMA技术,能够提高存储节点带宽,降低延迟、抖动和CPU的消耗。在几类RDMA网络中,RoCEv2的性能较好、部署成本低、成熟案例多,在全闪分布式存储中引入RoCEv2可以有效降低传输协议的处理时延。

  • 超低时延交换芯片,降低网络转发时延

    星融元Asterfusion CX-N系列云交换机,具备业界领先的超低时延能力,可满足分布式存储这种时延敏感型应用,对“集群规模庞大、IO路径较长的存储网络”提出的超低时延需求,可大幅降低存储业务在网络转发上的时延,提升分布式存储的性能。

  • 使用PFC高优先级队列,确保存储流量不丢包

    为缓解分布式存储网络中一对多的流量模型带来的丢包问题,使用PFC(Priority-based Flow Control,基于优先级的流量控制)为不同队列的流量提供逻辑隔离,让存储业务使用高优先级队列,降低存储流量丢包率,保障存储业务的稳定性。

  • 使用ECN拥塞控制算法,消除网络拥塞

    为了消除分布式存储网络中的拥塞情况,使用ECN(Explicit Congestion Notification,显式拥塞通知)进行网络拥塞控制,避免报文重传,降低网络延迟与抖动,进而提升存储集群的性能。

  • 高密100G接口,两层组网架构,降低节点间通信跳数

    得益于高密高性能端口的规格设计,我们可以选用不同规格的CX-N系列云交换机搭建出各种规模的Spine-Leaf架构的网络。在这样的网络架构中,任何两台服务器之间的通信不超过三台交换机,进一步降低了存储流量的转发时延。

应用场景

全闪分布式存储的前后端存储网

星融元Asterfusion CX-N系列云交换机构建的超低时延无损以太网,通过诸多方案级的优化设计,帮助全闪分布式存储突破网络瓶颈。为全闪分布式存储集群提供了真正意义上的低时延、零丢包、高性能的存储网络,让存储集群的性能大幅提升。

对星融元产品感兴趣?

立即联系我们

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2