开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

更多相关内容

传统低时延解决方案(InfiniBand)面临的问题


2023-06-05

前言

最近闲聊时某客户多次遇到老型号一体机网络故障,基本都和InfiniBand有关。这类型的网络故障,大部分都是OS的RDS通讯相关内核的BUG,或者交换机固件的BUG引起,现场处置其实最好的办法就是重启大法,尽快将内核以及服务干净的重置,这样大部分的问题都可以恢复。因为一般来说,对内核级的网络故障诊断的人才,是非常稀少的,更别说,你在遇到一个数据库故障的时候,能够快速找到熟悉InfiniBand网络的高手。所以,最好是恢复以后,再进行深入分析和诊断,解决隐患。

可能有人会问,如此复杂难以运维那过去用户为何要用这种方案,让我们一起来一探究竟……

为什么过去用户要用InfiniBand

早期,互联网数据的爆炸式增长,给数据中心的处理能力带来了很大的挑战。计算、存储和网络,是推动数据中心发展的三驾马车。计算随着CPU、GPU和FPGA的发展,算力得到了极大的提升。 存储随着闪存盘(SSD)的引入,数据存取时延已大幅降低。但是,网络的发展明显滞后,传输时延高,逐渐成为了数据中心高性能的瓶颈。

计算、存储和网络,是推动数据中心发展的三驾马车

人们发现在数据中心内,80%的流量为东西向流量(服务器之间的流量)。 这些流量,一般为数据中心进行分布式并行计算时的过程数据流,通过TCP/IP网络传输。如果服务器之间的TCP/IP传输速率提升了,数据中心的性能自然也会跟着提升。因此各厂商想出了多种RDMA解决方案,为用户解决数据中心网络的瓶颈问题。作为RDMA方案中的角力者,RoCE 定义了如何通过以太网执行RDMA,而InfiniBand架构规范定义了如何通过 InfiniBand 网络执行 RDMA。早期因为InfiniBand方案更加完善、技术先进性,更加符合用户对网络高质量,高带宽,低延迟,0丢失的需求,成为当时用户的唯一选择。

为什么现在用户寻找InfiniBand替代方案

因为RoCE(在以太网络上实现RDMA)技术已经追上InfiniBand,而且更加通用和经济。

如果说IT界要颁发“最快黯淡奖”,那么很有可能会是“InfiniBand”,理由是InfiniBand的规格及标准规范自1999年开始起草,2000年正式发表,之后主力业者纷纷退出,再经过一、二年的前期推展与市场观察,以及PCI Express的出现,几乎注定了InfiniBand的发展界限。

10年以前,InfiniBand 提供比以太网更好的延迟和带宽。然而,该行业已经完成以太网方面的转型期。Inifiband是专有的InfiniBand网络,而RoCE则是基于IP网络,目前90%的网络都是基于IP网络架构设计,相关技术更加成熟,随着技术的发展RoCE业界标准更加统一,技术更加完善和成熟。

而且不管是从购买成本还是从使用成本上考虑,以太网技术都更有经济优势。InfiniBand网络给人的感觉长期以来就是troubleshooting困难,很多一体机用户自己采购InfiniBand设备搭建的网络,因为InfiniBand网络采用单独的设备和协议(非以太网协议),一旦出现故障,往往都无法在短时间内分析出原因,作为网络维护者也找不到任何办法来重置内核服务(也可能水平有限)。

我记得曾经很多用户基于InfiniBand自建的RAC,在高可用测试中,一旦拔掉InfiniBand线,再插回去,即使可以ping通,但RAC就是无论如何也无法重启成功。必须通过reboot主机才能恢复。然后,找不到任何专业的网络技术支持。

其次,还有一个非常重要的原因就是云技术需要以太网

随着云计算向数据化智能化的方向演进,数据的流转与有效利用将为业务带来核心价值。像大规模深度学习、机器训练之类的应用是极其依赖算力的,大量的信息交互对网络提出了很高的要求,由此需要一个低时延、无丢包、高吞吐的算力网络。InfiniBand和RoCE的数据包无法互通,如果要把一体机部署到基于以太网的公有云or私有云上,那么肯定是采用RoCE是一种更好的选择!

InfiniBand总结

综上所述,InfiniBand虽然在早期RDMA解决方案中通过InfiniBand交换机在节点之间直接创建一个专用的受保护通道,并通过InfiniBand适配器管理和执行的远程直接内存访问(RDMA)和发送/接收卸载,方便了数据和消息的移动,与其他网络通信协议相比,具有了更低的延迟,但是,它厂商锁定、价格昂贵以及非通用协议需要专门设备和技能来使用等一系列的缺点,使得用户从早期采购,到后期使用整个路径上都有持续不断的“高额成本”在付出,让用户信息部门长期面临高预算的问题,一定程度上阻碍了用户用户业务的发展,以下为InfiniBand用户使用者在交谈过程时总结的种种心酸。。。

  1. 性价比差:目前只有部分厂商有成熟的InfiniBand产品&方案,厂商锁定,方案价格非常昂贵;
  2. 兼容性差:云时代下,InfiniBand采用单独的通讯协议,非TCP/IP协议族,无法做到与其他网络设备互通互访;
  3. 售后服务差:InfiniBand专网运维依赖原厂,故障定位困难,且解决问题时间较长;
  4. 供货周期长:InfiniBand交换机供货周期长,不确定性高,增加项目风险,影响业务扩展;
  5. 扩展升级慢:网络的升级取决于部分厂商产品发布的进度,无法做到和业界统一升级;

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2