InfiniBand交换机是一种高速网络交换机,它采用了InfiniBand技术,一种面向高性能计算和数据中心的网络协议,来实现高性能、低延迟和高带宽的数据传输,可为计算机到计算机的数据互连提供卓越的吞吐量和最小的延迟。它既用作服务器和存储系统之间的直接或交换互连,也用作存储系统之间的互连,传输速度通常在Gbps至Tbps之间,比传统的以太网和Fibre Channel协议要快得多。
InfiniBand交换机通常用于高性能计算(HPC)、数据中心、云计算和大规模存储等领域,以满足高性能计算和数据传输的需求。随着人工智能的指数级增长,InfiniBand已成为GPU服务器的首选网络互连技术。
InfiniBand 是处理器和 I/O 设备之间数据流的通信链路,支持多达 64,000 个可寻址设备。 InfiniBand 架构 (IBA) 是一种行业标准规范,定义了用于互连服务器、通信基础设施、存储设备和嵌入式系统的点对点交换输入/输出框架。
InfiniBand 具有低延迟、高带宽的特点,非常适合在与数千个互连节点的单一连接中连接多个数据流(集群、通信、存储、管理)。最小的完整IBA单元是子网,多个子网通过路由器连接起来,形成一个大的IBA网络。
InfiniBand 系统由通道适配器、交换机、路由器、电缆和连接器组成。 CA 分为主机通道适配器 (HCA) 和目标通道适配器 (TCA)。 IBA交换机在原理上与其他标准网络交换机类似,但必须满足InfiniBand的高性能和低成本要求。 HCA是IB端节点(例如服务器或存储设备)连接到IB网络的设备点。 TCA 是一种特殊形式的通道适配器,主要用于嵌入式环境,例如存储设备。
HCA是IB端节点(例如服务器或存储设备)连接到IB网络的设备点。 TCA 是一种特殊形式的通道适配器,主要用于嵌入式环境,例如存储设备。
InfiniBand(IB)的确拥有众多优势,令人好奇的是,为什么在人工智能爆炸性发展的背景下,市场越来越多地表达出希望以太网成为人工智能工作负载的首选技术。随着时间的推移,业界发现了InfiniBand的几个致命缺点:
目前,存在三种类型的RDMA网络。 Infiniband是专为RDMA设计的网络,从硬件层面保证可靠传输,而RoCE和iWARP是基于以太网的RDMA技术,支持相应的Verbs接口。
RDMA首先在Infiniband传输网络上实现,技术先进但价格昂贵。后来厂商将RDMA移植到传统以太网中,降低了RDMA的使用成本,促进了RDMA技术的普及。下面是各个RDMA网络协议栈的对比,目前业界讨论较多的是RoCEv2网络,RoCEv2克服了 RoCEv1 绑定到单个 VLAN 的限制。通过更改数据包封装(包括 IP 和 UDP 头),可以跨 L2 和 L3 网络使用。
为了在数据中心实现以太网承载RDMA,可以安装支持RoCE的网卡驱动程序和网络适配器。对于以太网交换机,需要选择使用支持PFC(优先流控制)等支持构建无损以太网的产品;对于服务器或主机,需要使用支持RoCEv2流量的网卡。
目前提供RoCE交换机组网方案的国外供应商主要有:思科、Arista、英伟达(ConnectX 系列)、Juniper网络、Aruba (CX 交换机)、DELL (EMC OS10)
国内厂商有基于SONiC提供一站式开放网络解决方案的星融元Asterfusion (25G-400G CX-N 超低时延交换机系列)