推荐阅读
RoCE是人工智能网络的最佳选择吗?
一提到人工智能网络,很多人就想到InInfiniBand(缩写为 IB),IB是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。InfiniBand 也用作服务器与存储系统之间的直接或交换互连,以及存储系统之间的互连。实际上RDMA作为一种新技术,是人工智能网络的新方向,也逐步被更多人认可。
RDMA技术最早用于IB(Infiniband)组网,以通过构建无损网络实现HPC高性能计算集群的互联。不过,由于IB组网采用专有网络协议栈,存在技术封闭、兼容性低、单一厂商垄断等问题。为此,业界将RDMA技术移植到以太网上,推出了基于以太网的RoCE(RDMA over Converged Ethernet)协议,并将之演进到RoCE v2版本,从而推动了RDMA技术普及。
RoCEv2是什么?
RDMA技术与RoCE网络简介
RDMA (Remote Direct Memory Access)技术是一种基于网络的内存访问技术,它允许内存数据在计算机之间直接传输,而无需CPU或操作系统的参与,解放了内存带宽和CPU周期、改进应用系统性能,使得节点间的通信拥有更低的延迟和更高的吞吐量。目前,RDMA技术被广泛应用于超算、AI训练、存储等多个高性能场景。
RDMA技术实现路线包含以下三种:
- InfiniBand:最早实现的RDMA技术;
- RoCE (RDMA over Converged Ethernet):基于普通以太网的RDMA技术;
- iWARP:即Internet Wide Area RDMA Protocol,基于TCP/IP协议栈的RDMA技术。
RDMA最早是在InfiniBand网络上实现,被广泛应用到高性能计算中、但需要专用的、支持该技术的网卡和交换机,价格非常昂贵。后来为降低RDMA的使用成本、推动RDMA技术普及,发展出了通过以太网承载RDMA的网络协议——iWARP和ROCE,而ROCE 又包括ROCEV1和ROCEV2两个版本。
RoCEv1是基于以太网链路层实现的,通过交换机上PFC等流控技术,在物理层保证可靠传输,而ROCEV2是以太网TCP/IP协议中UDP层实现,解决了扩展性问问题,弥补InfiniBand技术的一些限制,使RDMA技术可以更广泛地应用于数据中心和云计算等领域。同时,RoCEv2技术的发展也可以促进RDMA技术的标准化和推广,从而使RDMA技术更加普及和易于使用。
1. Asterfusion的解决方案:一键RoCE
为简化无损以太网部署和运维的难度,星融元Asterfusion在AsterNOS网络操作系统上推出“一键RoCE”功能,针对RoCEv2场景的配置需求进行设计规划,实现了业务级的命令行封装,以达到RoCEv2场景下最佳的可维护性和可用性。
2. 功能介绍
2.1 一键启用PFC和ECN,完成无损以太网配置
在没有一键RoCE配置命令行时,一线实施和运维工程师配置无损以太网或者取消配置,需要分别对PFC和ECN功能进行配置,这要求工程师深刻理解以太网的QoS技术和配置逻辑。
有了一键RoCE配置命令行后,工程师可以通过一条命令行完成无损以太网的配置,不需要再使用原子级的命令行,分别对PFC和ECN功能进行配置。
2.2 无损以太网的配置和运行状态,集中展示
以前运维无损以太网时,如果想要进行网络异常定位或者运行状态检查,通常需要到不同命令行视图下进行执行多次show命令,以确定当前的队列映射关系、Buffer使用情况、PFC和ECN在哪个队列中被启用、各种门限的数值、PFC和ECN所在队列的吞吐量、Pause和CNP报文的触发次数等信息。
现在工程师可以通过show roce系列命令行,一键式地查看全局的RoCE信息、端口的RoCE信息和计数,以及对RoCE相关计数进行统一清零。
# 查看RoCE相关的配置信息
#查看具体端口的RoCE计数信息
#清除所有RoCE相关计数
sonic# clear counters qos roce
2.3 不同业务场景下的参数调优
通过一键RoCE命令行,可以快速配置无损以太网,当业务场景不满足于设备提供的默认配置时,工程师还可以通过QoS配置命令行精细化地调试PFC和ECN的各项参数,让业务性能达到最优。
3. 应用场景
3.1 简化高性能计算和存储网络的部署
高性能计算和存储业务场景中,工程师通常对业务非常熟悉,集中精力在服务器侧做配置调优。对于网络,通常提出的要求是“需要一张高可用、高性能的无损以太网”。这种情况,高性能计算和存储工程师,可以通过一键RoCE命令行,快速完成无损以太网配置部署。
这种业务级命令行的封装,将多个原子级命令行进行组合,简化配置流程,节省工程师的时间和精力去完成更有价值的业务侧优化。
3.2 快速定位无损以太网的瓶颈和故障
show roce业务级命令行将多个原子级命令行组合成一个语义完整的业务命令,能把RoCE相关的调试信息组织起来集中展示。
在排查网络故障时,使用show roce一次性查询与无损以太网相关的所有配置信息、运行状态,不需要再逐个执行原子级命令行进行查询。从而简化排障流程,提高排障效率。
结论:人工智能数据中心如何从InfiniBand和RoCE中进行选择?
虽然 InfiniBand 预计将保持领先地位,但根据 Dell’Oro Group 发布的最新 AI Networks for AI Workloads 报告,预计以太网将取得可观的收益,例如到 2027 年将达到 20 个收入分成点。
对于那些在 RoCE 和 Infiniband 之间做出选择的企业,应考虑其独特的要求和成本。如果他们更喜欢最高性能的网络连接,Infiniband 会更好。而对于那些寻求最佳性能、易于管理和有限成本的人来说,他们应该为他们的数据中心选择 RoCE。
最后让我们再看IB和RoCE测试数据的对比:
InfiniBand | RoCE | |
---|---|---|
端对端时延 | 100 ns | 230~500 ns |
流量控制 | 利用基于信用的信令机制来避免缓冲区溢出和数据包丢失,确保HCA到HCA的无损通信。 | 依靠无损以太网,通常通过以太网流量控制或优先级流量控制(PFC)进行配置,以达到与InfiniBand类似的性能特征 |
转发模式 | 基于本地ID转发 | 基于IP的转发 |
可扩展性 | 强,Infiniband的单个子网可以支持数以万计的节点。它还提供了一个相对简单且可扩展的体系结构,可以使用Infiniband路由器创建几乎无限的集群大小。 | 强,RoCEv2基于UDP,具有良好的跨网段可扩展性,是一种大规模采用的解决方案。RoCE支持网络拓扑的动态创建和调整,使其能够适应不同规模数据中心的需求。 |
可靠性 | 通过结合自适应路由的InfiniBand专有协议实现 | 实现了基于IP的ECMP机制。此外,RoCE支持纠错和重传机制,进一步提高了数据传输的可靠性。 |
成本 | 非常昂贵:服务器需要专用的IB NIC、专用的IB交换机来构建专用网络,通常是普通网络设备成本的五到十倍,并且只考虑在金融和期货交易等高调环境中使用 | "低成本 高性价比 RoCEv2数据中心交换机 比IB交换机价格便宜很多" |