超级计算又称高性能计算 (HPC),是计算科学的重要前沿分支,指利用并行工作的多台计算机系统(即超级计算机)的集中式计算资源,处理极端复杂或数据密集型问题。超算能力是衡量一个国家或地区科技核心竞争力和综合国力的重要标志。超算算力以每秒浮点运算次数衡量,一般以Petaflops(PFlops)为度量单位。
目前,全国国家超级计算中心有十座,分别位于天津、广州、长沙、深圳、济南、无锡、郑州、昆山、成都和西安,其中深圳和西安中心二期正在建设,文昌航天超算中心已进入建设尾声。
超算中心需要解决的一个性能瓶颈,是各个计算节点之间的网络连接。在早期的计算中心内部,服务器之间是通过普通的万兆网卡和网线(或者光纤)使用 TCP/IP 协议传输数据。这种方案下网络延迟和吞吐量完全无法满足高性能计算的需求。
目前超算中心主流的网络架构基于 RDMA (Remote Direct Memory Access),远程直接数据存取),它通过网络把数据直接传入计算机的存储区,将数据从一个系统快速移动到远程系统的内存中,而不对操作系统造成任何影响,这样就不需要用到多少计算机的处理功能。RDMA有三个特点,低时延、低CPU占用、高吞吐带宽。它就是为了解决网络传输中服务器端数据处理的延迟而产生的。
当前RDMA技术有三大路线,分别是InfiniBand,iWARP和RoCE。
InfiniBand 是由 InfiniBand 行业协会所倡导的。InfiniBand 采用封闭的私有协议,需要使用 Mellanox 的专用交换机。但它的性能目前是三派之中最强的。iWARP 是在 TCP/IP 协议上面,对 RDMA 做的技术封装。从原理上看,它就失去了 RDMA 的性能优势,已经逐渐被业界所抛弃了。
值得一提的是 RoCE。RoCEv2 标准可实现 RDMA 路由在三层以太网的传输——RoCEv2 规范将用以太网链路层上的 IP 报头和 UDP 报头替代 InfiniBand 网络层,只需专用网卡和低时延的以太网交换机便可实现。与此相对的,InfiniBand 只有单一厂商,可能存在厂商锁定问题,并且供货周期和后续维保服务难以保证。所以,RoCE 作为低时延替代方案,越来越被人们所重视。
相较于IB网络方案,大幅度降低用户的网络TCO,同时确保超高性能
无收敛的网络设计确保无阻塞的大容量网络,按需横向扩展
基于CEE/DCB能力,提供可与IB媲美的性能和同样无损的网络服务
星融元网络操作系统AsterNOS,SONiC企业级发行版,支持灵活的功能扩展、在线升级
AsterNOS 利用简单易用的REST API,可轻松让第三方的云平台/控制器快速纳管
专业、全面、可靠的研发、方案与服务团队,为客户提供小时级的快速响应服务
本文参考:
浙商证券行业报告 算力铸就大模型:超算、智算及数据中心行业报告(2023)
HPCWire https://www.hpcwire.com/topic/networks/