AsterNOS的“EasyRoCE”功能,分别从单台设备和整网两个层面,对RoCE网络的配置部署与运维进行优化。
单台设备
“EasyRoCE”优化了无损以太网的配置逻辑,增加RoCE的操作视图,实现“一键配置”、“RoCE网络参数集中展示”、“RoCE网络参数调优/模板化”等功能,简化配置流程。
整网
- AsterNOS的“EasyRoCE”内置了一个roce_expoter容器,可以接入Prometheus对RoCE业务相关的网络指标进行实时监测。
- 当网络有异常时,使用“EasyRoCE”的“show roce”命令集,把RoCE相关的调试信息组织起来集中展示,提高排障效率。
AsterNOS的“EasyRoCE”功能,在AIGC、分布式存储、数据库一体机、量化交易等场景中,均为客户节省了大量的网络运营成本。
在这些业务场景中,工程师通常对业务非常熟悉,集中精力在服务器侧做配置调优。
对于网络,通常提出的要求是“需要一张高可用、高性能的无损以太网”。
运行在AsterNOS上的RoCE网络,减少了工程师在网络上投入的时间和精力。
方案亮点
一键配置RoCE
在设备的配置维方面,我们实现了业务级的命令行封装,增加RoCE的操作视图,实现一条命令行部署,让RoCE网络配置和运维变得简单易用。
RoCE网络参数集中展示
当网络有异常时,再到具体设备上使用“EasyRoCE”的“show roce”命令,把RoCE相关的调试信息组织起来集中展示,简化排障流程、提高排障效率。
对接开源监测工具
在整网运维层面,开发了容器化的监控采集前端roce_expoter,将RoCE业务相关的网络指标采集给开源监控方案Prometheus,为运维团队提供一个开箱即用的RDMA网络监控方案。
最佳实践
中国TOP3公有云—打造媲美IB的低时延网络
需求背景
该私有云用户是中国领先的互联网基础设施服务提供商之一,主要提供IDC、云计算、网络加速、CDN和安全服务,2022年新增了托管AI业务需求
- 需要新建业务区域承载现有AI推理业务
- 新的业务区域网络在功能、性能容量等各方面具有易扩展能力
方案介绍
- 高可用架构,提供网络的可用性和冗余性,避免单点故障
- 灵活可扩展的网络架构满足用户现有以及未来一定时间内的业务增需求
- 采用~400ns的超低时延交换机,满足业务时延需求
- 使用EasyRoCE功能降低无损网络部署与运维复杂度
采用BGP-EVPN、VXLAN、MC-LAG等技术构建可靠的大二层网络满足生产网络稳定性需求
Clos弹性架构无痛扩容,可轻松添加节点和链路,同时保持高性能和低时延
无损网络一键部署,可视化监控大屏配合专用命令行,问题快速定位解决