在一个计算和存储分离的部署场景中,推荐部署2张Spine-Leaf架构的物理网,存储后端网将单独使用一张物理网,以保证分布式存储集群能够快速无阻塞地完成多副本同步、故障后数据重建等任务,而存储前端网和业务网则共用一张物理网。
另外,存储节点对网络接入侧的可靠性要求相对较高,因此存储集群中的节点,一般推荐使用双归方式接入。
降本增效、统一网络架构
– 整网采用RoCEv2,通过PFC、ECN、DCBX保障业务无损,提供与IB性能媲美的无损以太网络。
– 超低时延存储网络可提高业务并发量,加快数据传输速度,提升业务响应效率,抢占市场先机。
简化运维、降低运营成本
– AsterNOS的业务级RESTful API和EasyRoCE功能,让客户能以更低的技术门槛和运维成本,在传统以太网上实现超低时延、零丢包、高性能的网络传输。
方案亮点
采用CX-N系列低时延交换机
Port to Port 400ns的转发时延(Full Feature);L2&L3的转发时延相同;全速率下(10G~400G)转发时延相同。
超高可靠性,满足生产环境需求
- CX-N通过中国工信部的入网测试!在测试用例全部通过的基础上,在中国工信部指定模拟实验网上进行了三个月的转发测试,最终以零丢包&零故障率的成绩通过测试;
- CX-N已经通过UCloud三个阶段的灰度测试,并规模应用于生产环境中;
- CX-N在其他生产环境中稳定运行,例如世纪互联私有云平台、天翼云等;
使用PFC+ECN,确保存储流量不丢包
高密100G/200G/400G接口,降低节点间通信跳数
- 多速率、多端口Leaf-Spine架构交换机(64*100G/200G、32*400G)
- 全Box形态,可提供超大规模组网(数千个存储/计算节点)
- 同集群下的任何两台存储服务器之间的通信不超过三跳
EasyRoCE解决方案,简化无损网络配置运维
针对无损网络优化的命令行视图
在设备的配置运维方面,我们实现了业务级的命令行封装,增加RoCE的操作视图,实现一条命令行部署,让RoCE网络配置和运维变得简单易用。
无损网络运行状态可视化
在整网运维层面,开发了容器化的监控采集前端roce_expoter,将RoCE业务相关网络指标采集给开源监控方案Prometheus,为运维团队提供一个开箱即用的RDMA网络监控方案。
RoCE网络参数集中呈现
当网络有异常时,再到具体设备上使用“EasyRoCE”的“show roce”命令,把RoCE相关的调试信息组织起来集中展示,简化排障流程、提高排障效率。
最佳实践
中国TOP3公有云—打造媲美IB的低时延网络
需求背景
该公有云用户作为中国TOP3云计算服务市场的重要参与者之一,为政府、企业和个人用户提供安全可靠的云计算解决方案。2022年需要对存储业务区域进行扩容,进一步提升网络服务质量。
- 设备时延要低,满足分布式存储的业务需求
- 具有良好的供应链保障机制
- 能够提供及时且专业的技术支持
方案介绍
- 通过CX664D-N大容量低时延交换机提高应用响应速度;
- 基于CEE/DCB能力,为业务提供无损保障,从而满足用户高可靠、低时延的需求。
整网采用RoCEv2,通过PFC、ECN、DCBX保障业务无损,提供与IB媲美的性能和无损网络
超低时延提高业务并发量,加快数据传输速度,提升业务响应效率,抢占市场先机
更低的技术门槛和运维成本,可以在传统以太网上实现超低时延、零丢包、高性能的网络传输