-
基于CX7/6(N系列)数据中心交换机,搭建400G/200G网络连接GPU集群
-
基于CX6/5(N系列)数据中心交换机,搭建200G/100G网络连接存储集群
-
基于CX5/3(N系列)数据中心交换机,搭建100G/25G网络连接CPU集群
-
基于CX2(M系列)云化园区交换机,搭建25G/1G网络,管理集群和网络的所有设备
方案亮点
超高带宽
提供200G/400G/800G高带宽网络设备,在量化模型训练中实现海量历史交易数据和热点数据的高效传输
超低转发时延
最低400ns的端口转发时延,端到端性能与IB网络相当,确保交易指令和市场数据能够以最短的时间到达交易中心或本地策略中心
无损转发
全端口支持融合以太网DCB流控功能,避免网络拥塞和转发丢包,有效保证量化模型训练和策略回测业务运行效率
灵活可靠
全盒式设备+Clos架构,搭建高可靠的量化交易算力网络,灵活应对业务增长带来的扩容需求
客户案例
量化行业某用户高性能计算项目
需求背景
该用户是行业领先的专业从事高频交易的投资管理公司,主要提供主动管理型、量化对冲和股票期权等多种产品,2022年新增了AI量化业务。
- 新建业务集群承载新增AI业务
- 新的业务区域网络在功能、性能容量等各方面具有灵活易扩展能力
方案介绍
- RoCEv2网络方案,DCB流控实现网络0丢包无损转发
- 采用~400ns的超低时延交换机,满足业务低时延需求
- 灵活可扩展的网络架构满足用户现有以及未来一定时间内的业务增长需求
- 高可用架构,提供网络的可用性和冗余性,避免单点故障
打造精简高效的无损低时延以太网,助力交易模型快速生成,提升业务效率和用户体验
支持BGP-EVPN、VXLAN等功能为用户提供硬件虚拟化网络的能力,满足生产网络虚拟化需求
Clos架构结合MC-LAG技术使用,实现网络的高度可靠与灵活扩展性
Data Tell the Truth
客户真实场景测试数据
HPC
HPC应用测试 | CX-N | MSB7000 | ||||||
---|---|---|---|---|---|---|---|---|
HPC应用 | Test1[sec] | Test2[sec] | Test3[sec] | avg[sec] | Test1[sec] | Test2[sec] | Test3[sec] | avg[sec] |
WRF | 1140.35 | 1134.64 | 1128.35 | 1134.44 | 1106.72 | 1099.36 | 1112.68 | 1106.25 |
LAMMPS | 341.25 | 347.19 | 342.61 | 343.69 | 330.47 | 335.58 | 332.46 | 332.83 |
测试环境:
- Asterfusion CX732Q-N(32x400GE QSFP-DD)
- SupermicroSYS-GE-TNHR ( GPU: 8 x Nvidia H100 80GB; NIC: 8x400Gb )
- MCX75310AAS-NEAT, 400Gb/s
- 400G OSFP(网卡侧),400G QSFP-DD(交换机侧),400G多模光纤
测试数据-E2E,NCCL-test 大模型训练时间
测试项 | Mellanox NIC 直连 | 通过 CX732Q-N 连接 | 备注 |
---|---|---|---|
E2E 转发时延 | 1.95usec | 2.51usec | Switch forwarding latency: 2.51-1.95=0.46usec(460ns) |
E2E 带宽 | 391.95Gbps | 391.96Gbps | Reached the Mellanox NIC rate limit |
测试项 | Mellanox NIC 直连 | 通过 CX732Q-N 连接 | 备注 |
---|---|---|---|
单节点 NCCL-test | 478.57GBps | / | GPU1-Node1 run NCCL test through NVSwitch |
单节点 NCCL-test2 | 478.64GBps | / | GPU1-Node2 run NCCL test through NVSwitch |
双节点 AllReduce Parallelism Test (NCCL Algorithm: Ring) | 371.27GBps | 369.92GBps | Mpirun + NCCL test result, NCCL_ALGO=ring |
双节点 AllReduce Parallelism Test (NCCL Algorithm: Tree) | 314.95GBps | 314.65GBps | Mpirun + NCCL test result, NCCL_ALGO=tree |
双节点 AllReduce Parallelism Test (NCCL Algorithm: CollNet) | 370.07GBps | 370.38GBps | Mpirun + NCCL test result, NCCL_ALGO=collnet |
测试环境
- Mellanox SB7700, Asterfusion CX532P-N
- ThinkSystem SR650, Intel Xeon Silver 4214 CPU @2.2GHz, 64G memory,1.6TB NVME SSD *3, 100G ConnectX-5 QSFP
- DELL R840 Intel Xeon Gold 6230 CPU @2.10GHz, 512G memory, 100G ConnectX-5 QSFP28
测试数据-存储网
设备类型 | 型号 | 参数 | 数量 |
---|---|---|---|
计算节点 | DELL R840 | Intel(R) Xeon(R) Gold 6230 CPU @ 2.10GHz Memory 512G 100G ConnectX-5 QSFP28 VPI ADAPTER *1 | 2 |
存储节点 | ThinkSystem SR650 | Intel(R) Xeon(R) Silver 4214 CPU @ 2.20GHz Memory 64G 1.6TB NVME SSD * 3 100G ConnectX-5 QSFP28 VPI ADAPTER * 1 | 3 |
100G IB交换机 | Mellanox SB7700 | 36口100G IB交换机 | 1 |
以太网交换机 | Asterfusion CX532P-N | 32口100G 低时延以太网交换机 | 1 |
vdbench50406 | 存储spec性能测试 |
fio 2.1.10 | 存储spec性能测试 |
swingbench 2.6 | 数据库性能测试 |
Hammerdb 3.1 | 数据库性能测试 |
Mellanox SB7700 100G IB交换机 | Asterfusion CX532P-N 低时延以太网交换机 |
|
---|---|---|
latr(时延测试-4k随机读) | 141.79us | 132.84us |
latw(时延测试-4k随机写) | 79.67us | 71.6us |
latw-8k(时延测试-8k随机读) | 150.64us | 145.83us |
latw-8k(时延测试-8k随机写) | 80.89us | 73.89us |
4kr-1台压力服务器(IOPS) | 1239k | 1275k |
4kw-1台压力服务器(IOPS) | 493k | 453k |
8kr-1台压力服务器(IOPS) | 1007k | 939k |
8kw-1台压力服务器(IOPS) | 330k | 310k |
1024kr-1台压力服务器(IOPS) | 11.7k | 11.0k |
1024kw-1台压力服务器(IOPS) | 3709 | 3669 |
4kr-2台压力服务器(IOPS) | 2548k | 2633k |
4kw-2台压力服务器(IOPS) | 850k | 916k |
8kr-2台压力服务器(IOPS) | 1992k | 1877k |
8kw-2台压力服务器(IOPS) | 535k | 591k |
1024kr-2台压力服务器(IOPS) | 17474 | 21.2k |
1024kw-2台压力服务器(IOPS) | 3673 | 4820 |