2024-11-07 案例验证:分析NCCL-Tests运行日志优化Scale-Out网络拓扑 GPU并行计算中需要大规模地在计算节点之间同步参数梯度,产生了大量的集合通信流量。为了优化集合通信性能,业界开发了不同的集合通信库(xCCL),其核心都是…
2024-10-24 一文梳理:如何构建并优化AI智算中心? 目前最常见的AI算力中心部署的GPU集群大小为 2048、1024、512 和 256,且部署成本随 GPU 数量线性增长。本文将以相对折中的1024 G…
2024-08-28 0成本5分钟!利用开源大模型搭建本地专属AI知识库 我们想让一些企业内部私有数据也进入到大模型推理分析的过程,让其更好服务于日常业务,但出于信息安全等考量,私有数据显然不可随意上传到第三方平台。针对这种情况…
2024-08-09 AsterNOS监控方案 本文档将简要介绍AsterNOS监控方案及其各组件功能,并完成对Asterfusion CX-N系列超低时延云交换机的配置和数据采集。具体包括方案概述、整…
2024-08-08 基于CX-N产品的MC-LAG应用场景配置 本文主要讲解企业级sonic交换机的 MC-LAG解决方案和配置。具体包括使用到软硬件的型号版本,对MC-LAG的介绍,MC-LAG的基础配置说明和一些典…
2024-08-08 星融元(Asterfusion) SONiC交换机的RoCE方案配置 本文主要讲解星融元企业级SONiC交换机的RoCE方案及配置。包括RoCE原理和配置注意事项,一些配置参数和用户测试案例。
2024-08-02 一文揭秘AI智算中心网络流量 – 数据存储篇 我们大致可将AI智算中心内部的数据存储系统进行简单的层次分类,主要包括GPU内存、存储网和存储设备。一般来说,在存储层次结构中位置越高,其存储性能(尤其是…
2024-07-24 一文揭秘AI智算中心网络流量 – AI推理篇 AI推理是指从经过训练的大模型中获取用户查询或提示的响应的过程。为了生成对用户查询的完整响应,AI推理服务器从一次推理迭代中获取输出token,将其连接到…
2024-07-16 一文揭秘AI智算中心网络流量 – 大模型训练篇 AI模型的规模巨大并持续快速增长,不仅将带来数据中心流量的指数型增长,独特的流量特征也将为数据中心网络带来崭新的需求。深入分析AI大模型在训练、推理和数据…
2024-07-04 星融元发布 51.2T 800G 以太网交换机,赋能AI开放生态 CX864E-N是一款行业顶尖规格的单芯片盒式以太网交换机,专为AI训练/推理、高性能计算(HPC)和云计算/存储的需求设计,具有业界领先的低延迟和高可靠…
2024-05-31 Easy RoCE:在SONiC交换机上一键启用无损以太网 RDMA(远程直接内存访问)技术是一种绕过 CPU 或操作系统,在计算机之间直接传输内存数据的技术。它释放了内存带宽和 CPU,使节点之间的通信具有更低的…
2022-03-25 一文梳理基于优先级的流量控制(PFC) PFC(Priority-based Flow Control,基于优先级的流量控制)功能是一种精细的流量控制机制,在IEEE 802.1Qbb标准文档中…