LLM 训练是一项 GPU 高度密集型工作负载,对 CPU 工作负载要求低。CPU 运行是一些简单任务,例如 PyTorch ,控制 GPU 的其他进程、初始化网络和存储调用,或者运行虚拟机管理程序等。Intel CPU 相对更容易实现正确的 NCCL 性能和虚拟化,而且整体错误更少。如果是采用AMD CPU ,则要用 NCCL_IB_PCI_RELAXED_ORDERING 并尝试不同的 NUMA NPS 设置来调优。
2、 RAM 降级到 1 TB
RAM 同样是计算节点中相对昂贵的部分。许多标准产品都具有 2TB 的 CPU DDR 5 RAM,但常规的AI工作负载根本不受 CPU RAM 限制,可以考虑减配。
3、删除 Bluefield-3 或选择平替
Bluefield-3 DPU最初是为传统 CPU 云开发的,卖点在于卸载CPU负载,让CPU用于业务出租,而不是运行网络虚拟化。结合实际,奔着GPU算力而来的客户无论如何都不会需要太多 CPU 算力,使用部分 CPU 核心进行网络虚拟化是可以接受的。此外Bluefield-3 DPU 相当昂贵,使用标准 ConnectX 作为前端或采用平替的DPU智能网卡完全可满足所需。
轨道优化拓扑的另一个好处可以超额订阅(Oversubscription)。在网络架构设计的语境下,超额订阅指的是提供更多的下行容量;超额订阅率即下行容量(到服务器/存储)和上行带宽(到上层Spine交换机)的比值,在 Meta 的 24k H100 集群里这个比率甚至已经来到夸张的7:1。
通过设计超额订阅,我们可以通过突破无阻塞网络的限制进一步优化成本。这点之所以可行是因为 8 轨的轨道优化拓扑里,大多数流量传输发生在 pod 内部,跨 pod 流量的带宽要求相对较低。结合足够好的自适应路由能力和具备较大缓冲空间的交换机,我们可以规划一个合适的超额订阅率以减少上层Spine交换机的数量。
但值得注意的是,无论是IB还是RoCEv2,当前还没有一个完美的方案规避拥塞风险,两者应对大规模集合通信流量时均有所不足,故超额订阅不宜过于激进。(而且最好给Leaf交换机留有足够端口,以便未来 pod 间流量较大时增加spine交换机)
底层硬件平台基于开放架构、商用可编程交换芯片设计,在为上层软件提供高性能运行环境的同时,彻底抛弃传统网络硬件私有、黑盒的设计理念。更加值得一提的是,星融元云网络的整体架构设计完全遵循了业界最领先公司广泛部署和使用的Scale-wide架构(按需自由扩展架构),将原本封闭在大型机架式网络设备中的CLOS交换架构开放到网络拓扑设计当中,帮助用户在只采用盒式网络设备的前提下仍然能够搭建出大规模的扁平化云网络,使用户在享受高性能、按需自由扩展的同时,最大限度地降低云网络的TCO(Total Cost of Ownership,总拥有成本)。
以太网工作在网络参考模型的二层(Layer 2,简写为L2),其大部分交互逻辑建立在广播这种机制之上,因此是一种高效的通信协议。为这种高效所支付的代价是,当在一定范围内(例如,跨越两台以上的交换机)部署以太网时,需要将广播报文在不同的交换机之间传播,由此则带来了潜在的广播风暴风险;为了规避这种风险,又出现了类似于STP(Spanning Tree Protocol,生成树协议)及其各种相关的协议和保护机制。由此,大规模部署的二层以太网结构变得越来越复杂、健壮性变得越来越差,建设和维护成本都高居不下。究其根本原因,基本可以认为是(大范围的二层)广播导致了这一切的发生。更为严峻的是,很多网络安全漏洞,都是利用以太网的广播机制工作的。那么,在不破坏以太网基础工作原理的基础之上,如何解决这个问题?
2023年,对于开源网络操作系统 SONiC 来说可能是非常重要的一年,SONiC不光得到了来自全球范围内许多颇具实力的初创公司的企业级支持,业界主流网络设备厂商对它的兴趣也越来越大。
SONiC最初由微软开发并开源,微软在去年的 4 月份将该项目移交给了Linux 基金会及其 450,000 名开发人员。同时,支持 SONiC 的供应商名单也在不断壮大,例如包括DELL、Arista、诺基亚、阿里巴巴、Marvell、Nvidia-Mellanox 和 VMware等等知名厂商,以星融元Asterfusion为代表的初创型企业里也迎来新的成员如Hedgehog、Aviz。
随着越来越多的企业将工作负载和应用程序跨越不同的云环境,网络支持团队在体验到云的操作后也开始尝试在本地基础设施中采用类似云的工作流和接口。我们可以预见,SONiC即将迎来更为广阔的市场空间。650 Group 的分析师 Alan Weckel 表示,“SONiC的采用将在未来几年内大大超过整个市场的增长速度”,该公司预测,到 2026 年全球 SONiC 收入将超过 50 亿美元。
01 数据中心网络场景,SONiC热度不减
当前我们可以确定的一点是,数据中心网络设备的“白盒化”趋势仍将持续。
CIMI Corp. 总裁Tom Nolle 认为,数据中心交换可能是未来开放网络模型或白盒网络元素的热点,因为“数据中心需要开放式交换架构来支持多厂商交换芯片”,并且业界已经有了一些方案,这包括 SONiC 以及P4可编程。其中,基于 Linux 的云中开放网络软件(SONiC)便是将网络软件与底层硬件分离,使其可以在来自多个供应商的数百个交换机和 ASIC 上运行,同时支持全套网络功能。
650 Group 的分析师 Alan Weckel 举例了两种 SONiC方案的实现路径,其中第一种是企业将 SONiC 与 Arista等品牌提供的硬件结合使用,尝试SONiC并从中受益,因为“SONiC 中有很多云的自动化部分,企业可以使用它们来补充现有供应商的短板”。第二种则更像是纯粹的 SONiC,它直接被安装在白盒交换机上,这一路径可被视为完全替代品牌供应商的基础设施。
当前全球已有不少初创型企业瞄准了高端大型企业,旨在解决将 SONiC 应用到生产环境中所必须应对的挑战,这其中就包括大部分客户所缺乏的自研 NOS的技术能力。Dell’Oro Group 园区和数据中心交换机以太网副总裁 Sameh Boujelbene 表示, “我们目睹了很多实际运营者为解决这类可支持性问题所做的多次尝试。然而,生态系统真正需要的是一个中立的实体来填补这一支持缺口。”