标签：技术实现

完整揭秘：新一代园区网络运维管理全流程

关注星融元

前言：传统网络面临的结构性挑战显而易见，尤其是多地多分支机构的大型园区网络，哪怕引入了一个大而全的SDN控制器，但底层仍沿用着复杂的园区网络架构，有线无线两张网分离控制，真实使用体验依旧差强人意。

新一代的园区网应该是什么样的？且不论未来如何，在放眼可见的当下，除了承载常规的办公网业务，园区的网络基础设施已然在面对诸如物联网智能终端接入，频繁的无线漫游，以及各类公有云、本地私有云业务融合等等挑战。

园区网络的云化转型已成必然趋势。论及云化，不单是更高的带宽速率，更是要配合现代化的网络架构和灵活的运维方式，解决复杂业务和管理效率之间的矛盾。

TIP：电信业“开源运动”领导者

TIP（电信基础设施项目）成立于2016年，由Meta（原Facebook）联合多家全球电信运营商、技术公司和行业组织发起，是一个开放协作的行业联盟。其核心目标是推动电信基础设施的开放解耦化和软件化，通过技术创新降低网络部署和运营成本，加速全球通信网络的普及与升级。

TIP 推出的 OpenWiFi 和 OpenLAN Switching为企业园区网络场景带来了基于通用硬件和开源软件的解决方案。

uCentral 作为 OpenWiFi 通信框架的关键核心，是一种标准化数据模型，它定义了网络中关键配置数据的结构和语义，以确保整个网络的一致性和互操作性，并且该协议是开放可扩展的，随社区技术发展平滑演进。

OpenLAN Switching（OLS）将 OpenWiFi 的管理框架延展到了有线网络，显著扩展了OpenWiFi 的功能。实现形式是在交换机内部以容器形式运行一个客户端（uCentral Client），将有线网络纳入统一管理框架中。

OpenWiFi、OLS、局域网（LAN）

OpenWiFi和OLS 在局域网（LAN）中扮演各自不同角色，通过统一的北向接口与上层管理系统（Cloud SDK ）对接，并可复用成熟的开放网络组件（例如SONiC NOS）形成有线+无线、完整的端到端开放网络解决方案

Asteria Campus Controller（ACC）是星融元基于SONiC+ OpenWiFi/OLS 的云化网络的核心组成部分。

作为一款基于TIP社区标准的轻量级控制器软件，ACC 为园区有线网络和无线网络的统一管理提供了全面的解决方案。它可以无缝管理无线AP（包括第三方白盒AP）和所有搭载着星融元AsterNOS的SONiC交换机，自动执行网络配置和管理等关键任务。正常情况下，为一个中大规模的园区开通网络业务仅需30分钟。

部署方式

ACC支持三种部署方式：

本地部署（以docker形式部署在开放计算平台/服务器）
虚机部署（部署在虚拟机内，网络设备较多时适用）
云上部署（通过访问IP/域名，随时随地查看整网运行状态）

01、ACC 界面概览

登录ACC控制器后我们首先会看到一张全景地图，可以看到控制器纳管的网络自顶向下分为“根节点-组织-场所-设备”四个逻辑层。

（点开查看gif）

根节点作为系统默认节点，不可调整；
根节点下可建立“组织”，可以简单理解为一个管理域（例如一家公司或园区运营者可支配的管理范围）；
“组织”下可建立“场所”，对应着不同的办公区域或者分支机构；“组织”支持嵌套结构，即建立子组织，并继续建立子组织下的“场所”；
“场所”之下是设备层，展示了分配在该场所的物理网络设备，一般是按照有线设备（交换机）、无线设备（AP）分组。

02、内生的资产管理能力

值得一提的是，控制器内部自带了较为完善的资产管理能力，标准使用流程下即可自动完成数据整理并生成设备清单。

具体来说，我们购入新设备做的第一件事便是进入预计安装部署的组织或场所，比如下图的“1号办公楼”，在库存栏目点击按键选择手动导入设备或者基于模板批量导入。

此处导入的信息主要是设备的角色类型（Spine或Leaf）和序列号。待设备上电，控制器会自动根据设备的MAC将其纳入所属的组织/场所，并无额外操作。

导入完成后便可获得下面这张设备清单，它包含了设备所在场所、型号、名称、管理IP、许可证状态等信息字段。管理员可在此选择特定字段筛选，并在同一界面编辑调整清单信息。此处的“标签”字段对应的是控制器的配置模板，后续设备将据此标签信息从控制器拉取对应配置文件，做到真正的即插即用。

03、ACC带来的运维效率提升

上文已经提到，使用ACC为一个中大规模的园区开通网络业务仅需30分钟，开局效率的大幅提升主要来自于以下几点：

基于场景模板（全三层的Spine-Leaf 架构）自动生成规划拓扑
屏蔽实现细节，由控制器自动计算并通过ZTP机制下发基础网络配置
借助DHCP option 128 为交换机和无线AP同时提供“即插即用”的能力
图形化界面+自定义脚本，一键配置VLAN业务，DHCP中继，以及其他安全协议

下一篇我们将围绕上述内容详细展开，请持续关注。

A-Lab 杂谈 | 十年老网工，为啥这次没把智算服务器一次配通？

关注星融元

A-Lab 是星融元服务于新一代网络运维工程师的资讯专栏，你可以在这里找到各类基于开放网络技术架构的配置指导和技术分享。访问地址：https://asterfusion.com/alab-for-netdevops/

十年弹指一挥，当年的爆款热词“云计算”已然能搭上“传统” 二字当前缀；

十年弹指一挥，机房滚滚轰鸣声中，网工小王不知不觉熬成了老王；

老王不解啊，十年弹指一挥，咱亲手上架的服务器不说上千也有大几百，不就多了几张网卡，配个智算服务器怎会卡了壳？！

客官别笑，通用云计算中心与智算中心在主机侧网络架构层面的确存在显著差异，老网工偶尔走点弯路也是在所难免的啦。今天就让我们快速捋一捋其中缘由。

为啥出错？

传统CPU服务器多采用单网卡出口设计，通过OS内核协议栈实现网络报文转发，其网络拓扑相对简单，主要满足虚拟化资源的弹性调度需求。

源于AI训练任务对网络带宽的严苛要求，智算中心的GPU服务器普遍采用多网卡出口架构，用于接入参数网、存储网、业务网和带外管理网，其中通常会有8张网卡用于接入参数网，或称计算后端网络。而跨服务器的通信大多发生在同轨（Rail）的网卡/GPU之间。（请参考：关于智算的“多轨道网络架构”）

多轨道网络架构

老王遇到的机间通信失败问题主要发生在以下两种场景：

场景1：

智算业务报文从管理网段发出。两台GPU服务器A和B的8张网卡都接入到一张参数网，对应的网卡A1到A8、B1到B8，它们都分配到不同的网段，同轨网卡之间有互通需求（A1-B1，A2-B2…）

如果没有进行路由规划，通常在GPU服务器A的系统上会看到默认路由是业务网的，8个子网A1～8会产生8条对应的网段路由，报文会命中A的默认路由从管理网段发出，此时A1和B1是无法直接通信的。

场景2：

回程通信失败。如果网卡A1到A8、B1到 B8 都分配到同一个网段下的不同IP，在这种情况下在服务器B上通过B1尝试与A1通信，会发现报文可以到达A1，但是回包会命中默认路由之外的代价最低的路由，很可能会从其他7张网卡中的一张出去，导致通信失败。

通信失败情况下可能的系统路由配置：

路由配置

应对思路

当传统路由设置方法在智算环境下失效，一个可行的应对方式是提前规划GPU服务器内的路由，借助Linux的多路由表和策略机制实现更加灵活、精细的流量控制和路由管理功能。

具体而言：在Linux内增加一个自定义路由表，并通过策略路由告知系统，特定源地址的报文根据这张自定义路由表转发，并在该表中增加一条指定目的网段的表项（例如前往10.0.5.0/24的报文从指定网卡发出）。

多路由表（Multiple Routing Tables）：Linux支持多张路由表，这些路由表可以通过不同的标识符来区分，每张路由表中可以包含一组路由规则。Linux系统默认会存在一个主路由表，当不特别指定的时候路由规则会写入默认路由表。
策略路由机制（Policy Routing）：根据数据包的源目的IP、网卡等条件来选择合适的路由表进行转发。

更高效的实现方式

更高效的办法，当然是用脚本工具批量自动配置啊！

星融元（Asterfusion）AI智算网络解决方案中包含的EasyRoCE Toolkit – IRM工具（In-Node Route Map，GPU服务器内部路由规划）正是用于解决多网卡路由问题——根据已有的IP地址规划表，自动生成并对集群内所有GPU服务器下发内部路由规划和配置。

IRM工具运行过程中需要通过SSH和集群中的所有GPU服务器进行交互，一般运行在管理节点上。

GPU服务器内部路由规划

网工老王仅需完成三步微操：

1、将IRM工具上传到管理节点；

2、指定需要解析的路由规划信息文件。该文件可在EasyRoCE-AID （AI Infrastructure Descriptor，AI基础设施蓝图规划）工具引导下手动填写，形式为下图所示的excel表格，主要包含IP和接口地址规划、Rail平面划分等构造智算网络的必备信息；

IP和接口地址规划、Rail平面划分

3、运行IRM工具脚本。等待上述规划信息完成转换重组后，IRM工具会生成包含路由配置的JSON文件并下发到集群，随后网络运维人员即可查验到所有GPU服务器内部的策略路由都已成功生效，同一个Rail平面内的网段按照预期正常互通。此外，该阶段生成的JSON文件亦可复用于其他客户自定义/第三方工具。

DeepSeek优化徒劳？揭秘99%的AI推理集群都适用的组网设计

关注星融元

DeepSeek的优化，精细但门槛极高

作为开源周的“彩蛋”，DeepSeek于上周六展示了采用混合专家模型（MoE）DeepSeek-V3 / R1 所使用的推理架构的整体方法——从增大吞吐和降低时延的目标出发，再次优化了PD分离架构，不过暂时没有开源代码。

（MoE）DeepSeek-V3 / R1

与Llama等采用张量并行（TP）的Dense（稠密）模型不同，混合专家（MoE）模型通过组合多个专家模型来处理复杂任务，每个专家模型专注于输入数据的不同部分，每次计算任务只需激活特定专家（而非整个神经网络）。

DeepSeek-V3 / R1 的推理系统架构一方面引入了更复杂的跨节点和多节点的传输提升计算效率和改善内存墙，同时也通过异步通信和流水线调度设计，确保由此增加的通信开销被计算任务掩盖。

值得注意的是，根据官方公布的信息，若要充分发挥DeepSeek MoE 模型的能力，起步资源是320卡，且不论在未开源的情况下面临的技术挑战。

综合成本和需求考量，上述面向专家并行的推理系统优化仅在部分toC云计算场景具备一定研究意义。现阶段toB行业大模型以及边缘计算场景仍以Dense模型为主，需要高并发的大集群平台部署可延续现有主流的算力网络设计思路，面向本地低并发需求则可采用大内存单机部署方案。

回顾：AI推理集群的PD分离和流量特征

大模型的推理任务一般分为两个阶段，一是Prefill，处理所有输入的 Token，生成第一个输出 token 和 KV cache，是算力密集型；二是Decode，利用 KV Cache 进行多轮迭代，每轮生成一个 token，需要反复读取前面所有token的 Key 和 Value，瓶颈在于内存访问。

从用户实际体验层面看，推理过程中最关键的指标是 “第一个Token的延迟” （Time To First Token, TTFT）和后续token输出的延迟（Time Per output Token, TPOT）。

如果 Prefill 和 Decode 两个阶段在同一张GPU卡上运行，则容易发生资源争抢影响到 TTFT 和 TPOT 表现，尤其是当用户输入一段长 prompt 时，不光需要较多算力来支撑prefill运算, 也需要大内存来存储 KV Cache。

Prefill-Decode

因此，业界通常采用 Prefill-Decode 分离的架构：用高算力卡做 Prefill（prefill server）, 低算力卡做 Decode（decode server）, Prefill节点在完成计算传输 KV cache 后即可释放本地显存。

参阅：一文揭秘AI智算中心网络流量 —AI推理

AI推理系统的 Scale-out 组网设计

推理集群的工程部署方面，由于 Prefill 和 Decode 采用的GPU并行方式不一样，Prefill和Decode集群是相互独立的，但两个集群间需要互联以同步KV cache。从两个阶段的输入输出来看，Prefill 流量的特征是低频大流量，要求大带宽；Decode 阶段流量的特征是高频小流量，要求低时延。

1、分离网络架构

分为Prefill网络和Decode网络，分别负责本集群内流量，两个集群之间的流量通过互联网络实现
两个网络分别运维管理，但Prefill和Decode GPU之间的流量至少需要3跳

2、统一网络架构

单个网络同时负责集群内和集群间流量
网络统一运维管理，Prefill和Decode GPU之间流量可一跳直达

统一网络架构

我们推荐采用统一网络架构，借助 QoS、自适应路由技术对 Prefill 和 Decode 流量分别处理。

Rail-only 拓扑

Rail-Only

GPU服务器内部：每四个GPU作为一组，共享一个并行推理网卡，连接到同一个PCI Switch,两组GPU之间的通信通过两个PCI Switch之间的直连通道完成；
GPU服务器之间：同一组号的GPU之间的通信通过交换机直接完成；不同组号的GPU之间的通信，先通过PCI Swtitch将流量路由到另一组的网卡，然后通过交换机完成

小规模并行推理网络拓扑

每台推理服务器有8张GPU，2张400G网卡，双归连接到两台CX732Q-N
16个推理服务器（128张GPU）和2个CX732Q-N组成一个PoD。Prefill和Decode服务器可能属于不同PoD
可横向扩展至64个PoD

中大规模并行推理网络拓扑

每台推理服务器有8张GPU，2张400G网卡，双归连接到两台CX864E-N
64个推理服务器（512张GPU）和2个CX864E-N组成一个PoD，Prefill和Decode服务器在同一个PoD，服务器间一跳可达
可横向扩展至64个PoD

拓扑设计仅供预览参考，方案均采用星融元（Asterfusion）提供的CX-N系列 AI智算网络产品：基于SONiC的开放NOS（AsterNOS）+ 100G/200G/400G/800G 超低时延以太网交换机硬件，全端口支持 RoCEv2 & EasyRoCE Toolkit。了解产品详情或项目定制方案请与我们联系。

尝试私有化部署DeepSeek？至少九成工程师会忽略这一点

关注星融元

当你尝试在私有集群上部署各类LLM应用，除了关注作为成本中心的算力资源，也一定不要忽视网络侧的配置！未经优化的网络连接，会给你的集群通信性能带来将近80%的损耗，哪怕仅有双机8卡规模。

参考：分析NCCL-Tests运行日志优化Scale-Out网络拓扑

一言以蔽之，上述性能瓶颈来自于网络连接方式与集合通信模式的不匹配。当前智算集群内采用的组网是“轨道优化”或“多轨道网络架构”，连接方式与一般云计算场景差别巨大。

以适用性最高的 Fat-tree CLOS 组网架构为例（这也是各大智算公有云的首选方法，具有非阻塞的 all-to-all 连接，不依赖于正在训练的模型），下方拓扑中的Leaf/TOR交换机被称为轨道交换机（Rail Switches），它们与所有集群单元内的GPU节点都建立了直接连接。

Fat-tree CLOS

为什么要有轨道优化？

这个问题可能需要从通信库说起。当我们要利用分布式的GPU集群实现并行计算，集合通信库是关键环节之一。集合通信库向上提供API供训练框架调用，向下连接GPU卡（机内和机间）以完成模型参数的高效传输。目前业界应用最为广泛的是NVIDIA 提供的 NCCL 开源通信库，各个大厂基本都基于 NCCL 或 NCCL 的改造版本作为底座。

NCCL自2.12版本起引入了 PXN 功能，即 PCI × NVLink。PXN 利用节点内 GPU 之间的 NVIDIA NVSwitch 连接，首先将数据移动到与目的地位于同一轨道上的 GPU 上，然后将其发送到目的地而无需跨轨道传输，从而实现消息聚合和网络流量优化。

NVIDIA NVSwitch

轨道优化拓扑即是适应这一通信特征，将不同服务器上位于相同位置（轨道）的NIC连接到同一台交换机上。

由于每个服务器有8张连接计算平面的网卡，整个计算网络被从物理上划分为8个独立并行的轨道（Rail）。由此，智算业务产生的并行通信需求（All Reduce、All-to-All 等）可以用多个轨道并行地传输，并且其中大部分流量都聚合在轨道内（只经过一跳），只有小部分流量才会跨轨道（经过两跳），大幅减轻了大规模集合网络通信压力。

轨道优化聚合了同一对 NIC 之间传递的消息，得以最大限度地提高有效消息速率和网络带宽。反观NCCL 2.12 之前，同样的端到端通信将经过三跳交换机（上图的L0、S1 和 L3），这可能会导致链路争用并被其他流量拖慢。

如何配置多轨架构的智算网络？

首先是需要明确GPU卡的连接方式。如果是N卡，你可以使用nvidia-smi topo -m的命令直接查看。但综合考虑成本因素，要想在更为通用的智算环境下达到GPU通信最优，最好的办法还是在采购和建设初期就根据业务模型特点和通信方式预先规划好机内互联（GPU-GPU、GPU-NIC）和机间互联（GPU-NIC-GPU），避免过早出现通信瓶颈，导致昂贵算力资源的浪费。

下面我们以星融元智算网络方案具体举例，使用CX-N系列RoCE交换机组网。

CX-N系列产品

100G/200G/400G/800G RoCE 端口，运行企业级SONiC/AsterNOS，转发时延约450~560ns，全面支持 EasyRoCE Toolkit

主机侧的路由配置

智算环境下以GPU卡（而非服务器）为单位的通信模式形成了服务器多网卡多出口环境的路由策略，通常会有8张网卡用于接入参数/计算网，每张网卡位于各自的轨道平面上。为避免回包通信失败，服务器上的网卡配置需要利用Linux多路由表和策略路由机制进行路由规划，这与传统云网的配置方式完全不同。

第一步是按照组网规划和网段规划，进行IP地址规划和Rail平面划分。在我们的EasyRoCE Toolkit 下的AID工具（AI Infrastructure Descriptor，AI基础设施蓝图规划）中，Notes字段用于标注Rail编号，即0代表Rail平面0、1代表Rail平面1，以此类推。

确认好了上述信息，到这里其实可以开始手动配置了，但你也可以使用另一个EasyRoCE的IRM工具（In-node Route Map，GPU内部路由规划器）。IRM 从AID 生成的配置文件中获取适合当前集群环境的路由规划信息，并且自动化地对集群中的所有GPU服务器进行IP和策略路由配置。

In-node Route Map，GPU内部路由规划器

交换机侧的主动路径规划

CLos架构下，各交换节点分布式运行和自我决策转发路径容易导致无法完全感知全局信息，在多层组网下流量若发生Hash极化（经过2次或2次以上Hash后出现的负载分担不均）将拖慢集群性能。

为解决满足AI集群规模化部署的通信需求，一般来说我们会通过规范流量路径来解决性能和规模方面的痛点（例如负载均衡、租户隔离等），按照如下转发逻辑去配置RoCE交换机：

跨 Spine上行流量进入Leaf后根据源IP和是否为跨Spine远端流量，执行策略路由转发给Spine，每网卡对应一个接口：

在上下行流量1：1无收敛的情况下，Leaf的每个下行端口绑定一个上行端口；
在n：1的情况下，上下行端口以倍数关系(向上取整)形成n:1映射。

跨Spine上行流量在Spine上按照标准L3逻辑转发，在轨道组网中多数流量仅在轨道内传输，跨轨道传输流量较小，网络方案暂不考虑Spine上拥塞的情况（由GPU Server集合通信处理）。
跨 Spine下行流量进入Leaf后根据 default 路由表指导转发。

当然，这里也可以使用EasyRoCE Toolkit 下的PPD工具（主动路径规划，Proactive Path Definer）自动生成以上配置。以下为PPD工具运行过程。

正在生成配置文件
100%[#########################]
Configuring leaf1's port 
leaf1的端口配置完成 
Generating leaf1's ai network config
The ai network config finished.
 
正在生成配置文件
100%[#########################]
Configuring leaf2's port 
leaf2的端口配置完成 
Generating leaf2's ai network config
The ai network config finished.
 
正在生成配置文件
100%[#########################]
Configuring leaf3's port 
leaf3的端口配置完成 
Generating leaf3's ai network config
The ai network config finished.
 
正在生成配置文件
100%[#########################]
Configuring leaf4's port 
leaf4的端口配置完成 
Generating leaf4's ai network config
The ai network config finished.
 
正在生成配置文件
100%[#########################]
show running config
是否需要查看生成的配置(Y|N):

PPD可以独立运行在服务器上，也可以代码形式被集成到第三方管理软件中，利用AID工具来生成最终配置脚本，将配置呈现在统一监控面板（例如Prometheus+Grafana）进行浏览和核对。

PPD

园区网前沿实践：基于开放网络架构的云化路由设计

关注星融元

底层物理网络设计

如下图所示，区别于传统的“接入-汇聚-核心”架构，新一代云化园区比照数据中心网络采用 Leaf-Spine 的 Clos 架构组网，Leaf 和 Spine 层都被设计成独立的 AS 并通过 eBGP 互联，支持终端设备以 1GE 及以上端口速率接入网络。

园区底层物理网的云化升级关键是将 EVPN 和 BGP 等能力下沉到接入级交换机。目前全功能的企业级SONiC（AsterNOS）可稳定运行在园区交换机上，完全支持将此类成熟的云网技术引入园区。

由此，我们构建了足够灵活、可靠的全三层网络来承载园区日益复杂、多变的网络业务，消除了原有传统架构用于业务分区管理的二层网络，也无需引入堆叠架构。

根据实际需求，我们有时也会在 Spine 和 Leaf 之间添加二层交换机，但其唯一功能是扩展端口容量，不会参与路由、EVPN 或 BGP 操作。

这种设计对大型园区的好处十分明显，例如杜绝内网广播风暴，降低网络架构复杂度（一键下发配置模板做到”全自动BGP”）；同时也具备一定的内生安全性（例如隔绝了依赖广播的病毒攻击等等），以及高度适应企业数字化转型的云原生特性。

终端IP地址规划和分配

回归到路由设计的话题，构建全三层路由网络的重难点是合理规划和分配 IP 地址。

我们知道，传统园区网络设计中不可避免的一大挑战来自交换机的表项资源，其大小决定了园区接入规模的上限，这也是为什么曾经我们需要大型机框作为核心路由来支持超大型网络。

而在上述的云化园区网里，我们并未引入任何昂贵的机框设备，那么仅凭全盒式的开放交换机设备是如何做到的呢？

简言之，通过聚合路由技术和合理的IP分配策略，我们可以有效节约路由表项资源，并结合多级的 Leaf-Spine 架构将网络平滑扩容到30K+终端接入规模。

两种不同类型的终端路由信息

园区网络中的终端大体可分为漫游和非漫游两种类型。

对于非漫游终端，我们可以使用聚合路由，即将多个终端设备 IP 地址聚合到一个子网路由，以减少交换机表项空间占用。

聚合路由的正常运行需要与 IP 地址分配策略紧密结合，而借助 DHCP Option 82，我们可以确保同一 Leaf 交换机下的所有非漫游终端设备聚合在同一子网内。

DHCP Option 82 即“中继代理信息选项”。园区Leaf交换机作为 DHCP 中继代理设备，会在客户端发起的DHCP请求报文中添加 Option 82 字段，将 DHCP 客户端的位置信息附加进去提供给DHCP 服务器，后者利用该字段信息为主机分配合适的IP地址和其他配置信息；中继代理设备会在将DHCP回复转发给客户端之前删除该字段。

对于漫游终端不会使用聚合路由，而是保留其原有的 IP 地址。即使终端漫游到不同的 Leaf 交换机，也将一直使用原有的主机路由信息接入网络。

Spine 层交换机负责正确维护这些漫游终端的主机路由信息，整网范围皆为“云漫游”域。这种新架构下我们无需建立CAPWAP隧道让流量绕行转发，配置管理上也做到了高度简化。

相关阅读：下一代园区网络，“分布式网关”实现更高效的无线漫游！

以上过程中所有二层数据帧都将被转发并转换为三层报文，ARP 侦听机制在其中起到了至关重要的作用。

ARP 侦听机制

终端发起 ARP 请求时，其接入的Leaf 交换机会通过 ARP 侦听机制生成 ARP 和 IP 地址之间的映射（将ARP表项转换为32位主机路由），将这些信息同步到直连的 Spine 设备上，并通过BGP重分发学到的主机路由使其在 Spine 层传播，但不会再发送到其他 Leaf 交换机上。

最终，各类主机的路由信息会以如下方式逐级汇总：

Leaf 交换机保存本地连接的主机路由和通往上层 Spine 交换机的默认路由
Spine 层交换机维护整个网络的路由，包括整网所有终端的主机路由信息
更上层的网络设备（如FW）路由表存放非漫游终端的聚合路由和漫游终端的主机路由

如此一来，无论是 MAC 地址表还是主机路由表，Leaf 交换机都只存储本地路由和默认路由，只有高性能的 Spine 层交换机维护全局路由信息，从而给后续网络扩容留有充足空间。

BGP 路由快速收敛

我们的整个网络采用 BGP 路由协议，利用 BFD （双向转发检测）实现快速路由收敛。BGP 使用 BFD 监控链路和节点状态，可在单链路或单节点故障时实现快速恢复，故障检测时间约为 150 毫秒，性能可调。发生故障时，流量会自动切换到备用交换机，确保快速恢复端到端服务。

EVPN Multihoming 技术确保终端高可靠接入

为了保证终端访问的可靠性，接入园区网络的服务器可采用 EVPN-Multihoming 技术，将其连接到两个 Leaf 交换机上作为主-主备份的双上行接入；对于无线AP也可以采用类似的设计，将它们连接到两个 Leaf 交换机，以确保在单链路故障时业务不中断。

P4 软件开发环境（Intel P4 Studio SDE）现已开源

关注星融元

Intel P4 Studio 软件开发环境 (SDE)是一套支持用户使用P4语言对P4可编程以太网交换机数据面进行编程的软件包，编译好的数据面程序可以运行在Tofino芯片上或是SDE中的模拟芯片上。该软件包还包含用于构建和安装 SDE 的脚本。

P4 SDE 现已开源

据P4社区网站（P4.org）近期发布的公告 (https://p4.org/intels-tofino-p4-software-is-now-open-source/)，原先需由用户向Intel申请使用许可的P4软件包现已开源（仿真模型尚在开源准备过程中）。

开发人员现在可以访问整个源代码，该代码组织在 p4lang 结构内的两个主要存储库中。p4c 存储库现在还包含 Tofino 编译器组件，其子文件夹包括 arch、common、control-plane、driver、midend、test 和 docs。Tofino后端与 bmv2、ubpf 和其他后端处于同一层次。新推出的open-p4studio 存储库包含 Tofino P4 Studio 的所有其他组件，例如 bf_driver、bf_diags、bf_utils 和 tofino_model。

项目地址：https://github.com/p4lang/open-p4studio

仍需从 Intel 获取的内容

P4 Insight GUI ：用于可视化 P4 程序编译后所使用的硬件资源。（社区正在与Intel沟通，或可将其作为开源发布）
部分 bfrt_python 代码：当前开源项目已包含了一些，但目前尚不清楚是否已包含使用它所需的所有部分。
BSP（板级支持包）：使 SDE 能够访问和配置物理板上的硬件，例如配置物理以太网端口并管理相关组件，如中继器、重定时器、SFP、QSFP 等。
ASIC 专用 Serdes 驱动程序：这些对于运行仿真模型不是必需的，但对于在真实 ASIC 上运行代码至关重要。

星融元X-T系列P4硬件平台

X-T系列：全开放、可编程、高性能的P4可编程硬件平台

X-T系列可编程交换机的主图

当前星融元X-T系列硬件平台规格包含：

48 x 25GE，8 x 100GE/40GE
32 x 100GE/40GE, 2 x 25GE
64 x 100GE/40GE, 2 x 25GE
32 x 400GE, 2 x 25GE
X-T 部分款型支持搭载2块DPU架构的ARM算力扣卡，从而实现x86（SONiC/ONIE/ONL）+P4（可编程高性能硬转发）+ DPU（自定义软转发）的全栈可编程硬件架构，满足高校、科研院所和产业界承载各类创新应用所需。

相关阅读：连接SONiC与P4交换芯片的SDE

P4可编程硬件平台产品开箱图
星融元将以稳定的产品供应支持和稳步推进中的高性能替代方案，为客户业务运行的连续性保驾护航。

RoCE与IB对比分析（二）：功能应用篇

近期文章

在上一篇中，我们对RoCE、IB的协议栈层级进行了详细的对比分析，二者本质没有不同，但基于实际应用的考量，RoCE在开放性、成本方面更胜一筹。本文我们将继续分析RoCE和IB在拥塞控制、QoS、ECMP三个关键功能中的性能表现。

拥塞控制

拥塞控制即用来减少丢包或者拥塞传播，是传输层的主要功能，但需要借助链路层和网络层的帮助。

RoCEv2 的拥塞控制机制

RoCEv2通过链路层PFC、网络层ECN、传输层DCQCN三者协同配合，实现更高效的拥塞管理，可见，RoCEv2虽然使用了IB的传输层协议，但在拥塞控制方面有所不同。

基于优先级的流量控制（PFC）

PFC在RoCEv2中被用于创建无损的以太网环境，确保RDMA流量不因链路层拥塞而丢失。核心原理是下游控制上游某个通道开启和停止发送数据包，控制方式是发送PFC Pause和Resume帧，触发时机是根据下游SW的ingress的队列数量是否达到某个阈值。

而PFC允许在一条以太网链路上创建8个虚拟通道，并为每条虚拟通道指定一个优先等级，允许单独暂停和重启其中任意一条虚拟通道，同时允许其它虚拟通道的流量无中断通过。这一方法使网络能够为单个虚拟链路创建无丢包类别的服务，使其能够与同一接口上的其它流量类型共存。

如图1所示，DeviceA发送接口分成了8个优先级队列，DeviceB接收接口有8个接收缓存（buffer），两者一一对应（报文优先级和接口队列存在着一一对应的映射关系），形成了网络中 8 个虚拟化通道，缓存大小不同使得各队列有不同的数据缓存能力。

当DeviceB的接口上某个接收缓存产生拥塞时，超过一定阈值（可设定为端口队列缓存的 1/2、3/4 等比例），DeviceB即向数据进入的方向（上游设备DeviceA）发送反压信号“STOP”，如图中第7个队列。

DeviceA接收到反压信号，会根据反压信号指示停止发送对应优先级队列的报文，并将数据存储在本地接口缓存。如果DeviceA本地接口缓存消耗超过阈值，则继续向上游反压，如此一级级反压，直到网络终端设备，从而消除网络节点因拥塞造成的丢包。

显式拥塞通知（ECN）

ECN（Explicit Congestion Notification）是一种IP头部用于的拥塞控制的标记位，允许网络设备在发生拥塞时标记数据包，而不是丢弃它们。

RoCEv2利用ECN位来标记发生拥塞的数据包，接收方在检测到ECN标记后，发送CNP（Congestion Notification Packet）给发送方，后者通过拥塞控制算法（如DCQCN）调整发送速率。

数据中心量化拥塞通知（DCQCN）

DCQCN（Data Center Quantized Congestion Notification）是一种适用于RoCEv2的拥塞控制算法，是数据中心TCP(DCTCP)和量化通知算法的结合，最初在SIGCOMM’15论文”Congestion control for large scale RDMA deployments”中提出。DC-QCN算法依赖于交换机端的ECN标记。结合了ECN和速率限制机制，工作在传输层。当接收方检测到ECN标记时，触发CNP发送给发送方，发送方根据反馈调整发送速率，从而缓解拥塞。

综上，PFC、ECN、DCQCN分别工作在链路层、网络层和传输层。在RoCEv2中，它们被组合使用，以实现更高效的拥塞管理。

PFC：防止数据包在链路层被丢弃，提供无损传输，解决一段链路的问题。
ECN/DCQCN：发送方根据拥塞标记主动调整发送速率，减轻网络负载。解决端到端网络的问题。

InfiniBand 的拥塞控制机制

InfiniBand 的拥塞控制机制可分为三个主要部分：

基于信用的流量控制

IB在链路层实现基于信用的流量控制（Credit-based Flow Control），该机制实现了无损传输，是 InfiniBand 高性能的基础。发送方根据接收方提供的信用（表示可用缓冲区空间）来控制数据包的发送，接收方在处理完数据包后发送信用给发送方，以允许继续发送新的数据包，从而避免网络拥塞和数据包丢失。

如下图所示，发送方当前可用信用值2，通过流水线传输（pipelined transfer）连续向接收方发送数据包，但此时接收方缓冲区已满，发送方会暂停发送新的数据包，直到接收方发送新的信用。

ECN机制

当网络中的交换机或其他设备检测到拥塞时，会在数据包的 IP 头中标记 ECN（Explicit Congestion Notification）。接收方的 CA（Channel Adapter）接收到带有 ECN 标记的数据包后，会生成拥塞通知包（CNP），并将其反馈给发送方，通知其网络出现拥塞需要降低传输速率。

端到端拥塞控制

发送方的 CA 在收到 CNP 后，根据 InfiniBand 拥塞控制算法调整发送速率。发送方首先降低数据发送速率以缓解拥塞，之后逐步恢复发送速率，直到再次检测到拥塞信号。这个动态调整过程帮助维持网络的稳定性和高效性。IBA没有具体定义特定的拥塞控制算法，通常由厂商定制实现。（HCA，Host Channel Adapters，or IB NIC）

RoCEv2与IB拥塞控制机制比较

两者的拥塞控制机制比较如下：

可见，RoCE与IB的拥塞控制机制基本相同，区别在于IB的拥塞控制机制集成度较高，通常由单个厂家提供从网卡到交换机的全套产品，由于厂商锁定，价格高昂。而RoCE的拥塞控制机制基于开放协议，可以由不同厂家的网卡和交换机来配合完成。

随着大规模AI训练和推理集群的扩展，集合通信流量导致了日益严重的拥塞控制问题，由此出现了一些新的拥塞控制技术，如基于In-band Network Telemetry (INT)的HPCC（High Precision Congestion Control），即通过精确的网络遥测来控制流量，以及基于Clear-to-Send (CTS)的Receiver-driven traffic admission，即通过接收方的流量准入控制来管理网络拥塞等。这些新技术在开放的以太网/IP网络上更容易实现。

QoS

在RDMA网络中，不光RDMA流量要获得优先保证。一些控制报文，如CNP、INT、CTS，也需要特别对待，以便将这些控制信号无损、优先的传输。

RoCEv2的QoS

在链路层，RoCEv2采用ETS机制，为不同的流量分配不同的优先级，为每个优先级提供带宽保证。

在网络层，RoCEv2则使用DSCP，结合PQ、WFQ等队列机制，为不同的流量分配不同的优先级和带宽，实现更精细的QoS。

InfiniBand的QoS

在链路层，IB采用SL、VL及它们之间的映射机制，将高优先级的流量分配到专门的VL，优先传输。虽然VL仲裁表 (VL Arbitration Table)能够通过分配不同的权重来影响和控制带宽的分配，但这种方式不能保证每个VL的带宽。

在网络层，IB的GRH支持8个bit的Traffic Class字段，用于在跨子网的时候提供不同的优先级，但同样无法保证带宽。

由此可见，RoCE能够为不同的流量类型提供更精细的QoS 保证和带宽控制，而 InfiniBand 只能提供优先级调度，而非带宽的明确保障。

ECMP

RoCE的ECMP

数据中心IP网络为了高可靠和可扩展性，通常采用Spine-Leaf等网络架构。它们通常在一对RoCE网卡之间提供了多条等价路径，为了实现负载平衡和提高网络拓扑的利用率，采用ECMP（Equal Cost Multiple Paths）技术。对于给定的数据包，RoCE交换机使用某些数据包字段上的哈希（Hash）值在可能的多条等价路径中进行选择。由于可靠传输的要求，同一个RDMA操作应当保持在同一个路径中，以避免由于不同路径造成的乱序问题。

在IP网络中，BGP/OSPF等协议均可以在任意拓扑上计算出等价路径，然后由交换机数据平面基于IP/UDP/TCP等头部字段（如五元组）计算哈希值并轮流转发到不同路径上。在RoCE网络中，为了进一步细分RDMA操作，可以进一步识别BTH头部中的目的QP信息，从而实施更细粒度的ECMP。

InfiniBand的ECMP

在控制平面，IB的路由基于子网管理器，在拓扑发现的基础上实现ECMP，但由于集中式的子网管理器与网络设备分离，可能无法及时感知网络拓扑的变化，进而实现动态的负载均衡。

在数据平面，IB的ECMP同样基于哈希计算和轮转机制。

总结

在拥塞控制方面，RoCE结合了PFC, ECN和DCQCN提供了一套开放的方案，IB则拥有基于Credit的一套高度集成的方案，但在应对大规模集合通信流量时均有所不足。
在QoS方面，RoCE可以实现每个优先级的带宽保证，而IB仅能实现高等级的优先转发。
在ECMP方面，两者均实现了基于Hash的负载分担。

总结来看，IB具备已验证的高性能和低延时优势，RoCEv2则在互操作性、开放性、成本效益方面更胜一筹，且从市场占比及认可度来看，RoCEv2逐渐比肩IB；但不得不承认的是，RoCE和IB在应对大规模AI训练和推理中高带宽、突发式和广播型的集合通信流量时，均有所不足，而RoCE基于其广泛的以太网生态系统，能够更快速地拥抱新技术新协议，其潜力和可塑性更胜一筹，未来有望在网络格局中扮演更重要的角色。

星融元提供一系列基于RoCE的开放网络产品与解决方案：

10G-800G的全场景互联：星融元CX-N数据中心交换机的单机转发时延（400ns）低至业界平均水平的1/4~1/5；采用BGP-EVPN、VXLAN、MC-LAG等技术构建可靠的大二层网络满足生产网络稳定性需求。
搭载开放网络操作系统：星融元AsterNOS以SONiC为内核、依托容器化的系统架构，并提供RESTful API支持第三方应用快速集成，或对接上层管理调度平台，例如OpenStack，K8s等。
EasyRoCE极简运维：支持无损网络一键部署，Prometheus + Grafana 可视化监控大屏配合专用命令行，问题快速定位解决。

参考文档：

https://zhuanlan.zhihu.com/p/643007675

https://blog.csdn.net/essencelite/article/details/135492115

https://support.huawei.com/enterprise/zh/doc/EDOC1100075566/d1e17776

https://www.researchgate.net/publication/4195833_Congestion_Control_in_InfiniBand_Networks

返回资源中心

近期文章

在 AI 算力建设中， RDMA 技术是支持高吞吐、低延迟网络通信的关键。目前，RDMA技术主要通过两种方案实现：Infiniband和RoCE（基于RDMA的以太网技术，以下简称为RoCE）。

RoCE与IB网络架构概述

RoCE和InfiniBand均是InfiniBand Trade Association（IBTA）定义的网络协议栈，其中Infiniband是一种专为RDMA设计的高性能网络，它从硬件层面确保了数据传输的可靠性，为了进一步发挥RDMA的优势，IBTA在2010年定义了RoCE。RoCE则是Infiniband与以太网技术的融合，它在保持Infiniband核心优势的同时，实现了与现有以太网基础设施的兼容性。具体来说，RoCE在链路层和网络层与Infiniband有所不同，但在传输层和RDMA协议方面，RoCE继承了Infiniband的精髓。

从市场应用占比来看，2000年，IB架构规范的1.0版本正式发布，2015年，InfiniBand技术在TOP500榜单中的占比首次超过了50%，但据最新统计，在全球TOP500的超级计算机中，RoCE和IB的占比相当。以计算机数量计算，IB占比为47.8%，RoCE占比为39%；而以端口带宽总量计算，IB占比为39.2%，RoCE为48.5%。

图1 超级计算机 500 强中 RoCE 和 InfiniBand 的利用率

图2 超级计算机 500 强中 RoCE 和 InfiniBand 的利用率

RoCE与IB报文格式对比

RoCE报文格式下图所示：

其中，RoCEv1使用了IB的全局路由头（Global Routing Header），IB BTH是IB的基本传输头（Base Transport Header），ICRC是对InfiniBand层不变字段进行校验的循环冗余校验码，FCS是以太网链路层的校验序列码。

RoCEv2中添加了IP Header和UDP Headrer，引入IP解决了扩展性问题。

图3 RoCE数据包格式

IB报文格式如下图所示：

在一个子网（Subnet）内部，只有Local Routing Header（LRH），对应OSI的链路层。在子网之间，还有一个Global Routing Header（GRH），对应OSI的网络层。在Routing Header之上，是Transport Header，提供端到端的传输服务，包括数据的分段、重组、确认和流量控制。接着就是报文的数据部分，包含应用层数据或上层协议信息。最后是不变字段和可变字段的循环冗余校验码（CRC），用于检测报文在传输过程中的错误。

图4 IB数据包格式

RoCE与IB网络层级对比

IB与RoCE协议栈在传输层以上是相同的，在链路层与网络层有所区别：

RoCEv1中，以太网替代了IB的链路层(交换机需要支持PFC等流控技术，在物理层保证可靠传输)，然而，由于RoCEv1中使用的是L2 Ethernet网络，依赖于以太网的MAC地址和VLAN标签进行通信，而不涉及网络层（IP层，即OSI模型的第三层）的路由功能，因此，RoCE v1数据包不能实现跨不同的IP子网传输，只能在同一广播域或L2子网内进行传输。

RoCEv2在RoCEv1的基础上，融合以太网网络层，IP又替代了IB的网络层，因此也称为IP routable RoCE，使得RoCE v2协议数据包可以在第3层进行路由，可扩展性更优。

图5 RoCE和IB协议栈对比

物理层

RoCE的物理层基于标准以太网，使用PAM4 (Pulse Amplitude Modulation 4)编码方式和64/66b编码。支持铜缆和光纤，接口有 SFP+、QSFP+ 、OSFP等。支持速率从 10GbE到800GbE。
IB的物理层则是专有的，采用更传统的NRZ(Non-Return-to-Zero)调制技术和64/66b编码。支持铜缆和光纤，接口通常为 QSFP、OSFP，支持速率从 10Gbps 到 400Gbps，并可以通过多通道的组合实现更高的总带宽（如 800Gbps）。

对比来看，IB采用的NRZ每个符号只有两个电平，而RoCE采用的PAM4使用 4个不同的电压电平来表示数据，也就是说RZ信号中，每个周期传输1bit的逻辑信息，PAM4每个周期可以传输2bit的信息，因此在相同的波特率下，PAM4的数据传输速率是NRZ的两倍，具有更高的带宽效率，在支持更高速率（如1.6T，3.2T）时具有潜在的优势。目前，六进制（PAM6）和八进制（PAM8）调制技术正处于实验和测试阶段，而InfiniBand（IB）也在逐渐从传统的NRZ（非归零）调制技术转型至PAM4，例如，400G光模块现已能够同时支持IB和以太网标准。相比之下，以太网在调制技术的应用上展现出更为迅速的发展势头。

图6 频域中 PAM4 与 NRZ 信号的频率内容

链路层

RoCE的链路层是标准以太网，为了在传统以太网上实现无损传输，引入了PFC（Priority-based Flow Control），由IEEE 802.1Qbb标准定义，当交换机的某个优先级队列的缓冲区接近满载时，会发送 PFC帧给上游设备，通知其暂停发送该优先级的流量，防止缓冲区溢出，避免数据包在链路层被丢弃。

此外，以太网引入了ETS(Enhanced Transmission Selection) ，它是DCB (Data Center Bridging)标准的一部分，由 IEEE 802.1Qaz 规范定义。ETS 将流量分配到不同的队列，为每个队列分配一个权重，控制每个流量队列能够使用的带宽百分比，保证高优先级的流量，如RDMA等，获得足够的带宽资源。

IB的链路层是专有的，包头称为Local Routing Header，如图所示。

其中，VL是虚拟通道 (Virtual Lanes)，SL是服务等级 (Service Level)，Source/Destination Local Identifier则是链路层地址。

它内建了对无损传输的支持，这是因为它实现了基于信用的流量控制（Credit-based Flow Control）。接收方在每个链路上提供一个信用值，表示其缓冲区能够接收的数据量。发送方根据此信用值发送数据，确保不会超过接收方的处理能力，从而避免缓冲区溢出和数据丢失。

IB链路层结合SL和VL实现QoS，SL共有16个业务等级，用于标识流量优先级，每个数据包可以根据业务需求被分配到不同的服务等级，通过SL-VL映射，将不同优先级的流量分配到不同的VL上，从而确保高优先级流量（如RDMA）不会因低优先级流量的拥塞而受到影响。

对比而言，IB的链路层由专用硬件实现，效率较高，具有超低时延的特点，而RoCE基于标准以太网硬件，时延稍长。但由于两者都达到了100ns级别，而根据UEC的最新定义，在传输RDMA时，端到端性能要求通常为10μs左右，它们的差别不大。

网络层

RoCE的网络层使用IP，可以是IPv4或IPv6。它采用成熟的BGP/OSPF等路由协议，适应任何网络拓扑并具有快速自愈能力；支持ECN（EXPLICIT CONGESTION NOTIFICATION ），用于端到端的拥塞控制；支持DSCP，替代IB的TRAFFIC CLASS，用于实现QoS。
IB的网络层借鉴了IPv6。Global Routing Header的格式与IPv6完全相同，具有128bit地址，只是字段命名不同。但它没有定义路由协议，而是采用子网管理器（Subnet Manager）来处理路由问题，这是一种集中式的服务器，每个网卡端口和交换芯片都通过由SM分配的唯一身份标识（Local ID，LID）进行识别，不具备互操作性，因此很难快速响应网络的变化。

显然，IB网络层是专有的、集中管理的，而RoCE的网络层基于标准以太网和UDP，在互联网数以十亿计算的设备上使用，技术成熟，并在持续发展中；引入SRv6等技术后，IP进一步增强了流量工程、业务链、灵活性和可扩展性等能力，非常适合组建超大规模可自愈的RDMA网络。

传输层

RoCE

RoCE采用了IB的传输层。RoCEv2协议栈虽然包含UDP，但它仅借用了UDP的封装格式，传输层的连接、重传、拥塞控制等功能由IB传输层完成。UDP层的目的端口固定分配给RDMA协议，源端口则是动态分配的，但在一个连接过程中保持固定。这样可以让网络设备通过源端口区分不同的RDMA数据流。

InfiniBand

IB的传输层采用了模块化的灵活设计，通常包含一个基本传输头BTH（Base Transport Header）和若干个（0到多个）扩展的传输头（Extended Transport Header）。

BTH（Base Transport Header）是InfiniBand传输层头部的一部分。它是InfiniBand网络协议中L4传输层的基本头部，用于描述数据包传输的控制信息。格式如下，

关键信息有：

OpCode，操作码。由8个bit组成。前3个bit代表传输服务类型，如可靠连接/不可靠连接/可靠数据报/不可靠数据报/RAW数据报等。后5个bit代表操作类型，如SEND/READ/WRITE/ACK等。
Destination QP，目的QP号（Queue Pair Number）。与TCP端口号类似，代表了RDMA连接（称为Channel）的目的端。但与TCP端口不同的是，QP由Send/Recv两个队列组成，但用同一个号码标识。
Packet Sequence Number，包序列号，简称PSN。与TCP序列号类似，用于检查数据包的传输顺序。
Partition Key，分区键。可以将一个RDMA网络分为多个逻辑分区。在RoCE中可采用新一代的VxLAN等技术替代。
ECN，显示拥塞通知。用于拥塞控制，包含Forward和Backward两个bit，分别表示在发送和返回路径上遇到了拥塞，在RoCE中被IP头部的ECN替代。

BTH帮助接收方理解该包属于哪个连接以及如何处理接收到的包，包括验证包的顺序、识别操作类型等。

在BTH之后，还有RDMA Extended Transport Header，它包含远端的虚拟地址、密钥和数据长度等信息。格式如下，

其中：

VirtualAddress，虚拟地址，代表目的端内存地址。
DMA Length，直接内存访问长度，是要读写的数据长度，以字节为单位。
Remote Key，用于访问远端内存的密钥。

IB传输层通常由RDMA网卡硬件实现，在IB中称为Channel Adapter（CA），在RoCE中称为RoCE网卡，从而提升RDMA传输的性能。在一些高级的RoCE交换机中，还可以感知IB传输层信息并对RDMA数据流做加速处理。

RDMA操作

借助RDMA扩展头，RoCE和IB的传输层对远程主机的地址进行直接的读写操作（Operation）。

RDMA写操作 (RDMA Write)

在 QP（Queue Pair） 建立后可以直接进行，允许发送方直接写入接收方的内存，不需要接收方的CPU参与，并且无需请求。这种操作方式是 RDMA 高性能和低延迟的核心特性之一。

RDMA Write 是一种单向操作。写入方在写入数据后不需要等待接收方的响应，这种操作与常规的 Send/Receive 模式不同，不需要接收方预先准备接收队列。

RDMA读操作 (RDMA Read)

允许发送方从接收方的内存中读取数据，不需要接收方CPU参与。目标地址和数据大小在发送方指定。如下图所示，在一次请求后，可以通过多次响应返回数据,提高了数据传输效率。

图7 RDMA 读操作

发送/接收操作 (Send/Receive)

这是传统的消息传递操作，数据从发送方传递到接收方的接收队列中，需要接收方预先准备接收队列。

在RoCE中，RDMA跳过操作系统的TCP/IP协议栈，直接与RoCE网卡上的传输层连接，借助DMA机制，直接访问本地和远端内存，实现了零拷贝传输，大幅度提升了性能。

同样，IB网卡在硬件上实现RDMA操作，零拷贝传输，两者的性能相当。

当然，无论在RoCE还是IB中，RDMA 连接的初始化、资源分配、队列对 (QP) 管理、以及一些控制路径上的操作（如连接建立、内存注册等）仍然依赖于软件栈。

应用层

RDMA在数据中心、HPC集群、超级计算机中获得了广泛的应用，用于承载AI训练、推理、分布式存储等数据中心内部的关键业务。

例如，在AI训练/推理时， xCCL或者MPI使用RDMA实现点对点和集合通信；在分布式存储时，NVMEoF, Ceph使用RDMA对网络存储器进行读写操作。

网络层级对比小结

在物理层，RoCE和IB都支持800G，但PAM4相比NRZ具有更强的升级潜力，以太网成本也低于IB，RoCE更胜一筹。
在链路层，两者均实现了无损传输，RoCE的ETS能够为不同优先的流量提供带宽保证，且RoCE和IB的时延均达到了100ns级别，在实际应用中差不大。
在网络层，RoCE借助IP的成熟的持续发展，更能适应大规模网络。
传输层及以上，RoCE和IB使用同样的协议，没有区别。

RoCE与IB的较量，究竟谁更胜一筹

总的来说，RoCE和InfiniBand都由IBTA定义，没有本质的不同。RoCE实际上是将成熟的IB传输层和RDMA移植到了同样成熟的以太网和IP网络上，是一种强强联合，在保持高性能的同时，降低了RDMA网络的成本，能够适应更大规模的网络。

根据亚马逊的高级首席工程师Brian Barrett，AWS之所以放弃IB方案，主要是因为：“云数据中心很多时候是要满足资源调度和共享等一系列弹性部署的需求，专用的IB网络构建的集群如同在汪洋大海中的孤岛”。

出于AI算力建设对于成本和开放性的考量，越来越多的公司已经在使用以太网交换机用于大规模AI算力中心，例如当前全球最大的AI超级集群（xAI Colossus，造价数亿美元、配备十万片NVIDIA H100 GPU），便是采用64 x 800G，51.2T以太网方案构建集群网络。

CX864E-N是星融元专为AI训练、推理、高性能计算（HPC）等场景设计的一款行业内顶尖规格的RoCE交换机，拥有51.2T的超大交换容量，助力客户用更优的投入成本，实现与IB网络相当的性能。

8 x CX864E 支持 512 个 GPU 互连，每个端口速度为 400G
192 x CX864E 支持 8192 GPU 互连，每个端口速度为 400G
192 x CX864E 支持 128k ML/AI 节点互连，每端口速度为 100G

参考文献

https://mp.weixin.qq.com/s/PZ_Q5rS5a5YJlczao9SMXw

https://support.huawei.com/enterprise/zh/doc/EDOC1100203347

https://community.fs.com/cn/article/roce-technology-in-high-performance-computing.html

https://ascentoptics.com/blog/cn/understanding-infiniband-a-comprehensive-guide/

https://blog.csdn.net/jkh920184196/article/details/141461235

https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/

返回资源中心

最新动态

一文梳理：如何构建并优化AI智算中心？

关注星融元

目前最常见的AI算力中心部署的GPU集群大小为 2048、1024、512 和 256，且部署成本随 GPU 数量线性增长。本文将以相对折中的1024 GPU卡（H100）的规模为例展开分析。

01 计算节点的选型

计算节点是AI算力中心的建设报价中最昂贵的部分，一开始拿到的 HGX H100 默认物料清单（BoM）往往使用的是顶级配置。不同于 DGX 是 NVIDIA 的系统品牌，HGX 作为 NVIDIA 授权平台允许合作伙伴构建定制的GPU系统。那么，根据业务实际所需，我们可从以下几个方面尝试优化成本。

组件和服务	数量
接近顶级性能的英特尔 Emerald Rapids 处理器	2
8 H100 +4 NVSwitch HGX Baseboard + 8 SXM5 Heatsinks	1
CPU RAM (per Gbyte)	2048
Storage (per TByte)	30
后端 ConnectX-7 NIC	80
Bluefield-3 DPU	2
主板	1
机箱（机箱、布线等）	1
冷却（CPU 散热器 + 风扇）	1
电源	8
组装&测试	1
OEM 增值/附加费用	1
合计费用（$)	270000+

1、选择中端CPU

LLM 训练是一项 GPU 高度密集型工作负载，对 CPU 工作负载要求低。CPU 运行是一些简单任务，例如 PyTorch ，控制 GPU 的其他进程、初始化网络和存储调用，或者运行虚拟机管理程序等。Intel CPU 相对更容易实现正确的 NCCL 性能和虚拟化，而且整体错误更少。如果是采用AMD CPU ，则要用 NCCL_IB_PCI_RELAXED_ORDERING 并尝试不同的 NUMA NPS 设置来调优。

2、 RAM 降级到 1 TB

RAM 同样是计算节点中相对昂贵的部分。许多标准产品都具有 2TB 的 CPU DDR 5 RAM，但常规的AI工作负载根本不受 CPU RAM 限制，可以考虑减配。

3、删除 Bluefield-3 或选择平替

Bluefield-3 DPU最初是为传统 CPU 云开发的，卖点在于卸载CPU负载，让CPU用于业务出租，而不是运行网络虚拟化。结合实际，奔着GPU算力而来的客户无论如何都不会需要太多 CPU 算力，使用部分 CPU 核心进行网络虚拟化是可以接受的。此外Bluefield-3 DPU 相当昂贵，使用标准 ConnectX 作为前端或采用平替的DPU智能网卡完全可满足所需。

综合考虑前述几项成本优化，我们已经可为单个服务器降低约5%的成本。在拥有 128 个计算节点的 1024 H100 集群中，这个比率背后的金额已经相当可观。

4、减少单节点网卡数量（谨慎选择）

标准物料清单中，每台 H100 计算服务器配备八个 400G CX-7() NIC，单服务器的总带宽达到 3,200Gb/s。如果只使用四块网卡，后端计算网的带宽将会减少 50%。这种调整显而易见可以节约资金，但多少会也对部分AI工作负载性能造成不利影响。

02 集群网络的选型

集群网络是继计算节点之后的第二大成本来源。本文举例的 NVIDIA H100 集群有三种不同的网络：

后端网络（计算网，InfiniBand 或 RoCEv2）用于将 GPU 之间的通信从数十个机架扩展到数千个机架。该网络可以使 InfiniBand() 或 Spectrum-X 以太网，也可以使用其他供应商的以太网。
前端网络（业务管理和存储网络）用于连接互联网、SLURM/Kubernetes() 和网络存储以加载训练数据和Checkpoint。该网络通常以每 GPU 25-50Gb/s 的速度运行，满配八卡的情况每台GPU服务器的带宽将达到 200-400Gb/s。
带外管理网络 用于重新映像操作系统、监控节点健康状况（如风扇速度、温度、功耗等）。服务器上的BMC、机柜电源、交换机、液冷装置等通常连接到此网络以监控和控制服务器和各种其他 IT 设备。

组件和服务	数量
InfiniBand 计算网
Quantum-2 IB 交换机（MQM9700）	48
Nvidia LinkX IB 400G 单端口 SR4 收发器 (MMA4Z00-NS4400)	1024
Nvidia LinkX 800G 双端口 SR8 收发器 (MMA4Z00-NS)	1536
Nvidia LinkX 400G 多模光纤	3072
前端光纤架构成本
Spectrum Ethernet Switch (SN4600)	6
Nvidia LinkX 200G QSFP56 AOC 收发器	384
Nvidia LinkX 200G 收发器	256
Nvidia LinkX 100G 多模光纤	512
带外管理网
1GbE Spectrum Ethernet Switch (SN2201)	4
RJ45 Cables	232
合计($)	490000+

1、计算网络：RoCEv2替代IB

与量大管饱的以太网解决方案相比，NVIDIA 提供的InfiniBand无疑更昂贵，但一些客户依旧笃定认为以太网性能要低得多，这主要是因为以太网需要进行必要的无损网络参数配置并且针对性调优才能发挥集合通信库的性能。

不过从对业务性能的影响角度看，目前技术背景下使用IB或是RoCEv2作为后端计算网没有并太多差异。毕竟 RoCE 实际上只是将成熟的IB传输层和RDMA移植到了同样成熟的以太网和IP网络上，这一点我们将在往后的另一篇文章来分析阐述。

大规模算力场景中用以太网替代IB组成高性能无损网络已形成业内共识，行业热点早已转向了如何更好地薅“以太网羊毛”：例如从以太网标准入手，推出下一代面向AI场景的新协议，以及一些厂商立足于现有协议标准在简化RoCE网络配置和提高可视化能力上做的创新尝试。

参阅： Easy RoCE：在SONiC交换机上一键启用无损以太网

无论是在AI训推的测试场景，还是头部云厂商已有的工程实践里，AI以太网都有了大量案例可供参考。

据统计，在全球 TOP500 的超级计算机中，RoCE和IB的占比相当。以计算机数量计算，IB 占比为 47.8%, RoCE 占比为 39%; 而以端口带宽总量计算，IB占比为 39.2%,RoCE 为 48.5%。与IB相比，我们相信有着开放生态的以太网将会得到加速发展。

目前市场上提供适用于AI场景的高性能以太网交换芯片平台主要有Broadcom Tomahawk、Marvell Teralynx和Cisco Silicon One 等，NVIDIA Spectrum 芯片仅用于Spectrum-X平台，不单独销售。以上平台都推出了51.2T，800GbE/s的尖端型号，综合来看部署数量上 Tomahawk 明显占优，转发时延性能表现 Teralynx 更胜一筹。

2、前端网络：合理降低带宽速率

NVIDIA 和一些OEM/系统集成商通常会在服务器提供 2x200GbE 前端网络连接，并使用 Spectrum Ethernet SN4600 交换机部署网络。

我们知道，这张网络仅用于进行存储和互联网调用以及传输基于 SLURM，Kubernetes 等管理调度平台的带内管理流量，并不会用于时延敏感和带宽密集型的梯度同步。每台服务器 400G 的网络连接在常规情况下将远超实际所需，其中存在一些成本压缩空间。

3、带外管理网络：选用通用的以太网交换机

NVIDIA 默认物料清单一般包括 Spectrum 1GbE 交换机，价格昂贵。带外管理网络用到的技术比较通用，选择市场上成本更优的 1G 以太网交换机完全够用。

03 计算网络的架构优化

GPU集群计算网将承载并行计算过程中产生的各类集合通信（all-reduce，all-gather 等），流量规模和性能要求与传统云网络完全不同。

参阅：揭秘AI智算中心网络流量 – 大模型训练篇

NVIDIA 推荐的网络拓扑是一个具有无阻塞连接的两层胖树网络，理论上任意节点对都应该能同时进行线速通信。但由于存在链路拥塞、不完善的自适应路由和额外跳数的带来的通信延迟，真实场景中无法达到理论最优状态，需要对其进行性能优化。

轨道优化（Rail-optimized）架构

轨道优化架构下，4台服务器的32张 GPU 卡不再是连接到 TOR 交换机，而是来自32台服务器的同卡号 GPU 连接各自的轨道交换机——即32台服务器的所有 GPU#0 都连接到 Leaf 交换机#0，所有 GPU#1 都连接到 Leaf 交换机#1，依此类推。

轨道优化网络的主要优势是减少网络拥塞。因为用于 AI 训练的 GPU 会定期并行底发送数据，通过集合通信来在不同GPU之间交换梯度并更新参数。如果来自同一服务器的所有 GPU 都连接到同一个 ToR 交换机，当它们将并行流量发送到网络，使用相同链路造成拥塞的可能性会非常高。

星融元（Asterfusion）给出的1024卡，128计算节点 Scale-out 网络方案正是基于轨道优化后的架构，其中采用了24台 CX864E-N（51.2T的单芯片盒式交换机，8台作为Spine，16台作为Leaf），产生跨节点通信的同卡号GPU之间只会相距一跳。

参阅：星融元发布 51.2T 800G 以太网交换机，赋能AI开放生态

如果追求极致的成本优化，对于一个32到128个节点的计算集群甚至可以设计只有单层轨道交换机的Rail-only网络，理论上建网成本可以节约高达75%。

确定合适的超额订阅率

轨道优化拓扑的另一个好处可以超额订阅（Oversubscription）。在网络架构设计的语境下，超额订阅指的是提供更多的下行容量；超额订阅率即下行容量（到服务器/存储）和上行带宽（到上层Spine交换机）的比值，在 Meta 的 24k H100 集群里这个比率甚至已经来到夸张的7:1。

通过设计超额订阅，我们可以通过突破无阻塞网络的限制进一步优化成本。这点之所以可行是因为 8 轨的轨道优化拓扑里，大多数流量传输发生在 pod 内部，跨 pod 流量的带宽要求相对较低。结合足够好的自适应路由能力和具备较大缓冲空间的交换机，我们可以规划一个合适的超额订阅率以减少上层Spine交换机的数量。

但值得注意的是，无论是IB还是RoCEv2，当前还没有一个完美的方案规避拥塞风险，两者应对大规模集合通信流量时均有所不足，故超额订阅不宜过于激进。（而且最好给Leaf交换机留有足够端口，以便未来 pod 间流量较大时增加spine交换机）

现阶段如果是选用基于以太网的AI网络方案我们仍推荐1：1的无阻塞网络设计。

04 NVMe 存储

物理服务器数量

为了实现高可用性，大多数存储厂商都会建议部署至少 8 台存储服务器。8 台存储服务器每台可提供 250GB/s 到 400GB/s 的存储带宽，足以满足在 1024 台 H100 上运行的 AI 工作负载。我们可以从最小可用数量开始，但需要注意在存储系统上留出足够的端口、NVMe 驱动器托架、电源和机架空间，以便后续按需扩展。

存储网络

常见的方案是构建专门的200G无损以太网作为存储网络以确保性能，存储前后端网络在物理上合一。

存储服务器也可以在后端计算网上运行——通常是将IB网卡绑定到 GPU 0来充当存储网卡。虽然存储基准测试的延迟和带宽表现很好，但在实际AI工作负载中将影响 GPU 0 的性能（IB网卡同时作为存储网卡会有流量冲突）。当存储集群中的磁盘发生故障将触发重建，会在计算网上造成大量的流量，形成更严重的拥塞。

05 带内管理

为了运行高可用的 UFM 和 CPU 管理节点，我们建议部署至少两个通用 x86 服务器，使用25GE/10GE以太网链路连接所有计算节点和管理节点，并接入外部网络。

来源：星融元（Asterfusion）

默认的NVIDIA Superpod 架构中包含了“NVIDIA AI Enterprise”或“Base Command Manager (BCM)”，其建议零售价为4,500 美元/GPU。BCM 是一个提供 AI 工作流和集群管理的软件包，这一部分软件费用可以考虑剔除后选择其他平替方案，或交由用户自定义。

此外带内管理系统还涉及到其他 IT 设备，例如防火墙、机架、PDU 等，这部分价格不会显著增加集群建设支出。

06 带外管理

带外管理系统主要是通过智慧平台管理接口（IPMI）去监视、控制和自动回报大量服务器的运作状况。IPMI可独立于操作系统外自行运作，并允许管理者在受监控的系统未开机但有接电源的情况下进行远程管理，但这种监控功能主要集中在硬件级别。

不同于带内管理，带外管理构建了单独的网络承载物理设备管理流量，不会承载业务流量。我们一般是每GPU计算节点和存储节点配置1条1 GE 链路连接IPMI和后端管理平台。

07 驱动和业务调度程序

GPU驱动程序

必要的 GPU 驱动程序有 cuda-drivers-5xx 和 fabricmanager-5xx 以及 cuda-toolkit-12-x。

Cuda-drivers-5xx 是 ubuntu/Linux 与 GPU 交互所需的内核空间驱动程序
fabricmanager-5xx 是一个负责配置节点内 NV 链路结构
Cuda-toolkit-12-x 包含所有用户空间工具和 API

网络驱动程序

MLNX_OFED

每个 GPU 服务器上都需要安装 Mellanox OpenFabrics Enterprise Distribution (MLNX_OFED) 驱动程序。此软件包是 ConnectX-7 InfiniBand NIC 的驱动程序，用于执行 RDMA（远程直接内存访问）和 OS 内核旁路。

GPU Direct RDMA

这是一个包含在 cuda-drivers-5xx 中的附加内核驱动程序，默认情况下未启用。如果没有此驱动程序，GPU 将需要先在 CPU RAM 中缓冲消息后才能发送到 NIC。

启用 GPUDirect RDMA 的命令是 sudo modprobe nvidia-peermem。

NVIDIA HPC-X

主要用于进一步优化 GPU 与 NIC 的通信。

如果没有上述软件包，GPU 只能以 80Gbit/s 的速度收发流量，启用这些软件包后点对点收发速率应可达到 391Gb/s左右。

业务调度和启动程序

绝大部分的最终用户会希望拥有一个开箱即用的调度程序，可以基于SLURM 、K8s 或者其他供应商的软件平台。从0到1手动安装并调试以上平台，对于不是专精于此的工程师至少需要花费1-2天时间，因此闲置的 GPU 资源对于客户都是实打实的支出。

08 多租户隔离

参考传统CPU云的经验，除非客户长期租用整个GPU集群，否则每个物理集群可能都会有多个并发用户，所以GPU云算力中心同样需要隔离前端以太网和计算网络，并在客户之间隔离存储。

基于以太网实现的多租户隔离和借助云管平台的自动化部署已经有大量成熟的方案。如采用InfiniBand方案，多租户网络隔离是使用分区密钥 (pKeys) 实现的：客户通过 pKeys 来获得独立的网络，相同 pKeys 的节点才能相互通信。

09 GPU的虚拟化

与传统CPU云不同的是，AI用途的GPU云租户通常会将每个 GPU 计算节点作为一个整体来租用，深入到节点内部的更细粒度的虚拟化并无绝对必要。但为了进一步提高GPU资源利用率，很多人还是会选择GPU虚拟化，目前，GPU虚拟化技术一般分为三种：软件模拟、直通独占(pGPU)、直通共享（如vGPU、MIG）。

AI算力租赁场景的虚拟化程度一般是到单卡层次，即直通独占（pGPU）——利用 PCIe 直通技术，将物理主机上的整块GPU显卡直通挂载到虚拟机上使用，原理与网卡直通类似，但这种方式需要主机支持IOMMU()。（一种内存管理单元，它将具有直接存储器访问能力的I/O总线连接至主内存。如传统的MMU一样，IOMMU将设备可见的虚拟地址映射到物理地址）

pGPU直通方式相当于虚拟机独享GPU，硬件驱动无需修改。因为没有对可支持的GPU数量做限制，也没有阉割GPU功能性，大多数功能可以在该直通模式下无修改支持。

值得一提的是，NCCL 和 NVIDIA 驱动程序在 GPU 虚拟机内运行时无法自动检测 NUMA 区域和 PCIe 拓扑，需要通过 NCCL_TOPO_FILE 变量手动传递 /etc/nccl.conf中的 NUMA 区域和 PCIe 拓扑文件，否则 NCCL 性能将仅以应有带宽的 50% 运行。

10 监控方案

监控面板

在监控方面，我们至少建议通过 Prometheus + Grafana 构建一个集中的监控面板，以便用户跟踪 GPU 温度、电源使用情况等BMC指标，XID错误，甚至将业务和网络统一监测。

计算节点的监控包括在每个 GPU 节点上安装一个 IPMI 和 DCGM Exporter，然后在管理节点上部署 Prometheus 与 GPU 上的 Exporter 通信，并将数据存储在数据库中。Grafana 连接到 Prometheus 对收集来的数据进行可视化呈现。

网络侧的监控类似，在这种场景下采用SONiC交换机的优势明显，因其软件环境本身就是开放的容器化架构，我们能以 docker 形式在交换机运行 exporter 取得所需设备状态数据，还可借助RESTful API调用网络能力集成进上层管理平台。

另外，结合带内网络遥测（INT）能力还可对RoCE网络实现亚秒级的精细监控，用以辅助网络拥塞控制。

来源：星融元提供的Prometheus + Grafana 毫秒级 RoCE 监控方案

常见错误

诊断消息（dmesg）两个常见 dmesg 消息是电缆被拔出以及 NIC 或者光收发器过热。
静默数据损坏（SDC）没有收到诊断消息等错误报告，但却输出错误的矩阵乘法结果。这些错误称为静默数据损坏 (SDC)。确定 GPU 上是否有该问题的最简单方法是使用 Nvidia DCGMI 诊断级别 4 工具 sudo dcgmi diag -r 4。该工具将捕获 95% 的最常见静默数据损坏问题。
NCCL故障 常见NCCL故障包括死锁和停滞，可能会导致训练作业暂停 30-35 分钟，而后 PyTorch 的 NCCL watchdog 会终止整个训练作业。对此可以考虑添加电力消耗监控来检查AI作业是否正常运行。更多NCCL排障请参考：https://docs.nvidia.com/deeplearning/nccl/user-guide/docs/troubleshooting.html
Infiniband UFM 的错误代码 常见如 110（符号错误）、112（链接中断）、329（链接中断）、702（端口被视为不健康）和 918（符号位错误警告）。遇到上述任何错误代码，应立即联系网络技术工程师进一步调查。

11 部署验收和日常维护

集群规模的验收测试应持续至少 3-4 周，尽可能排除早期失效期出现的节点组件故障。AI训练非常依赖网络、HBM() 和 BF16/FP16/FP8 张量核心，而目前常用的高性能计算测试工具，例如LINPACK（国际上使用最广泛的测试浮点性能的基准测试）不会大量使用网络，也不会占用太多 GPU 的 HBM 内存，而是仅使用和测试 GPU 的 FP64 核心。稳妥起见，我们建议验收测试尽量以模拟真实业务的方式展开。

NCCL-TEST

nccl-test 工具是 NVIDIA 开源的一项用于测试 NCCL 集合通信的工具，我们建议在正式运行业务之前先使用nccl-test来检测集合通信是否正常、压测集合通信速率等，看看否存在任何性能不足或下降。关于nccl-test日志的分析我们将在接下来的主题中展开。

日常维护

集群中最常见的问题包括收发器抖动、GPU掉线、GPU HBM 错误和 SDC等。大多数情况下，这些问题只需简单地启动物理服务器的硬重启，或者断电后重启即可解决。重新插拔收发器或清除光纤电缆上的灰尘也可以解决一些意外故障。更复杂的情况请交给厂商技术服务团队处理。

星融元CX102S-DPU开放智能网关-下载页面

留资下载

下载到本地

产品彩页-星融元CX102S-DPU开放智能网关

1 文件 1 MB

请登录后下载
登录

CX102S-DPU开放智能网关用户指导手册

1 文件 2 MB

请登录后下载
登录

CX102S-DPU开放智能网关-DPU操作系统安装指导-Debian

1 文件 862 KB

请登录后下载
登录

CX102S-DPU开放智能网关-DPU软件安装指导-ntopng

1 文件 1 MB

请登录后下载
登录
下载到邮箱

Name *

Email *

问题反馈：sales@asterfusion.com

云化园区

网络操作系统（SONiC）

可视交换机

开放硬件平台

标签： 技术实现

关注星融元

TIP：电信业“开源运动”领导者

01、ACC 界面概览

02、内生的资产管理能力

03、ACC带来的运维效率提升

关注星融元

为啥出错？

场景1：

场景2：

应对思路

更高效的实现方式

关注星融元

DeepSeek的优化，精细但门槛极高

回顾：AI推理集群的PD分离和流量特征

AI推理系统的 Scale-out 组网设计

Rail-only 拓扑

小规模并行推理网络拓扑

中大规模并行推理网络拓扑

关注星融元

为什么要有轨道优化？

如何配置多轨架构的智算网络？

主机侧的路由配置

交换机侧的主动路径规划

关注星融元

底层物理网络设计

终端IP地址规划和分配

两种不同类型的终端路由信息

ARP 侦听机制

BGP 路由快速收敛

EVPN Multihoming 技术确保终端高可靠接入

关注星融元

P4 SDE 现已开源

仍需从 Intel 获取的内容

星融元X-T系列P4硬件平台

近期文章

拥塞控制

RoCEv2 的拥塞控制机制

基于优先级的流量控制（PFC）

显式拥塞通知（ECN）

数据中心量化拥塞通知（DCQCN）

InfiniBand 的拥塞控制机制

基于信用的流量控制

端到端拥塞控制

RoCEv2与IB拥塞控制机制比较

QoS

ECMP

RoCE的ECMP

InfiniBand的ECMP

总结

最新动态

近期文章

RoCE与IB网络架构概述

RoCE与IB报文格式对比

RoCE与IB网络层级对比

物理层

链路层

网络层

传输层

RoCE

InfiniBand

RDMA操作

应用层

网络层级对比小结

RoCE与IB的较量，究竟谁更胜一筹

参考文献

最新动态

关注星融元

01 计算节点的选型

1、选择中端CPU

2、 RAM 降级到 1 TB

3、删除 Bluefield-3 或选择平替

4、减少单节点网卡数量（谨慎选择）

02 集群网络的选型

1、计算网络：RoCEv2替代IB

2、前端网络：合理降低带宽速率

标签：技术实现