Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

A-Lab, 站点精选

2025-06-06

关注星融元

A-Lab, 站点精选

A-Lab | 网工提效利器!面向 AI 场景的“向导式” 综合性规划工具

2025-06-06

A-Lab 是星融元服务于新一代网络运维工程师的资讯专栏,你可以在这里找到各类基于开放网络技术架构的配置指导和技术分享。访问地址:https://asterfusion.com/alab-for-netdevops/

今天我们介绍的是一套专为大规模 AI 网络环境搭建打造的综合性规划工具 EasyRoCE-AID (AI基础设施蓝图规划,AI Infrastructure Descriptor)。

它致力于为复杂的 AI 基础设施建设梳理脉络、把控全局,其核心价值在于通过系统性规划与整合,让抽象的网络架构和设备布局直观呈现,为技术人员提供清晰、精准的行动指南。


EasyRoCE Toolkit 是星融元依托开源、开放的网络架构与技术,为AI 智算、超算等场景的RoCE网络提供的一系列实用特性和小工具,如一键配置RoCE,高精度流量监控等…所有功能对签约客户免费开放。

详情访问:https://asterfusion.com/easyroce/


EasyRoCE

帮助网络架构师快速梳理智算环境的复杂需求,一站式规划参数、存储、业务管理和带外管理四张网

借助实用组网设计模板,自动计算并生成组网方案、设备互联关系和网络配置

一键导出 JSON 格式的设备互联关系数据,加速部署其他 EasyRoCE 系列工具插件,如GPU 节点内部路由规划(IRM)主动路径规划(PPD)多租户网络(MVD)以及实现与统一监控面板等(UG)相关的可视化呈现功能。

下面我们就逐步梳理一个典型智算中心基础网络的通用流程,来看 AID 工具是如何一步步引导用户完成高效且规范的部署动作。

步骤1:获取各类服务器基础信息

智算环境下的服务主要有 GPU 服务器、存储服务器、业务管理服务器三类,这一步需要手动向 AID 录入所有服务器硬件的设备名称、型号、功率、高度等等硬件信息。

服务器的网口数量和带宽规格,是后续规划网络的关键信息,另有部分信息(例如名称、高度)会作为 AID 中其他规划模块的引用对象。

步骤2:根据模板自动设计组网方案

有了上一步提供的服务器硬件信息,此时我们就可以根据集群规模大小,选择合适的“组网模板设计工具”(二层或三层,一般二层网络可满足大多数建网需求)。该设计工具本质上是从用户填写的 GPU 服务器、存储服务器、管理服务器和交换机规格信息,自动计算出每层所需的交换机数量。EasyRoCE Toolkit

EasyRoCE Toolkit

根据生成的组网方案,此时便可到AID对应位置去补充每台交换机的名称、型号、设备功率、设备高度、出厂序列号等信息。其中最大功率、设备高度等是后续规划设备分布的重要参数。

步骤3:确定机柜布局

该步骤依据设备性能特点、散热需求及数据交互逻辑,为实施规划人员制定机柜内部的最优空间分布方案提供参考。

机柜的布局信息包括机柜所在的园区、楼栋、楼层、房间、排/列、机柜编码、U#、设备名称。

点击左侧按钮展开,可以看到这排机柜的情况,其中机柜中每台设备的名称都引用于已填写的表格信息。

EasyRoCE Toolkit

步骤4:生成网络规划配置

经过上述步骤,智算环境下各个设备的互联关系也基本确定了。此时用户可运行 AID 内含的宏程序自动生成连接关系、自动填充互联 IP、服务器 Bond 口 IP、带外管理口 IP 等信息,快速完成参数网、存储网、业务管理网、带外管理网的规划配置,免去了人工计算的低效和潜在的错误风险。

EasyRoCE Toolkit

步骤5:与 EasyRoCE 工具模块对接

由AID规划配置的模块主要有,GPU Node内部路由规划器(IRM)、端到端路径规划(EPS)、主动路径规划(PPD)、多租户网络部署(MVD)等。

以主动路径规划工具(PPD)为例,我们使用 AID 工具规划交换机的设备名称、设备型号、设备角色、上行端口序号、下行端口序号、实例 ID、实例描述信息、下行 IP 列表、管理口地址、管理地址掩码、交换机的帐号密码.

其中除了实例 ID 和实例描述信息需要人为规划,其他字段都可以点击“填充设备信息”按钮完成自动填充。

EasyRoCE Toolkit

AID还可以联动基于 Prometheus+Grafana 的监控面板,辅助实现 RDMA 网络在大屏的可视化呈现功能。

参阅:一文解读开源开放生态下的RDMA网络监控实践

  • 拓扑自动呈现(TG)深度协同,依据设备互联信息,一键自动生成涵盖机柜内部、跨机柜乃至跨机房的完整网络拓扑图,精准展现设备层级关系、链路连接状态,以直观图形界面助力运维人员实时把控全网架构,迅速定位故障节点

云网扩容

  • 借助 光模块地图(TM),细致呈现光模块分布,明确各条光纤链路所用光模块状态信息,为光模块故障快速定位和提前预警提供重要参考

光模块地图

  • 联动 链路分布地图(LM),实时映射数据链路流量走向与负载分布,以动态可视化形式展现 AI 训练、推理等任务引发的流量潮汐变化,辅助优化网络资源分配,及时发现并化解拥塞风险

链路地图

更多AI智算网络技术分享,请持续关注星融元

产品与方案咨询:400-098-9811

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2