E2E Path Scheduler
EasyRoCE:端到端路径规划 (EPS)
将集合通信库运行时不对外展示的各项关键信息呈现给用户,帮助GPU集群的使用者快速定位问题,并基于此进行最佳路由规划
页面正在建设完善中,欢迎拨打400-098-9811获取最新信息
端到端路径规划
运行在集群的Master节点上,以systemd守护进程的方式在后台实时监控并解析NCCL日志信息
- 训练/推理任务的设备通信路径
- 调用的GPU设备和网卡的关联信息
- 基于相关信息自动生成推荐路由配置
- ……

通信环可视
自动解析通信链路信息,透传底层状态
路由自动生成
生成的推荐配置可自动下发
辅助运维决策
底层通信信息集中到统一面板展示