Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

标签: 产品特性价值

EasyRoCE工具上新:RDMA会话追踪和路径还原


关注星融元


基于 RoCEv2 的 RDMA 网络已经在 AI 训练、推理、NVMe-oF 存储、高性能数据库等场景中大规模落地。

然而实际运维中,RDMA 层级的通信尚处于“黑盒”状态——业务侧工程师看不到RDMA 通信在网络中的真实路径。当出现推理速度下降、链路突发拥塞、尾部时延偏高等问题,定位问题的成本极高。

现有的RDMA通信观测方式

从协议栈视角看,一条 RDMA 连接大致包含以下几个维度的信息:

  • 源/目的 IP、端口
  • QP(Queue Pair):源QPN、目的QPN
  • 连接管理(CM,Communication Manager)
  • 通信ID(Communication ID,CID)
  • 会话建立与断开阶段的交互报文

目前的端侧工具只能看到 IP 地址、QPN 等离散的信息,而 RDMA 通信会话的状态、网络转发路径是无法获悉的;现有的交换机上的观测手段也有其局限性,存在较大提升空间,例如:

  • 设备/端口 DEBUG:通过交换机的端口计数器、PFC/ECN 统计,只能看到“哪个端口有问题”,看不到“哪条 RDMA 连接经过这里”
  • 抓包/镜像:ERSPAN 等方式导出大量流量,依赖手工分析复杂
  • 高级硬件特性:基于 INT 或自定义 Telemetry 的方案,需要底层芯片支持和现网改造,成本和落地难度相对较高

在这样的背景下,星融元推出的EasyRoCE Toolkit 新增了一款 RMDA可视化工具链——RST(RDMA Session Tracer,RDMA会话追踪和路径还原),为用户提供了一种轻量且无侵入的观测手段,辅助网络工程师完成 RDMA 网络运维的优化决策。

EasyRoCE – RST 工具

EasyRoCE-RST工具的 1.0 版本,我们主要观察RDMA通信的关键点——建连阶段的控制面交互报文:CM 报文。

通过获取 CM 报文携带的 QPN、CID 等关键信息,从中解析构建出 RDMA 会话的生命周期,并将其关联到具体的交换设备和端口,最终通过多设备之间的 CID 和时间序列关联,还原出 RDMA 完整的通信路径。

CM协议

CM协议(Communication Management Protocol,通信管理协议),在本文语境下指的是一种建立于 Infiniband/RoCE 协议基础之上的建链方式,它有一套专属的报文格式、交互流程和用户接口。

CM 协议通过报文的多次往返来建立连接,类似于 TCP 协议的握手,同时也规定了断链的方式。

参考:Savir,https://zhuanlan.zhihu.com/p/494826608

RDMA会话追踪和路径还原

RST 由两大子模块组成:RFT 和 RPT。

RFT – RDMA Flow Table

RFT 以容器形态运行在每台交换机的管理系统上,主要功能包括:

  1. CM报文捕获:匹配CM管理面通信报文并上送到AsterNOS的RFT容器中;
  2. 会话解析与状态管理:解析CM交互报文抽取关键字段,构建会话状态机,记录每条会话的生命周期与状态(如:Established / Closed);
  3. 流表输出:RDMA 流表信息通过 4791 端口暴露给工程师和 RST 控制器。

RPT – RDMA Path Table

RPT 运行在独立的 RST 控制器上,负责全网设备的流表采集和实时路径还原,并将最终结果以图形化的 WEB 界面(Grafana)提供给业务侧。

RST 工具的使用

获取交换机信息

RST 工具可从EasyRoCE-AID 中自动获取交换机信息(主机名、IP地址、用户名、密码),这是正确获取各交换机上的 RDMA 流表信息的前提。

分别安装 RST 下的子模块

  1. 将 RFT 的容器镜像上传到星融元交换机操作系统 AsterNOS ,导入运行此容器
  2. 将 RPT 的代码包上传管理节点服务器上,解压运行,一键生成 Grafana 面板

此时登录到刚生成 Grafana 面板即可访问、操作 RST 工具。

RDMA

RST 工具首页

RST 工具首页可看到当前组网内的所有业务交换机的列表和功能指示开关,直观查看和修改交换机上 RFT 容器的启用和停止状态。

当设备对应的开关处于打开状态,用户可点击后方“查看”按钮,进入 RDMA 流表信息页,查看设备的流表与 RDMA 会话状态追踪。

RDMA

RDMA流表信息页

当全网设备都开启 RFT 功能,点击 RST 工具首页左上角的流量路径按钮,即可进入 RDMA 流量路径表信息页,由此看到全网的 RMDA 通信会话的转发路径。

RDMA

RDMA流量路径表信息页

EasyRoCE Toolkit

星融元EasyRoCE Toolkit更新,带来智简开放新体验

园区智网全光接入下如何实现OLT/ONU设备的统一纳管?


关注星融元


大多数传统园区全光接入网络中的接入层是割裂运行和管理的:OLT / ONU(光线路终端/光网络单元) 由 PON (无源光网络)管理系统负责,而 Wi-Fi AP 由无线网控制器管理。

网络规模较小的场景下,独立管理的弊端尚不显著,但进入到例如多校区教育机构、企业集团等大规模接入场景里,这种网络架构将会迅速放大运维复杂度:

  • AP 离线时,很难第一时间判断是供电、光纤,还是无线问题
  • 光功率下降,是否已经影响终端的 Wi-Fi 体验?
  • 运维人员需要在多个系统之间反复切换,才能拼凑完整的接入链路状态

基于 OpenWiFi 的统一接入控制面

星融元推出的新一代基于 OpenWiFi 架构的园区网络控制器 Asteria Campus Controller(ACC),提供了覆盖“光+无线”的统一控制与可视平面。

我们之前介绍的全光接入方案中采用的是 OLT Stick 作为 OLT 专用硬件的替代,去帮助用户大幅降低建设和运维成本。详情参考:“去OLT” 的新一代园区全光接入网络和组网对比

进化

该思路下,实现统一纳管的核心在于 OLT Stick 不再作为一个“外部系统”,而是被视为与 AP 同级的接入节点, 与网络中的无线AP,以及园区交换机都遵循相同的、基于 OpenWiFi 的接入、配置和状态模型。

所以,ACC 控制器除了可以统一纳管常规的交换机和无线AP之外,运维人员也可以直接看到 OLT 和 ONU 的各类状态和配置信息,例如:

  • 所有 OLT 的在线状态以及与 ONU 的连接关系
  • 每个 ONU 的光功率、上下线历史

ACC-OLT/ONU

ACC-OLT/ONU

ACC-OLT/ONU

ACC-OLT/ONU

值得说明的一点是:控制器 ACC 并不参与数据转发,其职责专注于在控制与设备运行的可视化方面,负责设备注册与生命周期管理、接入设备的状态汇聚、策略决策模板的绑定、告警与历史数据管理等;OLT / ONU 设备负责数据转发,光链路维护,执行控制器下发的策略。

这种清晰的职责划分,使系统在规模扩展时依然保持稳定与可维护性。

OLT/ONU的纳管流程:即插即用零配置

DHCP Discovery

OLT Stick 接入在交换机的光口上,向上通过标准化报文接口与控制器通信,向下通过 PON 协议管理 ONU 设备,实现两层协议的透明转换;上电后,会像一个标准接入设备一样发送 DHCP Discovery 请求

地址分配与发现控制器

控制器发出的 DHCP 响应中不仅包含 IP 地址,还会通过 DHCP Option 138字段返回控制器的地址,从而让 OLT Stick 明确知道自己需要向哪个控制器注册。

注册与持续的状态上报

OLT Stick 获取 IP 后会主动向 ACC 控制器发起注册,并建立起持续的心跳与控制通道,周期性上报在线/离线状态、光模块信息、实时与历史光功率、连接历史等,以上都不需要运维人员手动加以配置。

ACC 同时会将这些信息与 AP 状态进行关联,帮助用户判定 AP 离线是否由光功率异常引起,Wi-Fi 不稳定是否与光链路波动相关等问题。

策略配置下发和执行

完成了上线动作,此时的OLT也不再只是传统意义上的被动转发设备,而是一个可策略化、可编排的接入节点。

ACC控制器可以在一处向 OLT Stick 集中下发白名单与准入策略、QoS 与流量控制规则、配置模板绑定、运维与管理策略等等。

得到指令的 OLT Stick 负责对其下挂的 ONU 执行具体操作,例如接入控制、用户级策略执行、带宽与流量管理等。同时,OLT stick 也具备基础的事件过滤与告警收敛能力,以减少无效事件对控制器的冲击。

光网络的最终交付点 ONU 则为终端用户提供多种接入方式,执行来自 OLT 的 QoS 策略、安全规则、VLAN 划分等配置,确保用户服务质量,并且实时监测自身工作状态(光功率、温度、电压)及连接终端的信息,并上报至 OLT,最终呈现在ACC的监控面板。

典型案例:校园分支机构

该拓扑展示了采用 OLT Stick 的光接入方案在校园分支网络中的典型应用。

典型案例:校园分支机构

该网络采用 Spine-Leaf 架构,由ACC集中管理 Spine 和 Leaf 交换机、OLT stick、PON AP,Spine 与 Leaf 层之间运行 BGP。

Leaf层交换机的 SFP 端口插入 OLT Stick,将不同业务 VLAN(如 10、20、30)由以太光转换为 PON 光信号,经光纤传输至分光器(ODN)层,最终连接多所分校的AP上,实现高效、可扩展的分校无线网络接入与管理。

组网优势

  • 极简化架构:Leaf交换机直插 OLT Stick,省去传统独立 OLT 机柜,降低设备复杂度与空间占用。
  • 光纤直达:单根光纤承载一个学校的业务,直达学生宿舍的 PON AP,实现 FTTR。
  • 灵活扩展:Spine-Leaf 架构与 BGP 协议便于横向扩容,学校新增楼栋只需在 Leaf 层增加端口或 OLT Stick 即可快速接入。

运维优势

  • 集中管控:通过统一的控制器,实现各分校接入设备的远程管理,无需现场操作。
  • 业务快速部署:模板化配置交换机、OLT 与 PON AP,一键配置下发,缩短业务上线时间。
  • 故障定位直观:控制器可实时监测 OLT Stick 及光链路状态,快速定位光纤中断、VLAN错误或设备故障点。
  • 降低运维成本:简化物理层设备,减少机房空间与能耗。

拆机揭秘:异构融合的25G智能交换机,All-in-One的工程之美


关注星融元


不卖关子,今天要拆的就是它:星融元 Asterfusion CX306P-48Y

仅看外观,不过是一款机房里常见的 25G 交换机,可如果我说它还可以加装 DPU 扣卡和一套 GNSS 和 PTP 硬件,事情是不是就变得有趣起来了?

306

试想当交换机被 DPU 扣卡赋予了额外的通用算力,在常规的2、3层转发业务之外,它既可以作为路由器处理复杂路由的转发业务,或者干脆当个 Server-Switch 留给用户自由定义;而时间同步硬件又能轻松应对各种时间精度敏感的网络场景……

无论是数据中心/中大型云化园区的业务网还是出口路由,从金融交易,智能电网,到广电多媒体制播、电信 5G O-RAN 等等行业网络,好像都有其用武之地了。

这种“全能多面手”的各种模块化硬件如何设计和排布?结合不同的软件配置,又能实现哪些具体功能?

作为行业里可能是最爱拆机的交换机厂商,虽然设备还未正式在国内官宣上线,但不妨碍我们先给它里里外外拆个明明白白,让大伙儿一睹为快!

设备概览

CX306P-48Y 设备硬件架构如下,默认安装的网络操作系统为星融元自研的企业级 SONiC 发行版 AsterNOS 。

25G

设备前面板

CX306P-48Y 的前面板提供了高密度的 6 个 100G QSFP28/ 40G QSFP+ 和 48 个 25G SFP28/10G SFP+ 接口。

25G

细心的读者看硬件架构图应该已经注意到,总共 2T 的交换容量剩余的两个 100G 口并没有成为前面板上的业务接口,而是连接到了内部的 DPU 模块来支持 ASIC 和 DPU 之间的数据传输。

前面板最右侧一列从上到下分别是1个 RJ45 管理口, 1个 USB 接口和1个 Console 口用于设备的远程管理以及离线状态下的访问调试。

设备后面板

布局概览

交换机后面板从左至右分别是 3+1 的可插拔风扇、多个时间同步接口和一个冗余的 RJ45 管理网口,以及1+1的可插拔 PSU。

25G

时间同步接口

25G-PTP

该区域是 CX306P-48Y 在外观上相比市面同类设备的最大差异,此处是机器内部的 GNSS 模块向外提供的多个接口,用户可根据实际时间同步需求灵活组合使用。

  • 10MHz SMB 接口:可接入外部高精度时钟,为设备提供稳定基准频率,实现 SyncE 频率同步
  • GNSS SMA 接口:可连接外部卫星天线,接收 GNSS 信号,实现高精度定位与时间同步
  • 1PPS SMB 接口:每秒发送一个脉冲信号,与 PTP 模块协作对齐内部时钟
  • ToD(Time of Day)RJ45接口:提供标准时间信息,通常与 1PPS 配合实现内部时钟同步

ToD RJ45 右侧的带外管理网口与前面板配合实现双管理网口设计,满足客户高可靠需求。正常情况下,LNK 指示灯常亮,有数据传输时 ACT 灯闪烁。

1+1 PSU

该设备配备的双电源工作在均流模式下,可通过控制和调节各模块的输出电流,防止单个模块过载,提高系统可靠性和效率。

当单电源故障时,另一个电源可快速响应确保设备正常运行,业务不中断,同时故障电源的指示灯和网络管理界面均有相应提醒。

25G

设备内部

打开机器盖板,我们可以清晰看到内部空间设计相当紧凑工整,控制管理面的CPU(COMe模块)、数据面的 ASIC 和 DPU 扣卡模块均覆有散热鳍片。(为方便看到元器件细节下图已将其部分卸去)

25G

25G

ASIC

CX306P-48Y 设备采用的是 Marvell® Prestera®(Falcon)ASIC 交换芯片,该芯片最突出特点是超大规模的路由表,可支持 504K IPv4 和 252K IPv6 前缀路由,包转发速率高达 2.63Bpps ,整体性能在同类产品中处于领先地位。

25G-ASIC

COMe 模块

CX306P-48Y采用标准的 COM Express Type 7 CPU 模块,支持灵活更换,标配为Intel® Pentium® ,也可根据客户需求升级为性能更高的 CPU;COMe 配备了 256G m.2 SATA SSD存储。

25G -COMe

交换机预装的 AsterNOS 网络操作系统就运行在此,提供全面丰富的数据中心和园区网络特性如 VXLAN, BGP EVPN, EVPN-MH, MPLS, PTP 等,确保其既能胜任园区网络核心层的高可靠部署,也能在数据中心内部稳定运行。

AsterNOS

时间同步模块

CX306P-48Y 可选配 GNSS 与 PTP 时间模块,两者均采用扣卡式设计,方便用户更换升级。

PTP-25G

以上模块结合设备后面板集成的各类时间同步接口和天线配件,组成了一套完整的高精度时间同步系统,接收来自 GPS/QZSS、GLONASS、北斗、Galileo 的卫星时钟信号,为 5G O-RAN、视频/直播平台等时延敏感网络场景提供灵活的时间同步方式。

  • 当使用 GNSS 模块时,设备通过连接到GNSS的天线获取卫星信号,由 GNSS 模块,生成基准时间并传递给 PTP 模块,实现全网精准同步。
  • 不使用 GNSS 模块时,设备可通过 10 MH、1 PPS、和 ToD 时间接口接入外部时钟源,再结合 PTP 模块完成高精度时间同步。此外,在对绝对时间要求不高的场景也可仅用 10 MHz 接口实现 SyncE 频率同步。

PTP

DPU 扣卡模块

真正让 CX306P-48Y 脱颖而出的,是它独特的可扩展设计——支持选配一到两块 DPU 模块扣卡专门用于承担高性能的路由与安全任务,下一节我们将重点介绍。

DPU扣卡

此处展示的扣卡为2块 Marvell OCTEON 10 CN103 (用户也可以按需选用其他扣卡配置,如 CN96 卡),每块 DPU 可提供 100Gbps 路由转发性能,80Gbps 防火墙处理能力,80Gbps 加解密计算性能和 10K+ 的 ACL 策略。

值得一提的是,我们为每块DPU 都配备了 NVMe SSD 插槽并通过 PCIe 高速通道与 DPU 直连。DPU 可在本地独立完成流量缓存、安全策略执行、数据分析等任务,而无需经由 CPU ——正所谓“在数据面处理数据”,显著降低了业务延迟与主控 CPU 负载。

DPU 加持下的交换、路由与安全融合平台

CX306P-48Y 的每个 DPU 都可以运行独立的操作系统,加上 COMe 上运行的SONiC/AsterNOS,1U 的交换机内可运行两个或三个独立的操作系统环境,通过不同软件安装组合给到用户丰富的应用选项。

DPU 安装 AsterNOS-VPP,交换+路由二合一

AsterNOS-VPP 是星融元 Asterfusion 继数据中心和园区网络场景后,面向边缘路由场景推出的开放网络操作系统,其融合了 SONiC 强大的控制面能力以及 VPP 的高性能数据转发能力,实现新一代企业级路由器和防火墙等功能,帮助用户构建高性能、灵活性和成本效益的网络环境。

此外,AsterNOS-VPP 继承了 SONiC 广泛采用的管理面框架,其中包括ZTP、Klish 命令行,以及 RESTful API, gNMI, NetConf, Prometheus Exporter 和 uCentral 等管理面接口,带来一致的运维管理体验和自定义开发集成空间。

关于 AsterNOS-VPP 请参阅:基于SONiC+VPP的企业级开放式路由解决方案

一台仅为 1U 高度的 CX306P-48Y 设备不但可以作为常规的 25G 交换机用于 L2/L3 转发,同时也可借助内置的 DPU 实现路由器功能,而无需额外采购和部署外部路由器。

25G-dpu

  • 多 WAN 路由:根据预配置的策略,将流量分配并路由到不同运营商线路
  • 支持百万条规模 BGP 路由反射、10K+ ACL 通配五元组过滤
  • 高达 80G IPSec/WireGuard VPN ,在不可信网络中提供安全加密隧道
  • 100G 的 NAT/CGNAT/MAP-T等核心功能,公共IPv4地址共享,无状态IPv4到IPv6转换
  • 内置分层QoS(HQoS)提供精细化流量整形与优先级管理
  • 运行 PPPoE 客户端与服务器实现宽带接入,支持认证、计费及IP地址分配

DPU 安装 FusionNOS,构建网络可视化系统

用户也可以选择在 DPU 上安装 Asterfusion 自研的 FusionNOS,搭配 AsterNOS 的 NPB2.0 增强(什么是NPB2.0?),让交换机升级为交换机+网络流量分析一体机。

  • 借助 DPU 的智能加速性能,在不影响正常的L2/L3转发性能的前提下,提供 100G 线速的 NetFlow/IPFIX 输出,对接已有后端监控工具
  • 如果配置场景允许,用户还可在另一块 DPU 部署 Ntopng工具(基于Ubuntu OS),直接实现对 20K 用户规模下的实时网络流量行为分析和可视化呈现,无需额外TAP/NPB/后端分析工具。

Ubuntu os

DPU 部署控制器(ACC),一站式管理园区网络

ACC 园区网络控制器(Asteria Campus Controller)是星融元云化园区网络解决方案配套的管理平台。告别繁琐!分钟级部署+可视化掌控,星融元ACC再造园区网运维新范式

ACC 基于开源开放的 TIP OpenWiFi 框架,为园区有线网络和无线网络的统一管理提供了全面的解决方案,可以无缝管理无线 AP(包括第三方白盒 AP)和所有搭载着 AsterNOS 的 SONiC 交换机,自动执行网络配置和管理等关键任务。

  • 本地部署控制器,无需引入额外的管理服务器。
  • 一站式统一管理无线、有线和路由设备
  • 支持 OAuth 2.0 与 RADIUS 双认证机制

ACC

acc - dashboard

DPU 运行自定义系统

如果以上方案都无法满足需求,用户可直接将其视为一个高性能服务器(8核 DPU+ 2T 交换能力的独立 Linux 系统)安装 Ubuntu 或 Debian 系统,根据需求灵活安装新软件,或利用内置工具链开发自有软件,实现完全自定义的开发与部署以满足更多应用场景。

无需TAP/分流器,SONiC上跑容器,交换机秒变NPB


关注星融元


星融元推出的基于 SONiC 的 NPB 2.0 解决方案将开放的 SONiC 操作系统与容器化的NPB应用相结合,实现了更高的灵活性和成本效益,帮助企业轻松构建网络可视化系统。

网络环境的复杂性与日俱增,伴随着数据流量的迅猛增长及多样化应用的爆发,网络流量精细管理和可视化监控从来都是一个市场刚需。

为此,一般我们会在业务网络之外构建一张带外管理网络:从指定位置采集提取流量并分发到各类网络可视化后端分析工具(如 IPS,IDS 等等…)。为提高整体系统效率,上述采集和分发过程会涉及大量自定义的策略控制和报文预处理工作,需要用到网络数据包代理(Network Packet Broker)技术来构建一个智能高效的网络可视化前端。

传统的基于专用硬件的实现方案,例如使用TAP交换机/分流器等采集设备,其初期购置和维护成本显而易见,并且随着网络规模的扩大,采购和运维费用都将继续增长。

传统Tap方案

NPB 2.0:交换机上跑 NPB 容器

为区别于传统NPB的实现,我们将这套创新方案称为 NPB 2.0 。

NPB 2.0 根植于我们在 SONiC 等开放网络技术栈的前沿实践,鲜明体现了网络可视化系统建设从硬件密集型向软件定义网络(SDN)的转变——减轻了对专用硬件的依赖,拥有灵活的部署模式和完备的NPB功能,为中大型企业复杂网络环境提供了一个更具成本效益的选择。

SONiC-AsterNOS- NPB2.0

无需专用前端采集设备

NPB 2.0 方案下,用户只需在原本搭载企业级 SONiC/AsterNOS 的交换机上运行 NPB容器 即可使其华丽变身,承担起 NPB 服务。

此外,这种容器化特性使其较传统方案更快适应实际需求变化——无论是增加新的流量处理规则,还是扩展服务规模都能以最小的中断和成本完成,确保网络的持续优化和敏捷升级。

SONiC架构

基于SONiC的数据包代理的软件架构

灵活的部署模式

对于特定场景,用户可以按需选择并存或独立运行两种模式。

  • 独立模式:让部署NPB2.0的交换机专注于流量代理和策略控制,适用于需要高度精细化的流量管理,但不依赖交换服务的环境,提高整体流量管理和监控系统的准确性和运行效率。
  • 并存模式: 同时运行标准交换机的L2/L3转发服务和NPB的流量采集服务,即通过 SPAN 或 RSPAN ,将特定流量的副本引导至后端分析设备,无需牺牲传统网络服务的性能,实现一机多能。

灵活部署

完备的NPB汇聚分流功能

NPB 2.0 支持流量镜像、原始信息打标,流量的过滤、聚合,以及报文预处理(报文头部剥离,GRE和 VXLAN隧道终结,VLAN剥离等)和其他高级报文预处理选项(如IP碎片整理。TCP重新组装,数据包截断去重,隧道封装和解封装,数据脱敏等),为后端分析工具精准提供所需流量。

高效直观的图形化界面

用户可在 Web 界面一站查看设备和链路状态,并根据“输入-规则-输出”的逻辑自主完成规则配置,灵活简捷地制定、调整流量管理策略。

Web 界面

Web界面

典型应用场景

新一代云化园区网络(SONiC)

目前 NPB 2.0 已支持星融元 CX-M 系列园区交换机,可与现有云化园区网络方案无缝融合,将 NPB 功能完全集成到业务网络中。

SONiC园区网络

在 Spine 交换机上运行 Packet Broker,在镜像流量的同时执行第一级流量预处理,并利用 NPB Spine 减轻 NPB leaf 的负担;对于小规模网络,NPB Spine 也可以直接连接到后端系统。

非SONiC的传统网络

添加一个Leaf 交换机并部署 Packet Broker, 并在原 Spine交换机相关接口上配置 SPAN/RSPAN 镜像,将流量转发给 NPB Leaf;经由该 Leaf 交换机的过滤,复制,负载均衡等将流量精准的发送到后端工具。非SONiC的传统网络

串接部署场景

在某些场景,用户会要求将设备串接部署在链路中。上行链路流量会先经过部署NPB的交换机做筛选,指定流量负载均衡到后端工具(如IPS)上处理,其返回流量并转发到下行链路;不需要的监测流量则直接转发到下行链路(下行链路与上行类似);如果 Packet Broker 故障,则流量会走bypass设备。

串接部署场景

已支持NPB2.0的交换机设备(部分)

开源开放技术栈下的园区多租户网络方案设计


关注星融元


现状和背景:传统的园区企业用户从电信运营商购买互联网服务,再由园区运维人员为其开通配套有线局域网业务,日常企业迁入迁出、办公区域变更等等都需要运维人员手动修改配置;无线网往往直接下放给企业自行购买设备搭建……如此不但管理分散,还容易滋生各种不可控的风险因素,在园区有限的运维人力条件下,问题将更加凸显。

园区多租户网络作为星融元新一代云化园区网的典型场景,我们依旧会把将数据中心级的 Spine/Leaf 架构,以及“全三层”、“云架构”、“超堆叠”、“云漫游”等一系列创新性的云化设计理念,有机应用于园区网络设计、建设和运营当中,提升服务水平和质量。

相较于为单一企业搭建网络基础设施,园区多租户网络在资源隔离、安全保障和自动化运维要求更高,也是本文重点关注的方面。

01 网络建设总体规划

每个楼宇作为一个部署单元,在园区局域网内提供 10G/25G 高带宽链路,用以承载大量企业租户的业务网络,也为智慧园区中物联网设备以及服务器区提供所需的网络互联能力。

有线网络采用简洁、高可靠的 Spine/Leaf 架构运行全三层网络,天然无环路,隔绝广播风暴,同时支持按需横向扩展满足未来5-8年的扩容升级需求;

无线网络则借助分布式网关设计,提供超大漫游域的无缝漫游,实现跨楼栋漫游不中断,网随人动,策略随行,兼顾安全和便利性。

图

云化园区网络设备

  • 全盒式交换机(搭载面向园区网络特性增强的企业级 SONiC——AsterNOS);智能开放网关平台(选配智能业务处理卡/AI加速卡等模块化硬件,结合开源软件组合)【深度拆解:ET2500 系列开放智能网关平台】
  • 所有网络产品和相关组件皆遵循开放的标准和协议(OpenWiFi/OLS等),能够与第三方的产品和服务集成和互操作,支持云化部署和管理【关于OpenWiFi和OLS】

云原生的管理平台

  • 基于 Asteria Campus Controller(ACC),支持本地或云上部署,实现极速业务开通和有线无线一体的可视化集中运维管理。参考:【新一代园区网可视化运维实践】
  • 基于PacketFence 的认证系统,可提供开放接口与现有/自研的租户管理系统无缝对接

02 多租户资源隔离设计

我们通过 BGP EVPN 为不同企业租户构建独立的虚拟网络,支持灵活的业务扩展,同时辅以端口隔离、ACL隔离和AP严格转发确保该机制正常运行。

BGP EVPN(Border Gateway Protocol Ethernet Virtual Private Network)是一种结合了 BGP 协议 和 EVPN 技术 的标准化解决方案,主要用于构建大规模、高性能的 二层(L2)和三层(L3)虚拟化网络,广泛应用于数据中心、云服务、多租户园区网络等场景。其核心目标是通过控制平面优化,实现 高效的 MAC/IP 地址学习、灵活的多租户隔离 和 网络虚拟化。

图

端口隔离:隔离二层流量,所有流量通过查找路由进行三层转发

ACL 隔离:通过隔离不同的业务 VLAN,可对特定子网(租户)进行访问控制,并控制租户间的业务互访

AP 严格转发:AP 不直接转发流量,而是将所有业务流量都发送到交换机,通过交换机查表完成转发

03 访问准入和用户权限控制

园区多租户网络在访问准入控制主要考虑三个关键点:

  • 接入终端的合法性检查
  • 用户身份信息检查
  • 划分不同用户的访问权限

我们使用 Portal认证+动态VLAN 的方式来实现以上能力:所有用户接入网络时都需要通过 Portal 认证来得到资源访问授权,PacketFence 认证管理平台既是 Portal 服务器,也兼顾RADIUS服务器相关功能。

该平台存储了企业租户、终端信息和授权 VLAN 的映射关系,由此我们可通过动态VLAN 机制根据上线用户终端的信息自动为其划分 VLAN,并控制网络访问权限。

图

一个典型的无线终端上线认证流程大致如此:

  1. 当用户连接到 AP,会得到一个未授权 VLAN 下的 IP 地址,使之可以访问与认证相关的网络资源;
  2. AP 作为无线接入认证控制点会将用户终端的 HTTP 报文重定向到 Portal 服务器,采用RADIUS协议交互认证信息,完成认证和授权;
  3. 此时,AP 会强制终端下线重连,重新获取一个授权企业 VLAN 下的 IP 地址,从而能够正常访问网络资源。

更安全、方便的MAC优先Portal认证

完成初次认证后,RADIUS 服务器已记录到合法终端的MAC地址,当该终端再次接入网络,服务器会优先以 MAC 地址匹配已有记录去完成认证,而无需用户重复进行 Portal 认证流程。

此外,MAC 优先的 Portal 认证还会结合终端厂商型号信息验证、漫游异常检测等方式触发系统告警,及时向管理员提示仿冒接入风险。

开放 API 与第三方租户管理系统集成

对于已有租户管理系统或其他上层管理平台的园区改造升级类项目,从认证系统到更底层的园区网络设备我们都可提供丰富的 API 供二次开发集成调用。

开放API

04 极简运维管理

上千租户业务分钟级开通

作为云园区的配套组件,ACC 控制器为园区多租户场景提供一套简洁易用的自动化配置流程,最多支持为 2K 企业租户一键同步开通业务

参考:【完整流程揭秘:30分钟搞定中大型园区网络业务开通,可行吗?】

案例

案例

某科创园区多租户网络典型部署案例

有线无线集中式管理

网络中网关、交换机、无线 AP 等设备统一被 ACC 纳管。ACC 为管理员提供丰富的统一运维功能,支持对单台/批量设备的配置进行增删改查。

设备的 CPU、内存、各硬件状态、IP地址、整机/单接口流量、链路状态、接口状态、 PoE 状态等信息可视化。支持查看全网任意设备的实时状态信息,将所有在线设备的监控数据进行全量计算,最终以综合健康值全局呈现。

ACC

终端智能管理

统计和指纹识别:自动收集终端指纹信息,识别终端设备类型、系统信息、在线状态、信号质量等信息,同时记录每个终端的上网行为和流量统计信息。

终端流量回溯:支持查看终端从上线到下线整个过程中的连接状态、信号质量、协商速率、信噪比、所连接AP的位置等信息,便于运维人员查看当前无线用户的上网情况,加速问题定位排障。

ACC

深度拆解:ET2500 系列开放智能网关平台


关注星融元


随着云计算、大数据、人工智能和物联网技术的快速发展,传统企业网络通常需要在出口部署多个专用设备,例如路由器、防火墙、VPN 网关、IDS/IPS 系统、负载均衡器和网络流量分析器(NTA)。这往往导致网络复杂、成本高昂且难以维护。

ET2500 系列是一款旨在满足现代企业复杂网络需求的新一代开放智能业务处理平台,利用开放架构中的算网融合芯片以及各种标准接口的可插拔选配模块,有效地解耦软件与硬件,将网络、路由、安全等中小型企业常用功能整合到一个多功能的智能设备当中。

设备外观和基础参数

产品图

  • 设备尺寸:220 x 310 x 44 mm(半机架宽)
  • 业务接口:4 x 10GE (SFP+), 4 x 2.5GE (RJ45), 8 x 1GE (RJ45);其中4个 2.5G 和 1G 接口可选 PoE++供电,总功率预算为 150W
  • 风扇模块 x2 ,电源模块 x1,前后面板可安装6根外置天线
  • 满负载功耗 60w,不含 PoE

硬件架构

et2500架构图

内部展示图

ET2500系列采用算网融合中央处理器,具备 8 个 2.7GHz ARM64 Neoverse N2 内核,总吞吐量 60Gbps 的可编程以太网接口用于数据转发及高性能业务处理(路由器、防火墙、IPSec等),以及嵌入式的SSL加解密引擎。

ET2500 系列配备的 RAM 为 16GB 的可插拔 DDR5 SO-DIMM,最高扩展到 128G;同时可选配 PTP 模块,时间同步精度可达 20ns。

实拍图

实拍图

值得一提的是,该硬件平台提供4个 M.2 接口的可插拔模块以便用户按需定制,可选模块有:

  • SSD存储,最高可达 4TB
  • AI 硬件加速器,26TOPS INT8 推理性能
  • 扩展支持 5G/LTE、WiFi-6E/7、BlueTooth 5.3、GNSS、TPM(可信平台模块)等

软件环境和开放工具应用

软件环境方面, ET2500 系列支持各种 Linux 发行版本,包括 Ubuntu、Debian、OpenWRT、CentOS 等,支持开放的软件生态,如 VPP、UFW、OpenVPN、Snort、HAProxy、Nginx、ntopng等,并可根据实际需求在同一台设备上组合运行多个软件。

开源环境

  • 与硬件加速相结合的优化 DPDK(数据平面开发套件)
  • 开源路由器,包括 VPP(矢量数据包处理)、OpenWRT、DD-WRT、VyOS等。
  • 开源防火墙,包括 iptables、UFW、pfSense、OPNsense、IPFire、nftables、Firewalld、Shorewall、Untangle 等。
  • 开源VPN,包括 OpenVPN、WireGuard、IPSec、L2TP、Shadowsocks、Trojan、VMess等。
  • 开源 IDS/IPS,包括 Snort、Suricata、Zeek等。
  • 开源负载均衡,包括 HAProxy、Nginx、Traefik 等。
  • 开源网络流量分析器,包括 ntopng、Elasticsearch + Kibana + Beats、Argus、Softflowd 等。
  • GCC、GDB、BinUtils、Buildroot 和其他工具链
  • C/C++/Python/Go/Rust/Java/Lua 等编程语言
  • PyTorch/Tensorflow/TF Lite/Keras/ONNX

基于开放的软硬件解耦架构,ET2500系列使用丰富的开源软件作为控制平面,与硬件优化的数据平面相结合,并通过 M.2 和 USB 接口连接 SSD、5G、WiFi6E/7、 GNSS、TPM 等设备,从而应对多样化的应用场景。

开源套件

下方列出了一些典型场景,它们不仅可以单独应用,也可以组合应用。此外,用户也可以根据自身需求安装新的软件工具,或者借助预装的工具链自行开发以适应更多的场景。

应用场景功能实现场景优势
路由器Ubuntu + VPP
  • 60Gbps的转发性能
  • 跨以太网和5G/LTE链路的多WAN口负载分担
  • 丰富的QoS策略,精细管理不同用户和业务的流量
防火墙Ubuntu + iptables + BPFILTER
  • 灵活高效的iptables
  • GUFW提供简单易用的图形界面
  • 基于eBPF实现的更高级的数据包过滤和处理
VPN网关Ubuntu + OpenVPN/WireGuard
  • 硬件加解密引擎加速的OpenVPN,60Gbps性能
  • 8核CPU加速的WireGuard
  • 可按需安装最新的VPN软件,适应网络环境变化
IDS/IPSUbuntu + Snort
  • 全球领先开源IDS/IPS,社区提供持续更新的规则集
  • 硬件DPDK提升数据包处理性能、降低延迟
  • 优化的正则表达式引擎提升IDS/IPS性能
负载均衡器Ubuntu + HAProxy + Nginx
  • 硬件DPDK提高处理速度和吞吐量
  • 优化的正则表达式引擎提升负载分担性能
  • 硬件SSL引擎加速HTTPS连接
网络流量分析器Ubuntu + ntopng
  • 提供实时流量监控、协议识别等可视化报表等功能
  • 支持图形化界面查看和分析网络流量和性能指标
  • 硬件SSL引擎加速HTTPS流量分析

ET2500 的紧凑设计使其成为中小型企业的一体化解决方案,一台设备即可承担从网络路由到流量分析的全面功能,甚至有余力像小型服务器一样运行企业应用程序,从而切实降低了资本支出、运营成本和维护工作量;

对于大型企业,则可考虑将多台 ET2500 设备集群化部署为资源池,通过横向负载分担或纵向功能分工,实现如同云计算的按需、弹性调度

如您有相关需求,欢迎与我们联系讨论。

51.2T 800G AI智算交换机软硬件系统设计全揭秘


关注星融元


在 AI、HPC 与云计算基础设施飞速演进的当下,性能瓶颈不再源于算力,而是网络系统中的每一个微秒延迟与每一瓦能耗。

为应对这一挑战,星融元推出了旗舰级产品:CX864E-N 64x800G 超低时延 RoCE 交换机

该产品具备业界领先的560ns端口转发时延和基于 SONiC 的开放网络架构,为下一代 AI 智算网络提供极致性能保障和灵活的方案集成空间。

近期国内外展会上,CX864E-N已吸引了大量客户与行业专家的关注。对此,我们决定不再“藏着掖着”,而是大方展示我们的技术实力与设计理念 —— 星融元将一直以坦诚、开放的态度与客户和同行共同推动开放网络的行业进步。

800G

CX864E-N 早在去年已实现量产并成功部署于多家头部互联网企业与云服务提供商的数据中心,并且交付周期已缩短至约2周,在性能、交期与成本的多维度比较中名列前茅。

CX864E-N 硬件外观概览

设备前面板

在2U高的前面板上,排布着64个800G OSPF 端口,其前后向兼容性可确保从现有的 100GE/200GE/400GE 网络无缝过渡到更高级的800GE,保护历史投资。

800G

在管理口方面,CX864E-N 提供RJ45 MGMT、USB2.0接口及RJ45 Console。

另外,CX864E-N 还提供两个额外的 10G SFP+ 端口,专门用于增强带内网络遥测 (INT) 等管理功能。这一考虑至关重要,因为 800G 交换机上的每个端口都承担着相当大的工作负载,如出现问题,影响会显著放大,因此需要更精准、实时的通信监控。(当然,客户也还可以根据其他网络需求灵活运用这两个端口)

800G

面板右侧还有6个LED指示灯,其中靠近RJ45口的两个分别为:

  • LINK/ACT灯,指示 MGMT接口的link及数据通讯状态
  • SYS灯,指示整机系统的运行状态;

面板右侧竖排四个指示灯从上到下依次为:

  • BMC状态指示灯(BMC)
  • 电源指示灯(P)
  • 风扇状态指示灯(F)
  • 设备定位指示灯(L)

前面板分布着横、纵向排列的三排小型进风孔。外部冷空气正是通过这些气孔进入机箱内部,与风冷系统协同工作,有效提升整体散热效率。

设备背部

CX864E-N 设备背部配备了4个风扇模块以及2个电源模块,为系统提供稳定、高效的散热与供电保障。所有风扇与电源均支持热插拔,无需中断系统运行。电源模块集中布局于设备左侧,单个功率为 3200W。

800G800G

您可能会问:市面上的800G交换机大多有6到8个风扇,而CX864E-N仅有4个,散热如何保证?关于这个问题我们会在下一个部分来解答。

CX864E-N 内部硬件

让我们揭开这台高性能交换机的盖版,从左至右,依次探索这款设备的核心构造,深入了解其内部硬件设计。

800G

散热板

首先看到的是大面积覆盖的散热板(已拆出放置),这是我们采用了 3D真空腔均热板技术的高效风冷散热模块。

800G

相比部分厂商选择的水冷方案,该散热设计在整机满配功耗高达 2180W 的极限工况下,依然能够稳定满足系统运行需求,同时将整机功耗控制在业内较低水平,能效表现出色。在该负载条件下,风扇仅需以约 60% 转速运行便可维持散热系统的正常运作,有效控制噪音水平,避免对运行环境造成干扰。

ASIC 模块

800G

散热板下即是 Marvell Teralynx 10 ASIC 模块(以下简称“TL10”), 安装在 OSFP 接口背后,是整机网络交换处理能力的核心。TL10是一颗基于 5nm 工艺、单芯片架构的可编程交换芯片,提供51.2 Tbps的吞吐能力。

TL10 的超低时延性能是其最大亮点之一,可将端到端时延控制在约 560 纳秒,在同类芯片中表现极为出色。对于 AI 模型训练、推理以及大规模并行计算任务,低延迟意味着更快的同步、更高的吞吐、更低的能耗浪费,从而提升整个集群效率。

  • 大容量片上缓存(200+ MB):显著提升 RoCE 传输性能,能够有效缓解网络拥塞引发的数据排队与等待问题。相比竞品采用的外置 HBM 方案,片上缓存在功耗、访问延迟以及成本控制方面具备显著优势。
  • 先进的带内遥测(INT)功能
  • Flowlet 调度机制:通过引入 Flowlet 级别的负载均衡策略,TL10 在高吞吐场景下依然可保持稳定的数据分发效率。该机制显著降低了对缓存资源的依赖,仅需约 200MB,即可满足复杂网络环境下的调度与拥塞控制需求。
  • 高 Radix 架构(512×100GbE):支持网络大规模横向扩展,助力数据中心从传统三层架构向扁平化两层架构演进,显著减少网络设备数量与布线复杂度,提高整体网络效率与可靠性。
  • 领先的能效比:在面向大规模 AI 训练集群的实际部署中,TL10 相较于同类方案可节省超过 1MW 功耗,在每瓦带宽和计算密度方面处于业界领先水平,显著降低长期运营成本(TCO)。

800G

文末我们将展示基于 TL10 芯片设备的实际延迟测试结果。

电源模组

在ASIC上方是斜向排列的一组电源模组。它们为核心的 ASIC 芯片提供稳定电力支持。值得一提的是,这种非平行布局经过优化,可有效提升电源完整性,为高速数据传输保驾护航。

800G

PTP模块

电源模组上方为 PTP(精确时间协议)模块,支持高达10ns 的PTP与SyncE精度。该模块为可选功能,采用可插拔设计,客户可按需定制,灵活部署。下图是PTP模块已安装与未安装状态的实物图对比。

800G

800G

COMe 模块

长方体组件正是我们的 COMe 模块,基于 x86 架构,搭载 Intel Xeon 处理器,具备强大的计算性能,能够支持 INT-based Routing 等高级网络功能。上面运行我们自研的基于 SONiC -based AsterNOS 操作系统,为交换机提供稳定、高效的控制平面核心,确保整机在复杂网络环境下的灵活调度与可靠运行。

800G

BMC 模块

COMe模块右侧是BMC模块,它同样采用可插拔设计,客户可根据需求升级BMC模块,解锁更高性能与更丰富的管理功能。

800G

NVMe 插槽

COMe 模块左侧是两个全长 2280 的 NVMe 插槽,以及一个兼容 2280 和 2242 尺寸的 M.2 SATA 插槽,为用户提供灵活的本地存储扩展能力。

此外,两个 2280 NVMe 插槽还可选配最多两颗 Hailo-10 AI 加速引擎,支持实时、低延迟且高能效的边缘 AI 推理计算,满足多种智能和AI应用场景的部署需求。

800G

风扇

整机后部配备 4 个可热插拔风扇模块,构成高效简洁的风冷系统。这里也回答了之前的问题,在满负载运行(2180W)下,这套散热方案已完全能够稳定运行,无需塞入额外的风扇来控制温度,大大降低了功耗与系统复杂度。更少的组件,意味着更高的可靠性与更低的运营成本。

800G

其他补充

CX864E-N 整机内部仅使用了一根线缆,其他连接均通过高性能连接器实现板间互联,避免了因复杂线缆引起的信号干扰和维护难题。相比一些友商使用多根线缆的做法,这种设计更可靠,也更利于长期稳定运行。

800G

CX864E-N的PCB采用全球领先的制造工艺,并选用业内已大规模量产的顶级高性能板材,结合Vippo、盲孔(Blind Hole)、背钻(Back Drill)等先进技术工艺,全面满足112G高速SerDes在信号完整性(Signal Integrity)、损耗(Loss)、串扰(Crosstalk)等方面的严苛技术要求。

CX864E-N 软件概述

星融元 CX864E-N交换机搭载企业级 SONiC 发行版 —— AsterNOS。我们致力于打造业界领先的企业版 SONiC,助力客户构建高性能、智能化的网络系统,从控制面到数据面构建起软硬一体的协同架构。

AsterNOS架构图

加速 AI 网络,释放超算潜能

作为超以太网联盟(UEC)的早期成员,Asterfusion 借助超级以太网技术,将网络利用率提升至 90% 甚至更高,全面加速 AI 网络部署与数据中心演进。

解锁AI数据中心潜力:网络利用率如何突破90%?

星融元 CX864E-N RoCE交换机通过 Flowlet 负载均衡、基于 INT 的智能路由与 WCMP 等先进技术,实现 AI 训练与推理网络超过 90% 的利用率。这不仅显著提升 AI 工作负载效率,同时有效降低数据中心建设与运营成本

  • 全功能交钥匙解决方案:AsterNOS 基于社区 SONiC 构建,强化了 EVPN 多归属、RoCEv2、Ansible 自动化 等企业特性,专为复杂部署环境而设计。与自研的开放网络硬件深度适配,提供真正即插即用的一体化解决方案。
  • 更快的版本发布节奏与响应机制:相比社区半年一版的发布频率AsterNOS 实现了季度新版本发布,确保客户需求与问题能被快速响应与解决。
  • 专业支持团队,灵活定制服务:超过 120 名SONiC软件研发工程师,为客户提供专业、灵活的服务支持,包括定制功能开发、问题定位优化以及全方位的技术咨询。
  • 双模式CLI风格,提升用户体验:除了 Linux 风格的 Bash CLI,AsterNOS 还基于 Klish 实现了 Cisco 风格的命令行界面,帮助网络工程师更轻松上手,降低学习曲线。

560ns 超低转发时延、64×800G OSFP 高密度接口、TL10单芯片架构、超大片上缓存、板间无缆互联、定制级 PTP和AI 模块、每一行走线,每一个模块、都是星融元面向 AI 工作负载与低延迟网络的工程化答案。

附录:相关测试数据

800G-test
800G-test

800G-test

传统大厂停产P4交换芯片后,你该怎么办?


关注星融元


P4(Programming Protocol-Independent Packet Processors)是一种开源的、数据面的高级编程语言。P4和基于P4的芯片平台(Tofino)自诞生以来便引起了学术界与工业界的广泛关注,其产业生态建设与落地应用更是在各大知名企业及初创公司的推动下得到了不断深化。

但就在今年8月,Intel宣布Tofino产品即将停产,最后停产的订单日期截止到10月30日,这将为Tofino产品的生命周期画上一个句号。

Tofino

这无疑给已经部署P4的企业、以及对网络可编程有需求的企业造成了相当大的困扰:如何在波动的供应格局中保持业务连续性、如何选择能够支持长期战略的解决方案,以确保能够在快速变化的环境中站稳脚跟。

星融元为您的网络可编程之路保驾护航

目前,星融元对于搭载Tofino芯片的可编程硬件平台(X-T系列)拥有充足的库存,保证未来三年内为客户提供稳定的产品供应和全方位的服务支持,为客户业务运行的稳定性、连续性保驾护航。

并且,Tofino芯片自2016年推出至今,已有超过8年的历史。在这8年的时间里,芯片设计理念、制造技术以及相关领域都经历了日新月异的发展和变革。星融元着眼于技术发展的最前沿,将为客户提供更高性能的替代选择:

更大的芯片资源:用于设计路由表、访问控制列表(ACL)、计数器和共享报文缓存;

更高编程效率:100%利用TCAM和SRAM,无需头疼调优;

更专业的支持能力:用全栈开放网络的软硬件技术和产品部件做好服务。

“P4+DPU”的创新组合,构成了星融元P4可编程硬件平台全栈可编程能力的核心,能够在智能网关、NFV、教育科研等众多应用场景中,满足全开放、可编程、高性能的业务需求。

P4可编程硬件平台产品开箱图

星融元X3-T硬件平台架构

多样化的应用场景

01 面向负载均衡与资源分配的应用

星融元P4可编程硬件平台通过使用P4语言来实现数据平面的自定义,非常适合于实现负载均衡和资源分配。它能灵活地处理网络流量,优化数据中心内部的服务器负载,以及实现高效的流量工程。例如,在数据中心网络中,P4交换机可以根据实时流量动态调整资源分配策略,优化网络性能,确保关键业务流量的优先处理。

02 数据中心互联的云边界网关

星融元P4可编程硬件平台可作为数据中心互联的边界网关设备,为集团的多个数据中心之间、以及集团数据中心与各分公司数据中心站点之间互通搭建一个大二层的网络,并且满足网络中不同部署位置对交换机所提出的不同需求。同时,P4可编程交换机还可以实现流量控制、访问控制、数据包过滤等功能,保护数据中心网络的安全性和稳定性。

P4可编程交换机在云边界网关的应用示意

P4可编程硬件平台在云边界网关的应用示意

03 打造数据中心智能化网络

星融元可编程硬件平台为客户提供了实时、精确且全面的INT(Inband Network Telemetry)和vINT(virtual INT)网络遥测数据。这些数据如同网络的脉搏,为智能化网络的运行、优化和修复提供了强有力的数据支持。
通过对INT数据的深入分析,设备能够洞察网络的每一个角落,预测并解决潜在的性能瓶颈,确保网络的顺畅运行。这种以业务为中心的数据分析方法,不仅提升了网络的运行效率,还增强了对潜在问题的诊断能力,为用户打造一个高度可靠、智能和自适应的网络环境。

带内网络遥测数据的应用示意

带内网络遥测数据的应用示意

最佳实践

在电商领域,星融元助力中国一家TOP电商平台实现了后端系统处理能力的重大突破。原先,客户日常海量交易上云后向后端交易系统的分发是由运行在服务器上的软件分发网关来实现的,但在传统的架构中,由于x86服务器的处理限制,平台需要大量服务器来运行交易分发网关软件,这不仅占用了宝贵的机房空间,还增加了运营成本。

用于开放算网平台X-T系列的应用场景

客户将自研的分发网关软件移植到星融元X-T平台后,通过X-T平台线速的数据平面处理能力和灵活的控制平面可编程能力,仅用2台X-T设备就完成了之前20~30台服务器的工作量,显著提高了数据处理效率和系统稳定性,同时也大幅降低了能耗和维护成本。

未来,星融元将基于坚实的技术积累和不断的创新,持续为客户提供技术领先的、易于部署的开放网络解决方案;并与众多合作伙伴携手,不断探索P4可编程网络的更多可能性!

星融元发布 51.2T 800G 以太网交换机,赋能AI开放生态


关注星融元


IB与以太之争

以太网替代IB趋势明显。据相关报告:2024年TOP500的超算中,采用以太网方案占比48.5%,InfiniBand占比为39.2%,其中排名前6的超算中已有5个使用以太网互联。

开放系统战胜封闭系统仅是时间问题。我们已经看到,以太网借助其与生俱来的开放性迅速弥合了与InfiniBand的差距,如采用RoCEv2技术路线的星融元CX732Q-N(400G)超低时延交换机,已在多次严格的现场测试中表现出与InfiniBand交换机相当的性能。

以太网走向800G时代

从GPT-1到GPT-4,模型参数数量已从1.1亿增长到5000亿,甚至可能超过万亿。

然而,在部署超算集群的算力中心,先进芯片和先进算力并不对等,算力芯片只提供算力,而先进算力其实遵循着“木桶效应”——算力、存储和网络三个核心环节,出现一个短板会使整个系统的性能出现巨大的下滑。正因如此,800G以太网的推出势在必行。

近年来IEEE(电气电子工程师协会)、OIF(光网络互联论坛)等标准组织相继制定了400G网络的标准,为800G网络的发展奠定了基础。

800G 以太网发展大事记

年份主要事件
2022首款 51.2T 交换芯片发布;网络行业迎来了重要的里程碑。这些交换芯片将支持64个800Gb/s端口,标志着800G以太网发展进入实体化落地阶段。与此同时,首批800G光模块的验证也在此期间开始。
2023标准发布和开发验证;IEEE发布了IEEE 802.3df标准的第一版,该标准定义了800G以太网的物理层规范。与此同时,OIF还发布了224 Gb/s标准,为800G和1.6T系统构建112 Gb/s和224 Gb/s通道提供了指导方针。
2024-2026预计将确认800G以太网的物理层标准,进一步完善和测试规范,以确保网络设备的互操作性和高性能。

星融元超低时延800G以太网交换机

CX864E-N是一款行业顶尖规格的单芯片盒式以太网交换机,专为AI训练/推理、高性能计算(HPC)和云计算/存储的需求设计,具有业界领先的低延迟和高可靠性,是AI时代下智算中心的首选。它拥有 51.2T 的超大交换容量和 64x800G 的端口密度,可构建超大规模数据中心,并在更优的投入成本下提供与 InfiniBand 网络相当的端到端性能。
CX864E-N符合UEC(超以太网联盟)标准,具有丰富全面的 API,便于与数据中心和HPC集群的无缝集成,其作为厂商中立的网络设备亦可兼容其他主流厂商的GPU和网卡硬件。

产品亮点

  • 单芯片51.2T 高密端口以太网交换机,极简的硬件设计,在2RU 空间可提供 64x800G OSFP 或 128x400G/512x100G
  • 全端口支持RoCE(基于融合以太网的RDMA)以及用于简化无损以太网配置管理的Easy RoCE
  • 行业速度最快的交换机,兼容400G和800G,800GE 端口转发延迟低于 560 纳秒
  • 满流量负载下64x800G SR8 端口的最大 TDP 为 2200W
    200+MB 的大型片上缓冲区可实现更好的 RoCE 无损以太网性能
  • 10ns PTP 和 SyncE 性能,支持严格时间同步的 AI 并行计算
  • 先进的 INT(带内网络遥测)提供更加实时精确的数据包延迟、丢包和路径数据,助力实现更先进的拥塞控制算法
  • 搭载企业就绪的SONiC 发行版 AsterNOS,提供一站式的开放网络解决方案;功能容器化软件架构让操作系统更加强大、可靠,且易于二次开发和定制
  • 兼容来自业界主流供应商的异构 GPU 和 SmartNIC
  • 线速可编程,平滑支持不断演进的 UEC(超以太网联盟)标准

系列化交换机产品,构建中立、开放的一站式高性能AI网络

星融元成立于2017年,是国内领先的互联软硬件解决方案提供商。自成立以来,星融元上百名SONiC 研发专家组成的专业团队一直专注于打造世界上最好的SONiC 网络操作系统——最终成果便是 AsterNOS。基于此,星融元推出了1G-800G的系列化交换机,全面覆盖从PoE接入到大规模AI训练的网络互联场景。

经过多年的技术积淀和迭代,星融元已在国内外AI算力中心、云服务商、垂直行业、园区网等多场景头部客户实现落地,为移动云、国家电网、人民银行等海内外上千家客户提供完整网络互联方案,并在年初以第一名身份中标中国移动2023-2024年白盒交换机集采。

面向新时代下的新需求和新挑战,星融元仍将积极拥抱开放生态,持续为用户构建中立透明、易于运维、高性价比的AI基础网络。


图片星融元vAsterNOS(设备模拟器)现已发布,可运行在GNS3、EVE-NG等网络虚拟软件中体验命令行操作及部分功能特性,您可前往以下平台免费下载镜像!

星融元官网 http://asterfusion.com/d-vasternos/

GNS3平台 http://www.gns3.com/asterfusion-vasternos

欢迎广大开放网络/SONiC技术爱好者加入官方交流群,获取用户指导手册和其他一手资料,更有vAsterNOS相关技术人员在线答疑。(Q群号:801700146,验证消息:姓名+所在公司/组织+联系电话或工作邮箱)

这款国产高性能DPU智能网卡,即将开源!


关注星融元


云数据中心的优化方向:从传统网卡升级到DPU架构的智能网卡

我们知道,各类智能网卡在服务器集群中的大规模部署,可以进一步降低数据中心建设和运营成本,更好地将服务器资源货币化。但仅从网卡层面来看,这个方案还存在不少优化空间。

  • OVS卸载不完全。传统的智能网卡仅负责OVS转发面卸载,但控制面仍是主机CPU处理,所以需要去定义Host CPU的控制面和卸载到网卡上的数据面业务之间的传输接口和协议,实现起来比较复杂,定位问题困难;
  • 虚拟网络功能卸载到网卡的难度大,很多网络功能(例如vLB,vNAT等)仍然在服务器上运行;
  • 无法实现存储加速和扩展,造成了服务器的性能瓶颈;
  • 部分传统网卡根本不具备编程能力,或者对芯片的编程难度大且生态缺失,开发门槛高,难以满足多样且多变的云业务需求。

全开放架构的DPU的智能网卡——星融元 Helium 系列

 Helium EC2004YHelium EC2002P
网络接口4 x 25GE SFP282 x 100GE SFP28
主机接口PCIe x 8 Gen4.0PCIe x 16 Gen4.0
管理口1 x Console Micro USB, 1 x GE RJ451 x Console Micro USB, 1 x GE RJ45

大Server中的小”Server”,帮助卸载服务器CPU负载

Helium 系列智能网卡采用DPU架构,集成了24核ARM和多样化的硬件加速协处理器,性能足够高,可以直接在网卡上运行各种网络功能虚拟化功能,释放宝贵的服务器资源。

Helium的典型业务性能数据参考:

  • 纯转发:100Gbps线速转发(128字节包)
  • OVS卸载性能:80Gbps
  • 5G UPF性能:80Gbps
  • IPsec性能:50Gbps

大Server中的小"Server",帮助卸载服务器CPU负载

高度开源的软件架构, 打造开放兼容、自主可控的生态系统

在通用的高性能硬件平台之上,星融元还提供了一套开放的软件开发环境——标准Linux内核+容器化架构,以及额外的DPDK/VPP开发套件(包含了最佳网络和安全处理所需的所有库和 API)。客户可以不考虑底层支撑框架直接开发上层应用;原先跑在x86上的DPDK应用和其他应用仅需简单编译便可移植到Helium DPU智能网卡上,并且按需组合使用。

标准Linux内核+容器化架构,以及额外的DPDK/VPP开发套件

支持存储加速和远端云盘挂载,满足服务器灵活扩展存储的需求

支持SPDK软件加速、NVMe-oF(TCP)卸载,可缩短存储I/O路径、提高存储读写性能

大幅降低数据中心整体建设和运营成本

以某客户场景为例。在保证总接入用户数量的前提下,引入Helium智能网卡的建设方案相对于纯2U服务器的建设方案在机架空间占用、总功耗、成本上都具有明显优势。其中机架空间节省超过2/3,总功耗节省超过1/2,建设成本节省8万,同时机架平均每U接入的用户数有3倍以上的提升。

Helium DPU智能网卡上的应用性能表现

1、Open vSwitch(OVS)的全卸载

Helium智能网卡采用高性能DPU芯片,具备独立的CPU和内存,可轻松实现百万级流表以及OVS控制面和转发面的全卸载,无缝融入虚拟网络。

包长(字节)流量数最大性能(Gbps)
6410K7
12810K14
25610K19
51210K21
51264K20
5122M18
102410K25

2、硬件加速的网络功能虚拟化(NFV)卸载,性能远超x86服务器软件模拟

通过以下数据可以发现,在提供了更低转发时延和更高流新建会话数的情况下,Helium DPU智能网卡的功耗仅为服务器的1/6,购买成本节省超过1/3。

Helium DPU智能网卡与当前市面上的智能网卡对比

对比FPGA架构智能网卡

 FPGA架构智能网卡Helium DPU 智能网卡
开发难度开发难度较高,需厂商高度支持标准Linux+容器化架构,额外的DPDK软件开发套件,易开发易移植
处理性能集成了多核CPU,但核数有限(最高规格为16核,一般厂家平均为4或者8核),无法承载复杂的控制面功能24核ARM处理器,多种硬件协处理器加速,可支持复杂的控制面业务卸载
采购成本FPGA架构核心器件的成本普遍较高,尤其是支持大容量内存的产品内存可以扩展至64G,千万级会话表,性价比高
功耗对比同规格的产品,功耗偏高同规格的产品,功耗偏低

对比其他SoC架构的智能网卡

  • 采用DPU架构的Helium智能网卡相比于普通的SoC架构网卡集成度更高,性能更强
  • 更多的ARM核、更高的内存,支持复杂的控制面业务卸载以及千万级会话表项
  • 更开放的生态,提供DPDK、VPP开发套件,标准的Linux操作系统,容器虚拟化环境,契合用户自定义的业务需求,覆盖更宽泛的应用场景。

当前,我们在Helium DPU 智能网卡上已经完成了多种场景的功能验证,包括OVS、NVMe-oF(TCP)、LVS、5G UPF、SSL卸载等,保证了高质量、高可靠、高性能的用户体验。

5G UPF卸载

SSL卸载

卸载OVS同时集成第三方应用

关于Helium DPU智能网卡的开源工作

秉承开源开放的理念,星融元现已将Helium DPU智能网卡的产品资料和相关代码开放给生态内广大客户和合作伙伴,期待与您一同探索更多开放网络的应用场景。

开源地址:https://github.com/asterfusion/Helium_DPU

相关文章

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2