标签：科普-AI

星融元P4交换机：为网络可编程的未来提供稳定支持

星融元P4可编程硬件平台

数字化趋势正引领着一场技术革命，云计算、物联网、5G和人工智能等技术正以前所未有的速度发展，这不仅提升了我们对网络性能的期待，也对网络的可塑性和灵活性提出了新的要求。在这样的背景下，网络的可编程性成为了行业发展的新焦点。P4可编程交换机以其卓越的可定制性和灵活性，引发了科研和工业界的重大关注。

P4可编程交换机具备哪些优势和特性？

面对网络中不断出现新的协议与特性，传统主流的OpenFlow协议并不支持弹性地增加匹配域支持，导致每次实现支持新特性时都需要投入大量的成本，OpenFlow协议本身也变得越来越臃肿；P4语言的诞生，就是为了解决上述问题。

P4 具有独特的优势：

1）P4 吸收了 SDN 数据平面与控制平面分离的思想，促进了网络设备的开放性，加快了新协议与新应用的部署；

2）P4 着眼于数据平面的可编程性，具备 OpenFlow 等技术并不具有的可重配置、协议无关、平台无关的特性，进一步抽象了网络设备转发模型，提升了数据平面灵活性，降低了网络运维成本；

3）由于 P4 融合了数据平面高性能报文处理能力与可编程能力，因此许多在中间件与终端服务器上完成的工作可以在数据平面上完成，从而获得性能上的大幅提升。

P4语言的编译器设计体现了模块化思想，各个模块通过标准化配置文件进行信息交换。这种设计赋予了P4语言三大关键特性：协议无关性、目标无关性和可重构性。它允许用户自定义数据平面的报文处理逻辑，提高了数据平面的可编程性，使得网络设备能够灵活地支持各种新兴的协议和功能。

P4 ASIC芯片供应格局变局下，星融元持续为您提供P4可编程交换机解决方案

然而，随着传统网络设备制造商逐步退出PISA P4交换芯片市场，企业客户面临着前所未有的挑战。在这个关键时刻，企业必须审慎思考，如何在变革中保持业务的连续性和创新能力，以及如何选择合适的产品与解决方案以满足当前和未来的业务需求。

星融元自主研发的CX-T系列交换机，搭载业界领先的P4可编程交换芯片，实现了高吞吐量、低延迟的硬转发，支持资源可编程、转发逻辑可编程、解析协议可编程。与传统ASIC相比，业务验证、部署、上线的周期缩短了95%，更能满足业务功能平滑升级的需求，让网络基建真正成为业务发展的助推器。

“硬转发+软转发+SONiC”的黄金组合，构成了星融元CX-T系列产品全栈可编程能力的核心，能够在智能网关、NFV、教育科研等众多应用场景中，满足全开放、可编程、高性能的业务需求。

P4可编程交换机的应用场景及价值

面向负载均衡与资源分配的应用

P4可编程交换机通过使用P4语言来实现数据平面的自定义，非常适合于实现负载均衡和资源分配。它能灵活地处理网络流量，优化数据中心内部的服务器负载，以及实现高效的流量工程。例如，在数据中心网络中，P4交换机可以根据实时流量动态调整资源分配策略，优化网络性能，确保关键业务流量的优先处理。

数据中心互联的云边界网关

CX3-T系列可作为数据中心互联的边界网关设备，为集团的多个数据中心之间、以及集团数据中心与各分公司数据中心站点之间互通搭建一个大二层的网络，并且满足网络中不同部署位置对交换机所提出的不同需求。(如通过QoS限速实现对专线用户的带宽管理）。除提供通用算力外，还提供增强算力，算力带宽≥200G，大存储（≥1.5TB）

精准带内网络遥测数据，打造数据中心智能化网络

CX-T系列可提供实时、精准和全面的INT(Inband Network Telemetry)和vINT（virtual INT）网络遥测数据。根据分析INT数据的结果，智能化网络可实现自我运行、自我优化和自我修复。从业务维度出发的INT/vINT数据分析具有更高的价值和更强的针对潜在问题的诊断能力，从而帮助客户打造“业务永不断线”的数据中心智能网络。

星融元客户案例：P4网络解决方案在电商领域的应用

在电商领域，星融元助力中国一家TOP电商平台实现了后端系统处理能力的重大突破。原先，客户日常海量交易上云后向后端交易系统的分发是由运行在服务器上的软件分发网关来实现的，但在传统的架构中，由于x86服务器的处理限制，平台需要大量服务器来运行交易分发网关软件，这不仅占用了宝贵的机房空间，还增加了运营成本。通过将自研的分发网关软件移植到星融元X-T平台，借助X-T平台线速的数据平面处理能力和灵活的控制平面可编程能力，该电商平台仅用2台X-T设备就完成了之前20~30台服务器的工作量，显著提高了数据处理效率和系统稳定性，同时也降低了能耗和维护成本。

目前，星融元P4可编程交换机具备充足库存，可确保及时满足客户的部署需求；同时，面向未来可能的供应链风险，星融元已经形成了完善的替代方案，为客户提供了更大的芯片资源、更高的编程效率，保障客户业务运行平滑过渡，免受芯片供应波动的影响。此外，星融元基于坚实的技术实力，以及在开放网络领域深耕多年的行业经验，能够为客户提供全面的服务保障、专业的技术支持、产品交付，确保客户网络的稳定运行和业务连续性。

返回资源中心

近期文章

随着AI技术的快速发展，尤其是大模型的训练和推理过程，数据量呈爆炸式增长，这也对底层基础设施提出了更高的要求，网络传输必须朝着更高带宽和更高密度的方向发展以满足需求。800G以太网在400G的基础上进行扩展，提供800Gbps的数据传输速率。

800G以太网优势何在？

高带宽与高速率：提供800Gbps的数据传输速率，远超当前主流网络标准。
高吞吐量和低延迟：显著提升数据传输的吞吐量和降低延迟。当下已推出51.2T交换芯片。
支持高密度与大规模传输：800Gps的传输速率使其能够在有限的物理空间或资源下，有效传输更多的数据，支持更广泛的网络拓扑和大规模部署。

800G以太网的技术解读

如图1所示，800G以太网实际上是一种接口技术，可以支持单个MAC以800Gb/s的速率运行。800G以太网通过集成两个400G PCS实例来实现其高速率传输。这两个400G PCS实例在数据传输过程中协同工作，共同支撑800G的带宽需求。800G-ETC-CR8/KR8规定，800G PMD子层基于IEEE 802.3ck标准的400Gb/s技术，将原来的4个并行通道扩展为8个并行通道。这就将PAM4（四电平调制）和SerDes速度从上一代的50Gbps翻倍至100Gbps，实现了网络的高带宽与高速率。

800G以太网行业现状

目前市场上的800G交换芯片主要有Broadcom Tomahawk 5、Marvell Teralynx 10和Cisco Silicon One G200，NVIDIA Spectrum-4芯片不对外售卖。它们的制作工艺大多基于5nm，吞吐量都为51.2Tb/s，在端口速率配置和一些特色功能上略有不同。比如Broadcom Tomahawk 5芯片更侧重其高效的SerDes设计降低功耗，Marvell Teralynx 10强调其业界超低延迟表现，Cisco Silicon One G200采用P4可编程并行处理器，更加灵活可定制，而NVIDIA Spectrum-4则是专注于AI网络性能的提升。下面附上芯片能力表格以便直观对比。

厂商	Broadcom	Marvell	NVIDIA	Cisco
芯片名称	Tomahawk 5	Teralynx 10	Spectrum-4	Silicon One G200
制程工艺	5nm	5nm	定制4N工艺	5nm
吞吐量	51.2Tb/s	51.2Tb/s	51.2Tb/s	51.2Tb/s
端口速率及配置	64x800Gb/s, 128x400Gb/s, 256x200Gb/s	32x1.6Tb/s, 64x800Gb/s, 128x400Gb/s	"64x800Gb/s （可做两条400Gb/s链路）"	"64x800Gb/s，128x400Gb/s， 256x200Gb/s"
特色功能	高效SerDes设计（借助多达 64 × [PM8x100] SerDes灵活配置端口）	延迟表现低至500纳秒	显著提升AI云网性能	采用P4可编程并行分组处理器，高度灵活可定制

基于这些主流的800G交换芯片已有交换机厂商率先推出800G以太网交换机，例如Arista 7060X5、edgecore AIS800-64D、Cisco Nexus 9232E、星融元Asterfusion CX864E-N等

这代表了网络硬件技术的飞跃，满足高速数据传输需求的同时推动了相关行业应用，但800G以太网技术仍未完善，所有市面上的相关产品仍旧有各自的提升空间和要面临的网络挑战。

800G以太网技术如何破局？

挑战一：误码问题

信号在高速传输的过程中受多种因素影响，例如信号衰减、反射散射和噪声抖动等。这些因素会导致信号质量下降，甚至出现比特错误，即误码。误码率指数据传输中错误比特数与总传输比特数的比例，是数字通信系统中衡量传输质量的关键指标。误码率越高，数据损耗程度越严重。然而在更高速的800G以太网中，常规的信号处理技术不足以解决误码问题，需要更复杂的方式来应对。

解决方案：

更复杂的FEC算法：FEC是一种前向纠错技术，可以在数据传输过程中添加冗余信息，以便在接收端检测和纠正错误。800G以太网目前所有通道均采用 400 Gb/s 标准支持的 RS（544,514）FEC。然而正在开发的下一代800G收发器将使每个通道的速率达到200Gbps，需要更多的冗余数据、更多的纠错机制和更复杂FEC算法来确保数据传输的可靠性。

图3：FEC工作原理

更先进的DSP技术：优化数字信号处理技术，使得DSP芯片对接收到的信号进行更精确的处理，提高信号的质量和稳定性，减少误码的发生。

挑战二：能耗问题

随着数据中心容量和密度的提升，采用传统可插拔光模块方式逐渐遇到一个困难。传统交换芯片与光模块之间有一条较长的电通道，电通道在速率提升时数据损耗越来越大，为了克服通道上的数据损耗，需要在电通道上做复杂信号处理，这些处理会显著增加系统功耗。再加上光模块本身功耗大，尽管已经进行了高效设计，但在大型数据中心中拥有数以万计的光模块，其整体功耗仍是问题。除了光模块外，SerDes的通道数量和单个通道的速率也在不断提升。在800G以太网中，SerDes的速度增加到100Gbps，芯片周围的SerDes通道数量增加到512，这都会导致功耗的上升。

解决方案

CPO光电共封装技术：OFC 2022的Workshops针对高速以太网的功耗问题提到了CPO（Co-packaged Optics）技术。该技术将交换芯片和光引擎共同装配在同一个Socketed（插槽）上，形成芯片和模组的共封装。这样的封装方式显著减小了电通道带来的能耗损失和信号干扰，为800G以太网提供更高的功效。

更高效的SerDes设计：SerDes需要支持更高的速率和更低的功耗，同时保持较小的面积和成本。

图4：CPO技术的电路板组装
优化电路板设计：采用更高效的电路设计和低功耗材料来减少功耗，提高整体能效。

800G以太网的未来

从技术创新的角度来说：交换机和光模块技术不断发展，比如100Gbps SerDes广泛应用，都为800G以太网的实现提供了技术基础，有望在未来几年实现800G以太网的大规模商用。目前一些领先的芯片制造商已经发布了支持1.6T以太网PHY解决方案的产品，这表明800G以太网将向着更高速率迈进。
从行业标准的制定来说：2022年，OIF完成了400ZR标准规范，并正在制定800G LR和ZR的规范，包括光系统参数、FEC算法、DSP技术、OTN映射等技术方面。2023年，IEEE 802.3dj项目中就800G 10km应用是否采用IMDD（强度调制和直接检测）还是其他相关技术进行了讨论。目前，IEEE 802.3正在积极推进800G及1.6T以太网接口的标准化工作。预计在未来两年内，IEEE 802.3、OIF等国际标准组织将陆续完成800G以太网物理层标准的制定，并推动其在实际应用中的开发和验证。
从市场的角度来说：5G 网络、云计算和人工智能等领域快速发展，数据中心对带宽的需求日益增长。800G以太网能够提供更高的带宽和更低的延迟，必定会投入使用，扩大市场规模。再加上目前国内外市场不断有企业在800G通信领域取得显著进展，不难看出800G以太网将成为通信市场的重要增长点。有相关机构预测，到2025年，800G以太网将占数据中心交换机端口的25%以上，表明在未来几年内，800G以太网将实现快速普及。

总结

综上，800G以太网技术是应对未来网络需求的关键解决方案，不断推动数据中心和网络基础设施的升级，满足日益增长的数据传输和处理需求。未来，随着技术的不断进步和市场的扩大，800G以太网有望在未来几年内实现更广泛的商业化和部署。

参考：https://ethernettechnologyconsortium.org/wp-content/uploads/2021/10/Ethernet-Technology-Consortium_800G-Specification_r1.1.pdf

https://bbs.huaweicloud.com/blogs/415694

返回资源中心

最新动态

智算与算力网络、算网融合的关系是什么？

关注星融元

前文介绍了智算与云网融合的关系，那么智算与算力网络、算网融合的关系又是什么？让我们先来复习一下智算的概念。

AI智算的概念

智算即人工智能计算，主要面向人工智能应用，提供人工智能算法模型训练与模型运行服务的计算机系统能力，代表了人工智能领域的飞速发展。它主要用于处理复杂、高维、动态、非结构化的数据和问题。智能计算融合了计算机科学、数学、物理、统计学等多学科知识，并广泛应用于大数据分析、智能机器人、自动驾驶、智能家居、智能城市、智能医疗、金融科技等多个领域。智算不仅提升了计算能力，还为各行各业带来了智慧的变革，成为推动科技进步的重要引擎。

算力网络的概念

算力网络是实现泛在算力的手段。算力即计算能力（Computing Power），它集成了信息计算力、网络运载力和数据存储力，是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。而这种能力向边缘的扩展和延伸需要与网络结合，催生了算力网络。算力网络是以算为中心、网为根基，提供一体化服务的新型信息基础设施，可以理解为计算设施和网络设施共同建设的一张传输网络。我们可以利用算力网络实现云、边、端计算存储资源的灵活调度与分配。

算网融合的概念

算网融合是指算力与网络深度融合，这种融合可以发生在多个层面，包括硬件、软件、平台和应用等，有助于实现算网服务的极简一体化转变。算网融合通过深度整合这计算和网络资源做到算力的智能编排和灵活使用，进而加快算力传递提高系统的整体性能和效率。算网融合逐步推动算力成为与水电一样，可“一点接入、即取即用”的社会级服务,达成“网络无所不达、算力无所不在、智能无所不及”的愿景。

尽管算网融合听起来与算力网络十分相近，二者仍有区别。算力网络强调网络在算力资源管理和调度中的核心作用，是一种基础建设一张传输网络；而算网融合强调计算资源和网络资源的深度融合，更偏向于一种技术概念一种服务。可以理解为建设算力网络的目标是实现算网融合。

三者的关系是什么

通过上文对智算概念的描述，我们可以将智算翻译为“数据+算力+算法”，如图4所示。智算涉及丰富的计算场景，需要用到大模型计算，处理海量数据。基于智算的这种特性，算力需求激增。通用算力将增长10倍到3.3ZFLOPS 、人工智能算力将增长500倍超过100ZFLOPS，相当于一百万个中国超级计算机神威“太湖之光”的算力总和。云数据中心无法承载如此巨大的数据和算力，那么传统的云计算方式就无法满足海量数据的处理要求。除此之外，传统云计算是先将所有数据资源上传至云计算中心，设备端提出访问请求后再将计算结果返回，这其中会产生较长的响应时间而无法满足实时数据的处理要求。此时需要网络对算力进行调度，使得云、边、端都能得到灵活的资源分配，便催生出了算力网络。而算力网络整合了强大的计算能力和高效的网络资源，为智算提供坚实的基础设施。

建设算力网络的目标是实现“算力泛在、算网共生、智能编排、一体服务”，那么算网融合的概念自然而然地被提出。算力与网络在形态和协议方面深度融合，推动算力和网络由网随算动到融为一体，最终打破网络和算力基础设施的边界。网络从支持连接算力，演进为感知算力、承载算力，实现网在算中、算在网中。网络根据业务需求，按需进行算力网络编程，灵活调度泛在的算力资源，协同全网的算力和网络资源，实现算力路由。通过灵活部署的在网计算，对数据进行就近加速处理，降低应用响应时延，提升系统处理效率，实现算网发展互促互进，共生共赢。

总的来说，智算对算力激增的需求催生出算力网络，算力网络又提出了算网融合的目标。算力网络和算网融合为智算提供了强大的技术支撑，而智算的发展推动了算网融合和算力网络的进步，他们三者是相互促进的关系。

智算时代如何打造算力网络

在智算时代下，如何打造算力网络，做到算网融合呢？我们需要从其特点出发进行技术匹配。

算力网络的特点

灵活敏捷：根据业务需求，算力网络需要具备敏捷接入的能力来快速获取算力，并灵活动态地在云、边、端之间按需分配和灵活调度算力资源，进而实现资源的最大化利用，并应对各种突发情况。
无损安全：据测算，即使是0.1%的丢包率也可能导致高达50%的算力损失。这种损失对于依赖大规模计算资源的应用来说是不可接受的。因为在算力网络中，每一个数据包的丢失都可能对算力计算产生负面影响。无损传输能够保证数据在传输过程中不丢失、不损坏，从而确保数据的完整性和准确性。
感知可视：算力网络需要实时感知算力资源与网络资源的状态，结合不同业务的SLA要求、网络整体负载、可用算力资源池分布等因素，智能、动态地进行资源调度和计算协同策略。并构建可视网络数字地图，实时监控网络的状态和性能，优化网络拓扑和布局，提高网络运维的效率和准确性。

Kubernetes容器化技术

利用Kubernetes可以实现大模型算力的灵活调度，高效合理地分配管理资源。

Kubernetes（又称K8s）是一个开源的容器编排和管理平台。它采用了容器化的思想，将应用程序打包成容器并在集群中运行。Kubernetes中的调度器组件Scheduler可以把用户提交的Pod（最小调度单元，是一组容器的抽象）放到 Kubernetes 管理集群的某一节点Node上。具体位置依据它对 CPU、对 memory 请求大小后确定。这个过程就是一次调度工作，可用于大模型算力调度。

除此之外，Kubernetes 有业务负载检查的能力，可以实现资源合理分配、高效利用。它会监测业务上所承担的负载，如果这个业务本身的 CPU 利用率过高或响应时间过长，它可以对这个业务进行一次扩容。这种水平扩张是由Kubernetes 中的 Controller 来完成的，Controller控制器用于完成对集群状态的管理。

K8s的这些功能主要得益于其自身架构。Kubernetes 架构是一个相对典型的server-client架构。Master作为中央管控节点与Node进行连接，而所有user侧的组件，只会和Master进行连接，把希望的状态或者想执行的命令下发给 Master，再由Master把这些命令或状态下发给相应节点Node，完成最终执行。节点 Node是真正运行业务负载的，每个业务负载会以Pod的形式运行。Node中运行这些Pod的组件是 kubelet，它通过APIServer接收到所需要Pod的运行状态，然后提交到Container Runtime组件中，由Container Runtime负责创建、运行、停止和销毁容器。

DCB协议

利用DCB协议可以优化网络性能、提高网络可靠性，实现算力网络的无损运输。

DCB（Data Center Bridging）协议是一组由IEEE 802.1工作组定义的以太网扩展协议，用于构建无丢包以太网，满足网络无损传输的需求。主要包括以下技术：

PFC（Priority-based Flow Control）优先级流量控制技术，允许交换机基于数据帧的优先级标签来暂停或恢复数据流的发送。如图8所示，DeviceA发送接口分成了8个优先级队列，DeviceB接收接口有8个接收缓存，两者一一对应。当DeviceB的接口上某个接收缓存产生拥塞时，发送一个反压信号“STOP”到DeviceA，DeviceA停止发送对应优先级队列的报文。

ETS（Enhanced Transmission Selection）增强型传输选择技术，允许网络管理员根据流量的优先级或类别来分配带宽。ETS提供两级调度，分别基于优先级组PG（Priority Group）和优先级队列，如图9所示。接口首先对优先级组进行第一级调度，然后对优先级组的优先级队列进行第二级调度。

DCBX（Data Center Bridging Exchange Protocol）数据中心桥接交换协议，用于在支持DCB的设备之间自动协商和配置DCB参数，减少人为错误的可能性。DCBX能够交换的配置参数包括ETS的优先级组信息和PFC，以PFC参数为例，DCBX将其封装入链路层发现协议LLDP中的TLV中，由LLDP来进行链路两端设备的DCB配置交换。

INT技术

利用INT技术可以实现算力网络的精准感知和监控分析，帮助管理者提高运维效率。

在网络规模不断扩大，网络设备和链路数量急剧增加的情况下，传统的网络监控手段如SNMP、NetFlow、sFlow等，存在监控精度低、数据收集不全面、响应速度慢等问题，已无法跟上时代的步伐，满足不了数据中心的网络运维需求。网络的感知与监控应该具备实时性、准确性和全面性。

INT（In-band Network Telemetry）带内网络遥测技术提供了更实时、全面、精细的运维模式。它可以通过数据平面收集和报告网络状态，并且不需要控制平面再从数据平面收集和传送状态时进行干预和工作，大大缩短响应时间。在INT体系结构中，交换设备转发和处理携带遥测指令的数据包。当遥测数据包通过设备时，遥测指令指示INT设备收集和插入网络信息。INT数据包的转发需要经过三个过程：INT源交换机创建INT报头并插入到发送的数据包中；INT中转交换机根据INT报头中的指令收集数据平面中的元数据；INT汇聚交换机提取INT报头，并决定将收集的信息发送给监控系统。

我们可以看出INT技术采用主动推送模式，主动将网络的即时性能、状态、参数等信息收集并记录下来并发送给分析系统。这种方式确保了信息的实时性，有助于运维人员快速响应网络问题。除此以外，INT技术能够收集到网络各个层面的状态信息，能够实现纳秒级的时间戳采集，可以确保网络感知监控的全面性和精细性。如果结合图形化界面工具可以实现网络的可视化展示。

为泛在算力构建开放网络——星融元CX-N系列交换机

Asterfusion CX-N交换机面向AI/ML智算中心和云计算数据中心提供卓越的网络服务。

高带宽低时延：CX864E-N交换机每秒能够传输800Gbps数据，单机转发时延（400ns）低至业界平均水平的1/4~1/5，能够确保大量数据在极短时间内完成传输，满足高性能计算和大数据处理的需求。
无损可靠：支持DCB等数据中心高级功能，通过构建零丢包、高性能的无损以太网络来满足不同业务场景对数据中心网络提出的不同需求。
灵活可扩展：采用模块化设计，提供开放RESTful API，搭载支持K8s的AsterNOS，实现功能的灵活扩展。将网络完全融入到云计算软件定义、弹性调度、按需扩展、自动运维的世界中。
智能运维：提供INT功能，为网络分析平台提供实时、精细、准确和全面的网络遥测数据(包括出入接口、时间戳、延迟、队列长度等)，并且全部由交换芯片实现，无需管理 CPU 参与。

智算与云网融合的关系是什么？

关注星融元

在了解智算与云网融合的关系之前，我们首先需要明确智算和云网融合各自的含义。

AI智算的概念

云网融合的概念

而云网融合顾名思义包含云与网两个方面。云即云计算，包括计算能力、存储能力以及相关的软硬件。网是通信网，包括接入网、承载网、核心网等电信网络的方方面面。站在技术的角度，就是在云计算中引入网络的技术，通信网中引入云计算的技术，进而实现计算资源、网络资源和服务资源的无缝对接和高效协同。云网融合的核心技术可概括为“云调网、网随云”，重心是资源的调度。

智算与云网融合的关系

回到标题，那么二者的关系是什么呢？上文提到智算能够处理复杂的数据和任务，满足各种应用场景的需求，无疑智算的发展离不开强大的算力支持，而云网融合则为智算场景提供了强大的算力基础。云网融合通过软件定义网络（software defined network，SDN）和网络功能虚拟化（network functions virtualization，NFV）技术来构建高效的计算网络，将分散的计算资源、存储资源和网络资源进行统一管理和调度。

软件定义网络（software defined network，SDN）

SDN是一种异于传统的网络体系架构，理论上它将网络控制平面与数据转发平面分离，通过集中式的控制器对网络进行管理和控制，使得网络管理变得更加灵活且可编程管理，具有开放性和可编程性。被人们所熟知的框架结构为：应用层、控制层和数据层。

但在现实应用中，SDN往往与理论上存在差异。市场中很多已落实的商业SDN产品的数据转发平面与控制平面并不完全分离。随着SDN的不断发展，网络架构逐渐多样化。

图3中的（2a）为传统SDN架构，数据平面和控制平面完全分离。然而图3中的架构（3）才是当前市场上许多软件定义产品的一部分——基于SDN的Overlay架构。Overlay网络是在使用网络虚拟化在物理基础设施之上建立连接的逻辑网络。也有一些方案采用的是图3中的（2b）架构，例如 SD-WAN，控制整个网络的组件集中在控制器上，但控制平面保留在设备上，以便设备可以相对独立地运行。

对于SDN，我们了解其本质即可，提出SDN是为了灵活网络配置，高效率网络管理以及动态流量调控等。SDN本身不是产品，它更像是一种理念，最终产品形态还是取决于具体的解决方案。

网络功能虚拟化（network functions virtualization,NFV）

NFV是将传统上依赖于专用硬件设备的网络功能（如路由、防火墙、负载均衡等）从硬件中解耦，通过虚拟化技术转变为可在通用服务器上运行的软件，这些软件实体被称为虚拟网络功能（Virtual Network Functions，VNF）。

NFV架构的核心模块包括以下3个组成部分：

(1）虚拟化基础设施（Network Function Virtualization Infrastructure, NFVI）。包括计算和存储网络资源，用于承载网络功能的虚拟化实例。

(2）虚拟化网络功能（Virtual Network Functions，VNF）。能将传统的网络功能设备抽象为可在虚拟化基础设施上部署和管理的虚拟实例。

(3）虚拟化管理和编排（Network Function Virtualization Management and Orchestration, NFV-MANO）。负责虚拟网络功能的生命周期管理、资源编排和自动化操作，以实现对整个NFV环境的统一管理和控制。 NFV的架构使得传统的专用网络设备能够以软件的方式在通用服务器上运行，从而提高了网络功能的灵活性、可扩展性和可编程性，为传输网络的优化提供技术支持。

NFV在云网融合场景中的优势：

(1）灵活性和可编程性。传统专用网络设备的功能和配置较为固定，难以适应快速变化的业务需求。采用NFV可以将网络功能以软件的形式部署在通用服务器上，实现对网络功能的灵活配置和编程控制，更好地满足不断变化的业务需求。

(2）资源利用率提升。通过NFV实现了计算资源、网络资源和服务资源在同一物理设备上的共享，提高了硬件资源的利用率。在智算场景中，这种共享机制可以确保计算资源的高效利用。

(3）成本降低。NFV可以降低网络部署和运维的成本。传统的专用网络设备需要大量硬件设备和人力资源进行部署和运维，而采用NFV可以通过软件定义和自动化操作简化网络运维流程，降低网络部署和运维的总成本。

(4）快速部署和创新。NFV可以加快新网络功能的部署速度和缩短创新周期。通过软件定义和自动化编排，可以大幅缩短网络新功能的上线时间，加快业务创新和服务交付的速度。

总结

综上所述，云网融合通过SDN和NFV技术为智算提供了强大的算力支持和资源共享机制，在服务层面也实现协同，而智算则通过引入智能算法和模型反向推动云网融合平台的创新和发展。

智算新时代的云网设备支撑

星融元CX-N系列超低时延交换机

Asterfusion CX-N交换机帮助用户构建超低时延、灵活可靠、按需横向扩展的数据中心网络，为AI/ML、高性能计算、分布式存储、多业务融合、云计算等场景提供卓越的网络服务。

业界领先超低时延：单机转发时延（400ns）低至业界平均水平的1/4~1/5，将网络时延在AI/ML应用端到端时延中的占比降至最低，帮助大模型的训练大幅度降低训练时间、提升整体效率。
云网融合，灵活开放：支持REST架构的Cloud OS、DevOps平台、第三方应用都能自动化地管理、调度星融元数据中心网络。同时，开放的RESTful API协同第三方云网控制器，简化网络管理和运维难度。将网络完全融入到云计算软件定义、弹性调度、按需扩展、自动运维的世界中。
低投资，高可靠：CX-N全系列数据中心交换机标配RoCEv2、BGP EVPN、VXLAN、容器网络能力，400G/200G标配智能负载均衡能力。用户无须为此类高级特性额外增加网络建设成本的同时还能构建高可靠、可独立升级的数据中心网络，帮助用户获得更高的ROI（投资回报率）。

网络如何承载AI大模型流量？

关注星融元

前言

随着AI大模型的兴起，数据中心正在经历前所未有的变革。AI模型的规模巨大并持续快速增长。自2017年起，AI模型的规模每半年翻一番，从初代Transformer的6500万增长到GPT-4的1.76万亿，预计下一代大语言模型的尺寸将达到10万亿。

什么是AI大模型？

AI大模型（Artificial Intelligence Large Model）是指具有庞大参数规模和复杂程度的神经网络模型，它们通过大规模的数据训练，能够在各种任务中表现出高度准确和广泛的泛化能力（即对新鲜样本或未知数据的适应能力）。

AI大模型具备以下特点：

参数规模庞大：AI大模型通常包含数十亿至数千亿个参数，这使得它们能够处理更加复杂的数据和任务。
学习能力强：由于参数众多，AI大模型能够从海量数据中学习到丰富的特征和模式，从而实现对复杂问题的准确预测和判断。
应用广泛：AI大模型在自然语言处理、计算机视觉、自动驾驶、医疗健康等多个领域都有广泛的应用。

不过AI大模型在展现其强大能力的同时，也为我们带来了如下挑战：

训练成本高昂：由于参数规模庞大，AI大模型的训练需要大量的计算资源和时间。
数据隐私和安全性问题：训练过程中可能涉及大量的敏感数据，如何保护这些数据不被泄露是一个重要问题。
泛化能力限制：尽管AI大模型在大规模数据上表现出色，但在少样本、小样本场景下的泛化能力仍有待提高。

AI模型是如何训练的？

上文提到AI大模型训练成本昂贵，那么AI模型是如何来训练的呢？它的训练步骤有哪些？

AI训练程序首先将模型参数加载到GPU内存中，之后进行多个epoch的训练。

每个epoch的处理过程可以简单描述为4步：

加载训练数据，在每个epoch中，根据batch size将整个数据集分为若干个mini-batch，分批次加载训练数据，直到遍历整个训练数据集。
训练，包括前向传播、计算损失、反向传播和参数/梯度更新，每个mini-batch都进行上述步骤。
评估，使用评估数据集对模型的指标进行评估。这一步是可选的，可以在整个训练完成后单独进行，也可以间隔若干个epoch进行一次。
保存checkpoint，包括模型状态、优化器状态和训练指标等。为了减少存储需求，通常经过多个epoch后保存一次。

AI大模型训练的网络流量有哪些？

在大模型出现之前，整个过程在一台AI服务器内部完成，训练程序从服务器本地磁盘读取AI模型和训练集，加载到内存中，训练、评估，然后将结果存储回本地磁盘。而大模型的出现改变了这一切。

首先是模型的参数规模超出了单个GPU的内存，以GPT-3为例，要加载1750亿参数及其优化器状态，需要至少125块H100/A100。其计算量也非常庞大，为了加速计算，需要更多的GPU，OpenAI在训练GPT-3时使用了1024块A100。这些GPU要协同起来一起计算，需要相互之间通信以交换信息，包括参数/梯度、中间激活等。

同时，庞大的数据集被所有GPU共享，需要集中存放到存储服务器中。另一方面，定期保存的checkpoint包含了所有参数和优化器状态，也需要通过存储服务器共享。这样，在每个训练epoch中，都要通过网络读写数据，这些网络流量分为两类，如图1所示：

并行训练技术

图1 AI训练时的网络流量分类

第一类是GPU之间同步梯度和中间激活的网络流量，它发生在所有GPU之间，是一种广播式流量，逻辑上需要所有GPU全连接。
第二类是GPU和存储服务器之间的流量，它仅仅发生在GPU和存储服务器之间，是一种单播流量，逻辑上仅需要以存储服务器为中心的星型连接。

网络如何承载AI大模型流量？

上述第一类网络流量——GPU之间的网络流量，与传统数据中心内部的流量迥然不同，具有广播式、超大流量、超低时延、超高频率、零容忍丢包和严格时间同步的特点。毋庸置疑，这样的流量特点对网络提出了新的需求。网络承载AI大模型流量是一个复杂而关键的任务，需要从多个方面进行优化和应对。

（一）网络架构优化

1. 高带宽网络：AI大模型训练需要处理大量的数据，因此网络必须具备高带宽以支持高速数据传输。传统数据中心的100Gbps带宽接入可能无法满足需求，需要升级到800Gbps、1.6Tbps甚至更高的接入带宽。

2. 多轨道网络架构：采用多轨道网络架构可以提高集群通信效率，减少跨交换机的通信量。例如星融元的星智AI网络——基于LLM大模型的Rail Only网络，架构图如下。

Asterfusion星智AI网络解决方案

Rail-Only网络架构

3. 全互联架构：在AI大模型训练场景中，采用全互联架构可以减少网络跳数，降低时延。例如，在星融智算中心网络中，每个通道内Spine交换机和Leaf交换机之间做fullmesh全互联，如图2所示。

图2：full-mesh全互联组网

（二）协议与技术升级

1. RDMA：使用RDMA（远程直接内存访问）协议可以减少传输时延和提升网络吞吐。

RDMA工作原理

图3：RDMA工作原理

从图3可以看出，RDMA绕过了操作系统提供的协议栈，规避了TCP/IP的限制，直接在网络传输层之下进行数据传输，并且允许网络适配器直接从内存缓冲区中读写数据，而无需CPU的干预。与传统模式相比，RDMA大幅度降低了消息传输中的处理延迟，能够充分利用网络带宽，提高数据传输的效率。

RDMA架构图

传统模式和RDMA模式的对比

国际组织(InfiniBand Trade Association, IBTA)发布了最早的 RDMA技术——IB。IB是为 RDMA 量身定制的网络技术，能够提供极高的网络带宽，以满足高性能计算中对数据传输速度的需求。但RDMA 在早期采用 IB 作为传输层，必须使用专门的IB 交换机和 IB 网卡才可实现，导致设备成本和维护成本高，兼容性和灵活性差。

而后IBTA 发布了RoCE技术，允许应用通过以太网实现远程内存访问。RoCE 技术可通过普通以太网交换机实现，只需服务器支持 RoCE 网卡即可。目前的 RoCEv2标准是UDP 协议，虽然 UDP 协议效率比较高，但不像 TCP 协议那样有重传机制等来保障可靠的传输，一旦出现丢包，必须依靠上层应用发现了再做重传，这就会大大降低 RDMA 的传输效率。因此，要想发挥 RoCE 真正的效果，必须为 RDMA 搭建一套不丢包的无损网络环境。星融元的CX-N系列云交换机搭建的超低时延无损以太网能够很好地承载RoCEv2，并基于RoCEv2打造了一张低时延、零丢包、高性能的HPC高性能计算网络。

RDMA技术网络协议概览

2. 流量调控：流量控制技术的核心是限制单个客户端向服务器发送的数据量，以确保服务器能够及时处理这些数据。例如，星融元Asterfusion CX-N系列云交换机使用PFC技术来进行流控。

PFC是一种基于优先级的流量控制技术，如图所示，DeviceA发送接口被分成了8个优先级队列，DeviceB接收接口则存在8个接收缓存，二者一一对应。DeviceB接收接口上某个接收缓存发生拥塞时，会发送一个反压信号“STOP”到DeviceA，DeviceA则停止发送对应优先级队列的流量。

PFC工作机制

图5：PFC工作机制

3. 负载均衡：负载均衡技术的核心是将请求分发到多个服务器上，以提高系统的性能和可用性，避免拥塞和瓶颈。目前的负载均衡技术有DNS负载均衡、七层负载均衡、四层负载均衡等。下图是典型分布式架构的多层负载方案。

多层负载方案

图6：多层负载方案

（三）硬件与设备优化

高性能交换机：使用高性能的交换机来支持高速数据转发和交换。交换机需要具备足够的端口数量和带宽，以支持大规模GPU集群的通信需求。如星融元CX864E-N 800G交换机等。
DPU硬件卸载：通过DPU（数据处理单元）硬件卸载技术，可以将网络处理任务从CPU转移到DPU上，从而减轻CPU的负担并提高网络性能。例如，GPU Direct RDMA和GPU Direct Storage等技术可以优化GPU之间的通信路径和数据传输效率。

为AI流量而生——800G超级以太网交换机

上文提到优化硬件以承载AI大模型流量，数据中心交换机需要马不停蹄地升级换代，而星融元CX864E-N 800G交换机正是这样一款超级以太网交换机。它具有如下特点：

超大容量，支持64个800G以太网接口，共51.2T交换容量。
超低时延交换网，在800G端口上实现业界最强的560ns cut-through时延。
200+ MB大容量高速片上包缓存，显著减小集体通信时RoCE流量的存储转发时延。
Intel至强CPU + 大容量可扩展内存，运行持续进化的企业级SONiC——AsterNOS网络操作系统，并通过DMA直接访问包缓存，对网络流量进行实时加工。
INNOFLEX可编程转发引擎，可以根据业务需求和网络状态实时调整转发流程，最大程度避免网络拥塞和故障而造成的丢包。
FLASHLIGHT精细化流量分析引擎，实时测量每个包的延迟和往返时间等，经过CPU的智能分析，实现自适应路由和拥塞控制。
10纳秒级别的PTP/SyncE时间同步，保证所有GPU同步计算。
开放API，通过REST API开放全部功能给AI数据中心管理系统，与计算设备相互协同，实现GPU集群的自动化部署。

总之，星融元CX864E-N 800G交换机在保持极致性能的同时，实现可编程、可升级的能力，与计算设备形成协同，共同打造10万级别的计算节点互联，将数据中心重构为可与超级计算机媲美的AI超级工厂。

发掘800G以太网的潜力

近期文章

什么是 800G 以太网？

800G以太网是一种用于数据传输和通信网络的高速以太网技术，可提供每秒800千兆位（800Gbps）的数据传输速率。

800G 以太网的速度是上一代 400G 以太网的两倍，可提供更大的带宽，主要用于大型数据中心、云环境和高带宽应用。它可以为这些场景提供更高的速率、更大的吞吐量和更好的网络性能，支持更快、更高效的数据通信。

800G 以太网采用 8 个通道，每个通道的传输速率为 100Gbps。这使 PAM4 的速度从上一代的 50Gbps 翻倍到 100Gbps。

800GbE 规范引入了新的媒体访问控制 (MAC) 和物理编码子层 (PCS)。它本质上重用了IEEE 802.3bs标准中的两组现有 400GbE 逻辑，并进行了一些修改，以在八个物理 106Gb/s 通道上分配数据。由于重用了 PCS，因此保留了标准 RS(544, 514) 前向纠错，以便轻松兼容现有的物理层规范。

实现800G以太网通常需要先进的网络硬件，并且通常采用低功耗设计以提高能源效率。

电气电子工程师协会 (IEEE)负责800G 以太网标准化，这有助于确保不同供应商设备之间的互操作性。

为什么我们需要 800G 以太网？

最直接的答案是应对数据爆炸。谈到训练大规模AI模型，公开数据显示，从GPT-1到GPT-4，模型参数数量已从1.1亿增长到5000亿，甚至可能超过万亿。据研究公司TrendForce称，GPT-3.5大型模型需要20,000个GPU来利用NVIDIA A100显卡的处理能力来处理训练数据。

因此，在超算集群的算力中心，先进芯片和先进算力并不对等，算力芯片只提供算力，先进算力其实遵循着“木桶效应”，算力、存储和网络传输三个核心环节，一个短板，整个系统的性能就会出现巨大的下滑。这也是为什么云服务商都在积极部署800G以太网的原因。

32-node

800 Gb/s 以太网规格

架构概述

800 Gb/s 以太网技术设计为使用 8 个 106 Gb/s 通道和 2xClause 119 PCS (400G) 的接口，用于连接以 800 Gb/s 运行的单个 MAC。下图说明了高级架构。可以使用两个 400G PMD（例如 2x400GBASE-DR4 模块）形成 800G 接口，尽管需要进行偏差管理才能保持在规范范围内。该架构还可以支持较慢的接口，例如 8×106.25G 或更慢的选项，但主要重点是使用 8×106.25G。

high-level architecture

利用现有标准

800 Gb/s 的容量可通过利用两个集成前向纠错 (FEC) 的 400 Gb/s 物理编码子层 (PCS) 实现，支持 8 条 106.25G 通道。400 Gb/s 的 IEEE 802.3 标准采用多通道分布 (MLD) 将数据从单个媒体访问控制 (MAC) 通道分配到 16 个 PCS 通道。在此 800G 标准中，将使用扩展到 800 Gb/s 的 MAC 以及两个经过修改的 400 Gb/s PCS 来驱动 8x100G 通道。这将产生总共 32 个 PCS 通道（400G 标准的 2×16），所有通道均配备 RS(544,514) FEC，如 400G 标准中所述。

MLD 条带化技术的一个重要方面是为每个虚拟通道实施唯一的对齐标记 (AM)。对于 400 Gb/s，每 163,840 x 257b 块将 AM 插入到条带化数据流中。这种做法将继续在 800 Gb/s 上进行，每个 400G 流的间距相同；但是，插入的 AM 数量将是原来的两倍，并且 AM 需要修改以确保 800 Gb/s 流的一致性，并防止配置错误的 400 Gb/s 端口与 800 Gb/s 流同步。芯片到模块 (C2M) 和芯片到芯片 (C2C) 接口采用 802.3ck 标准，每通道运行速度为 106.25G。

800G以太网网络时间表

800G以太网的发展建立在上一代400G以太网的基础上，近年来IEEE（电气电子工程师协会）、OIF（光网络互联论坛）等标准组织相继制定了400G网络的标准，为800G的发展奠定了基础。

2022 年：首款 51.2T 交换芯片发布

2022年，随着首款51.2T交换芯片的发布，网络行业迎来了重要的里程碑。这些交换芯片将支持64个800Gb/s端口，标志着800G以太网发展成为实际的硬件。与此同时，首批800G光模块的验证也在此期间开始。

2023年：标准发布和开发验证

2023年，标准组织取得了重大进展。首先，IEEE发布了IEEE 802.3df标准的第一版，该标准定义了800G以太网的物理层规范。与此同时，OIF还发布了224 Gb/s标准，为800G和1.6T系统构建112 Gb/s和224 Gb/s通道提供了指导方针。

物理层标准将于 2024-2026 年完成

未来两年，标准组织预计将继续努力，最终确定 800G 以太网的物理层标准。这将涉及进一步完善和测试规范，以确保网络设备的互操作性和性能。

800G以太网的多种应用场景

数据中心

AI数据中心：人工智能训练需要大量的数据传输和计算能力，高速以太网技术可以连接GPU集群和数据存储，支持深度学习模型的训练和AI推理。
超高密度数据存储：数据中心需要大容量存储和快速数据传输来满足不断增长的数据需求。800G 以太网可以连接存储服务器，实现超高密度数据存储。例如，大型社交媒体公司可以利用这些技术来管理用户上传的大量照片和视频。
虚拟化和容器化：虚拟化和容器化等技术需要快速的数据传输，以便在不同的虚拟机或容器之间共享资源。800G 以太网可以为虚拟机迁移和容器通信提供高带宽。例如，云服务提供商可以使用这些技术来支持客户的虚拟化工作负载。

云计算

弹性计算资源：云计算提供弹性计算资源的能力，因此需要高速网络连接。800G以太网可以促进云计算用户之间的快速数据传输。例如，科研机构可以利用这些连接在云端运行复杂的模拟和数据分析任务。
云存储和备份：云存储和备份服务需要大容量和高速传输来确保数据的安全性和可用性。高速以太网技术可以连接云存储设备和数据备份服务器。例如，企业可以使用它们来备份关键业务数据。

高性能计算

科学计算、计算模型训练等高性能计算应用需要高速的数据传输和处理能力。800G 网络可提高数据传输速度和网络性能，以执行高性能计算任务。这对于涉及处理复杂计算的科学研究、大数据分析和智能计算训练等应用至关重要。800G 以太网的引入将进一步推动高性能计算的创新和发展。

大数据

数据传输和分析：大数据分析需要广泛的数据传输和处理能力。800G 以太网可以将大规模数据集从源传输到分析平台，从而加速数据处理。例如，医疗保健组织可以使用这些网络分析大量患者医疗记录，从而改善诊断和治疗。
实时数据流：实时数据流需要极低的数据传输延迟。高速以太网技术可以支持实时数据流应用，例如金融交易监控和智能城市监控。例如，金融机构可以使用它们来监控和分析大量交易数据以检测潜在的欺诈行为。

物联网

800G以太网可以连接更多的物联网设备和传感器，实现大规模设备互联，物联网解决方案将具有更高的可扩展性和能力，促进智慧城市、智能交通、智能制造等领域的创新应用。

自动驾驶仪

高清地图和传感器数据：自动驾驶汽车需要高分辨率地图和传感器数据来实现精确定位和环境感知。800G 以太网技术将传输这些大规模数据，增强自动驾驶的安全性和可靠性。
车辆通信：车辆与基础设施之间的通信是自动驾驶的关键。高速以太网将支持车辆之间的实时通信，有助于防止碰撞并提高交通效率。

综上所述，800G网络对于推动创新应用、加速数字化转型、推动技术进步具有举足轻重的作用。

推出 Asterfusion 800G 超级以太网交换机

推出速度和效率巅峰的 Asterfusion 800G 超级以太网交换机！这款交换机采用尖端的Marvell Teralynx 10 51.2 交换芯片，可提供闪电般的性能，800GE 端口的端口到端口延迟低于 560ns。享受最佳的交货时间和价格，同时利用市场领先的 SONiC 企业分销AsterNOS的强大功能。以下是其出色的硬件和软件功能：

型号为CX864E-N的数据中心交换机

强调

51.2T 交换机，2RU 内有 64x800G OSFP 或 128x400G/512x100G
全球速度最快的交换机，800GE 端口的端口到端口延迟低于 560 纳秒
满流量负载下，64x800G SR8 端口的最大 TDP 为 2200W
200+MB 的大型片上缓冲区可实现更好的 ROCE（基于融合以太网的 RDMA）性能
10ns PTP 和 SyncE 性能支持严格同步的 AI 并行计算
先进的 INT（带内网络遥测）用于数据包延迟、丢包和路径遍历，从而实现更先进的拥塞控制算法
基于 SONIC 的开放式 AsterNOS，具有最佳 SAI 支持，更加强大和可靠。
与所有领先供应商的异构 GPU 和 SmartNIC 兼容
线速可编程性，支持不断发展的 UEC（超级以太网联盟）标准

Asterfusion 800G 以太网交换机硬件亮点：

OSFP800 交换机端口，每个支持 1 x 800 GbE（100G PAM4），或通过分支电缆支持 2 x 400G GbE、4x 200 GbE 或 8 x 100 GbE。
512 x 112G 长距离 (LR) 一流 SerDes，通过光学模块/分路器支持 64x800G、128x400G 或 512x100G 接口
高达 14.4Bpps 的 L2/L3 全线速转发
根据流/数据包平衡负载，防止拥塞并确保有效利用可用带宽
前面板上有另外两个 10G SFP+ 端口用于网络遥测管理
每个 OSFP800 端口的功率预算高达 24 W。
采用 Marvell Teralynx10 交换系列硅片。[为 800GE 端口提供业界最低的端到端延迟（低于 560ns）；经过验证的、强大的 112G Serdes，具有业界最低的误码率 (BER)。；全面的数据中心功能集：包括 IP 转发、隧道、丰富的 QoS 和强大的 RDMA。；可编程转发：提供可置换的灵活转发，使运营商能够随着网络需求的发展而编写新的数据包转发协议，而不会影响吞吐量、延迟或功率；广泛的实时网络遥测，包括 P4 带内网络遥测 (INT)。高级共享缓冲： 200+ MB 片上缓冲区，由每个端口动态共享，确保卓越的网络质量和更少的数据包丢失]
Intel Xeon 8 核 CPU，具有线速可编程性，可通过软件升级实现未来的网络协议
具有 LAN 串行支持的 BMC 模块
支持前后气流的热/冷通道
2 RU 尺寸
热插拔、负载共享、冗余 3200W AC PSU。
3+1 热插拔风扇
预装开放网络安装环境 (ONIE) 的硬件交换机
使用 Asterfusion Enterprise SONiC Distribution (AsterNOS) 进行硬件交换机预加载

Asterfusion 企业版 SONiC- AsterNOS

想象一下这样一个世界：网络基础设施不再是障碍，而是一条高速公路。这就是 Asterfusion 正在构建的世界，一次构建一个网络交换机。当其他白盒供应商让您自己拼凑解决方案时，Asterfusion 会预安装其企业版 SONiC，为您提供一站式、交钥匙解决方案。

我们并非一夜之间就取得了这样的成就。自 2017 年以来，我们由 100 多名 SONiC 研发专家组成的专业团队一直专注于一项使命：打造世界上最好的SONiC 企业网络操作系统(NOS)。最终成果是 AsterNOS，这是一款强大的操作系统，专为我们自己的一系列校园和数据中心交换机量身定制，从 1G 一直到 800G。

但兼容性是关键。这就是 AsterNOS 能与所有主流行业芯片完美兼容的原因。我们谈论的不仅仅是最低限度的兼容性——我们的商业 NOS 在功能开发和坚如磐石的稳定性方面都胜过社区版本。此外，我们的顶级支持团队随时准备介入并保持您的网络正常运行。

实践才是真理。在过去的 7 年里，Asterfusion 的 SONiC 企业解决方案在公共云、电信运营商、大型互联网公司、私有云和企业网络的战壕中经过了实战考验。我们已经学到了一些如何让现代网络以光速运行的知识。

软件亮点

预装的AsterNOS是SONiC的企业版，以SAI为内核
集成丰富的L2/L3网络特性，完整支持网络虚拟化、QoS策略等服务
先进的功能容器化和事件驱动的系统架构，加速网络服务开发/定制
提供开放的REST API接口，可供云管理平台等第三方应用集中管理和调用
为传统网络工程师提供KLISH命令行

说到现代 AIDC，AsterNOS 是从头开始构建的，旨在处理未来苛刻的工作负载，例如生成式 AI。我们的精简设计简化了最强大的以太网基础设施的管理和监控，因此您可以专注于最重要的事情 – 为您的用户提供令人难以置信的体验。借助自适应路由和 RoCE 拥塞控制，Asterfusion SONiC 可以像精心调校的管弦乐队一样优化流量，确保您的工作负载发挥最佳性能。

超低延迟网络

无与伦比的速度：采用 Marvell Teralynx10 芯片，这是世界上最快的交换机，800GE 端口的端口到端口延迟低于 560ns。非常适合对延迟敏感的应用程序，例如 AI/ML、HPC 和 NVME。
增强性能：RDMA 支持直接内存访问，将延迟性能提高到微秒级。

无损网络

零数据包丢失：ROCEv2 可确保微秒级低延迟、高吞吐量和接近零数据包丢失，开启人工智能驱动的网络性能和可靠性时代。
高级拥塞控制：受益于丰富的 QoS 功能，包括 ECN、PFC、DCBX、QCN、DCQCN 和 DCTCP，适用于大规模 RDMA 部署。
智能网络遥测 (INT)：监控数据包延迟、丢失和路径遍历，以实现高级拥塞控制算法。

高可靠网络

强大的负载平衡和冗余：最多 8192 条等价多路径 (ECMP) 路由。
无缝连接：BGP 多宿主，用于多个服务器连接，具有自动负载平衡和故障转移功能。
主动/主动多路径：多机箱链路聚合组 (MC-LAG)，实现卓越的 L2 多路径。
快速故障转移：仅需 50 毫秒即可实现 BGP 和 OSPF 的 BFD。

时间敏感网络

精确同步：实现 10ns PTP 和 SyncE 性能，这对于同步 AI 并行计算至关重要。
自动化运维网络
操作轻松：与Python和Ansible集成，支持自动化操作和维护。
零接触配置 (ZTP)：自动获取和加载部署文件，简化设备设置。

开放网络

开放企业 SONiC 分发：AsterNOS 提供最佳的 SAI 支持，确保强大而可靠的性能。
面向未来：线速可编程，支持不断发展的 UEC（超级以太网联盟）标准。

Asterfusion 800G AI网络解决方案

采用 NVIDIA DGX SuperPOD 的 RoCEv2 AI 解决方案

RoCEv2 AI Solution with NVIDIA DGX SuperPOD

通过 Asterfusion 800G 超级以太网交换机体验网络的未来——速度与可靠性和创新相结合。

参考：https://ethernettechnologyconsortium.org/wp-content/uploads/2021/10/Ethernet-Technology-Consortium_800G-Specification_r1.1.pdf

返回资源中心

最新动态

AI应用对网络基础设施有哪些需求？

人工智能内存墙问题与网络

在人工智能应用中，处理大型数据集是无可争议的必要条件。然而，这一过程却带来了潜在的绊脚石。由于带宽限制或此类系统特有的高延迟，在处理单元和内存系统等不同组件之间传输上述数据集的速度可能会很慢。

更复杂的是，现代计算机拥有独立的内存层，这些内存层在特定属性（如访问速度和容量）方面各不相同。在这些不同层级之间移动数据会导致内存墙问题，访问时间的增加会影响性能。

在缓存方面，有时会出现请求数据，但却无法在先前为快速检索而设计的缓存中找到数据的情况。这种故障会增加另一个导致瓶颈的问题，即缓存缺失。这种中断会导致严重的延迟，往往会造成系统整体性能的滞后。此外，如果多个处理单元或线程同时访问一个处理单元，就会出现资源争夺，导致效率降低。

不过，网络可以缓解这些问题。分布式系统可以通过将计算和数据分布到多个节点来使用网络资源。这种方法可以改善内存访问时间，减少内存墙问题对人工智能应用性能的影响。

在庞大的网络中，在不同节点间移动信息会产生过多的开销，而减少这些开销的一个有效方法就是采用包含远程直接内存访问（RDMA）的网络技术。

RDMA 实现了两个远程系统内存之间的直接数据传输，无需 CPU 参与。这一过程加快了数据传输，同时最大限度地减少了 CPU 的开销。就人工智能应用而言，RDMA 为优化内存访问开辟了途径，以最快的速度和最高的效率简化了网络各部分之间的通信。

例如，在分布式深度学习系统中，企业可以使用 RDMA 将数据从 GPU 调度到另一个 GPU 或异地存储设施，灵活性极高。RDMA 可以优化可用内存的使用，同时规避潜在的内存障碍，限制内存墙问题的影响。这种模式的转变对基于人工智能的应用具有重大影响，因为在人工智能应用中，无缝通信往往是性能平平与性能卓越的分水岭。

性能之外的网络需求

人工智能应用需要的不仅仅是令人印象深刻的网络性能。以下是网络可使人工智能应用受益的其他领域：

安全性

人工智能应用通常会处理敏感信息，如个人信息或金融交易。使用加密技术和身份验证控制等安全措施确保此类数据的保密性和完整性至关重要。

可扩展性

大规模分布式系统需要较高的可扩展性，因为它们是人工智能工具和快速响应时间的基础。使用软件定义网络等可快速扩展的技术，可确保人工智能应用根据需要无缝增长。

高速连接

大多数人工智能应用需要提供实时或接近实时的洞察和预测，因此保持高速连接至关重要。要正面解决这一问题，需要使用具有高可靠性和容错功能、冗余链路和故障转移机制的网络设计，以确保即使在出现问题时也能不间断地运行。

服务质量QoS

不同类型的信息可能需要不同程度的优先级。由于高优先级数据优先于其他数据，网络产品已发展到提供 QoS 功能。这些功能使应用能够在各种类型的数据流量之间分配网络带宽，并确保优先处理最关键的信息。

星融元AIGC承载网设计方案

AIGC承载网方案架构图

超低TCO、超高性价比

相较于IB方案，大幅度降低用户的网络TCO，同时确保超高性能

横向平滑扩容、1:1收敛无阻塞

无收敛的网络设计确保无阻塞的大容量网络，按需横向扩展

整网RoCEv2

基于CEE/DCB能力，提供可与IB媲美的性能和同样无损的网络服务

开放网络操作系统

星融元网络操作系统AsterNOS，SONiC企业级发行版，支持灵活的功能扩展、在线升级

无缝对接云管

AsterNOS 利用简单易用的REST API，可轻松让第三方的云平台/控制器快速纳管

专家级服务

专业、全面、可靠的研发、方案与服务团队，为客户提供小时级的快速响应服务

详情可参考：客户案例：高性能、大规模、高可靠的AIGC承载网络

智能网卡和人工智能应用

智能网络接口控制器（SmartNIC）等专用外设可帮助有效部署人工智能应用。SmartNIC 的一个关键功能是能够将网络处理从主机 CPU 卸载到专用硬件加速器。这可以减少 CPU 负载，同时为运行人工智能应用释放更多资源。

智能网卡使用硬件加速器来执行加密、压缩和协议处理等任务。这种方法还能加快数据传输，从而减少延迟，提高网络吞吐速度，从而加快数据传输，缩短处理时间。

使用智能网卡还能更轻松地解决所有人工智能应用面临的内存墙问题。智能网卡改变了服务器系统处理网络基础设施需求的方式。智能网卡能够承担通常会加重主机 CPU 负担的某些任务，这意味着性能大幅提升，尤其是在数据分析等内存密集型操作中。

将数据包过滤和流量分类任务卸载到 SmartNIC 的专用硬件上，而不是依赖于服务器 CPU 的通用架构，可有效降低服务器 CPU 的使用率，并获得更好的整体效果。此外，许多 SmartNIC 型号都具有本地缓存功能，这意味着无需进行冗长的网络传输，也减少了等待关键信息的时间。

基于开源DPU资源池，破解边缘云算力扩展难题 – 星融元Asterfusion

与其他类型的应用相比，人工智能应用有其独特的要求，对网络基础设施的吞吐量、延迟、安全性、可靠性和可扩展性提出了很高的要求。因此，企业可能有必要调整当前的数据中心网络基础设施，以支持这些需求。

返回资源中心

AIGC承载网优化设计方案（下）

AIGC承载网优化设计思路

网络性能瓶颈问题

通信时长的考虑

带宽：与单机不同，多机之间的网络带宽是比单机内部的带宽要低很多的，

多机之间的网络通信往往会受到网络拓扑、物理连接和网络设备等因素的限制，导致实际的带宽较单机内部的带宽低很多。如单机内部NVLink3.0带宽高达600GB/s；而多机之间的网络一般是400Gb/s或200Gb/s（且是Gb/s）
在AIGC承载网络中，多机之间的通信是必要的，尤其是在分布式计算环境下，不同计算节点之间需要进行数据传输、模型同步和参数更新等操作。这些通信过程可能影响到整体的网络性能和计算效率。

设备转发时延：IB交换机或低时延交换机

设备转发时延

性能提升

（1）提升单机网络宽带

提升单机网卡带宽，同时需要匹配主机PCIe带宽和网络交换机的带宽

网卡速率	40G	100G	200G	400G
PCIe	3.0*8	3.0*16	4.0*16	4.0或5.0*16
交换机Serdes	4*10G	4*25G	4*50G	8*50G

增加网卡的数量，初期业务量少，可以考虑CPU和GPU共用，后期给CPU准备单独的1到2张网卡，给GPU准备4或8张网卡。

增加网卡的数量

（2）应用RDMA网络（IB或RoCE）

借助RDMA技术，减少了GPU通信过程中的数据复制次数，优化通信路径，降低通信时延。

优化通信路径，降低通信时延

（3）减少网络拥塞

胖树结构：通过多路径的布线和聚合链路的利用，可以提供高带宽、低延迟和高可靠性的通信。
1:1收敛比

1:1收敛比

双网分流：通过同时连接到两个不同的网络，将流量分流到两个路径上，从而减轻单一网络的负载和拥塞情况。这里， CPU的流量与GPU流量彻底分离开。

CPU的流量与GPU流量彻底分离开

（4）通信算法优化

单机优化

多级优化

利用NVLink高带宽优势在单机内部的GPU之间完成数据同步
多机之间的GPU利用多网卡建立多个环，对不同分段数据进行同步
最后单机内部的GPU再同步一次，最终完成全部GPU的数据同步

大规模网络扩展问题

算力昂贵是大家普遍的共识，由于GPU资源本身稀缺的特性，尽可能多的把GPU资源集中在一个统一的资源池里面，将有利于任务的灵活调度，减少AI任务的排队、减少资源碎片的产生、提升GPU的利用率。

要组成大规模GPU集群，网络的组网方式需要进行优化。

（1）网络架构横向扩展

ToR交换机用于和GPU Server直接连接，构成一个Block。

ToR交换机向上一层是Leaf交换机，一组ToR交换机和一组Leaf交换机之间实现无阻塞全连接架构，构成一个Pod
不同Pod之间使用Spine交换机连接。

ToR交换机用于和GPU Server直接连接，构成一个Block

接入能力分析

Pod是典型集群规模

Block是最小单元，包括256个GPU
Pod是典型集群规模，包括8个Block，2048个GPU
超过2048个GPU，通过Fabric-Pod模式进行扩展

GPU网卡的连接建议

GPU网卡的连接

以某厂家的技术实现为例：基于异构网络自适应通信技术，不同服务器上相同位置的GPU，在同一轨道平面，仍然走机间网络通信。

要去往不同位置的GPU（比如host1上的GPU1，需要向其它host上的GPU8 送数据），则先通过机内网络，转发到host1上的GPU8上，然后通过机间网络，来完成通信。机间网络的流量，大部分都聚合在轨道内传输（只经过一级ToR）。机间网络的流量大幅减少，冲击概率也明显下降，从而提供了整网性能。根据实测，异构网络通信在大规模All-to-All场景下，对中小数据包的传输性能提升在30%左右。

（2）计算与存储网络分离

CPU的流量与GPU流量彻底分离开

网络可用性问题

可用性问题在GPU集群中要求不高

因为大规模分布式的AI任务基本都是离线的训练任务，网络中断不会对主业务造成直接影响。

但是也需要关注，因为一个AI训练持续的时间可能会很长，如果没有中间状态保存的话，网络中断就意味着前面花费时间训练出来的成果全部失效，所使用的GPU资源也全部被浪费掉。

AI训练任务对网络拓扑的高度敏感性

某一处网络的中断，会导致其他节点网络的非对称，无限增加上层处理的复杂度，因此，在设计集群的时候需要考虑中断容忍的网络架构。

（1）存储双上联

由于网络中断，导致一个存储节点下线，可能会在网络内触发大量数据恢复流量，增加网络负载，因此，建议采用双上联设计，确保某个交换机或上联链路中断不会影响存储节点的可用性。

（2）计算网单上行

由于AI训练的特殊性，综合性能与成本考虑，暂不考虑双上联设计。

（3）采用GPU网卡连接方式

同一个GPU Server上的8块卡连接到8个ToR，可以节省机间网络的流量，大部分都聚合在轨道内传输（只经过一级ToR），机间网络的流量大幅减少，冲击概率也明显下降，从而提供了整网性能

但是，上面的方案，GPU Server上任何一个网卡或链接中断都会导致网络的非对称，整个GPU Server都会受到影响。所以，干脆让所有网卡共享同一个交换机，好处是，如果ToR交换机故障，影响到的GPU Server会尽可能少，从整个系统的角度出发，可用性反而提高了

采用GPU网卡连接方式

AIGC承载网设计实践

需求汇总（以某客户项目模型为例）

RoCE的计算网络	RoCE存储网络
1.不少于600端口200G以太网接入端口，未来可扩容至至少1280端口	1.不少于100端口200G以太网接入端口，未来可扩容至至少240端口
2. 全网无收敛（1:1收敛比），全线速交换	2. 带宽收敛比不大于3:1
3. 支持RoCE实现无损以太网	3. 支持 RoCE 实现无损以太网

整网的方案设计

AIGC承载网方案架构图

计算网络设计—-方案1（整网1：1无收敛）

不考虑GPU的8个接口的接入方式，8个接口接入1台或多台ToR

计算网络设计方案

交换机 10 Leaf + 20 ToR= 30 台，提供640个接入端口（20*32=640），每台GPU服务器8端口，可以最大可接入GPU服务器 80台
接入侧和Fabric内部互联均可以使用200G的AOC（含两端的200G光模块），其中接入侧600条，Fabric侧600条，合计1200条

方案1扩展性

计算网络设计方案

基于该架构，最多可以接入64台ToR，最大可以扩展到2048个200G接口接入，满足1280接口接入的扩展性要求

计算网络设计—-方案2（整网1：1无收敛）

考虑GPU的8个接口的接入方式，8个接口接入到8台Leaf，每8台Leaf作为一个分组

计算网络设计方案2

交换机 13 Leaf + 24 ToR = 37 台，按600个接入端口（75台GPU服务器），每组8个ToR接入25台GPU服务器，3组ToR接入75台
每组ToR接入25台GPU服务器，下行接入带宽为200*200GE，因此，上行也需要至少是200*200GE带宽，每台ToR到每台Leaf为2条200G，总上行带宽为2*13*8*200GE，满足1:1收敛要求
接入侧和Fabric内部互联均可以使用200G的AOC（含两端的200G光模块），其中接入侧600条，Fabric侧624条，合计1224条

方案2扩展性

计算网络设计方案2的扩展性

基于该架构，最多可以接入8组ToR ，每组8个ToR接入32台GPU服务器，8组ToR接入256台
最大可以扩展到2048个200G接口接入，满足1280接口接入的扩展性要求

存储网络设计（整网3:1收敛）

存储网络设计方案

交换机 2 Leaf + 3 ToR = 5 台，提供最大144个接入端口（满足100个接入需求）
如果不考虑Leaf高可靠部署，也可以单Leaf接入
接入侧和Fabric内部互联均可以使用200G的AOC（含两端的200G光模块），其中接入侧100条，Fabric侧36条，合计136条

存储网络设计的扩展性

交换机 2 Leaf + 5 ToR = 7 台，提供最大240个接入端口（满足240个接入的扩展需求）

设备配置汇总

网络类型	设备类型	设备型号	台数	合计
方案1
计算网络（600*200GE端口）	Spine	CX664D-N	10	35
计算网络（600*200GE端口）	Leaf	CX664D-N	20
存储网络（100*200GE端口）	Spine	CX664D-N	2
存储网络（100*200GE端口）	Leaf	CX664D-N	3
AOC线缆（含模块）	AOC			1336条
方案2
计算网络（600*200GE端口）	Spine	CX664D-N	13	42
计算网络（600*200GE端口）	Leaf	CX664D-N	24
存储网络（100*200GE端口）	Spine	CX664D-N	2
存储网络（100*200GE端口）	Leaf	CX664D-N	3
AOC线缆（含模块）	AOC			1360条

星融元方案价值与优势

超低TCO、超高性价比：相较于IB方案，大幅度降低用户的网络TCO，同时确保高性能
横向平滑扩容、1:1收敛无阻塞：无收敛的网络设计确保无阻塞的大容量网络，按需横向扩展
整网RoCEv2：基于CEE/DCB能力，提供可与IB媲美的性能和同样无损的网络服务
开放网络操作系统：星融元网络操作系统AsterNOS，SONiC企业级发行版，支持灵活的功能扩展、在线升级
无缝对接云管：AsterNOS 利用简单易用的REST API，可轻松让第三方的云平台/控制器快速纳管
专家级服务：专业、全面、可靠的研发、方案与服务团队，为客户提供小时级的快速响应服务

返回资源中心

简述AI网络

TCP/IP 和 RDMA

RDMA 是一种关键的卸载技术，可实现现代人工智能应用所需的可扩展并行处理。在 TCP/IP 套接字中、数据必须先从用户空间复制到内核空间，然后才能到达网络驱动程序和网络。当处理与人工智能应用相关的大量数据时，CPU 可能会成为瓶颈。

TCP/IP 和 RDMA

这就是远程直接内存访问（RDMA）的用武之地。在高性能计算系统中，RDMA 无处不在，因为它无需依赖内核即可在主内存中交换数据。RDMA 有助于提高吞吐量和性能，从而提高数据传输速率，降低启用 RDMA 的系统之间的延迟，因为它减少了CPU 周期。

RDMA transfer

RDMA 传输的语义由 InfiniBand Verbs 软件接口定义。这包括内存块的注册、描述符的交换以及 RDMA 读写操作的发布、描述符的交换以及 RDMA 读写操作的发布。该接口独立于作为物理传输层的 Infiniband物理传输层。

RoCE 定义了如何通过以太网传输 InfiniBand 有效载荷。RoCEv2 通过允许流量路由，进一步扩展了这种可扩展性和功能，允许对流量进行路由，并支持在以太网上扩展 RDMA。

RoCE and RoCEv2 Frame Format

集体交流

现代大型语言模型以数十亿或数万亿个参数为基础，并使用大量数据集进行训练，这些数据集无法在任何单个主机 GPU 中运行。任何单个主机 GPU 都无法容纳。这些数据集和模型被分割到多个 GPU 中并行训练，得出的梯度和权重，然后通过集体通信在各成员 GPU 之间聚合和同步。

集体通信允许在通信器的所有进程之间交换信息。常用的集体通信原语包括广播、聚集、分散、全对全、全局还原（或全还原）和全聚集。最终目标是确保所有进程在每一步都能同步。在所有参数同步之前，通信器中的任何进程都不能继续运行。

程序员可以利用流行的集体通信库（如 NCCL、oneCCL、RCCL、MSCCL 等），将高效、久经考验的通信算法集成到其应用程序中。应用中集成高效、久经考验的通信算法。

环形算法和二叉树算法通常用于像 allreduce 这样需要在所有 GPU 之间交换信息的集体程序。所有 GPU 之间交换信息。下图显示了用于在四个进程间交换信息的环形算法。

Allreduce using ring algorithm

环路具有带宽最优性，要求网络在所有终端主机之间提供线速带宽。虽然带宽效率高，但随着用于训练模型的 GPU 数量增加，延迟也会随环路线性增加。

树形算法通过对参与进程进行排序并将其拆分为不重叠的二进制树，可在保持低延迟的同时扩展 GPU。

分成不重叠的二叉树。下图显示了 16 个进程被分成两棵不重叠的二叉树。

Non-overlapping binary trees

每个进程从两个对等进程接收信息，并向两个对等进程发送信息。这种模式的延迟不会像环模式那样线性增加，但它要求网络有效地管理流量传输，以便上游进程能以尽可能接近线速的带宽向每个接收进程发送信息。

必须为人工智能网络选择合适的互连设备，以便高效地交换信息，并让进程通过每个障碍，继续前进，进程越过每个障碍，进入下一阶段的计算。

人工智能网络互联

以太网广泛部署在数据中心、骨干网、边缘网和园区网中，其使用情况各不相同，从非常低的速度到目前的 100G、200G、400G 和 800G 高速度，以及未来的 1.6T。到目前的 100G、200G、400G、800G 等高速，路线图中将达到 1.6T。另一方面，Infiniband 是一种网络技术而 Infiniband 则是 HPC 集群中常用的一种网络技术。如前所述，AI/ML 工作负载是网络密集型的，不同于传统的 HPC 工作负载。

此外，随着大型语言模型（LLM）的激增此外，随着大型语言模型（LLM）的激增，对 GPU 和存储容量的需求也在不断增加。容量。现代人工智能应用需要拥有数千个 GPU 和存储设备的大型集群。

现代人工智能应用需要配备数千个 GPU 和存储设备的大型集群，而这些集群随着需求的增长，这些集群必须扩展到数以万计的设备。增长。随着 GPU 速度每隔一年翻一番，避免计算和网络瓶颈至关重要。通过可扩展的网络设计来避免计算和网络瓶颈。可扩展的网络设计。

当应用团队关注计算能力时网络团队则必须根据以下几个因素对互连进行仔细评估互连：

绩效

衡量人工智能集群性能的关键指标之一是作业完成时间。工作完成时间。要达到理想的性能，网络必须是无损的、无阻塞的，并且提供合理的链路利用率。正如后面所讨论的，有了适当的拥塞控制机制和高效负载平衡技术技术，RoCEv2 可提供人工智能工作负载所需的最佳性能。

带宽和速度

随着培训工作的规模越来越大，提供更快的网络非常重要。使用端口速度更快的高密度更快的端口速度。使用商用硅以太网解决方案，网络带宽可以每两年翻一番。同时降低每比特成本和每比特功耗。

Single Chip Ethernet Switch Silicon Through 2025

Data Center Ethernet Switching Bandwidth Growth, by SerDes Speed

无损网络

虽然更快的速度很有用，但无损网络对作业完成时间至关重要。Infiniband 采用基于信用的流量流量控制，以避免数据包丢失。发送方在收到目标主机发送的表示有可用缓冲区的数据包之前，等待发送数据包。缓冲区。通过使用显式拥塞通知（ECN）和优先级流量控制（PFC），以太网也可作为无损信道运行。无损信道。这些机制对发送方施加反向压力，以避免主机或交换机缓冲区超限。可靠的传输通过 IB 流量控制或带有 ECN/PFC 的以太网进行可靠传输，对于最大限度地提高 RDMA 性能至关重要

可扩展性

随着 LLM 模型规模的不断扩大，其能力也得到了可靠且可预测的提升。这反过来又推动了更大这反过来又推动了更大的 LLM，进而推动了更大的人工智能集群互连。简而言之，网络的可扩展性是一个非常重要的考虑因素。

以太网已经证明了其在全球最大云网络中的扩展能力。网络团队能够采用云设计，并利用运行边界网关协议（BGP）的 CLOS 架构构建分布式网络。

另一方面，Infiniband 的控制平面通过单个子网管理器集中管理，该子网管理器可发现物理拓扑，并在每个节点上设置转发表和 QoS 策略。它定期扫描网络，并根据拓扑变化重新配置设备。这在小型集群中效果良好，但在大规模集群中可能会成为瓶颈。有一些经过深思熟虑的复杂解决方案可以起到修补作用。不过，以太网中的分布式控制平面的规模超过了 Infiniband 48000 的最大子网规模，并提供了更高的弹性。

恢复能力

当 Infiniband 的子网管理器发生故障时，整个子网都可能瘫痪。Infiniband 确实有一些技术可以在某些情况下实现连续转发。在某些情况下可以连续转发，但最终控制平面仍然是集中式的，而且很脆弱。完全故障切换到而子网越大，停机时间就越长（需要传输的状态越多、跨节点的扫描范围越大）。根据与客户的交谈，停机时间可能是 30 秒到几分钟不等。在某些用例中，客户但对于大型人工智能/ML 工作负载来说，这种故障会严重影响作业完成时间和整体性能。性能。使用以太网和 Arista SSU 等功能的分布式可扩展架构，链路和节点故障对整体性能的影响极小甚至没有影响。对大型人工智能网络的整体性能影响极小甚至没有影响。

可见性

遥测和可视性对于实现网络自动化和无缝操作极为重要。网络团队希望将目前用于数据中心通用计算和存储的工具、流程和解决方案扩展到人工智能集群中。

互操作性

OAI 网络通常与各种存储和通用计算基础设施相连接。基于以太网的人工智能网络实现了高效、灵活的网络设计，避免了通过这些不同系统的管道瓶颈。虽然 IP 流量可以通过物理 Infiniband 网络传输，但所有服务器都必须配备 Infiniband HCA 或通过 Infiniband 至以太网网关，这极大地限制了进出 IB 网络的吞吐量。

开放

以太网拥有一个非常强大的生态系统，包括多个芯片供应商、系统供应商和光学供应商，并推动基于开放和标准的解决方案在各供应商之间实现互操作。InfiniBand 则由于选择有限和锁定解决方案而明显落后。

以太网的人工智能工作负载的关键要求总之，以太网因其可扩展性、互操作性、可靠性、成本效益、灵活性和熟悉度而被认为是人工智能网络的最佳解决方案。以太网的良好记录、广泛采用和对高速网络的支持，使其成为希望建立高效、可扩展的网络基础设施以支持其人工智能工作负载的企业的不二之选。

让我们来看看使用以太网的人工智能工作负载的关键要求。网络需要支持 RoCEv2 的无损传输、优先处理控制流量的服务质量 (QoS)、可调整的缓冲分配、有效的负载平衡和实时监控。

返回资源中心

云化园区

网络操作系统（SONiC）

可视交换机

开放硬件平台

标签： 科普-AI

P4可编程交换机具备哪些优势和特性？

P4 具有独特的优势：

P4 ASIC芯片供应格局变局下，星融元持续为您提供P4可编程交换机解决方案

P4可编程交换机的应用场景及价值

面向负载均衡与资源分配的应用

数据中心互联的云边界网关

精准带内网络遥测数据，打造数据中心智能化网络

星融元客户案例：P4网络解决方案在电商领域的应用

近期文章

最新动态

近期文章

800G以太网优势何在？

800G以太网的技术解读

800G以太网行业现状

800G以太网技术如何破局？

挑战一：误码问题

解决方案：

挑战二：能耗问题

解决方案

800G以太网的未来

总结

最新动态

关注星融元

AI智算的概念

算力网络的概念

算网融合的概念

三者的关系是什么

智算时代如何打造算力网络

算力网络的特点

Kubernetes容器化技术

DCB协议

INT技术

为泛在算力构建开放网络——星融元CX-N系列交换机

关注星融元

AI智算的概念

云网融合的概念

智算与云网融合的关系

软件定义网络（software defined network，SDN）

网络功能虚拟化（network functions virtualization,NFV）

NFV架构的核心模块包括以下3个组成部分：

NFV在云网融合场景中的优势 ：

总结

智算新时代的云网设备支撑

关注星融元

前言

什么是AI大模型？

AI模型是如何训练的？

AI大模型训练的网络流量有哪些？

图1 AI训练时的网络流量分类

网络如何承载AI大模型流量？

（一）网络架构优化

Rail-Only网络架构

图2：full-mesh全互联组网

（二）协议与技术升级

图3：RDMA工作原理

传统模式和RDMA模式的对比

图5：PFC工作机制

（三）硬件与设备优化

为AI流量而生——800G超级以太网交换机

近期文章

什么是 800G 以太网？

为什么我们需要 800G 以太网？

800 Gb/s 以太网规格

架构概述

利用现有标准

800G以太网网络时间表

2022 年：首款 51.2T 交换芯片发布

2023年：标准发布和开发验证

物理层标准将于 2024-2026 年完成

800G以太网的多种应用场景

数据中心

云计算

高性能计算

大数据

物联网

标签：科普-AI

NFV在云网融合场景中的优势：