Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

标签: 科普-数据中心

800G以太网:解锁下一代数据中心的高速互联

近期文章


随着AI技术的快速发展,尤其是大模型的训练推理过程,数据量呈爆炸式增长,这也对底层基础设施提出了更高的要求,网络传输必须朝着更高带宽和更高密度的方向发展以满足需求。800G以太网在400G的基础上进行扩展,提供800Gbps的数据传输速率。

800G以太网优势何在?

  • 高带宽与高速率:提供800Gbps的数据传输速率,远超当前主流网络标准。
  • 高吞吐量和低延迟:显著提升数据传输的吞吐量和降低延迟。当下已推出51.2T交换芯片。
  • 支持高密度与大规模传输:800Gps的传输速率使其能够在有限的物理空间或资源下,有效传输更多的数据,支持更广泛的网络拓扑和大规模部署。

800G以太网的技术解读

如图1所示,800G以太网实际上是一种接口技术,可以支持单个MAC以800Gb/s的速率运行。800G以太网通过集成两个400G PCS实例来实现其高速率传输。这两个400G PCS实例在数据传输过程中协同工作,共同支撑800G的带宽需求。800G-ETC-CR8/KR8规定,800G PMD子层基于IEEE 802.3ck标准的400Gb/s技术,将原来的4个并行通道扩展为8个并行通道。这就将PAM4(四电平调制)和SerDes速度从上一代的50Gbps翻倍至100Gbps,实现了网络的高带宽与高速率。

图1:800G以太网架构图
图1:800G以太网架构图

800G以太网行业现状

目前市场上的800G交换芯片主要有Broadcom Tomahawk 5、Marvell Teralynx 10和Cisco Silicon One G200,NVIDIA Spectrum-4芯片不对外售卖。它们的制作工艺大多基于5nm,吞吐量都为51.2Tb/s,在端口速率配置和一些特色功能上略有不同。比如Broadcom Tomahawk 5芯片更侧重其高效的SerDes设计降低功耗,Marvell Teralynx 10强调其业界超低延迟表现,Cisco Silicon One G200采用P4可编程并行处理器,更加灵活可定制,而NVIDIA Spectrum-4则是专注于AI网络性能的提升。下面附上芯片能力表格以便直观对比。

厂商BroadcomMarvellNVIDIACisco
芯片名称 Tomahawk 5Teralynx 10Spectrum-4Silicon One G200
制程工艺5nm5nm定制4N工艺5nm
吞吐量51.2Tb/s51.2Tb/s51.2Tb/s51.2Tb/s
端口速率
及配置
64x800Gb/s, 128x400Gb/s, 256x200Gb/s32x1.6Tb/s, 64x800Gb/s, 128x400Gb/s"64x800Gb/s
(可做两条400Gb/s链路)"
"64x800Gb/s,128x400Gb/s,
256x200Gb/s"
特色功能高效SerDes设计(借助多达 64 × [PM8x100] SerDes灵活配置端口)延迟表现低至500纳秒显著提升AI云网性能采用P4可编程并行分组处理器,高度灵活可定制

基于这些主流的800G交换芯片已有交换机厂商率先推出800G以太网交换机,例如Arista 7060X5、edgecore AIS800-64D、Cisco Nexus 9232E、星融元Asterfusion CX864E-N

图2:800G交换机组网方案
图2:800G交换机组网方案

这代表了网络硬件技术的飞跃,满足高速数据传输需求的同时推动了相关行业应用,但800G以太网技术仍未完善,所有市面上的相关产品仍旧有各自的提升空间和要面临的网络挑战。

800G以太网技术如何破局?

挑战一:误码问题

信号在高速传输的过程中受多种因素影响,例如信号衰减、反射散射和噪声抖动等。这些因素会导致信号质量下降,甚至出现比特错误,即误码。误码率指数据传输中错误比特数与总传输比特数的比例,是数字通信系统中衡量传输质量的关键指标。误码率越高,数据损耗程度越严重。然而在更高速的800G以太网中,常规的信号处理技术不足以解决误码问题,需要更复杂的方式来应对。

解决方案:

  • 更复杂的FEC算法:FEC是一种前向纠错技术,可以在数据传输过程中添加冗余信息,以便在接收端检测和纠正错误。800G以太网目前所有通道均采用 400 Gb/s 标准支持的 RS(544,514)FEC。然而正在开发的下一代800G收发器将使每个通道的速率达到200Gbps,需要更多的冗余数据、更多的纠错机制和更复杂FEC算法来确保数据传输的可靠性。
    图3:FEC工作原理
    图3:FEC工作原理
  • 更先进的DSP技术:优化数字信号处理技术,使得DSP芯片对接收到的信号进行更精确的处理,提高信号的质量和稳定性,减少误码的发生。

挑战二:能耗问题

随着数据中心容量和密度的提升,采用传统可插拔光模块方式逐渐遇到一个困难。传统交换芯片与光模块之间有一条较长的电通道,电通道在速率提升时数据损耗越来越大,为了克服通道上的数据损耗,需要在电通道上做复杂信号处理,这些处理会显著增加系统功耗。再加上光模块本身功耗大,尽管已经进行了高效设计,但在大型数据中心中拥有数以万计的光模块,其整体功耗仍是问题。除了光模块外,SerDes的通道数量和单个通道的速率也在不断提升。在800G以太网中,SerDes的速度增加到100Gbps,芯片周围的SerDes通道数量增加到512,这都会导致功耗的上升。

解决方案

  • CPO光电共封装技术:OFC 2022的Workshops针对高速以太网的功耗问题提到了CPO(Co-packaged Optics)技术。该技术将交换芯片和光引擎共同装配在同一个Socketed(插槽)上,形成芯片和模组的共封装。这样的封装方式显著减小了电通道带来的能耗损失和信号干扰,为800G以太网提供更高的功效。
  • 更高效的SerDes设计:SerDes需要支持更高的速率和更低的功耗,同时保持较小的面积和成本。
    图4:CPO技术的电路板组装
    图4:CPO技术的电路板组装
  • 优化电路板设计:采用更高效的电路设计和低功耗材料来减少功耗,提高整体能效。

800G以太网的未来

  • 从技术创新的角度来说:交换机和光模块技术不断发展,比如100Gbps SerDes广泛应用,都为800G以太网的实现提供了技术基础,有望在未来几年实现800G以太网的大规模商用。目前一些领先的芯片制造商已经发布了支持1.6T以太网PHY解决方案的产品,这表明800G以太网将向着更高速率迈进。
  • 从行业标准的制定来说:2022年,OIF完成了400ZR标准规范,并正在制定800G LR和ZR的规范,包括光系统参数、FEC算法、DSP技术、OTN映射等技术方面。2023年,IEEE 802.3dj项目中就800G 10km应用是否采用IMDD(强度调制和直接检测)还是其他相关技术进行了讨论。目前,IEEE 802.3正在积极推进800G及1.6T以太网接口的标准化工作。预计在未来两年内,IEEE 802.3、OIF等国际标准组织将陆续完成800G以太网物理层标准的制定,并推动其在实际应用中的开发和验证。
  • 从市场的角度来说:5G 网络、云计算和人工智能等领域快速发展,数据中心对带宽的需求日益增长。800G以太网能够提供更高的带宽和更低的延迟,必定会投入使用,扩大市场规模。再加上目前国内外市场不断有企业在800G通信领域取得显著进展,不难看出800G以太网将成为通信市场的重要增长点。有相关机构预测,到2025年,800G以太网将占数据中心交换机端口的25%以上,表明在未来几年内,800G以太网将实现快速普及。

总结

综上,800G以太网技术是应对未来网络需求的关键解决方案,不断推动数据中心和网络基础设施的升级,满足日益增长的数据传输和处理需求。未来,随着技术的不断进步和市场的扩大,800G以太网有望在未来几年内实现更广泛的商业化和部署。

参考:https://ethernettechnologyconsortium.org/wp-content/uploads/2021/10/Ethernet-Technology-Consortium_800G-Specification_r1.1.pdf

https://bbs.huaweicloud.com/blogs/415694

返回资源中心

最新动态

一文揭秘AI智算中心网络流量 – 数据存储篇


关注星融元


本篇为“揭秘AI智算中心网络流量“系列的第三篇,前篇请参阅:


01、生成式AI对数据存储有哪些需求?

对于较小规模的AI模型,本地连接的磁盘存储可能就足够;进入大模型时代,则通常需要基于对象存储或并行文件系统的共享存储。一个完整的生成式AI的工作流的各阶段对存储有不同需求,具体可拆解如下:

  • 数据挖掘:需要从多个来源收集非结构化的数据,一般与混合云集成,用数据湖作为存储平台;
  • 数据准备:进行数据汇总、标准化和版本控制,关注存储的效率和灵活的数据管理能力,多采用统一存储平台;
  • 模型训练和微调:在智算中心内部,结合GPU服务器本地内存和远端的并行/分布式存储系统。因为GPU的投入巨大,需要高性能存储来高效地提供数据,并在整个过程中保持高利用率;
  • 推理阶段:该阶段旨在利用已训练好的模型实时生成输出,需要将输入模型和推理生成的文字/图片/视频流存储下来作为备份。

02、智算中心的存储网络

我们大致可将AI智算中心内部的数据存储系统进行简单的层次分类,主要包括GPU内存、存储网和存储设备。

| 图片引自 NVIDIA技术博客

| 图片引自 NVIDIA技术博客

一般来说,在存储层次结构中位置越高,其存储性能(尤其是延迟)就越快。因为本文的定位在分析网络流量,我们将聚焦于存储网络(data fabric)层次,即智算中心内部GPU服务器内存与远端存储服务器之间传输的数据

在一个计算和存储分离的部署场景中,一般推荐部署2张Spine-Leaf架构的物理网:前端网和后端网。其中,存储前端网和业务网共用一张物理网。

存储后端网则单独使用一张物理网,以保证分布式存储集群能够快速无阻塞地完成多副本同步、故障后数据重建等任务。存储节点对网络接入侧的可靠性要求相对较高,因此推荐使用双归(MC-LAG)或者多归(EVPN-Multihoming)接入。

存储网络流量主要发生在模型训练的场景,它是一种单播流量,逻辑上仅需要以存储服务器为中心的星型连接。

  • 一是从存储服务器中分批加载训练数据集到GPU内存。
  • 二是训练的中间结果(定期保存的参数和优化器状态,即Check Point)要在存储服务器共享,并通过网络读写。

⑴ 数据集加载流量分析

在一个epoch中,整个训练集被遍历一次,如果进行评估,验证集也将被遍历一次。以下假设在每个epoch中进行评估,整个数据集的存储大小为D。

  • 数据并行时,整个数据集从网络存储读取,通过scatter操作分别加载到不同的GPU上,总网络流量为D。
  • 张量并行时,整个数据集从网络存储读取,通过broadcast操作发送给所有GPU,总的网络流量为 D x G。
  • 流水线并行时,整个数据集从网络存储读取,喂给流水线上第一个GPU,总网络流量为D。
  • 3D并行时,整个数据集从网络存储读取,在数据并行维度上分配,在张量并行维度上广播,总网络流量为D x G(tp) 。

以C4数据集为例,数据集的大小约38.5 TB,假设张量并行GPU数量为8,3D并行时每个epoch中加载数据集产生的网络流量为308TB

⑵ Checkpoint存储流量分析

Checkpoint中存储了模型参数、优化器状态和其它训练状态(包括模型配置、训练的超参数、日志信息等)。优化器包含了梯度、动量和二阶矩估计等,每一种数据大小都等于模型参数。其它训练状态的大小可以忽略不计。假设模型参数为P,数据格式为BFLOAT16,优化器为Adam/AdamW,则checkpoint总大小为:

2 x P + 2 x P x 3 = 8 x P

这个checkpoint要保存在存储服务器中,虽然在张量并行、流水线并行和3D并行时,这些数据从多个GPU上通过gather操作汇聚到存储服务器,但无论如何,数据总量是一个checkpoint大小。假设每个epoch存储一次。这样,每个epoch产生的流量为:

8 x P

以Llama3-70B模型为例,假设每个epoch均存储,则产生的网络存储流量为560GB

03、存储网设备选型:RoCE还是InfiniBand

相比训练场景,在智算中心存储网传输的流量与并行计算完全不在一个量级——虽然对链路带宽要求不那么高,但仍需满足高速分布式存储业务中所需的高吞吐、低时延、无损传输特性,并灵活满足存储集群规模调整所需的高可扩展性。

NVIDIA DGX SuperPOD™ 的方案在存储网采用的是200G的InfiniBand交换机。而事实上,随着近年来AI以太网技术的进步,RoCE与IB在转发时延上的细微差异,对分布式存储业务性能几乎没有影响。结合科学的网络参数调优,我们已在多个客户现场稳定测得了运行RoCEv2协议的交换机端到端性能全面优于IB交换机的结果。RoCE交换机作为IB平替已是不争的事实。

星融元 CX664P-N 是一款专为智算/超算中心设计的超低时延RoCE交换机,凭借以下特性在存储场景中脱颖而出。

型号为CX564P-664D-N数据中心交换机产品图

CX664D-N— 业务接口:64 x 200GE QSFP56, 2 x 10GE SFP+

  • CX-N系列一贯的超低延迟特性,端到端性能可媲美IB*(*测试数据详见方案手册)
  • 12.8Tbps 的线速 L2/L3 交换性能,提供高密度 200G/100G 以太网接口,满足主流存储网络需求并兼顾未来升级空间;另有两个 10G 端口用于管理网接入
  • 支持基于 RDMA 的 NVMe-oF (全端口标配RoCEv2)和EVPN-Multihoming → 什么是EVPN多归属,和MC-LAG的区别?
  • 搭载持续进化的企业级SONiC——AsterNOS网络操作系统,其开放的软件架构通过REST API开放全部网络功能给AI智算中心管理系统,实现无损以太网的自动化极简部署 → Easy RoCE:一键启用无损以太网

除存储网之外,基于通用、解耦、高性能的以太网硬件和开放软件框架,星融元可为大模型算力中心提供10G-800G的全场景互联能力。

一文揭秘AI智算中心网络流量 – AI推理篇


关注星融元


本篇为“揭秘AI智算中心网络流量“系列的第二篇,前篇请参阅:一文揭秘AI智算中心网络流量 – 大模型训练篇 。有关数据存储流量的分析将于下篇呈现,敬请关注。

AI推理是指从经过训练的大模型中获取用户查询或提示的响应的过程。

为了生成对用户查询的完整响应,AI推理服务器从一次推理迭代中获取输出token,将其连接到用户输入序列,并将其作为新的输入序列反馈到模型中以预测下一个token。这个过程被称为“自回归”计算,此过程重复进行,直到达到预定义的停止标准。

自回归

AI推理系统如何生成一次完整的响应?

⑴ 预填充/提示(Prefill):模型从用户那里获得输入序列。基于此输入,模型预测第一个输出token。

⑵ 解码(Decode):将生成的输出token连接到输入序列。更新后的输入序列被反馈到经过训练的模型中,然后生成下一个token。

⑶ 循环:解码继续进行,每个新token都是基于所有先前token的累积序列生成的。这种将输出token自回归地馈送到输入的过程确保模型在每个步骤的输出都受到所有先前token的影响,从而使其能够保持上下文和连贯性。

⑷ 终止:当模型达到停止标准时,它会终止该过程。停止标准可以是以下之一。

  • 最大序列长度:一旦达到总token(输入和输出)数量的定义限制
  • 序列结束 (EOS) :模型生成一个特殊token,表示文本生成的结束。
  • 上下文完成:当模型确定生成的文本已根据提供的上下文得出自然且合乎逻辑的结论

AI并行推理网络流量分析

由于在预填充阶段已知整个token输入序列,因此推理加速器可以并行计算所有输入token的信息,并执行模型来预测下一个输出token。

在大模型推理时,虽然模型经过了压缩(比如4bit量化),但模型尺寸仍可能超过单个GPU的内存,这时候就需要张量并行,即使单个GPU可以容纳整个模型,张量并行可以加速推理过程。如果并发用户数较大,单个GPU来不及及时响应,就需要数据并行

让我们再次回顾AI推理的两个关键阶段:

  1. 预填充(Prefill)阶段根据用户输入的prompt,生成输入token序列,并进行批处理,计算KV(Key, Value)缓存,并生成第一个输出token。这个阶段可以认为是大模型在理解用户输入,KV缓存存储了输入序列的上下文信息(为下面的Decode阶段缓存),其特点是需要大量的计算。
  2. 解码(Decode)阶段是一个循环过程,根据之前生成的token序列和KV缓存,计算下一个token,直到生成完整的输出。这个阶段可以认为是大模型在一个字一个字的说话。由于KV缓存的密集型计算已在 Prefill 阶段完成,因此此阶段仅处理上一阶段新生成的 token。因此,计算密集程度较低;但这一步需要从 KV缓存中读取前面所有token的Key,Value,所以需要高速的内存访问。

由于以上两个阶段对GPU的需求不同,我们可以采用Prefill-Decode解耦的方式,由2个不同类型的GPU分别承担Prefill和Decode阶段的计算任务,顺序执行。这时候就需要在两个阶段间传输KV缓存。

在生产部署时,通常结合上述几种方式。相比AI训练,AI推理只有前向传播过程,计算量相对较低,但需要快速的生成下一个token。流量产生有两个来源:

  1. 每次推理在Prefill GPU和Decode GPU之间传递KV缓存;
  2. Prefill GPU集群和Decode GPU集群分别实施张量并行,产生的中间激活的传递。不会有巨量的梯度同步流量。

假设并发用户数为U,数据并行维度为G(dp),张量并行维度为G(tp),用户输入序列的平均长度为S(in)个token,模型产生输出的平均长度为S(out)个token。

在张量并行时,前向传播产生了GPU间的网络流量,各个GPU计算出的中间激活值需要合并,由all-reduce操作进行求和。

假设模型有L层,在一次推理过程中,S(in)个输入token在模型的每一layer进行2次批量合并,共2L次,而对于每个输出Token,在模型的每个layer的中均进行2次合并,共 2xS(out) x L 次。此外,在Prefill阶段和Decode阶段之间有一次KV缓存的传递。AI并行推理网络流量如下图所示:

假设模型的隐藏状态大小为H,GPU数量为G,计算激活使用的数据格式为FLOAT16(2个字节表示一个数),每次all-reduce操作的通信量为

2 x H x (Gtp-1)x Gtp

在Prefill阶段,所有输入Token,在模型的每个layer的中均进行2次批量合并,共2xS(in)xL次。在Decode阶段,对于每个Token,在模型的每个layer的中均进行2次合并,共2xS(out)xL次。因此,U个用户的并发推理,中间激活值的总网络流量为

4 x U x(Sin+Sout)x L x H x (Gtp-1)x Gtp

另外,在一次推理中,KV缓存的大小为

4 x Sin x L x H

因此,U个用户的并发推理,KV缓存传递的网络流量为

4 x U x Sin x L x H

以Llama3-120B模型为例,模型层数140, 隐藏状态大小8192,张量并行度为4,用户prompt的平均长度S(in)为256个token,产生的输出的平均长度S(out)为4096个token。则要支持100个并发用户请求所需要的推理流量为:

4 x 100 x (256 + 4096)x 140 x 8192 x (4-1)x 4 + 4 x 100 x 256 x 140 x 8192 = 21.896TB

其中,KV缓存传递的流量虽然不大,每个用户约1.17GB,但需要在10ms左右的时间内一次传递完成。如果用1个800G端口传递,最快需要11.7ms。

AI推理对网络的需求

超高频率

AI推理流量虽然远小于训练时的网络流量,但值得注意的是,推理需要在很短的时间内完成,每个token在每一层产生2次流量,并要求在极短时间内传输完毕。假设至少要达到100token/s的推理速度,并行加速比为90%,那么每个token的推理速度要小于1ms,KV缓存需要在10ms左右完成。整个网络吞吐量应大于

4 x 100 x 140 x 8192 x (4-1)x 4/0.001 + 4 x 100 x 140 x 8192/0.01 = 5551GB/s 44.4Tbps

严格时间同步

无论是训练还是推理流量,都具有非常严格的周期性规律。基于木桶原理,如果GPU的时钟不同步,将造成同样的计算量花费不同的时间,计算快的GPU不得不等待计算慢的GPU。

开放与兼容性

AI推理进程涉及应用已训练好的AI模型进行决策或识别。对比AI训练,AI推理芯片门槛相对更低,我们的确也看到推理领域萌生出了开放生态的雏形,不少新兴初创企业加入竞争,涌现出基于不同算力架构的技术方案。

另一方面,在实际生产部署中的AI推理业务往往会与前端的业务/应用网络形成紧密配合,经由现有数据中心和云网络基础设施对外提供服务。

这便要求基础设施具备相当的开放性——网络不但要连接底层的异构算力(GPU、CPU、NPU)系统,还需要实现与上层管理系统的对接集成,例如与基于K8s的算力调度平台、已有的云管平台等等。

随着大模型的应用不断深化,AI算力部署将从训练场景逐步转向推理,推理需求也逐渐从云端迁移至边缘/终端,并呈现出垂直行业定制化的趋势。在云-边-端之间,我们需要构建一个更为均衡、通用化的网络基础设施体系。

在已被用户场景充分验证的数据中心开放云网能力之上(BGP、VXLAN、Calico容器路由、RoCE、NVMe-oF等),星融元推出的 星智AI 网络解决方案基于通用、解耦、高性能的以太网硬件和开放的SONiC软件框架,为AI智算中心提供10G-800G速率的以太网交换机,灵活支持单一速率或混合速率交换机组网,在保持极致性能的同时可编程、可升级,帮助客户构建高性能的AI智算中心网络,提供用于AI训练、推理、分布式存储、带内外管理等场景的互联能力。

  • 最大支持64个800G以太网接口,共51.2T交换容量
  • 超低时延,在800G端口上实现业界最强的560ns cut-through时延
  • 全端口标配支持RoCEv2
    200+MB大容量高速片上包缓存,显著减小集体通信时RoCE流量的存储转发时延
  • Intel至强CPU + 大容量可扩展内存,运行持续进化的企业级SONiC——AsterNOS网络操作系统,并通过DMA直接访问包缓存,对网络流量进行实时加工
  • INNOFLEX可编程转发引擎:可以根据业务需求和网络状态实时调整转发流程,最大程度避免网络拥塞和故障而造成的丢包
  • FLASHLIGHT精细化流量分析引擎:实时测量每个包的延迟和往返时间等,经过CPU的智能分析,实现自适应路由和拥塞控制
  • 10纳秒级别的PTP/SyncE时间同步,保证所有GPU同步计算
  • 开放的软件架构(生产就绪的SONiC,AsterNOS)通过REST API开放全部网络功能给AI智算中心管理系统,与计算设备相互协同,实现AI算力集群的自动化部署

AI Open Ecology

一文揭秘AI智算中心网络流量 – 大模型训练篇


关注星融元


前言:自2017年起,AI模型的规模每半年翻一番,从初代Transformer的6500万增长到GPT-4的1.76万亿,预计下一代大语言模型将达到10万亿规模。另一方面,用于模型训练的数据量持续增长,如C4数据集,原始数据量累计超过9.5PB,每月新增200-300TB,目前经过清洗加工后的数据集大小约38.5 TB,训练样本数364.6M。进一步,随着多模态大模型的兴起,训练数据从单一的文本过渡到图像和视频乃至3D点云,数据规模将是文本数据的1万倍以上。

AI模型的规模巨大并持续快速增长,不仅将带来数据中心流量的指数型增长,独特的流量特征也将为数据中心网络带来崭新的需求。

深入分析AI大模型在训练、推理和数据存储流量将帮助数据中心建设者有的放矢,用更低的成本,更快的速度、更健壮的网络为用户提供更好的服务。

本篇我们将聚焦于介绍AI大模型训练场景下的网络流量,AI推理和数据存储场景会在接下来的文章中呈现,敬请关注。

AI model

AI训练程序首先将模型参数加载到GPU内存中,之后将经历多个epoch(即使用所有训练集对模型进行一次完整训练),每个epoch的处理过程可以简单描述为4步:

  1. 加载训练数据,在每个epoch中,根据batch size将整个数据集分为若干个mini-batch,分批次加载训练数据,直到遍历整个训练数据集。
  2. 训练,包括前向传播、计算损失、反向传播和参数/梯度更新,每个mini-batch都进行上述步骤。
  3. 评估,使用评估数据集对模型的指标进行评估。这一步是可选的,可以在整个训练完成后单独进行,也可以间隔若干个epoch进行一次。
  4. 保存checkpoint,包括模型状态、优化器状态和训练指标等。为了减少存储需求,通常经过多个epoch后保存一次。

在大模型出现之前,整个过程在可在一台AI服务器内部完成,训练程序从服务器本地磁盘读取AI模型和训练集,加载到内存中,完成训练、评估,然后将结果存储回本地磁盘。虽然为了加速训练,也会采用多块GPU同时训练,但所有的I/O均发生在一台AI服务器内部,并不需要网络I/O。

AI大模型训练的网络流量有哪些?

进入大模型时代,AI训练的流量路径和其网络需求发生了巨大变革。

首先是模型的参数规模超出了单个GPU的内存,采用GPU集群协同计算,则需要相互之间通信以交换信息,这类信息包括参数/梯度、中间激活值等。

庞大的数据集被所有GPU共享,需要集中存放到远端的存储服务器中通过网络调用,分批加载到GPU服务器上。此外,定期保存的参数和优化器状态也需要通过存储服务器共享,在每个训练epoch中,都要通过网络读写数据。

由此,AI大模型训练的网络流量可分为以下两类:

  • 第一类是GPU之间同步梯度和中间激活的网络流量,它发生在所有GPU之间,是一种广播式流量,逻辑上需要所有GPU全连接。
  • 第二类是GPU和存储服务器之间的流量,它仅仅发生在GPU和存储服务器之间,是一种单播流量,逻辑上仅需要以存储服务器为中心的星型连接。

并行训练技术

其中,GPU之间的网络流量与传统数据中心内部流量迥然不同,这与AI大模型的训练方法息息相关——并行训练技术。

并行训练:AI智算中心的主要流量来源

当前广泛应用于AI训练并行计算模式主要有以下三类:

数据并行将不同的样本数据分配给不同的GPU,以加快训练速度;用在主机之间
张量并行将模型的参数矩阵划分为子矩阵,并分配到不同的GPU上,以解决内存限制并加速计算。一般用在主机内部。
流水线并行将模型分为多个阶段,每个阶段分配给不同的GPU,以改善内存利用率和资源效率。一般用在主机之间

并行训练

常见的集合通信流量模式(如下图)

Collective communication

1.数据并行(Data Parallelism)

在数据并行时,主要的网络流量来源于梯度同步,它发生在每次mini-batch处理之后,由一个all-reduce操作计算平均值。理想情况下,所有GPU全连接,每个GPU给其它G-1个GPU单独发送数据,共需发送G x(G-1)份数据。

FSDP(完全分片数据并行)是一种改进的数据并行技术,旨在优化内存使用和通信效率。它通过将模型参数和梯度在多个GPU之间分片(shard)存储,实现更高效的内存利用和通信。

在FSDP时,网络流量来自前向传播的参数收集以及反向传播中的梯度同步。

前向传播的参数收集由all-gather操作完成,all-gather的通信复杂度与all-reduce相同。

后向传播的梯度同步由all-reduce操作完成,由于每个GPU的参数只有原来的1/G,一个epoch中总的网络流量只有普通数据并行的1/G。

2.张量并行(Tensor Parallelism)

在张量并行时,模型参数分布到G个GPU上,每个GPU只存储1/G参数。网络流量主要来自前向传播过程的中间激活值的传递以及反向传播过程中的梯度同步。

前向传播中,各个GPU计算出的中间激活值需要合并,由一次all-reduce操作进行求和。对于每个Token,在模型的每个layer的中均进行2次合并,共2xTxL次通信。

反向传播中,梯度需要在GPU之间同步,这种在每一层的处理中发生2次,由all-reduce操作将各个GPU上梯度求和。这种同步发生在每个mini-batch的每个layer的处理过程中。共2×N×L次通信。

3.流水线并行(Pipeline Parallelism)

在流水线并行时,网络流量主要来自前向和反向传播过程的中间激活值的传递。与张量并行不同,这些流量的传递发生在模型的前后两个阶段之间,使用Point-to-point通信而非all-reduce操作,并且频率也大大减小了。

综上,在三种并行方式中,张量并行的网络流量最大、频率最高,流水线并行的流量最低,数据并行的通信频率最低。如下表所示,P为模型参数,T为token数,L为模型层数,H为隐藏状态大小,G为GPU数量,N为mini-batch的数量,采用BFLOAT16数据格式,每个参数占2个字节。在每个epoch过程中:

 流量模式后向传播总网络流量反向传播同步次数前向过程总网络流量前向过程传递次数
数据并行all-reduce2 × N × P × G × (G-1)100
FSDPall-gather + all-reduce2 × N × P × (G-1)L2 × N × P × (G-1)L
张量并行all-reduce4 × N × P × L × (G-1)2 × L4 × L × T × H × (G-1) × G2 × L × T
流水线并行Point-to-point2 × T × H × (G-1)G-12 × T × H × (G-1)G-1

以具有80层(L)的Llama3 70B(P)模型和C4数据集为示例计算:采用BFLOAT16数据格式,每个参数占2个字节,隐藏层维度设为8192(H),使用8个GPU(G)进行数据并行。C4数据集token(T)总数约156B,样本数364.6 millions;batch size为2048,则每个epoch包含约178,000个mini-batch(N)

计算可得每个epoch过程中:

 反向传播总网络流量(PB)反向传播同步次数前向过程总网络流量(PB)前向过程总网络流量
数据并行1396 PB100
FSDP1758017580
张量并行2662216021840160*156*10^9
流水线并行17.9717.97

3D并行技术下的网络流量

数据并行、张量并行和流水线并行三个技术通常会组合起来使用,可进一步提高训练大模型时的效率和可扩展性。这时候,GPU也就按照这三个维度组成了GPU集群。

3D并行技术

假设共有G(tp)×G(pp)×G(dp) 个GPU组成的3D并行阵列,全部P个参数将分割为G(tp)×G(pp)份,每一份大小为P/G(tp)/G(pp)。在模型并行、流水线并行和数据并行三个维度上都存在网络流量。接下来我们将深入到每个epoch的训练过程,分别计算不同阶段的网络流量组成和规模。

3D并行技术

1.反向传播中的网络流量

在每个mini-batch中,反向传播时的梯度同步分为:

  1. 张量维度上的梯度同步,在模型的每一层和数据维度的每一组中进行,总共 LxG(dp) 次,每次包含2个all-reduce操作。
  2. 数据维度上的梯度同步,在流水线维度的每个阶段和张量维度的每一组中进行,总共 G(tp)xG(pp) 次,每次包含1个all-reduce操作。

如下图所示:

反向传播中的网络流量

这样,在一个epoch中,梯度同步的总网络流量为:

4xNxP/Gtp/GppxGtpx(Gtp-1)xLxGdp+2xNxP/Gtp/GppxGdpx(Gdp-1)xGtpxGpp=2xNxPxGdpx[2xLx(Gtp-1)/Gpp+(Gdp-1)]

3.流水线并行维度的中间激活梯度传播,流量为:

2xTxHx(Gpp-1)

因此,在一个epoch中,整个反向传播的总流量为:

2xNxPxGdpx[2xLx(Gtp-1)/Gpp+(Gdp-1)]+2xTxHx(Gpp-1)

2.前向传播中的网络流量

前向传播时,中间激活的传递依次在张量并行、流水线并行维度上交替进行,其中张量并行的激活传递每次包含2个all-reduce操作。

如下图,以一个Token的前向传播所示:

Token的前向传播

因此,在一个epoch中,前向传播总网络流量为:

4xTxHxLxPxGtpx(Gtp-1)+2xTxHx(Gpp-1)

即:

2xTxHx(2xLxGtpx(Gtp-1)+(Gpp-1)

由此,我们以Llama3-70B模型为例,采用8路张量并行 x 8路流水线并行 x 16路数据并行的模式,在共1024个GPU上进行训练,一个epoch产生的总流量约为85EB。如此庞大的流量规模,如果用1个交换容量为51.2T的交换机,24小时满负荷运行,需要约20天才能传输完毕。

考虑到一次预训练通常包含100个左右epoch,如果需要在100天完成训练,至少需要20台51.2T交换机来传输训练过程产生的数据。

AI训练对智算中心网络的要求

通过以上分析和计算,我们可以得出一个典型的AI智算中心对计算网的核心需求。

  • 超高带宽:一个epoch就会产生85EB的数据量,相当于整个互联网2.5天的流量。
  • 超低时延:一个训练样本的处理,就会产生100GB以上的数据,并需要在小于1毫秒的时间传输完毕。相当于1000个800G接口的传输速度。
  • 集合通信:GPU服务器之间的All-reduce, All-gather操作带来广播式流量,在上万个GPU之间,也就是上亿个GPU-GPU对之间同步。
  • 零容忍丢包:基于木桶原理,在集体通信过程中,仅仅是一对GPU之间流量的丢包和重传,也会造成整个集体通信的延迟,进而造成大量GPU进入空闲等待时间。
  • 严格时间同步:同样基于木桶原理,如果GPU的时钟不同步,将造成同样的计算量花费不同的时间,计算快的GPU不得不等待计算慢的GPU。

星融元CX-N系列交换机正是为智算中心AI训练场景而生的超低时延以太网交换机——在保持极致性能的同时,实现可编程、可升级的能力,与计算设备形成协同,共同打造10万级别的计算节点互联,将数据中心重构为可与超级计算机媲美的AI超级工厂。

  • 最大支持64个800G以太网接口,共51.2T交换容量。
    超低时延,在800G端口上实现业界最强的560ns cut-through时延。
  • 全端口标配支持RoCEv2,支持Rail-only,全连接Clos以及200G/400G混合组网,灵活适应不同的算力中心建设方案
  • 200+ MB大容量高速片上包缓存,显著减小集体通信时RoCE流量的存储转发时延。
  • Intel至强CPU + 大容量可扩展内存,运行持续进化的企业级SONiC——AsterNOS网络操作系统,并通过DMA直接访问包缓存,对网络流量进行实时加工。
  • INNOFLEX可编程转发引擎,可以根据业务需求和网络状态实时调整转发流程,最大程度避免网络拥塞和故障而造成的丢包。
  • FLASHLIGHT精细化流量分析引擎,实时测量每个包的延迟和往返时间等,经过CPU的智能分析,实现自适应路由和拥塞控制。
  • 10纳秒级别的PTP/SyncE时间同步,保证所有GPU同步计算。
  • 开放API,通过REST API开放全部功能给AI数据中心管理系统,与计算设备相互协同,实现GPU集群的自动化部署。

发掘800G以太网的潜力

近期文章


什么是 800G 以太网?

800G以太网是一种用于数据传输和通信网络的高速以太网技术,可提供每秒800千兆位(800Gbps)的数据传输速率。

800G 以太网的速度是上一代 400G 以太网的两倍,可提供更大的带宽,主要用于大型数据中心、云环境和高带宽应用。它可以为这些场景提供更高的速率、更大的吞吐量和更好的网络性能,支持更快、更高效的数据通信。

800G 以太网采用 8 个通道,每个通道的传输速率为 100Gbps。这使 PAM4 的速度从上一代的 50Gbps 翻倍到 100Gbps。

800GbE 规范引入了新的媒体访问控制 (MAC) 和物理编码子层 (PCS)。它本质上重用了IEEE 802.3bs标准中的两组现有 400GbE 逻辑,并进行了一些修改,以在八个物理 106Gb/s 通道上分配数据。由于重用了 PCS,因此保留了标准 RS(544, 514) 前向纠错,以便轻松兼容现有的物理层规范。

实现800G以太网通常需要先进的网络硬件,并且通常采用低功耗设计以提高能源效率。

电气电子工程师协会 (IEEE)负责800G 以太网标准化,这有助于确保不同供应商设备之间的互操作性。

为什么我们需要 800G 以太网?

最直接的答案是应对数据爆炸。谈到训练大规模AI模型,公开数据显示,从GPT-1到GPT-4,模型参数数量已从1.1亿增长到5000亿,甚至可能超过万亿。据研究公司TrendForce称,GPT-3.5大型模型需要20,000个GPU来利用NVIDIA A100显卡的处理能力来处理训练数据。

因此,在超算集群的算力中心,先进芯片和先进算力并不对等,算力芯片只提供算力,先进算力其实遵循着“木桶效应”,算力、存储和网络传输三个核心环节,一个短板,整个系统的性能就会出现巨大的下滑。这也是为什么云服务商都在积极部署800G以太网的原因。

32-node

800 Gb/s 以太网规格

架构概述

800 Gb/s 以太网技术设计为使用 8 个 106 Gb/s 通道和 2xClause 119 PCS (400G) 的接口,用于连接以 800 Gb/s 运行的单个 MAC。下图说明了高级架构。可以使用两个 400G PMD(例如 2x400GBASE-DR4 模块)形成 800G 接口,尽管需要进行偏差管理才能保持在规范范围内。该架构还可以支持较慢的接口,例如 8×106.25G 或更慢的选项,但主要重点是使用 8×106.25G。

high-level architecture

利用现有标准

800 Gb/s 的容量可通过利用两个集成前向纠错 (FEC) 的 400 Gb/s 物理编码子层 (PCS) 实现,支持 8 条 106.25G 通道。400 Gb/s 的 IEEE 802.3 标准采用多通道分布 (MLD) 将数据从单个媒体访问控制 (MAC) 通道分配到 16 个 PCS 通道。在此 800G 标准中,将使用扩展到 800 Gb/s 的 MAC 以及两个经过修改的 400 Gb/s PCS 来驱动 8x100G 通道。这将产生总共 32 个 PCS 通道(400G 标准的 2×16),所有通道均配备 RS(544,514) FEC,如 400G 标准中所述。

MLD 条带化技术的一个重要方面是为每个虚拟通道实施唯一的对齐标记 (AM)。对于 400 Gb/s,每 163,840 x 257b 块将 AM 插入到条带化数据流中。这种做法将继续在 800 Gb/s 上进行,每个 400G 流的间距相同;但是,插入的 AM 数量将是原来的两倍,并且 AM 需要修改以确保 800 Gb/s 流的一致性,并防止配置错误的 400 Gb/s 端口与 800 Gb/s 流同步。芯片到模块 (C2M) 和芯片到芯片 (C2C) 接口采用 802.3ck 标准,每通道运行速度为 106.25G。

800G以太网网络时间表

800G以太网的发展建立在上一代400G以太网的基础上,近年来IEEE(电气电子工程师协会)、OIF(光网络互联论坛)等标准组织相继制定了400G网络的标准,为800G的发展奠定了基础。

2022 年:首款 51.2T 交换芯片发布

2022年,随着首款51.2T交换芯片的发布,网络行业迎来了重要的里程碑。这些交换芯片将支持64个800Gb/s端口,标志着800G以太网发展成为实际的硬件。与此同时,首批800G光模块的验证也在此期间开始。

2023年:标准发布和开发验证

2023年,标准组织取得了重大进展。首先,IEEE发布了IEEE 802.3df标准的第一版,该标准定义了800G以太网的物理层规范。与此同时,OIF还发布了224 Gb/s标准,为800G和1.6T系统构建112 Gb/s和224 Gb/s通道提供了指导方针。

物理层标准将于 2024-2026 年完成

未来两年,标准组织预计将继续努力,最终确定 800G 以太网的物理层标准。这将涉及进一步完善和测试规范,以确保网络设备的互操作性和性能。

800G以太网的多种应用场景

数据中心

  • AI数据中心:人工智能训练需要大量的数据传输和计算能力,高速以太网技术可以连接GPU集群和数据存储,支持深度学习模型的训练和AI推理。
  • 超高密度数据存储:数据中心需要大容量存储和快速数据传输来满足不断增长的数据需求。800G 以太网可以连接存储服务器,实现超高密度数据存储。例如,大型社交媒体公司可以利用这些技术来管理用户上传的大量照片和视频。
  • 虚拟化和容器化:虚拟化和容器化等技术需要快速的数据传输,以便在不同的虚拟机或容器之间共享资源。800G 以太网可以为虚拟机迁移和容器通信提供高带宽。例如,云服务提供商可以使用这些技术来支持客户的虚拟化工作负载。

云计算

  • 弹性计算资源:云计算提供弹性计算资源的能力,因此需要高速网络连接。800G以太网可以促进云计算用户之间的快速数据传输。例如,科研机构可以利用这些连接在云端运行复杂的模拟和数据分析任务。
  • 云存储和备份:云存储和备份服务需要大容量和高速传输来确保数据的安全性和可用性。高速以太网技术可以连接云存储设备和数据备份服务器。例如,企业可以使用它们来备份关键业务数据。

高性能计算

科学计算、计算模型训练等高性能计算应用需要高速的数据传输和处理能力。800G 网络可提高数据传输速度和网络性能,以执行高性能计算任务。这对于涉及处理复杂计算的科学研究、大数据分析和智能计算训练等应用至关重要。800G 以太网的引入将进一步推动高性能计算的创新和发展。

大数据

  • 数据传输和分析:大数据分析需要广泛的数据传输和处理能力。800G 以太网可以将大规模数据集从源传输到分析平台,从而加速数据处理。例如,医疗保健组织可以使用这些网络分析大量患者医疗记录,从而改善诊断和治疗。
  • 实时数据流:实时数据流需要极低的数据传输延迟。高速以太网技术可以支持实时数据流应用,例如金融交易监控和智能城市监控。例如,金融机构可以使用它们来监控和分析大量交易数据以检测潜在的欺诈行为。

物联网

800G以太网可以连接更多的物联网设备和传感器,实现大规模设备互联,物联网解决方案将具有更高的可扩展性和能力,促进智慧城市、智能交通、智能制造等领域的创新应用。

自动驾驶仪

  • 高清地图和传感器数据:自动驾驶汽车需要高分辨率地图和传感器数据来实现精确定位和环境感知。800G 以太网技术将传输这些大规模数据,增强自动驾驶的安全性和可靠性。
  • 车辆通信:车辆与基础设施之间的通信是自动驾驶的关键。高速以太网将支持车辆之间的实时通信,有助于防止碰撞并提高交通效率。

综上所述,800G网络对于推动创新应用、加速数字化转型、推动技术进步具有举足轻重的作用。

推出 Asterfusion 800G 超级以太网交换机

推出速度和效率巅峰的 Asterfusion 800G 超级以太网交换机!这款交换机采用尖端的Marvell Teralynx 10 51.2 交换芯片,可提供闪电般的性能,800GE 端口的端口到端口延迟低于 560ns。享受最佳的交货时间和价格,同时利用市场领先的 SONiC 企业分销AsterNOS的强大功能。以下是其出色的硬件和软件功能:

型号为CX864E-N的数据中心交换机

强调

  • 51.2T 交换机,2RU 内有 64x800G OSFP 或 128x400G/512x100G
  • 全球速度最快的交换机,800GE 端口的端口到端口延迟低于 560 纳秒
  • 满流量负载下,64x800G SR8 端口的最大 TDP 为 2200W
  • 200+MB 的大型片上缓冲区可实现更好的 ROCE(基于融合以太网的 RDMA)性能
  • 10ns PTP 和 SyncE 性能支持严格同步的 AI 并行计算
  • 先进的 INT(带内网络遥测)用于数据包延迟、丢包和路径遍历,从而实现更先进的拥塞控制算法
  • 基于 SONIC 的开放式 AsterNOS,具有最佳 SAI 支持,更加强大和可靠。
  • 与所有领先供应商的异构 GPU 和 SmartNIC 兼容
  • 线速可编程性,支持不断发展的 UEC(超级以太网联盟)标准

Asterfusion 800G 以太网交换机硬件亮点:

  • OSFP800 交换机端口,每个支持 1 x 800 GbE(100G PAM4),或通过分支电缆支持 2 x 400G GbE、4x 200 GbE 或 8 x 100 GbE。
  • 512 x 112G 长距离 (LR) 一流 SerDes,通过光学模块/分路器支持 64x800G、128x400G 或 512x100G 接口
  • 高达 14.4Bpps 的 L2/L3 全线速转发
  • 根据流/数据包平衡负载,防止拥塞并确保有效利用可用带宽
  • 前面板上有另外两个 10G SFP+ 端口用于网络遥测管理
  • 每个 OSFP800 端口的功率预算高达 24 W。
  • 采用 Marvell Teralynx10 交换系列硅片。[为 800GE 端口提供业界最低的端到端延迟(低于 560ns);经过验证的、强大的 112G Serdes,具有业界最低的误码率 (BER)。;全面的数据中心功能集:包括 IP 转发、隧道、丰富的 QoS 和强大的 RDMA。;可编程转发:提供可置换的灵活转发,使运营商能够随着网络需求的发展而编写新的数据包转发协议,而不会影响吞吐量、延迟或功率;广泛的实时网络遥测,包括 P4 带内网络遥测 (INT)。高级共享缓冲:  200+ MB 片上缓冲区,由每个端口动态共享,确保卓越的网络质量和更少的数据包丢失]
  • Intel Xeon 8 核 CPU,具有线速可编程性,可通过软件升级实现未来的网络协议
  • 具有 LAN 串行支持的 BMC 模块
  • 支持前后气流的热/冷通道
  • 2 RU 尺寸
  • 热插拔、负载共享、冗余 3200W AC PSU。
  • 3+1 热插拔风扇
  • 预装开放网络安装环境 (ONIE) 的硬件交换机
  • 使用 Asterfusion Enterprise SONiC Distribution (AsterNOS) 进行硬件交换机预加载

Asterfusion 企业版 SONiC- AsterNOS

想象一下这样一个世界:网络基础设施不再是障碍,而是一条高速公路。这就是 Asterfusion 正在构建的世界,一次构建一个网络交换机。当其他白盒供应商让您自己拼凑解决方案时,Asterfusion 会预安装其企业版 SONiC,为您提供一站式、交钥匙解决方案。

我们并非一夜之间就取得了这样的成就。自 2017 年以来,我们由 100 多名 SONiC 研发专家组成的专业团队一直专注于一项使命:打造世界上最好的SONiC 企业网络操作系统(NOS)。最终成果是 AsterNOS,这是一款强大的操作系统,专为我们自己的一系列校园和数据中心交换机量身定制,从 1G 一直到 800G。

但兼容性是关键。这就是 AsterNOS 能与所有主流行业芯片完美兼容的原因。我们谈论的不仅仅是最低限度的兼容性——我们的商业 NOS 在功能开发和坚如磐石的稳定性方面都胜过社区版本。此外,我们的顶级支持团队随时准备介入并保持您的网络正常运行。

实践才是真理。在过去的 7 年里,Asterfusion 的 SONiC 企业解决方案在公共云、电信运营商、大型互联网公司、私有云和企业网络的战壕中经过了实战考验。我们已经学到了一些如何让现代网络以光速运行的知识。

软件亮点

  • 预装的AsterNOS是SONiC的企业版,以SAI为内核
  • 集成丰富的L2/L3网络特性,完整支持网络虚拟化、QoS策略等服务
  • 先进的功能容器化和事件驱动的系统架构,加速网络服务开发/定制
  • 提供开放的REST API接口,可供云管理平台等第三方应用集中管理和调用
  • 为传统网络工程师提供KLISH命令行

说到现代 AIDC,AsterNOS 是从头开始构建的,旨在处理未来苛刻的工作负载,例如生成式 AI。我们的精简设计简化了最强大的以太网基础设施的管理和监控,因此您可以专注于最重要的事情 – 为您的用户提供令人难以置信的体验。借助自适应路由和 RoCE 拥塞控制,Asterfusion SONiC 可以像精心调校的管弦乐队一样优化流量,确保您的工作负载发挥最佳性能。

超低延迟网络

  • 无与伦比的速度:采用 Marvell Teralynx10 芯片,这是世界上最快的交换机,800GE 端口的端口到端口延迟低于 560ns。非常适合对延迟敏感的应用程序,例如 AI/ML、HPC 和 NVME。
  • 增强性能:RDMA 支持直接内存访问,将延迟性能提高到微秒级。

无损网络

  • 零数据包丢失:ROCEv2 可确保微秒级低延迟、高吞吐量和接近零数据包丢失,开启人工智能驱动的网络性能和可靠性时代。
  • 高级拥塞控制:受益于丰富的 QoS 功能,包括 ECN、PFC、DCBX、QCN、DCQCN 和 DCTCP,适用于大规模 RDMA 部署。
  • 智能网络遥测 (INT):监控数据包延迟、丢失和路径遍历,以实现高级拥塞控制算法。

高可靠网络

  • 强大的负载平衡和冗余:最多 8192 条等价多路径 (ECMP) 路由。
  • 无缝连接:BGP 多宿主,用于多个服务器连接,具有自动负载平衡和故障转移功能。
  • 主动/主动多路径:多机箱链路聚合组 (MC-LAG),实现卓越的 L2 多路径。
  • 快速故障转移:仅需 50 毫秒即可实现 BGP 和 OSPF 的 BFD。

时间敏感网络

  • 精确同步:实现 10ns PTP 和 SyncE 性能,这对于同步 AI 并行计算至关重要。
  • 自动化运维网络
  • 操作轻松:与Python和Ansible集成,支持自动化操作和维护。
  • 零接触配置 (ZTP):自动获取和加载部署文件,简化设备设置。

开放网络

  • 开放企业 SONiC 分发:AsterNOS 提供最佳的 SAI 支持,确保强大而可靠的性能。
  • 面向未来:线速可编程,支持不断发展的 UEC(超级以太网联盟)标准。

Asterfusion 800G AI网络解决方案

采用 NVIDIA DGX SuperPOD 的 RoCEv2 AI 解决方案

RoCEv2 AI Solution with NVIDIA DGX SuperPOD

通过 Asterfusion 800G 超级以太网交换机体验网络的未来——速度与可靠性和创新相结合。

参考:https://ethernettechnologyconsortium.org/wp-content/uploads/2021/10/Ethernet-Technology-Consortium_800G-Specification_r1.1.pdf

返回资源中心

最新动态

什么是VXLAN?VXLAN和VLAN有什么区别?


更多相关内容


一、VXLAN的原理

VXLAN是一种网络封装技术,它使用隧道协议将标准以太网帧封装在UDP(User Datagram Protocol)数据包中传输。VXLAN通过在底层网络上创建虚拟网络,将虚拟机(VM)或容器跨物理网络进行通信。它使用24位的VNI(VXLAN Network Identifier)来标识不同的虚拟网络。

VXLAN利用了一个称为VTEP(VXLAN Tunnel Endpoint)的设备,它负责在物理网络和虚拟网络之间进行数据包的封装和解封装。VTEP维护了VNI与MAC地址之间的映射关系,以便正确路由数据包到相应的虚拟机或容器。

VXLAN

二、VXLAN的功能和作用

  1. 扩展性:VXLAN可以扩展现有的以太网架构,提供超过4096个VLAN标识符的虚拟网络。这使得在大规模数据中心中创建和管理多租户环境变得更加容易。
  2. 隔离性:VXLAN通过在底层网络上创建虚拟网络,实现了不同租户之间的逻辑隔离。每个租户都可以拥有自己的虚拟网络,并且它们的通信是相互隔离的,提供了更高的安全性。
  3. 移动性:VXLAN允许虚拟机或容器在物理网络中进行迁移,而无需更改它们的IP地址或VLAN标识符。这使得在数据中心中进行负载均衡、故障恢复和资源调整变得更加灵活和高效。
  4. 跨子网通信:VXLAN可以跨越不同的子网进行通信,克服了传统VLAN在这方面的限制。它可以通过底层网络中的IP隧道实现跨子网的通信,并提供更大的灵活性和可扩展性。

三、VXLAN技术的应用场景

场景1:采用VXLAN技术实现数据中心虚拟机迁移

VXLAN-场景

场景2:园区网络与数据中心VXLAN网络之间的通信

VXLAN-场景

四、VXLAN与VLAN的区别

  1. 标识符数量:VXLAN可以提供超过4096个虚拟网络标识符,而传统VLAN仅限于4096个VLAN标识符。
  2. 隔离性:传统VLAN在逻辑隔离方面存在一定的限制,因为它们共享相同的广播域。而VXLAN通过在底层网络上创建虚拟网络,提供了更好的隔离性和安全性。
  3. 跨子网通信:VXLAN可以轻松地实现跨子网的通信,而传统VLAN必须在同一子网内才能进行通信。
  4. 设备支持:传统VLAN需要支持802.1Q协议的交换机和路由器来实现,而VXLAN需要支持VTEP功能的设备来进行封装和解封装。

结论

VXLAN是一种虚拟扩展局域网技术,通过在底层网络上创建虚拟网络,实现了大规模虚拟化和多租户环境。它具有扩展性、隔离性、移动性和跨子网通信的功能,可以提供更高的灵活性和可扩展性。与传统VLAN相比,VXLAN具有更多的标识符数量、更好的隔离性、跨子网通信的能力,并且需要特定的设备支持。

相关阅读:技术手册-虚拟扩展本地局域网协议VXLAN

下载链接:技术手册-虚拟扩展本地局域网协议VXLAN

返回资源中心

Underlay与Overlay有什么区别和联系


更多相关内容


什么是Underlay?

Underlay是现实的物理基础层网络设备。数据中心基础转发架构的网络。

以太网最初设计的时候就是一个分布式的网络架构,没有中心控制节点,网络中的节点通过协议传递学习网络的可达性信息。

Underlay就是数据中心场景的基础物理设施,保证任何两个点路由可达,其中包含了传统的网络技术。

在数据中心强劲生长、快速演变的今天,网络面临种种挑战:

  1. 二层网络范围受限,虚拟机迁移不灵活;
  2. 数据中心交换机地址表项不够;
  3. 数据中心网络的多租户隔离能力不足。

应对这些挑战,Overlay技术可以实现:

  1. 在三层网络中实现二层网络的扩展,路由方式传输,网络架构范围不受限,具备大规模扩展能力,虚拟机迁移不再被限制在 一个较小的局部范围内。
  2. 在三层网络中实现二层网络的扩展,多采用三层互联方式,交换机仅仅需要维护一张本地的MAC地址表,极大降低了承 载网络对MAC 地址表项的需求。
  3. 扩展隔离标识的位数,从12bit到24bit,支持多达16M的用户标识,充分满足当下和未来数据中心多租户的网络隔离能力。

相关阅读:星融元携手商业地产运营商共同进入AI时代 (asterfusion.com)

什么是Overlay?

Overlay是一个基于物理网络之上构建的逻辑网络,是在网络技术领域指的是一种网络架构上叠加的虚拟化技术模式,Overlay网络也是一个网络,不过是建立在Underlay网络之上的网络

Overlay网络节点通过虚拟或者逻辑链路进行通信,其实现基于ip技术的基础网络为主。Overlay网络技术多种多样,一般采用TRILL、VxLan、GRE、NVGRE等隧道技术。

Underlay和Overlay的网络架构图

Overlay主流技术对比

Overlay主流技术对比

Underlay与Overlay的联系

Overlay的实现依赖于Underlay网络,它使用Underlay网络进行数据包的传输。Overlay网络通过在Underlay网络上部署虚拟化设备和服务,实现了对网络流量的控制、管理和优化。

通过Overlay技术,可以在Underlay网络上构建多个逻辑网络,实现不同网络需求之间的隔离和灵活性,并且可以提供更多高级的网络功能,如虚拟专用网络(VPN)、负载均衡等。

Underlay与Overlay的区别

Underlay是底层承载网,Overlay是基于底层网络互联互通的基础上加上隧道技术去构建一个虚拟的网络,例如VPN隧道组成的网络就是Overlay网络。

Underlay的核心是底层网络,Overlay的核心是上层的打隧道(tunnel)。

对比项Underlay网络Overlay网络
数据传输通过网络设备例如路由器、交换机进行传输沿着节点间的虚拟链路进行传输
包封装和开销发生在网络的二层和三层需要跨源和目的封装数据包,产生额外的开销
报文控制面向硬件面向软件
部署时间上线新服务涉及大量配置,耗时多只需更改虚拟网络中的拓扑结构,可快速部署
多路径转发因为可扩展性低,所以需要使用多路径转发,而这会产生更多的开销和网络复杂度支持虚拟网络内的多路径转发
扩展性底层网络一旦搭建好,新增设备较为困难,可扩展性差扩展性强,例如VLAN最多可支持4096个标识符,而VXLAN则提供多达1600万个标识符
协议以太网交换、VLAN、路由协议(OSPF、IS-IS、BGP等)VXLAN、NVGRE、SST、GRE、NVO3、EVPN
多租户管理需要使用基于NAT或者VRF的隔离,这在大型网络中是个巨大的挑战能够管理多个租户之间的重叠IP地址

总结

Underlay网络是底层的物理网络基础设施,而Overlay网络是在底层网络之上创建的虚拟网络。Overlay网络提供了额外的功能和服务,如VPN、VLAN、SDN和云计算中的虚拟化网络。通过Overlay网络,可以实现更好的网络管理、安全性、隔离性和性能优化。

返回资源中心

什么是以太网交换机的网络时延?


更多相关内容


网络时延是现代网络的一个重要方面,对数据传输的效率有着深远的影响。以太网时延是一个经常出现的术语,但您对它有深入的了解吗?本文将讨论什么是网络时延、网络时延的原因、如何测量网络时延以及如何使用以太网交换机减少网络时延。请继续阅读,了解更多信息。

什么是网络时延?

网络时延的含义

术语 “网络时延 “是指网络数据传输的时延。以太网交换机时延是指以太网数据包通过网络交换机所需的具体时间。时延时间长的网络称为高时延网络,时延时间短的网络称为低时延网络。

以太网交换机时延可从两个角度来理解–单向时延和往返时延。后者通常用作主要指标,包括以太网数据包从源到目的地所需的总时间。如今,往返时延是一个重要指标,因为设备使用 TCP/IP 网络协议将特定数据发送到目的地,并等待回执后再发送另一个数据。因此,这种方法对网络性能有重大影响。

往返时延

网络时延的意义

随着越来越多的公司进行数字化转型,它们开始采用基于云的应用程序和服务来执行基本业务功能。运营活动还依赖于从连接到互联网的智能设备(统称为物联网 (IoT))上收集的数据。时延会导致效率低下,特别是在依赖传感器数据的实时操作中。此外,即使企业实施了昂贵的网络基础设施,高时延也会降低为提高网络容量所做投资的回报,影响用户体验和客户满意度。

是什么导致了网络时延?

前几节介绍了网络时延的概念。本节将探讨造成时延的原因。造成网络时延的因素很多。以下是可能造成时延的几个潜在因素。

  • 传输介质的影响:由于数据是通过传输介质或链路传输的,因此传输介质或链路对时延的影响很大。例如,光纤网络的时延比无线网络低。同样,每次网络从一种介质切换到另一种介质时,总传输时间都会增加几毫秒。
  • 报头分析:以太网交换机有时需要额外的时间来分析数据包报头细节并纳入重要数据,因此会产生时延。这会导致通过交换机的数据包的遍历时间延长。
  • 与存储相关的数据包时延:当数据包在交换机和网桥等中间设备上遇到存储或磁盘访问时延时,就会出现存储时延。
  • 安全处理时延:网络时延可能受到反病毒和安全进程的影响,这些进程在传输前需要时间完成信息重组和分解。

如何测量时延?

IEEE 规范 RFC2544

IEEE RFC2544 规范为评估存储转发设备的时延提供了一种广为接受的方法。RFC2544 要求时延测试至少重复 20 次,测试结果为所有测试结果的平均值。

Netperf

Netperf 是基于 TCP 或 UDP 传输的网络性能测量工具。Netperf 测试结果反映了一个系统向另一个系统发送数据的速度和另一个系统接收数据的速度。

Ping ping

Ping Pong 是一种用于测量高性能计算集群内时延的方法。这种方法可评估通过消息传递接口(MPI)传输的远程过程调用(RPC)的往返持续时间。

如何利用以太网交换机减少网络时延?

使用以太网交换机最大限度地减少网络时延有多种方法。这些方法包括:

增加网络容量

减少时延和碰撞最直接有效的方法之一是为以太网交换机配备所需的容量。 验证交换机是否具备扩展网络容量的能力非常重要。 确保零数据包丢失的以太网交换机在提高网络性能方面发挥着至关重要的作用。链路聚合控制协议(简称 LACP)是一项标准功能,可通过端口中继提高网络性能。了解产品信息,请访问:https://asterfusion.com/product/cx-n/

使用 VLAN 进行网络划分

鉴于传统的扁平网络往往会导致链路过载,配备 VLAN 功能的以太网交换机可以有效地将流量路由到预定目的地。 一系列第 2 层和第 3 层 VLAN 以太网交换机可根据端口、动态 VLAN 分配、协议、MAC 地址等因素进行流量划分。

实施穿透技术

这种方法与数据包交换系统有关,旨在最大限度地减少网络时延。 直通式交换通过允许交换机在收到完整数据包之前,即在处理目的地址后立即启动数据包转发,从而减少网络时延。 不过,需要注意的是,这种技术只有在端口以相同速度运行时才能发挥最佳功能。

利用 RDMA 减少时延

RDMA 或远程直接内存访问是一种尖端网络技术,它彻底改变了数据传输效率。与涉及 CPU 的传统方法不同,RDMA 实现了网络内计算机内存之间的直接数据交换。这避开了中央处理器,减少了时延,从而加快了实时模拟、数据分析和高性能计算等任务的数据通信。QSFPTEK 的 S5600 和 S7600 系列交换机支持 RDMA,可提供高吞吐量和超低时延。

利用以太网交换机减少网络时延

结论

总之,网络时延对以太网交换机的高效数据传输至关重要。本文旨在阐明以太网交换机中以太网时延的概念,并深入探讨减少时延的策略。虽然不可能完全消除网络时延,但我们的目标是尽可能地减少时延。在当今依赖网络的环境中,了解网络时延的影响并应用缓解策略至关重要。

返回资源中心

什么是Ansible Playbook以及如何上手?

更多相关内容


什么是 Ansible Playbook?

Ansible 是 Red Hat(红帽) 推出的一款配置管理工具,能自动完成多台服务器的配置和应用程序的部署,Playbook是任何在 Ansible 平台之上进行配置的核心组件。

Ansible playbook是一个自动化脚本集合,定义了 Ansible 在一台或多台机器上要执行的一系列配置管理工作。管理员无需逐个运行单个 Ansible 命令,而是通过 playbook 简化配置管理工具的使用。熟悉了 Ansible 命令后,你就可以从头开始编写Play(剧本),或从 Ansible 及其用户社区获取预编写的playbook和模块。

Ansible Playbook的组件

Ansible Playbook 由一个或多个 play 组成,而 play 又由各种模块(module)组成。

Playbook 不是标准文本文件,而是 YAML 格式。他们可以定义与托管服务器上的配置相关的工作,IT运维人员会为目标机器创建带有特定环境参数的版本,所以并不存在一个标准版的Playbook。

用 Python 或 PowerShell 编写的脚本(模块)与目标托管服务器的各个方面相关,适用于系统配置的许多方面。包括软件安装和用户管理。模块组件的存在使得Ansible工具非常灵活,不光Ansible本身提供了许多模块,很多Ansible相关的开源社区也提供了丰富的选择。

使用 Ansible playbook

当管理员对目标机器运行 ansible-playbook 命令时,就会执行一个 playbook。

管理员必须使用清单文件(inventory file)来指定Playbook所管理的主机。清单文件包含 Ansible 管理的所有主机列表,可按功能对主机进行分组。例如,管理员可以对一组网络服务器应用一个管理程序,对一组数据库服务器应用另一个管理程序。

要开始使用这些 Ansible 管理程序,首先要确认该工具已安装并正在运行。 发出以下命令运行一个 playbook,其中 myfile 是 YAML 文件名:

发出以下命令运行一个 playbook

Ansible 通过 SSH 与它所管理的机器通信,因此 Ansible playbook 和 Ansible 可执行文件都存储在本地服务器的文件夹中。

使用检查模式和分组

在实际环境执行之前,可以在检查模式下运行playbook,尤其是对于那些刚开始使用 Ansible 的管理人员。此操作会在不修改任何文件的前提下,输出系统在标准模式下运行时会发生的更改,以便于我们及时勘误。
要使用检查模式,可添加 –check 指令:

添加 --check 指令

要检查语法是否有误:

检查语法

管理员可以根据主机的功能或其他层次结构,将类似的主机归为一组,并只对组内的主机执行操作。例如,分隔不同主机组确保只有网络服务器运行最新版本的 Apache,排除了数据库服务器。

所有主机都存储在名为 /etc/ansible/hosts 的本地 Ansible 清单文件中。虽然管理员可以更改主机信息的存储位置,但该位置是默认设置(建议不要更改)。如果该文件经常更改,请使用版本控制功能。

星融元网络操作系统AsterNOS对Ansible的支持

在实际部署使用中,如果对应设备的软件版本没有提供现成的Ansible插件/模块,则需要对其进行二次开发。设备能否被顺利集成完全取决于运维人员的研发能力。

AsterNOS是星融元开发的一款功能强大的企业级SONiC发行版,稳定兼容几乎所有主流商业交换芯片,已在全球有着数万台的商业拷贝。作为一款为云计算时代构建的新一代NOS,AsterNOS具备开放、开源、以业务为中心的特点,完全顺应NetDevOps理念。

AsterNOS对Ansible的支持

我们的官方模块集合 Asterfusion AsterNOS Collection 现已正式上线,目前已完成cliconf插件和asternos_command模块的开发适配。我们将为其持续提供开发更新。

更多相关信息请访问星融元的Ansible Galaxy主页查看,欢迎各位运维工程师下载体验,与我们深度交流!

项目主页地址:https://galaxy.ansible.com/asterfusion

返回资源中心

承载AI计算的数据中心网络和传统数据中心有何不同?

更多相关内容


生成式AI正在风靡全球,不少企业开始研究如何在其业务流程中采用人工智能技术,更有一些企业客户开始考虑在数据中心和私有云中部署自己的AIGC和 GPU 扩展网络。从网络角度来看,用于承载这类业务的数据中心与传统的数据中心有很大不同,它甚至与用于高性能计算 (HPC) 的数据中心也有所区别。

分析AI训练数据的一半时间消耗在网络上

尽管人们都在关注使用GPU服务器处理数据的用时,但实际上人工智能数据的一半处理过程都发生在网络中。所以,我们需要更加关注数据中心网络所能提供的速度和灵活性,以避免其成为整个数据中心的性能瓶颈。

构建高度可扩展的网络是AI数据中心的关键所在,考虑到未来的增长能力,网络交换架构必须包括横向和纵向扩展的硬件,网络操作系统需要带有应对数据包突增、负载平衡和智能流量重定向等数据中心高级功能,这样才可在AIGC网络内超负荷的 GPU 处理单元之间智能地重新路由流量。

工作负载数变少,但规模更大了

与致力于将网络延迟降至超低水平的高性能计算不同,人工智能数据中心的建设必须侧重于高吞吐能力。高性能计算网络旨在同时传输数千个工作负载,并要求将延迟降至最低,而人工智能工作负载的数量要少得多,但规模却大得多。

从速度的角度来看,对于AIGC网络来说,网络吞吐量比网络延迟更重要。如此,用于 HPC 的 InfiniBand 网络结构所具有的超低延迟优势已被削弱,而由于以太网标准具有更高的吞吐能力和更高的性价比,使用吞吐量更高的以太网网络可能很快就会成为常态。

网络部署需要更适应高密度连接

为生成式AI计算部署高密度 GPU 机架并非易事,首先网络布线的难度变大,此外还需要高达四倍的交换机端口密度。根据 Dell’Oro Group 的一份研究报告,到 2027 年,多达 20% 的数据中心交换机端口将分配给 AI 服务器。电源和冷却系统可能也都需要进行对应的调整才能适应更高的密度。

使用多站点或微型数据中心或许是适应这种密度的最佳选择。然而这也给连接这些站点的网络带来了压力,即要求网络尽可能具有更高的传输性能和扩展性。

网络的自动化编排和运维成为必备条件

承载AI的数据中心网络错综复杂,需要为此专门优化性能和提高可靠性,因此我们不应继续使用传统的命令行和第三方性能监控工具来管理 AIGC 网络。相反,企业应该部署一个网络编排平台,从一开始就在控制平面架构中提供一些有用的功能和性能洞察。

编排平台可提供多种优势,大大增强数据中心的管理能力:

  • 自动创建数据中心Underlay网络,大大减少网络开局和网络安全策略所需的时间。
  • 创建直观、自动化的Overlay网络和持续的 NetOps 管理。借助图形用户界面,管理平台可让网络管理员一站式地创建网络和网络安全策略,并自动将命令推送到需要的数据中心交换机而无需学习复杂的命令行。并且策略的创建基于系统内的标准模板,在很大程度上可以消除手动配置错误。
  • 提高性能和网络可视化程度。网络自动化工具还可使用多种传统和现代方法从网络交换硬件中收集和分析交换机健康状况和性能数据。收集和分析网络遥测数据是目前最新的方案:在这种情况下,交换机被配置为使用 gNMI 和 NETCONF 等专用协议标准向协调器发送实时性能测量数据。
  • 与传统的网络监控协议(如SNMP)相比,这些协议功能强大得多,有助于主动识别网络中存在的性能问题,在造成网络瘫痪或中断之前就开始补救。

附录:星融元AIGC网络建设实践方案

方案详情请参阅:客户案例:高性能、大规模、高可靠的AIGC承载网络 (asterfusion.com)

AIGC承载网方案架构图

  • 超低TCO、超高性价比:相较于IB网络方案,大幅度降低用户的网络TCO,同时确保超高性能
  • 横向平滑扩容、1:1收敛无阻塞:无收敛的网络设计确保无阻塞的大容量网络,按需横向扩展
  • 整网RoCEv2:基于CEE/DCB能力,提供可与IB媲美的性能和同样无损的网络服务
  • 开放网络操作系统:星融元网络操作系统AsterNOS,SONiC企业级发行版,支持灵活的功能扩展、在线升级
  • 无缝对接云管:AsterNOS 利用简单易用的REST API,可轻松让第三方的云平台/控制器快速纳管
  • 专家级服务:专业、全面、可靠的研发、方案与服务团队,为客户提供小时级的快速响应服务

返回资源中心

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2