Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

一文揭秘AI智算中心网络流量 – 数据存储篇


关注星融元


本篇为“揭秘AI智算中心网络流量“系列的第三篇,前篇请参阅:


01、生成式AI对数据存储有哪些需求?

对于较小规模的AI模型,本地连接的磁盘存储可能就足够;进入大模型时代,则通常需要基于对象存储或并行文件系统的共享存储。一个完整的生成式AI的工作流的各阶段对存储有不同需求,具体可拆解如下:

  • 数据挖掘:需要从多个来源收集非结构化的数据,一般与混合云集成,用数据湖作为存储平台;
  • 数据准备:进行数据汇总、标准化和版本控制,关注存储的效率和灵活的数据管理能力,多采用统一存储平台;
  • 模型训练和微调:在智算中心内部,结合GPU服务器本地内存和远端的并行/分布式存储系统。因为GPU的投入巨大,需要高性能存储来高效地提供数据,并在整个过程中保持高利用率;
  • 推理阶段:该阶段旨在利用已训练好的模型实时生成输出,需要将输入模型和推理生成的文字/图片/视频流存储下来作为备份。

02、智算中心的存储网络

我们大致可将AI智算中心内部的数据存储系统进行简单的层次分类,主要包括GPU内存、存储网和存储设备。

| 图片引自 NVIDIA技术博客

| 图片引自 NVIDIA技术博客

一般来说,在存储层次结构中位置越高,其存储性能(尤其是延迟)就越快。因为本文的定位在分析网络流量,我们将聚焦于存储网络(data fabric)层次,即智算中心内部GPU服务器内存与远端存储服务器之间传输的数据

在一个计算和存储分离的部署场景中,一般推荐部署2张Spine-Leaf架构的物理网:前端网和后端网。其中,存储前端网和业务网共用一张物理网。

存储后端网则单独使用一张物理网,以保证分布式存储集群能够快速无阻塞地完成多副本同步、故障后数据重建等任务。存储节点对网络接入侧的可靠性要求相对较高,因此推荐使用双归(MC-LAG)或者多归(EVPN-Multihoming)接入。

存储网络流量主要发生在模型训练的场景,它是一种单播流量,逻辑上仅需要以存储服务器为中心的星型连接。

  • 一是从存储服务器中分批加载训练数据集到GPU内存。
  • 二是训练的中间结果(定期保存的参数和优化器状态,即Check Point)要在存储服务器共享,并通过网络读写。

⑴ 数据集加载流量分析

在一个epoch中,整个训练集被遍历一次,如果进行评估,验证集也将被遍历一次。以下假设在每个epoch中进行评估,整个数据集的存储大小为D。

  • 数据并行时,整个数据集从网络存储读取,通过scatter操作分别加载到不同的GPU上,总网络流量为D。
  • 张量并行时,整个数据集从网络存储读取,通过broadcast操作发送给所有GPU,总的网络流量为 D x G。
  • 流水线并行时,整个数据集从网络存储读取,喂给流水线上第一个GPU,总网络流量为D。
  • 3D并行时,整个数据集从网络存储读取,在数据并行维度上分配,在张量并行维度上广播,总网络流量为D x G(tp) 。

以C4数据集为例,数据集的大小约38.5 TB,假设张量并行GPU数量为8,3D并行时每个epoch中加载数据集产生的网络流量为308TB

⑵ Checkpoint存储流量分析

Checkpoint中存储了模型参数、优化器状态和其它训练状态(包括模型配置、训练的超参数、日志信息等)。优化器包含了梯度、动量和二阶矩估计等,每一种数据大小都等于模型参数。其它训练状态的大小可以忽略不计。假设模型参数为P,数据格式为BFLOAT16,优化器为Adam/AdamW,则checkpoint总大小为:

2 x P + 2 x P x 3 = 8 x P

这个checkpoint要保存在存储服务器中,虽然在张量并行、流水线并行和3D并行时,这些数据从多个GPU上通过gather操作汇聚到存储服务器,但无论如何,数据总量是一个checkpoint大小。假设每个epoch存储一次。这样,每个epoch产生的流量为:

8 x P

以Llama3-70B模型为例,假设每个epoch均存储,则产生的网络存储流量为560GB

03、存储网设备选型:RoCE还是InfiniBand

相比训练场景,在智算中心存储网传输的流量与并行计算完全不在一个量级——虽然对链路带宽要求不那么高,但仍需满足高速分布式存储业务中所需的高吞吐、低时延、无损传输特性,并灵活满足存储集群规模调整所需的高可扩展性。

NVIDIA DGX SuperPOD™ 的方案在存储网采用的是200G的InfiniBand交换机。而事实上,随着近年来AI以太网技术的进步,RoCE与IB在转发时延上的细微差异,对分布式存储业务性能几乎没有影响。结合科学的网络参数调优,我们已在多个客户现场稳定测得了运行RoCEv2协议的交换机端到端性能全面优于IB交换机的结果。RoCE交换机作为IB平替已是不争的事实。

星融元 CX664P-N 是一款专为智算/超算中心设计的超低时延RoCE交换机,凭借以下特性在存储场景中脱颖而出。

型号为CX564P-664D-N数据中心交换机产品图

CX664D-N— 业务接口:64 x 200GE QSFP56, 2 x 10GE SFP+

  • CX-N系列一贯的超低延迟特性,端到端性能可媲美IB*(*测试数据详见方案手册)
  • 12.8Tbps 的线速 L2/L3 交换性能,提供高密度 200G/100G 以太网接口,满足主流存储网络需求并兼顾未来升级空间;另有两个 10G 端口用于管理网接入
  • 支持基于 RDMA 的 NVMe-oF (全端口标配RoCEv2)和EVPN-Multihoming → 什么是EVPN多归属,和MC-LAG的区别?
  • 搭载持续进化的企业级SONiC——AsterNOS网络操作系统,其开放的软件架构通过REST API开放全部网络功能给AI智算中心管理系统,实现无损以太网的自动化极简部署 → Easy RoCE:一键启用无损以太网

除存储网之外,基于通用、解耦、高性能的以太网硬件和开放软件框架,星融元可为大模型算力中心提供10G-800G的全场景互联能力。

一文揭秘AI智算中心网络流量 – AI推理篇


关注星融元


本篇为“揭秘AI智算中心网络流量“系列的第二篇,前篇请参阅:一文揭秘AI智算中心网络流量 – 大模型训练篇 。有关数据存储流量的分析将于下篇呈现,敬请关注。

AI推理是指从经过训练的大模型中获取用户查询或提示的响应的过程。

为了生成对用户查询的完整响应,AI推理服务器从一次推理迭代中获取输出token,将其连接到用户输入序列,并将其作为新的输入序列反馈到模型中以预测下一个token。这个过程被称为“自回归”计算,此过程重复进行,直到达到预定义的停止标准。

自回归

AI推理系统如何生成一次完整的响应?

⑴ 预填充/提示(Prefill):模型从用户那里获得输入序列。基于此输入,模型预测第一个输出token。

⑵ 解码(Decode):将生成的输出token连接到输入序列。更新后的输入序列被反馈到经过训练的模型中,然后生成下一个token。

⑶ 循环:解码继续进行,每个新token都是基于所有先前token的累积序列生成的。这种将输出token自回归地馈送到输入的过程确保模型在每个步骤的输出都受到所有先前token的影响,从而使其能够保持上下文和连贯性。

⑷ 终止:当模型达到停止标准时,它会终止该过程。停止标准可以是以下之一。

  • 最大序列长度:一旦达到总token(输入和输出)数量的定义限制
  • 序列结束 (EOS) :模型生成一个特殊token,表示文本生成的结束。
  • 上下文完成:当模型确定生成的文本已根据提供的上下文得出自然且合乎逻辑的结论

AI并行推理网络流量分析

由于在预填充阶段已知整个token输入序列,因此推理加速器可以并行计算所有输入token的信息,并执行模型来预测下一个输出token。

在大模型推理时,虽然模型经过了压缩(比如4bit量化),但模型尺寸仍可能超过单个GPU的内存,这时候就需要张量并行,即使单个GPU可以容纳整个模型,张量并行可以加速推理过程。如果并发用户数较大,单个GPU来不及及时响应,就需要数据并行

让我们再次回顾AI推理的两个关键阶段:

  1. 预填充(Prefill)阶段根据用户输入的prompt,生成输入token序列,并进行批处理,计算KV(Key, Value)缓存,并生成第一个输出token。这个阶段可以认为是大模型在理解用户输入,KV缓存存储了输入序列的上下文信息(为下面的Decode阶段缓存),其特点是需要大量的计算。
  2. 解码(Decode)阶段是一个循环过程,根据之前生成的token序列和KV缓存,计算下一个token,直到生成完整的输出。这个阶段可以认为是大模型在一个字一个字的说话。由于KV缓存的密集型计算已在 Prefill 阶段完成,因此此阶段仅处理上一阶段新生成的 token。因此,计算密集程度较低;但这一步需要从 KV缓存中读取前面所有token的Key,Value,所以需要高速的内存访问。

由于以上两个阶段对GPU的需求不同,我们可以采用Prefill-Decode解耦的方式,由2个不同类型的GPU分别承担Prefill和Decode阶段的计算任务,顺序执行。这时候就需要在两个阶段间传输KV缓存。

在生产部署时,通常结合上述几种方式。相比AI训练,AI推理只有前向传播过程,计算量相对较低,但需要快速的生成下一个token。流量产生有两个来源:

  1. 每次推理在Prefill GPU和Decode GPU之间传递KV缓存;
  2. Prefill GPU集群和Decode GPU集群分别实施张量并行,产生的中间激活的传递。不会有巨量的梯度同步流量。

假设并发用户数为U,数据并行维度为G(dp),张量并行维度为G(tp),用户输入序列的平均长度为S(in)个token,模型产生输出的平均长度为S(out)个token。

在张量并行时,前向传播产生了GPU间的网络流量,各个GPU计算出的中间激活值需要合并,由all-reduce操作进行求和。

假设模型有L层,在一次推理过程中,S(in)个输入token在模型的每一layer进行2次批量合并,共2L次,而对于每个输出Token,在模型的每个layer的中均进行2次合并,共 2xS(out) x L 次。此外,在Prefill阶段和Decode阶段之间有一次KV缓存的传递。AI并行推理网络流量如下图所示:

假设模型的隐藏状态大小为H,GPU数量为G,计算激活使用的数据格式为FLOAT16(2个字节表示一个数),每次all-reduce操作的通信量为

2 x H x (Gtp-1)x Gtp

在Prefill阶段,所有输入Token,在模型的每个layer的中均进行2次批量合并,共2xS(in)xL次。在Decode阶段,对于每个Token,在模型的每个layer的中均进行2次合并,共2xS(out)xL次。因此,U个用户的并发推理,中间激活值的总网络流量为

4 x U x(Sin+Sout)x L x H x (Gtp-1)x Gtp

另外,在一次推理中,KV缓存的大小为

4 x Sin x L x H

因此,U个用户的并发推理,KV缓存传递的网络流量为

4 x U x Sin x L x H

以Llama3-120B模型为例,模型层数140, 隐藏状态大小8192,张量并行度为4,用户prompt的平均长度S(in)为256个token,产生的输出的平均长度S(out)为4096个token。则要支持100个并发用户请求所需要的推理流量为:

4 x 100 x (256 + 4096)x 140 x 8192 x (4-1)x 4 + 4 x 100 x 256 x 140 x 8192 = 21.896TB

其中,KV缓存传递的流量虽然不大,每个用户约1.17GB,但需要在10ms左右的时间内一次传递完成。如果用1个800G端口传递,最快需要11.7ms。

AI推理对网络的需求

超高频率

AI推理流量虽然远小于训练时的网络流量,但值得注意的是,推理需要在很短的时间内完成,每个token在每一层产生2次流量,并要求在极短时间内传输完毕。假设至少要达到100token/s的推理速度,并行加速比为90%,那么每个token的推理速度要小于1ms,KV缓存需要在10ms左右完成。整个网络吞吐量应大于

4 x 100 x 140 x 8192 x (4-1)x 4/0.001 + 4 x 100 x 140 x 8192/0.01 = 5551GB/s 44.4Tbps

严格时间同步

无论是训练还是推理流量,都具有非常严格的周期性规律。基于木桶原理,如果GPU的时钟不同步,将造成同样的计算量花费不同的时间,计算快的GPU不得不等待计算慢的GPU。

开放与兼容性

AI推理进程涉及应用已训练好的AI模型进行决策或识别。对比AI训练,AI推理芯片门槛相对更低,我们的确也看到推理领域萌生出了开放生态的雏形,不少新兴初创企业加入竞争,涌现出基于不同算力架构的技术方案。

另一方面,在实际生产部署中的AI推理业务往往会与前端的业务/应用网络形成紧密配合,经由现有数据中心和云网络基础设施对外提供服务。

这便要求基础设施具备相当的开放性——网络不但要连接底层的异构算力(GPU、CPU、NPU)系统,还需要实现与上层管理系统的对接集成,例如与基于K8s的算力调度平台、已有的云管平台等等。

随着大模型的应用不断深化,AI算力部署将从训练场景逐步转向推理,推理需求也逐渐从云端迁移至边缘/终端,并呈现出垂直行业定制化的趋势。在云-边-端之间,我们需要构建一个更为均衡、通用化的网络基础设施体系。

在已被用户场景充分验证的数据中心开放云网能力之上(BGP、VXLAN、Calico容器路由、RoCE、NVMe-oF等),星融元推出的 星智AI 网络解决方案基于通用、解耦、高性能的以太网硬件和开放的SONiC软件框架,为AI智算中心提供10G-800G速率的以太网交换机,灵活支持单一速率或混合速率交换机组网,在保持极致性能的同时可编程、可升级,帮助客户构建高性能的AI智算中心网络,提供用于AI训练、推理、分布式存储、带内外管理等场景的互联能力。

  • 最大支持64个800G以太网接口,共51.2T交换容量
  • 超低时延,在800G端口上实现业界最强的560ns cut-through时延
  • 全端口标配支持RoCEv2
    200+MB大容量高速片上包缓存,显著减小集体通信时RoCE流量的存储转发时延
  • Intel至强CPU + 大容量可扩展内存,运行持续进化的企业级SONiC——AsterNOS网络操作系统,并通过DMA直接访问包缓存,对网络流量进行实时加工
  • INNOFLEX可编程转发引擎:可以根据业务需求和网络状态实时调整转发流程,最大程度避免网络拥塞和故障而造成的丢包
  • FLASHLIGHT精细化流量分析引擎:实时测量每个包的延迟和往返时间等,经过CPU的智能分析,实现自适应路由和拥塞控制
  • 10纳秒级别的PTP/SyncE时间同步,保证所有GPU同步计算
  • 开放的软件架构(生产就绪的SONiC,AsterNOS)通过REST API开放全部网络功能给AI智算中心管理系统,与计算设备相互协同,实现AI算力集群的自动化部署

AI Open Ecology

一文揭秘AI智算中心网络流量 – 大模型训练篇


关注星融元


前言:自2017年起,AI模型的规模每半年翻一番,从初代Transformer的6500万增长到GPT-4的1.76万亿,预计下一代大语言模型将达到10万亿规模。另一方面,用于模型训练的数据量持续增长,如C4数据集,原始数据量累计超过9.5PB,每月新增200-300TB,目前经过清洗加工后的数据集大小约38.5 TB,训练样本数364.6M。进一步,随着多模态大模型的兴起,训练数据从单一的文本过渡到图像和视频乃至3D点云,数据规模将是文本数据的1万倍以上。

AI模型的规模巨大并持续快速增长,不仅将带来数据中心流量的指数型增长,独特的流量特征也将为数据中心网络带来崭新的需求。

深入分析AI大模型在训练、推理和数据存储流量将帮助数据中心建设者有的放矢,用更低的成本,更快的速度、更健壮的网络为用户提供更好的服务。

本篇我们将聚焦于介绍AI大模型训练场景下的网络流量,AI推理和数据存储场景会在接下来的文章中呈现,敬请关注。

AI model

AI训练程序首先将模型参数加载到GPU内存中,之后将经历多个epoch(即使用所有训练集对模型进行一次完整训练),每个epoch的处理过程可以简单描述为4步:

  1. 加载训练数据,在每个epoch中,根据batch size将整个数据集分为若干个mini-batch,分批次加载训练数据,直到遍历整个训练数据集。
  2. 训练,包括前向传播、计算损失、反向传播和参数/梯度更新,每个mini-batch都进行上述步骤。
  3. 评估,使用评估数据集对模型的指标进行评估。这一步是可选的,可以在整个训练完成后单独进行,也可以间隔若干个epoch进行一次。
  4. 保存checkpoint,包括模型状态、优化器状态和训练指标等。为了减少存储需求,通常经过多个epoch后保存一次。

在大模型出现之前,整个过程在可在一台AI服务器内部完成,训练程序从服务器本地磁盘读取AI模型和训练集,加载到内存中,完成训练、评估,然后将结果存储回本地磁盘。虽然为了加速训练,也会采用多块GPU同时训练,但所有的I/O均发生在一台AI服务器内部,并不需要网络I/O。

AI大模型训练的网络流量有哪些?

进入大模型时代,AI训练的流量路径和其网络需求发生了巨大变革。

首先是模型的参数规模超出了单个GPU的内存,采用GPU集群协同计算,则需要相互之间通信以交换信息,这类信息包括参数/梯度、中间激活值等。

庞大的数据集被所有GPU共享,需要集中存放到远端的存储服务器中通过网络调用,分批加载到GPU服务器上。此外,定期保存的参数和优化器状态也需要通过存储服务器共享,在每个训练epoch中,都要通过网络读写数据。

由此,AI大模型训练的网络流量可分为以下两类:

  • 第一类是GPU之间同步梯度和中间激活的网络流量,它发生在所有GPU之间,是一种广播式流量,逻辑上需要所有GPU全连接。
  • 第二类是GPU和存储服务器之间的流量,它仅仅发生在GPU和存储服务器之间,是一种单播流量,逻辑上仅需要以存储服务器为中心的星型连接。

并行训练技术

其中,GPU之间的网络流量与传统数据中心内部流量迥然不同,这与AI大模型的训练方法息息相关——并行训练技术。

并行训练:AI智算中心的主要流量来源

当前广泛应用于AI训练并行计算模式主要有以下三类:

数据并行将不同的样本数据分配给不同的GPU,以加快训练速度;用在主机之间
张量并行将模型的参数矩阵划分为子矩阵,并分配到不同的GPU上,以解决内存限制并加速计算。一般用在主机内部。
流水线并行将模型分为多个阶段,每个阶段分配给不同的GPU,以改善内存利用率和资源效率。一般用在主机之间

并行训练

常见的集合通信流量模式(如下图)

Collective communication

1.数据并行(Data Parallelism)

在数据并行时,主要的网络流量来源于梯度同步,它发生在每次mini-batch处理之后,由一个all-reduce操作计算平均值。理想情况下,所有GPU全连接,每个GPU给其它G-1个GPU单独发送数据,共需发送G x(G-1)份数据。

FSDP(完全分片数据并行)是一种改进的数据并行技术,旨在优化内存使用和通信效率。它通过将模型参数和梯度在多个GPU之间分片(shard)存储,实现更高效的内存利用和通信。

在FSDP时,网络流量来自前向传播的参数收集以及反向传播中的梯度同步。

前向传播的参数收集由all-gather操作完成,all-gather的通信复杂度与all-reduce相同。

后向传播的梯度同步由all-reduce操作完成,由于每个GPU的参数只有原来的1/G,一个epoch中总的网络流量只有普通数据并行的1/G。

2.张量并行(Tensor Parallelism)

在张量并行时,模型参数分布到G个GPU上,每个GPU只存储1/G参数。网络流量主要来自前向传播过程的中间激活值的传递以及反向传播过程中的梯度同步。

前向传播中,各个GPU计算出的中间激活值需要合并,由一次all-reduce操作进行求和。对于每个Token,在模型的每个layer的中均进行2次合并,共2xTxL次通信。

反向传播中,梯度需要在GPU之间同步,这种在每一层的处理中发生2次,由all-reduce操作将各个GPU上梯度求和。这种同步发生在每个mini-batch的每个layer的处理过程中。共2×N×L次通信。

3.流水线并行(Pipeline Parallelism)

在流水线并行时,网络流量主要来自前向和反向传播过程的中间激活值的传递。与张量并行不同,这些流量的传递发生在模型的前后两个阶段之间,使用Point-to-point通信而非all-reduce操作,并且频率也大大减小了。

综上,在三种并行方式中,张量并行的网络流量最大、频率最高,流水线并行的流量最低,数据并行的通信频率最低。如下表所示,P为模型参数,T为token数,L为模型层数,H为隐藏状态大小,G为GPU数量,N为mini-batch的数量,采用BFLOAT16数据格式,每个参数占2个字节。在每个epoch过程中:

 流量模式后向传播总网络流量反向传播同步次数前向过程总网络流量前向过程传递次数
数据并行all-reduce2 × N × P × G × (G-1)100
FSDPall-gather + all-reduce2 × N × P × (G-1)L2 × N × P × (G-1)L
张量并行all-reduce4 × N × P × L × (G-1)2 × L4 × L × T × H × (G-1) × G2 × L × T
流水线并行Point-to-point2 × T × H × (G-1)G-12 × T × H × (G-1)G-1

以具有80层(L)的Llama3 70B(P)模型和C4数据集为示例计算:采用BFLOAT16数据格式,每个参数占2个字节,隐藏层维度设为8192(H),使用8个GPU(G)进行数据并行。C4数据集token(T)总数约156B,样本数364.6 millions;batch size为2048,则每个epoch包含约178,000个mini-batch(N)

计算可得每个epoch过程中:

 反向传播总网络流量(PB)反向传播同步次数前向过程总网络流量(PB)前向过程总网络流量
数据并行1396 PB100
FSDP1758017580
张量并行2662216021840160*156*10^9
流水线并行17.9717.97

3D并行技术下的网络流量

数据并行、张量并行和流水线并行三个技术通常会组合起来使用,可进一步提高训练大模型时的效率和可扩展性。这时候,GPU也就按照这三个维度组成了GPU集群。

3D并行技术

假设共有G(tp)×G(pp)×G(dp) 个GPU组成的3D并行阵列,全部P个参数将分割为G(tp)×G(pp)份,每一份大小为P/G(tp)/G(pp)。在模型并行、流水线并行和数据并行三个维度上都存在网络流量。接下来我们将深入到每个epoch的训练过程,分别计算不同阶段的网络流量组成和规模。

3D并行技术

1.反向传播中的网络流量

在每个mini-batch中,反向传播时的梯度同步分为:

  1. 张量维度上的梯度同步,在模型的每一层和数据维度的每一组中进行,总共 LxG(dp) 次,每次包含2个all-reduce操作。
  2. 数据维度上的梯度同步,在流水线维度的每个阶段和张量维度的每一组中进行,总共 G(tp)xG(pp) 次,每次包含1个all-reduce操作。

如下图所示:

反向传播中的网络流量

这样,在一个epoch中,梯度同步的总网络流量为:

4xNxP/Gtp/GppxGtpx(Gtp-1)xLxGdp+2xNxP/Gtp/GppxGdpx(Gdp-1)xGtpxGpp=2xNxPxGdpx[2xLx(Gtp-1)/Gpp+(Gdp-1)]

3.流水线并行维度的中间激活梯度传播,流量为:

2xTxHx(Gpp-1)

因此,在一个epoch中,整个反向传播的总流量为:

2xNxPxGdpx[2xLx(Gtp-1)/Gpp+(Gdp-1)]+2xTxHx(Gpp-1)

2.前向传播中的网络流量

前向传播时,中间激活的传递依次在张量并行、流水线并行维度上交替进行,其中张量并行的激活传递每次包含2个all-reduce操作。

如下图,以一个Token的前向传播所示:

Token的前向传播

因此,在一个epoch中,前向传播总网络流量为:

4xTxHxLxPxGtpx(Gtp-1)+2xTxHx(Gpp-1)

即:

2xTxHx(2xLxGtpx(Gtp-1)+(Gpp-1)

由此,我们以Llama3-70B模型为例,采用8路张量并行 x 8路流水线并行 x 16路数据并行的模式,在共1024个GPU上进行训练,一个epoch产生的总流量约为85EB。如此庞大的流量规模,如果用1个交换容量为51.2T的交换机,24小时满负荷运行,需要约20天才能传输完毕。

考虑到一次预训练通常包含100个左右epoch,如果需要在100天完成训练,至少需要20台51.2T交换机来传输训练过程产生的数据。

AI训练对智算中心网络的要求

通过以上分析和计算,我们可以得出一个典型的AI智算中心对计算网的核心需求。

  • 超高带宽:一个epoch就会产生85EB的数据量,相当于整个互联网2.5天的流量。
  • 超低时延:一个训练样本的处理,就会产生100GB以上的数据,并需要在小于1毫秒的时间传输完毕。相当于1000个800G接口的传输速度。
  • 集合通信:GPU服务器之间的All-reduce, All-gather操作带来广播式流量,在上万个GPU之间,也就是上亿个GPU-GPU对之间同步。
  • 零容忍丢包:基于木桶原理,在集体通信过程中,仅仅是一对GPU之间流量的丢包和重传,也会造成整个集体通信的延迟,进而造成大量GPU进入空闲等待时间。
  • 严格时间同步:同样基于木桶原理,如果GPU的时钟不同步,将造成同样的计算量花费不同的时间,计算快的GPU不得不等待计算慢的GPU。

星融元CX-N系列交换机正是为智算中心AI训练场景而生的超低时延以太网交换机——在保持极致性能的同时,实现可编程、可升级的能力,与计算设备形成协同,共同打造10万级别的计算节点互联,将数据中心重构为可与超级计算机媲美的AI超级工厂。

  • 最大支持64个800G以太网接口,共51.2T交换容量。
    超低时延,在800G端口上实现业界最强的560ns cut-through时延。
  • 全端口标配支持RoCEv2,支持Rail-only,全连接Clos以及200G/400G混合组网,灵活适应不同的算力中心建设方案
  • 200+ MB大容量高速片上包缓存,显著减小集体通信时RoCE流量的存储转发时延。
  • Intel至强CPU + 大容量可扩展内存,运行持续进化的企业级SONiC——AsterNOS网络操作系统,并通过DMA直接访问包缓存,对网络流量进行实时加工。
  • INNOFLEX可编程转发引擎,可以根据业务需求和网络状态实时调整转发流程,最大程度避免网络拥塞和故障而造成的丢包。
  • FLASHLIGHT精细化流量分析引擎,实时测量每个包的延迟和往返时间等,经过CPU的智能分析,实现自适应路由和拥塞控制。
  • 10纳秒级别的PTP/SyncE时间同步,保证所有GPU同步计算。
  • 开放API,通过REST API开放全部功能给AI数据中心管理系统,与计算设备相互协同,实现GPU集群的自动化部署。

发掘800G以太网的潜力

近期文章


什么是 800G 以太网?

800G以太网是一种用于数据传输和通信网络的高速以太网技术,可提供每秒800千兆位(800Gbps)的数据传输速率。

800G 以太网的速度是上一代 400G 以太网的两倍,可提供更大的带宽,主要用于大型数据中心、云环境和高带宽应用。它可以为这些场景提供更高的速率、更大的吞吐量和更好的网络性能,支持更快、更高效的数据通信。

800G 以太网采用 8 个通道,每个通道的传输速率为 100Gbps。这使 PAM4 的速度从上一代的 50Gbps 翻倍到 100Gbps。

800GbE 规范引入了新的媒体访问控制 (MAC) 和物理编码子层 (PCS)。它本质上重用了IEEE 802.3bs标准中的两组现有 400GbE 逻辑,并进行了一些修改,以在八个物理 106Gb/s 通道上分配数据。由于重用了 PCS,因此保留了标准 RS(544, 514) 前向纠错,以便轻松兼容现有的物理层规范。

实现800G以太网通常需要先进的网络硬件,并且通常采用低功耗设计以提高能源效率。

电气电子工程师协会 (IEEE)负责800G 以太网标准化,这有助于确保不同供应商设备之间的互操作性。

为什么我们需要 800G 以太网?

最直接的答案是应对数据爆炸。谈到训练大规模AI模型,公开数据显示,从GPT-1到GPT-4,模型参数数量已从1.1亿增长到5000亿,甚至可能超过万亿。据研究公司TrendForce称,GPT-3.5大型模型需要20,000个GPU来利用NVIDIA A100显卡的处理能力来处理训练数据。

因此,在超算集群的算力中心,先进芯片和先进算力并不对等,算力芯片只提供算力,先进算力其实遵循着“木桶效应”,算力、存储和网络传输三个核心环节,一个短板,整个系统的性能就会出现巨大的下滑。这也是为什么云服务商都在积极部署800G以太网的原因。

32-node

800 Gb/s 以太网规格

架构概述

800 Gb/s 以太网技术设计为使用 8 个 106 Gb/s 通道和 2xClause 119 PCS (400G) 的接口,用于连接以 800 Gb/s 运行的单个 MAC。下图说明了高级架构。可以使用两个 400G PMD(例如 2x400GBASE-DR4 模块)形成 800G 接口,尽管需要进行偏差管理才能保持在规范范围内。该架构还可以支持较慢的接口,例如 8×106.25G 或更慢的选项,但主要重点是使用 8×106.25G。

high-level architecture

利用现有标准

800 Gb/s 的容量可通过利用两个集成前向纠错 (FEC) 的 400 Gb/s 物理编码子层 (PCS) 实现,支持 8 条 106.25G 通道。400 Gb/s 的 IEEE 802.3 标准采用多通道分布 (MLD) 将数据从单个媒体访问控制 (MAC) 通道分配到 16 个 PCS 通道。在此 800G 标准中,将使用扩展到 800 Gb/s 的 MAC 以及两个经过修改的 400 Gb/s PCS 来驱动 8x100G 通道。这将产生总共 32 个 PCS 通道(400G 标准的 2×16),所有通道均配备 RS(544,514) FEC,如 400G 标准中所述。

MLD 条带化技术的一个重要方面是为每个虚拟通道实施唯一的对齐标记 (AM)。对于 400 Gb/s,每 163,840 x 257b 块将 AM 插入到条带化数据流中。这种做法将继续在 800 Gb/s 上进行,每个 400G 流的间距相同;但是,插入的 AM 数量将是原来的两倍,并且 AM 需要修改以确保 800 Gb/s 流的一致性,并防止配置错误的 400 Gb/s 端口与 800 Gb/s 流同步。芯片到模块 (C2M) 和芯片到芯片 (C2C) 接口采用 802.3ck 标准,每通道运行速度为 106.25G。

800G以太网网络时间表

800G以太网的发展建立在上一代400G以太网的基础上,近年来IEEE(电气电子工程师协会)、OIF(光网络互联论坛)等标准组织相继制定了400G网络的标准,为800G的发展奠定了基础。

2022 年:首款 51.2T 交换芯片发布

2022年,随着首款51.2T交换芯片的发布,网络行业迎来了重要的里程碑。这些交换芯片将支持64个800Gb/s端口,标志着800G以太网发展成为实际的硬件。与此同时,首批800G光模块的验证也在此期间开始。

2023年:标准发布和开发验证

2023年,标准组织取得了重大进展。首先,IEEE发布了IEEE 802.3df标准的第一版,该标准定义了800G以太网的物理层规范。与此同时,OIF还发布了224 Gb/s标准,为800G和1.6T系统构建112 Gb/s和224 Gb/s通道提供了指导方针。

物理层标准将于 2024-2026 年完成

未来两年,标准组织预计将继续努力,最终确定 800G 以太网的物理层标准。这将涉及进一步完善和测试规范,以确保网络设备的互操作性和性能。

800G以太网的多种应用场景

数据中心

  • AI数据中心:人工智能训练需要大量的数据传输和计算能力,高速以太网技术可以连接GPU集群和数据存储,支持深度学习模型的训练和AI推理。
  • 超高密度数据存储:数据中心需要大容量存储和快速数据传输来满足不断增长的数据需求。800G 以太网可以连接存储服务器,实现超高密度数据存储。例如,大型社交媒体公司可以利用这些技术来管理用户上传的大量照片和视频。
  • 虚拟化和容器化:虚拟化和容器化等技术需要快速的数据传输,以便在不同的虚拟机或容器之间共享资源。800G 以太网可以为虚拟机迁移和容器通信提供高带宽。例如,云服务提供商可以使用这些技术来支持客户的虚拟化工作负载。

云计算

  • 弹性计算资源:云计算提供弹性计算资源的能力,因此需要高速网络连接。800G以太网可以促进云计算用户之间的快速数据传输。例如,科研机构可以利用这些连接在云端运行复杂的模拟和数据分析任务。
  • 云存储和备份:云存储和备份服务需要大容量和高速传输来确保数据的安全性和可用性。高速以太网技术可以连接云存储设备和数据备份服务器。例如,企业可以使用它们来备份关键业务数据。

高性能计算

科学计算、计算模型训练等高性能计算应用需要高速的数据传输和处理能力。800G 网络可提高数据传输速度和网络性能,以执行高性能计算任务。这对于涉及处理复杂计算的科学研究、大数据分析和智能计算训练等应用至关重要。800G 以太网的引入将进一步推动高性能计算的创新和发展。

大数据

  • 数据传输和分析:大数据分析需要广泛的数据传输和处理能力。800G 以太网可以将大规模数据集从源传输到分析平台,从而加速数据处理。例如,医疗保健组织可以使用这些网络分析大量患者医疗记录,从而改善诊断和治疗。
  • 实时数据流:实时数据流需要极低的数据传输延迟。高速以太网技术可以支持实时数据流应用,例如金融交易监控和智能城市监控。例如,金融机构可以使用它们来监控和分析大量交易数据以检测潜在的欺诈行为。

物联网

800G以太网可以连接更多的物联网设备和传感器,实现大规模设备互联,物联网解决方案将具有更高的可扩展性和能力,促进智慧城市、智能交通、智能制造等领域的创新应用。

自动驾驶仪

  • 高清地图和传感器数据:自动驾驶汽车需要高分辨率地图和传感器数据来实现精确定位和环境感知。800G 以太网技术将传输这些大规模数据,增强自动驾驶的安全性和可靠性。
  • 车辆通信:车辆与基础设施之间的通信是自动驾驶的关键。高速以太网将支持车辆之间的实时通信,有助于防止碰撞并提高交通效率。

综上所述,800G网络对于推动创新应用、加速数字化转型、推动技术进步具有举足轻重的作用。

推出 Asterfusion 800G 超级以太网交换机

推出速度和效率巅峰的 Asterfusion 800G 超级以太网交换机!这款交换机采用尖端的Marvell Teralynx 10 51.2 交换芯片,可提供闪电般的性能,800GE 端口的端口到端口延迟低于 560ns。享受最佳的交货时间和价格,同时利用市场领先的 SONiC 企业分销AsterNOS的强大功能。以下是其出色的硬件和软件功能:

型号为CX864E-N的数据中心交换机

强调

  • 51.2T 交换机,2RU 内有 64x800G OSFP 或 128x400G/512x100G
  • 全球速度最快的交换机,800GE 端口的端口到端口延迟低于 560 纳秒
  • 满流量负载下,64x800G SR8 端口的最大 TDP 为 2200W
  • 200+MB 的大型片上缓冲区可实现更好的 ROCE(基于融合以太网的 RDMA)性能
  • 10ns PTP 和 SyncE 性能支持严格同步的 AI 并行计算
  • 先进的 INT(带内网络遥测)用于数据包延迟、丢包和路径遍历,从而实现更先进的拥塞控制算法
  • 基于 SONIC 的开放式 AsterNOS,具有最佳 SAI 支持,更加强大和可靠。
  • 与所有领先供应商的异构 GPU 和 SmartNIC 兼容
  • 线速可编程性,支持不断发展的 UEC(超级以太网联盟)标准

Asterfusion 800G 以太网交换机硬件亮点:

  • OSFP800 交换机端口,每个支持 1 x 800 GbE(100G PAM4),或通过分支电缆支持 2 x 400G GbE、4x 200 GbE 或 8 x 100 GbE。
  • 512 x 112G 长距离 (LR) 一流 SerDes,通过光学模块/分路器支持 64x800G、128x400G 或 512x100G 接口
  • 高达 14.4Bpps 的 L2/L3 全线速转发
  • 根据流/数据包平衡负载,防止拥塞并确保有效利用可用带宽
  • 前面板上有另外两个 10G SFP+ 端口用于网络遥测管理
  • 每个 OSFP800 端口的功率预算高达 24 W。
  • 采用 Marvell Teralynx10 交换系列硅片。[为 800GE 端口提供业界最低的端到端延迟(低于 560ns);经过验证的、强大的 112G Serdes,具有业界最低的误码率 (BER)。;全面的数据中心功能集:包括 IP 转发、隧道、丰富的 QoS 和强大的 RDMA。;可编程转发:提供可置换的灵活转发,使运营商能够随着网络需求的发展而编写新的数据包转发协议,而不会影响吞吐量、延迟或功率;广泛的实时网络遥测,包括 P4 带内网络遥测 (INT)。高级共享缓冲:  200+ MB 片上缓冲区,由每个端口动态共享,确保卓越的网络质量和更少的数据包丢失]
  • Intel Xeon 8 核 CPU,具有线速可编程性,可通过软件升级实现未来的网络协议
  • 具有 LAN 串行支持的 BMC 模块
  • 支持前后气流的热/冷通道
  • 2 RU 尺寸
  • 热插拔、负载共享、冗余 3200W AC PSU。
  • 3+1 热插拔风扇
  • 预装开放网络安装环境 (ONIE) 的硬件交换机
  • 使用 Asterfusion Enterprise SONiC Distribution (AsterNOS) 进行硬件交换机预加载

Asterfusion 企业版 SONiC- AsterNOS

想象一下这样一个世界:网络基础设施不再是障碍,而是一条高速公路。这就是 Asterfusion 正在构建的世界,一次构建一个网络交换机。当其他白盒供应商让您自己拼凑解决方案时,Asterfusion 会预安装其企业版 SONiC,为您提供一站式、交钥匙解决方案。

我们并非一夜之间就取得了这样的成就。自 2017 年以来,我们由 100 多名 SONiC 研发专家组成的专业团队一直专注于一项使命:打造世界上最好的SONiC 企业网络操作系统(NOS)。最终成果是 AsterNOS,这是一款强大的操作系统,专为我们自己的一系列校园和数据中心交换机量身定制,从 1G 一直到 800G。

但兼容性是关键。这就是 AsterNOS 能与所有主流行业芯片完美兼容的原因。我们谈论的不仅仅是最低限度的兼容性——我们的商业 NOS 在功能开发和坚如磐石的稳定性方面都胜过社区版本。此外,我们的顶级支持团队随时准备介入并保持您的网络正常运行。

实践才是真理。在过去的 7 年里,Asterfusion 的 SONiC 企业解决方案在公共云、电信运营商、大型互联网公司、私有云和企业网络的战壕中经过了实战考验。我们已经学到了一些如何让现代网络以光速运行的知识。

软件亮点

  • 预装的AsterNOS是SONiC的企业版,以SAI为内核
  • 集成丰富的L2/L3网络特性,完整支持网络虚拟化、QoS策略等服务
  • 先进的功能容器化和事件驱动的系统架构,加速网络服务开发/定制
  • 提供开放的REST API接口,可供云管理平台等第三方应用集中管理和调用
  • 为传统网络工程师提供KLISH命令行

说到现代 AIDC,AsterNOS 是从头开始构建的,旨在处理未来苛刻的工作负载,例如生成式 AI。我们的精简设计简化了最强大的以太网基础设施的管理和监控,因此您可以专注于最重要的事情 – 为您的用户提供令人难以置信的体验。借助自适应路由和 RoCE 拥塞控制,Asterfusion SONiC 可以像精心调校的管弦乐队一样优化流量,确保您的工作负载发挥最佳性能。

超低延迟网络

  • 无与伦比的速度:采用 Marvell Teralynx10 芯片,这是世界上最快的交换机,800GE 端口的端口到端口延迟低于 560ns。非常适合对延迟敏感的应用程序,例如 AI/ML、HPC 和 NVME。
  • 增强性能:RDMA 支持直接内存访问,将延迟性能提高到微秒级。

无损网络

  • 零数据包丢失:ROCEv2 可确保微秒级低延迟、高吞吐量和接近零数据包丢失,开启人工智能驱动的网络性能和可靠性时代。
  • 高级拥塞控制:受益于丰富的 QoS 功能,包括 ECN、PFC、DCBX、QCN、DCQCN 和 DCTCP,适用于大规模 RDMA 部署。
  • 智能网络遥测 (INT):监控数据包延迟、丢失和路径遍历,以实现高级拥塞控制算法。

高可靠网络

  • 强大的负载平衡和冗余:最多 8192 条等价多路径 (ECMP) 路由。
  • 无缝连接:BGP 多宿主,用于多个服务器连接,具有自动负载平衡和故障转移功能。
  • 主动/主动多路径:多机箱链路聚合组 (MC-LAG),实现卓越的 L2 多路径。
  • 快速故障转移:仅需 50 毫秒即可实现 BGP 和 OSPF 的 BFD。

时间敏感网络

  • 精确同步:实现 10ns PTP 和 SyncE 性能,这对于同步 AI 并行计算至关重要。
  • 自动化运维网络
  • 操作轻松:与Python和Ansible集成,支持自动化操作和维护。
  • 零接触配置 (ZTP):自动获取和加载部署文件,简化设备设置。

开放网络

  • 开放企业 SONiC 分发:AsterNOS 提供最佳的 SAI 支持,确保强大而可靠的性能。
  • 面向未来:线速可编程,支持不断发展的 UEC(超级以太网联盟)标准。

Asterfusion 800G AI网络解决方案

采用 NVIDIA DGX SuperPOD 的 RoCEv2 AI 解决方案

RoCEv2 AI Solution with NVIDIA DGX SuperPOD

通过 Asterfusion 800G 超级以太网交换机体验网络的未来——速度与可靠性和创新相结合。

参考:https://ethernettechnologyconsortium.org/wp-content/uploads/2021/10/Ethernet-Technology-Consortium_800G-Specification_r1.1.pdf

返回资源中心

最新动态

开源网络监控工具Prometheus,有哪些优势?


更多相关内容


网络监控是网络管理的重要组成部分,定期网络监控可以预防故障、优化性能、规划容量,确保网络的可用性、安全性等。相比较普通的监控工具,开源网络监控工具拥有可定制性、灵活性、可扩展性等优势,受到国内外众多企业的追捧,有哪些好用的开源网络监控工具,该如何选择呢?

一、盘点好用的开源网络监控工具

1、开源网络监控工具盘点

工具描述主要特点
Cacti一种图形解决方案,可与 RRDTool 一起收集 LAN 中的性能数据。–简单的网络管理协议(SNMP)支持
–绘制交通数据图表
–易于设置的模板
–用于数据存储的MySQL数据库
Nagios Core一种流行的监控工具,具有可扩展性和易用性的界面。– 自动发现设备
– 复杂的性能图
– 通过附加组件进行定制
– PHP Web 界面 (Nagios V-Shell)
– RESTful API
Icinga 2一个灵活的工具,建立在Nagios Core之上,提供可定制的仪表板和出色的可视化功能。– 用于自定义配置的RESTful API
– 实时性能数据监控
– 对 Graphite 和 InfluxDB的原生支持
– 通过电子邮件或文本发出警报和通知
Zabbix涵盖网络、服务器、云、应用、业务监控的综合监控工具。– 网络带宽使用情况跟踪
– 网络运行状况和配置更改监控
– SNMP、IPMI 和 IPv6 支持
– 用于轻松发现设备的模板
– 警报和通知
– 支持广泛的平台
Prometheus一种用于监控时间序列数据的流行工具,拥有大量社区追随者。– 时间序列数据监控
– 用于事件通知的警报管理器
– 与各种数据源(Docker、StatsD、JMX)集成
– 用于可视化的 Grafana 集成

2、对比展现Prometheus优势

作为发行时间最晚(Prometheus发行于2016年)的开源网络监控工具,Prometheus有哪些优势呢?以传统的Zabbix为例,一起来对比吧!

 ZabbixPrometheus
监控规模集群规模上限为10000个节点支持更大的集群规模
监控对象物理机环境云环境
存储关系型数据库时间序列的数据库
服务发现PushPull/Push
配置配置复杂一个核心Server组件,配置简单
社区活跃度国内比较活跃,社区活跃度相对较低开源社区非常活跃CNCF支持

二、Prometheus 是做什么的?

Prometheus 是一款免费软件,可帮助监控和发送有关计算机系统的警报,2012年已经产生并一直存在,并在公司和组织中变得非常流行。许多开发人员和用户积极为它做出贡献。它不属于任何特定公司,由共同工作的社区管理。2016 年,Prometheus 成为云原生计算基金会的一部分。

《Prometheus》-配图-01

《Prometheus》-配图-02

核心组件:

  • Prometheus Server
  • Exporter
  • Alertmanager
  • Pushgateway
  • Service discovery

Prometheus Server是Prometheus组件中的核心部分,负责实现对监控数据的获取,存储以及查询。

1、工作流程

  1. Exporter将监控数据采集的端点通过HTTP服务的形式暴露给Prometheus Server;
  2. 在Prometheus Server中支持基于PromQL创建告警规则,如果满足PromQL定义的规则,则会产生一条告警,而告警的后续处理流程则由AlertManager进行管理;
  3. Prometheus Server与Push网络需求无法直接满足时,就可以利用PushGateway来进行中转;
  4. Service discovery:监控系统而言就意味着没有了一个固定的监控目标,所有的监控对象(基础设施、应用、服务)都在动态的变化。

2、Exporter

定义:广义上来讲,任何向Prometheus提供监控样本数据的程序都可以被称为一个Exporter,Exporter的一个实例称为Target。

《Prometheus》-配图-03

若要从Target (host or service)收集监视数据,首先必须在要收集的Target上安装收集组件,称为Exporter,他们的官网(http://prometheus.io)上有很多Exporter:

– Consul exporter (official)
– Memcached exporter (official)
– MySQL server exporter (official)
– Node/system metrics exporter (official)
– HAProxy exporter (official)
– RabbitMQ exporter
– Grok exporter
– InfluxDB exporter (official)

可根据所监控的对象选取特定的Exporter:

范围Exporter
数据库MySQL exporter, Redis exporter, MongoDB exporter, MSSQL exporter等
硬件Apcupsd exporter, IoT Edison exporter, IPMI exporter, Node exporter等
消息队列Beanstalkd exporter, Kafka exporter, NSQ exporter, RabbitMQ exporter等
存储Ceph exporter, Gluster exporter, HDFS exporter, RabbitMQ exporter等
HTTP服务Apache exporter, HAProxy exporter, ScaleIO exporter等
API服务AWS ECS exporter, Docker Cloud exporter, Docker Hub exporter, GitHub exporter等
日志Fluentd exporter, Grok exporter等
监控系统Collected exporter, Graphite exporter, InfluxDB exporter, Nagios exporter, SNMP exporter等
其他Blockbox exporter, JIRA exporter, Jenkins exporter, Confluence exporter等

工作方式:

– 注册指标:exporter需要定义要导出的指标及其相关信息
– 数据收集:exporter定期从系统或应用程序中收集指标数据
– 指标转换:exporter将收集到的指标数据转换为Prometheus的指标类型
– 暴露指标:exporter提供一个HTTP接口,通过该接口将转换后的指标暴露给Prometheus

《Prometheus》-配图-04

3、告警产生以及推送

《Prometheus》-配图-05

  • Prometheus会周期性的对告警规则进行计算,如果满足告警触发条件就会向Alertmanager发送告警信息
  • Alertmanager根据配置推送给对接的平台,支持对接多种平台告警推送

流程:

  1. 告警路由:会根据事先定义的路由配置对告警进行路由。路由配置规定了如何处理不同的告警,包括将告警发送到不同的接收者(如电子邮件、PagerDuty、Slack等)、进行静默处理或者进行其他操作。
  2. 告警抑制:Alertmanager会对接收到的告警进行去重处理,以避免重复通知。
  3. 告警分组:Alertmanager会将具有相同标签或属性的告警进行分组,以便进行更有效的通知和处理。这样可以避免发送大量重复的告警通知,提供更清晰的告警视图。

三、示例:将Prometheus与AsterNOS结合

1、为什么使用Prometheus监控AsterNOS

《Prometheus》-配图-06

2、效果展示

以星融元CX-M园区网络为例,使用Prometheus + SNMP + Grafana组合方案进行监控,能够采集系统运行数据,实现网络数据可视化以及网络架构拓扑展示。

园区方案

《Prometheus》-配图-07

在AsterNOS设备上部署Node exporter,以HTTP接口的形式暴露AsterNOS的系统运行数据,Prometheus将主动Pull数据。Prometheus获取到数据后一方面用于评估告警规则——若产生告警将由Alertmanager推送给所对接的服务;另一方面落地到Prometheus服务器本地存储中。Grafana可以利用Prometheus所存储的监控数据来进行可视化展示。

《Prometheus》-配图-08

以Node exporter所采集的数据作为来源展示

《Prometheus》-配图-10

《Prometheus》-配图-09

返回资源中心

什么是软路由?软路由与硬路由有哪些区别?


更多相关内容


一、什么是软路由?

软路由是一种利用通用计算机平台上的软件实现的路由器。它将路由器的功能以软件的形式运行在标准的服务器、PC或虚拟化环境中。软路由通过使用通用硬件和开源软件,将路由器的功能转移到软件层面上。常见的软路由平台包括pfSense、OPNsense、VyOS等。

二、软路由的应用场景

1. 家庭网络:软路由可以作为家庭网络的核心路由器。它提供了广域网(WAN)连接、局域网(LAN)分配、网络安全、流量控制等功能。软路由还支持各种高级功能,如虚拟专用网络(VPN)、防火墙、负载均衡等,提供更灵活和可定制的网络解决方案。

软路由适用于家庭网络环境,可以提供更好的灵活性和功能扩展性。可以根据个人需求安装各种插件,如AP管理、搭建内网服务器、自动签到打卡等功能。

2. 小型办公室/远程办公:对于小型办公室或远程办公场景,软路由是一种经济实惠、易于管理且功能强大的选择。它可以提供高级的路由和安全功能,通过软件配置可以满足特定的网络需求,如远程访问、VPN隧道、QoS(Quality of Service)等。

3. 虚拟化环境:软路由在虚拟化环境中具有广泛的应用。通过在虚拟机中运行软路由软件,可以实现虚拟网络的隔离、灵活的网络配置以及虚拟机间的通信控制。软路由还可以与虚拟交换机和网络功能虚拟化(NFV)平台结合使用,提供更高级的网络服务。

三、软路由与硬路由的区别

  1. 硬路由:由厂家提供整体的解决方案,包括硬件和软件。它的配置相对固定,用户无法自行更改硬件参数。硬路由通常具有无线功能,适合普通家庭和企业使用。
  2. 软路由:在电脑主机的基础上配合软件组合成的路由解决方案。它的优势在于扩展性,用户可以根据需要安装各种插件,扩展功能。软路由的硬件参数比硬路由要强,可玩性更高。但安装和管理软路由可能需要一定的网络知识和技能。

可以从以下4个方面对比软路由和硬路由:

特点软路由硬路由
灵活性和可定制性具有更高的灵活性和可定制性。通过软件配置和插件,可以根据特定需求进行自定义设置和功能扩展。功能通常固定,无法进行灵活的定制。
灵活性和可定制性运行在通用计算机平台上,性能可能受到硬件限制,对于高负载和大规模网络场景可能需要更强大的硬件支持。通常具有专用的硬件组件和优化的操作系统,提供更高的性能和扩展性。
成本相对于硬路由来说,成本更低。可以在现有硬件上运行,无需购买专用设备,节省了成本。通常需要购买专用设备,成本较高。
管理和维护可以通过远程管理界面进行配置和管理,相对而言更易于管理。通常需要直接访问设备进行配置和维护。

结论:

总之,软路由适用于DIY玩家、小企业和对网络功能有特定需求的用户。它的稳定性较高,长期运行不需要重启。硬路由则更适合普通家庭和企业使用,操作相对简单,无需过多专业知识。

返回资源中心

什么是VXLAN?VXLAN和VLAN有什么区别?


更多相关内容


一、VXLAN的原理

VXLAN是一种网络封装技术,它使用隧道协议将标准以太网帧封装在UDP(User Datagram Protocol)数据包中传输。VXLAN通过在底层网络上创建虚拟网络,将虚拟机(VM)或容器跨物理网络进行通信。它使用24位的VNI(VXLAN Network Identifier)来标识不同的虚拟网络。

VXLAN利用了一个称为VTEP(VXLAN Tunnel Endpoint)的设备,它负责在物理网络和虚拟网络之间进行数据包的封装和解封装。VTEP维护了VNI与MAC地址之间的映射关系,以便正确路由数据包到相应的虚拟机或容器。

VXLAN

二、VXLAN的功能和作用

  1. 扩展性:VXLAN可以扩展现有的以太网架构,提供超过4096个VLAN标识符的虚拟网络。这使得在大规模数据中心中创建和管理多租户环境变得更加容易。
  2. 隔离性:VXLAN通过在底层网络上创建虚拟网络,实现了不同租户之间的逻辑隔离。每个租户都可以拥有自己的虚拟网络,并且它们的通信是相互隔离的,提供了更高的安全性。
  3. 移动性:VXLAN允许虚拟机或容器在物理网络中进行迁移,而无需更改它们的IP地址或VLAN标识符。这使得在数据中心中进行负载均衡、故障恢复和资源调整变得更加灵活和高效。
  4. 跨子网通信:VXLAN可以跨越不同的子网进行通信,克服了传统VLAN在这方面的限制。它可以通过底层网络中的IP隧道实现跨子网的通信,并提供更大的灵活性和可扩展性。

三、VXLAN技术的应用场景

场景1:采用VXLAN技术实现数据中心虚拟机迁移

VXLAN-场景

场景2:园区网络与数据中心VXLAN网络之间的通信

VXLAN-场景

四、VXLAN与VLAN的区别

  1. 标识符数量:VXLAN可以提供超过4096个虚拟网络标识符,而传统VLAN仅限于4096个VLAN标识符。
  2. 隔离性:传统VLAN在逻辑隔离方面存在一定的限制,因为它们共享相同的广播域。而VXLAN通过在底层网络上创建虚拟网络,提供了更好的隔离性和安全性。
  3. 跨子网通信:VXLAN可以轻松地实现跨子网的通信,而传统VLAN必须在同一子网内才能进行通信。
  4. 设备支持:传统VLAN需要支持802.1Q协议的交换机和路由器来实现,而VXLAN需要支持VTEP功能的设备来进行封装和解封装。

结论

VXLAN是一种虚拟扩展局域网技术,通过在底层网络上创建虚拟网络,实现了大规模虚拟化和多租户环境。它具有扩展性、隔离性、移动性和跨子网通信的功能,可以提供更高的灵活性和可扩展性。与传统VLAN相比,VXLAN具有更多的标识符数量、更好的隔离性、跨子网通信的能力,并且需要特定的设备支持。

相关阅读:技术手册-虚拟扩展本地局域网协议VXLAN

下载链接:技术手册-虚拟扩展本地局域网协议VXLAN

返回资源中心

Underlay与Overlay有什么区别和联系


更多相关内容


什么是Underlay?

Underlay是现实的物理基础层网络设备。数据中心基础转发架构的网络。

以太网最初设计的时候就是一个分布式的网络架构,没有中心控制节点,网络中的节点通过协议传递学习网络的可达性信息。

Underlay就是数据中心场景的基础物理设施,保证任何两个点路由可达,其中包含了传统的网络技术。

在数据中心强劲生长、快速演变的今天,网络面临种种挑战:

  1. 二层网络范围受限,虚拟机迁移不灵活;
  2. 数据中心交换机地址表项不够;
  3. 数据中心网络的多租户隔离能力不足。

应对这些挑战,Overlay技术可以实现:

  1. 在三层网络中实现二层网络的扩展,路由方式传输,网络架构范围不受限,具备大规模扩展能力,虚拟机迁移不再被限制在 一个较小的局部范围内。
  2. 在三层网络中实现二层网络的扩展,多采用三层互联方式,交换机仅仅需要维护一张本地的MAC地址表,极大降低了承 载网络对MAC 地址表项的需求。
  3. 扩展隔离标识的位数,从12bit到24bit,支持多达16M的用户标识,充分满足当下和未来数据中心多租户的网络隔离能力。

相关阅读:星融元携手商业地产运营商共同进入AI时代 (asterfusion.com)

什么是Overlay?

Overlay是一个基于物理网络之上构建的逻辑网络,是在网络技术领域指的是一种网络架构上叠加的虚拟化技术模式,Overlay网络也是一个网络,不过是建立在Underlay网络之上的网络

Overlay网络节点通过虚拟或者逻辑链路进行通信,其实现基于ip技术的基础网络为主。Overlay网络技术多种多样,一般采用TRILL、VxLan、GRE、NVGRE等隧道技术。

Underlay和Overlay的网络架构图

Overlay主流技术对比

Overlay主流技术对比

Underlay与Overlay的联系

Overlay的实现依赖于Underlay网络,它使用Underlay网络进行数据包的传输。Overlay网络通过在Underlay网络上部署虚拟化设备和服务,实现了对网络流量的控制、管理和优化。

通过Overlay技术,可以在Underlay网络上构建多个逻辑网络,实现不同网络需求之间的隔离和灵活性,并且可以提供更多高级的网络功能,如虚拟专用网络(VPN)、负载均衡等。

Underlay与Overlay的区别

Underlay是底层承载网,Overlay是基于底层网络互联互通的基础上加上隧道技术去构建一个虚拟的网络,例如VPN隧道组成的网络就是Overlay网络。

Underlay的核心是底层网络,Overlay的核心是上层的打隧道(tunnel)。

对比项Underlay网络Overlay网络
数据传输通过网络设备例如路由器、交换机进行传输沿着节点间的虚拟链路进行传输
包封装和开销发生在网络的二层和三层需要跨源和目的封装数据包,产生额外的开销
报文控制面向硬件面向软件
部署时间上线新服务涉及大量配置,耗时多只需更改虚拟网络中的拓扑结构,可快速部署
多路径转发因为可扩展性低,所以需要使用多路径转发,而这会产生更多的开销和网络复杂度支持虚拟网络内的多路径转发
扩展性底层网络一旦搭建好,新增设备较为困难,可扩展性差扩展性强,例如VLAN最多可支持4096个标识符,而VXLAN则提供多达1600万个标识符
协议以太网交换、VLAN、路由协议(OSPF、IS-IS、BGP等)VXLAN、NVGRE、SST、GRE、NVO3、EVPN
多租户管理需要使用基于NAT或者VRF的隔离,这在大型网络中是个巨大的挑战能够管理多个租户之间的重叠IP地址

总结

Underlay网络是底层的物理网络基础设施,而Overlay网络是在底层网络之上创建的虚拟网络。Overlay网络提供了额外的功能和服务,如VPN、VLAN、SDN和云计算中的虚拟化网络。通过Overlay网络,可以实现更好的网络管理、安全性、隔离性和性能优化。

返回资源中心

RoCE是人工智能网络的最佳选择吗?


更多相关内容

推荐阅读


一提到人工智能网络,很多人就想到InInfiniBand(缩写为 IB),IB是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。InfiniBand 也用作服务器与存储系统之间的直接或交换互连,以及存储系统之间的互连。实际上RDMA作为一种新技术,是人工智能网络的新方向,也逐步被更多人认可。

RDMA技术最早用于IB(Infiniband)组网,以通过构建无损网络实现HPC高性能计算集群的互联。不过,由于IB组网采用专有网络协议栈,存在技术封闭、兼容性低、单一厂商垄断等问题。为此,业界将RDMA技术移植到以太网上,推出了基于以太网的RoCE(RDMA over Converged Ethernet)协议,并将之演进到RoCE v2版本,从而推动了RDMA技术普及。

RoCEv2是什么?

RDMA技术与RoCE网络简介

RDMA (Remote Direct Memory Access)技术是一种基于网络的内存访问技术,它允许内存数据在计算机之间直接传输,而无需CPU或操作系统的参与,解放了内存带宽和CPU周期、改进应用系统性能,使得节点间的通信拥有更低的延迟和更高的吞吐量。目前,RDMA技术被广泛应用于超算、AI训练、存储等多个高性能场景。
RDMA技术实现路线包含以下三种:

  • InfiniBand:最早实现的RDMA技术;
  • RoCE (RDMA over Converged Ethernet):基于普通以太网的RDMA技术;
  • iWARP:即Internet Wide Area RDMA Protocol,基于TCP/IP协议栈的RDMA技术。

RDMA最早是在InfiniBand网络上实现,被广泛应用到高性能计算中、但需要专用的、支持该技术的网卡和交换机,价格非常昂贵。后来为降低RDMA的使用成本、推动RDMA技术普及,发展出了通过以太网承载RDMA的网络协议——iWARP和ROCE,而ROCE 又包括ROCEV1和ROCEV2两个版本。

RoCEv1是基于以太网链路层实现的,通过交换机上PFC等流控技术,在物理层保证可靠传输,而ROCEV2是以太网TCP/IP协议中UDP层实现,解决了扩展性问问题,弥补InfiniBand技术的一些限制,使RDMA技术可以更广泛地应用于数据中心和云计算等领域。同时,RoCEv2技术的发展也可以促进RDMA技术的标准化和推广,从而使RDMA技术更加普及和易于使用。

《关于一键配置ROCE的网络技术白皮书》

1. Asterfusion的解决方案:一键RoCE

为简化无损以太网部署和运维的难度,星融元Asterfusion在AsterNOS网络操作系统上推出“一键RoCE”功能,针对RoCEv2场景的配置需求进行设计规划,实现了业务级的命令行封装,以达到RoCEv2场景下最佳的可维护性和可用性。

2. 功能介绍

2.1 一键启用PFC和ECN,完成无损以太网配置

在没有一键RoCE配置命令行时,一线实施和运维工程师配置无损以太网或者取消配置,需要分别对PFC和ECN功能进行配置,这要求工程师深刻理解以太网的QoS技术和配置逻辑。

有了一键RoCE配置命令行后,工程师可以通过一条命令行完成无损以太网的配置,不需要再使用原子级的命令行,分别对PFC和ECN功能进行配置。

PFC和ECN功能配置

2.2 无损以太网的配置和运行状态,集中展示

以前运维无损以太网时,如果想要进行网络异常定位或者运行状态检查,通常需要到不同命令行视图下进行执行多次show命令,以确定当前的队列映射关系、Buffer使用情况、PFC和ECN在哪个队列中被启用、各种门限的数值、PFC和ECN所在队列的吞吐量、Pause和CNP报文的触发次数等信息。

现在工程师可以通过show roce系列命令行,一键式地查看全局的RoCE信息、端口的RoCE信息和计数,以及对RoCE相关计数进行统一清零。

# 查看RoCE相关的配置信息

命令行

命令行

#查看具体端口的RoCE计数信息

命令行

#清除所有RoCE相关计数
sonic# clear counters qos roce

2.3 不同业务场景下的参数调优

通过一键RoCE命令行,可以快速配置无损以太网,当业务场景不满足于设备提供的默认配置时,工程师还可以通过QoS配置命令行精细化地调试PFC和ECN的各项参数,让业务性能达到最优。

3. 应用场景

3.1 简化高性能计算和存储网络的部署

高性能计算和存储业务场景中,工程师通常对业务非常熟悉,集中精力在服务器侧做配置调优。对于网络,通常提出的要求是“需要一张高可用、高性能的无损以太网”。这种情况,高性能计算和存储工程师,可以通过一键RoCE命令行,快速完成无损以太网配置部署。

这种业务级命令行的封装,将多个原子级命令行进行组合,简化配置流程,节省工程师的时间和精力去完成更有价值的业务侧优化。

3.2 快速定位无损以太网的瓶颈和故障

show roce业务级命令行将多个原子级命令行组合成一个语义完整的业务命令,能把RoCE相关的调试信息组织起来集中展示。

在排查网络故障时,使用show roce一次性查询与无损以太网相关的所有配置信息、运行状态,不需要再逐个执行原子级命令行进行查询。从而简化排障流程,提高排障效率。

结论:人工智能数据中心如何从InfiniBand和RoCE中进行选择?

虽然 InfiniBand 预计将保持领先地位,但根据 Dell’Oro Group 发布的最新 AI Networks for AI Workloads 报告,预计以太网将取得可观的收益,例如到 2027 年将达到 20 个收入分成点。

对于那些在 RoCE 和 Infiniband 之间做出选择的企业,应考虑其独特的要求和成本。如果他们更喜欢最高性能的网络连接,Infiniband 会更好。而对于那些寻求最佳性能、易于管理和有限成本的人来说,他们应该为他们的数据中心选择 RoCE。

最后让我们再看IB和RoCE测试数据的对比:

 InfiniBandRoCE
端对端时延100 ns230~500 ns
流量控制利用基于信用的信令机制来避免缓冲区溢出和数据包丢失,确保HCA到HCA的无损通信。依靠无损以太网,通常通过以太网流量控制或优先级流量控制(PFC)进行配置,以达到与InfiniBand类似的性能特征
转发模式基于本地ID转发基于IP的转发
可扩展性强,Infiniband的单个子网可以支持数以万计的节点。它还提供了一个相对简单且可扩展的体系结构,可以使用Infiniband路由器创建几乎无限的集群大小。强,RoCEv2基于UDP,具有良好的跨网段可扩展性,是一种大规模采用的解决方案。RoCE支持网络拓扑的动态创建和调整,使其能够适应不同规模数据中心的需求。
可靠性通过结合自适应路由的InfiniBand专有协议实现实现了基于IP的ECMP机制。此外,RoCE支持纠错和重传机制,进一步提高了数据传输的可靠性。
成本非常昂贵:服务器需要专用的IB NIC、专用的IB交换机来构建专用网络,通常是普通网络设备成本的五到十倍,并且只考虑在金融和期货交易等高调环境中使用"低成本
高性价比
RoCEv2数据中心交换机
比IB交换机价格便宜很多"

返回资源中心

什么是以太网交换机的网络时延?


更多相关内容


网络时延是现代网络的一个重要方面,对数据传输的效率有着深远的影响。以太网时延是一个经常出现的术语,但您对它有深入的了解吗?本文将讨论什么是网络时延、网络时延的原因、如何测量网络时延以及如何使用以太网交换机减少网络时延。请继续阅读,了解更多信息。

什么是网络时延?

网络时延的含义

术语 “网络时延 “是指网络数据传输的时延。以太网交换机时延是指以太网数据包通过网络交换机所需的具体时间。时延时间长的网络称为高时延网络,时延时间短的网络称为低时延网络。

以太网交换机时延可从两个角度来理解–单向时延和往返时延。后者通常用作主要指标,包括以太网数据包从源到目的地所需的总时间。如今,往返时延是一个重要指标,因为设备使用 TCP/IP 网络协议将特定数据发送到目的地,并等待回执后再发送另一个数据。因此,这种方法对网络性能有重大影响。

往返时延

网络时延的意义

随着越来越多的公司进行数字化转型,它们开始采用基于云的应用程序和服务来执行基本业务功能。运营活动还依赖于从连接到互联网的智能设备(统称为物联网 (IoT))上收集的数据。时延会导致效率低下,特别是在依赖传感器数据的实时操作中。此外,即使企业实施了昂贵的网络基础设施,高时延也会降低为提高网络容量所做投资的回报,影响用户体验和客户满意度。

是什么导致了网络时延?

前几节介绍了网络时延的概念。本节将探讨造成时延的原因。造成网络时延的因素很多。以下是可能造成时延的几个潜在因素。

  • 传输介质的影响:由于数据是通过传输介质或链路传输的,因此传输介质或链路对时延的影响很大。例如,光纤网络的时延比无线网络低。同样,每次网络从一种介质切换到另一种介质时,总传输时间都会增加几毫秒。
  • 报头分析:以太网交换机有时需要额外的时间来分析数据包报头细节并纳入重要数据,因此会产生时延。这会导致通过交换机的数据包的遍历时间延长。
  • 与存储相关的数据包时延:当数据包在交换机和网桥等中间设备上遇到存储或磁盘访问时延时,就会出现存储时延。
  • 安全处理时延:网络时延可能受到反病毒和安全进程的影响,这些进程在传输前需要时间完成信息重组和分解。

如何测量时延?

IEEE 规范 RFC2544

IEEE RFC2544 规范为评估存储转发设备的时延提供了一种广为接受的方法。RFC2544 要求时延测试至少重复 20 次,测试结果为所有测试结果的平均值。

Netperf

Netperf 是基于 TCP 或 UDP 传输的网络性能测量工具。Netperf 测试结果反映了一个系统向另一个系统发送数据的速度和另一个系统接收数据的速度。

Ping ping

Ping Pong 是一种用于测量高性能计算集群内时延的方法。这种方法可评估通过消息传递接口(MPI)传输的远程过程调用(RPC)的往返持续时间。

如何利用以太网交换机减少网络时延?

使用以太网交换机最大限度地减少网络时延有多种方法。这些方法包括:

增加网络容量

减少时延和碰撞最直接有效的方法之一是为以太网交换机配备所需的容量。 验证交换机是否具备扩展网络容量的能力非常重要。 确保零数据包丢失的以太网交换机在提高网络性能方面发挥着至关重要的作用。链路聚合控制协议(简称 LACP)是一项标准功能,可通过端口中继提高网络性能。了解产品信息,请访问:https://asterfusion.com/product/cx-n/

使用 VLAN 进行网络划分

鉴于传统的扁平网络往往会导致链路过载,配备 VLAN 功能的以太网交换机可以有效地将流量路由到预定目的地。 一系列第 2 层和第 3 层 VLAN 以太网交换机可根据端口、动态 VLAN 分配、协议、MAC 地址等因素进行流量划分。

实施穿透技术

这种方法与数据包交换系统有关,旨在最大限度地减少网络时延。 直通式交换通过允许交换机在收到完整数据包之前,即在处理目的地址后立即启动数据包转发,从而减少网络时延。 不过,需要注意的是,这种技术只有在端口以相同速度运行时才能发挥最佳功能。

利用 RDMA 减少时延

RDMA 或远程直接内存访问是一种尖端网络技术,它彻底改变了数据传输效率。与涉及 CPU 的传统方法不同,RDMA 实现了网络内计算机内存之间的直接数据交换。这避开了中央处理器,减少了时延,从而加快了实时模拟、数据分析和高性能计算等任务的数据通信。QSFPTEK 的 S5600 和 S7600 系列交换机支持 RDMA,可提供高吞吐量和超低时延。

利用以太网交换机减少网络时延

结论

总之,网络时延对以太网交换机的高效数据传输至关重要。本文旨在阐明以太网交换机中以太网时延的概念,并深入探讨减少时延的策略。虽然不可能完全消除网络时延,但我们的目标是尽可能地减少时延。在当今依赖网络的环境中,了解网络时延的影响并应用缓解策略至关重要。

返回资源中心

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2