Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

RDMA为什么出现,它有什么好处

更多相关内容


科技发展催生RDMA诞生

随着AI、5G网络的兴起,大数据分析、边缘计算的飞速发展,以及“唤醒万物,万物互联”时代的到来,各种应用、各种行业对高效通信的需求越来越强烈,在这一风口浪尖上,英特尔、NVIDIA、AMD、亚马逊、微软、联想、阿里巴巴、百度、Dell、EMC、阿托斯、华为、曙光、浪潮、Cray、Fujitsu、HP和NEC等众多公有云厂商推出了解决方案“为用户提供灵活、强弹性和高可扩展的基础通讯设施以及几乎无限的存储容量”,吸引了越来越多的新兴业务应用和企业将数据中心建设于公有云之上。当客户将数据中心建设于公有云上时,数据中心网络中的东西向流量剧增,占据了80%的网络带宽,于是出现了大量的远程内存访问需求。

一个应用的访问会在数据中心产生一系列的连锁反应,举例说明,如图1所示,在大数据分析的数据中心应用场景中,某终端用户访问某一业务,首先访问的是Web应用区中的业务链接;然后返回访问结果,于此同时,还需要根据终端用户的访问行为推送与该行为相关的其他业务链接,此时需要依赖大数据分析系统对该用户终端的一系列行为进行分析,在分析过程中会调用存储区中终端的其他相关行为数据,再进行深入的综合分析;

最后将终端用户行为和大数据分析结果存储到存储区,并作为用户行为分析的结论传输给应用显示系统进行排列组合,最终将呈现结果推送至用户终端,并通过Web界面显示。Web应用服务器、大数据分析服务器、存储服务器以及显示系统之间存在大量的内存访问需求。

一个应用访问行为引起的连锁反应

远程内存访问的低效直接导致业务应用的低效

由于在数据中心领域中人们总是将目光集中在云计算、100G/400G单端口带宽的提升等技术的发展上,而忽略了如何提升计算节点接收到数据后的数据处理性能和内存带宽的利用率。当AI、5G、AR/VR/MR、大数据分析、IoT等高性能计算应用大量兴起时,面对网络带宽、处理器速度与内存带宽三者的严重“不匹配性”,就造成了网络延迟效应的加剧。远程内存访问这一常态性业务处理性能的低效就直接导致了业务应用的低效。

如图2所示,在典型的IP数据传输过程中(包括数据接收和发送两个过程),其数据处理原理是:

数据发送

Server-A上的应用程序APP-A向Server-B上的应用程序APP-B发送数据。作为传输的一部分,需要将数据从用户应用空间的Buffer中复制到Sever-A的内核空间的Socket Buffer中,然后在内核空间中添加数据包头、封装数据包,再通过一系列网络协议的数据包处理工作,诸如传输控制协议(TCP)或用户数据报协议(UDP)、互联网协议(IP)以及互联网控制消息协议(ICMP)等,最后被Push到NIC网卡的Buffer中进行网络传输。

数据接收

消息接受方Sever-B接收从远程服务器Sever-A发送的数据包后会进行应答,当Sever-A收到应答数据包时,首先将数据包从NIC Buffer中复制数据到内核Socket Buffer中,然后经过协议栈进行数据包的解析,解析后的数据会被复制到相应位置的用户应用空间的Buffer中,最后唤醒应用程序APP-A,等待应用程序A执行读操作。

典型的IP数据的传输中,服务器发送和接收的处理过程

当网络流量以很高的速率交互时,发送和接收的数据处理性能非常的低效,这种低效表现在:

  • 处理延时过大,达数十微妙。在数据发送和接收的过程中,大多数网络流量必须至少两次跨系统内存总线进行数据复制,一次是在主机适配器使用DMA将数据放入内核提供的内存缓冲区中,另一次是从内核将数据移至应用程序的内存缓冲区中。这意味着计算机必须执行两次中断,才能在内核上下文和应用程序上下文之间进行切换。因此服务器收到数据后的处理过程需要经过多次内存拷贝、中断处理、上下文切换、复杂的TCP/IP协议处理等,造成流量传输时延加剧;
  • 单位时间内收到的报文越多,处理报文消耗的CPU和内存资源越高。交换机往往做三层解析就足够,而且是由专门的芯片来完成,不消耗CPU资源。而服务器要将收到的每个报文的内容都解析出来,网络层和传输层的解析都需要消耗CPU资源和占用内存资源,由CPU来查询内存地址、检验CRC、还原TCP/UDP包并送到应用空间。单位时间内进来的报文数量越多,消耗CPU和内存资源就越多;
  • 较低的灵活性。主要原因是所有网络通信协议通过内核传递,而这种方式很难去支持新的网络协议、新的消息通信协议及发送和接收接口,使用传统的IP数据传输在后期网络的演进过程中,想要跳脱这种“困局”就变得非常的困难。

低时延、超低CPU和内存资源占用率的RDMA技术,变低效为高效

为了解决远程内存访问过程中“服务器端数据处理延迟大、资源消耗大”的问题,IBM和HP在2003年提出了RDMA(Remote Direct Memory Access,远程直接内存存取),通过使用支持该技术的网络适配器能够将数据从线路直接传输到应用程序内存或从应用程序内存直接传输到线路,从而支持零拷贝网络,无需在应用程序内存和操作系统中的数据缓冲区之间复制数据。这样的传输不需要CPU、缓存或上下文切换器完成任何工作,大幅度降低了消息传输中的处理延迟,同时传输与其他系统操作并行进行,提高了交换机的性能。

在具体的远程内存读写过程中,用于RDMA读写操作的远程虚拟内存地址包含在RDMA消息中传送,所以远程应用程序要做的只是在其本地网卡中注册相应的内存缓冲区,而远程节点的CPU除在连接建立、注册调用等之外,在整个RDMA数据传输过程中并不提供服务,因此没有给CPU带来资源消耗。举例说明,假设应用和远程应用之间已经建立了连接,并注册了远端的内存缓存区,当该应用执行RDMA读操作,其工作过程如下:

  • 当一个应用执行RDMA读操作时,不执行任何数据复制。在不需要任何内核参与的条件下,RDMA请求从运行在用户空间的应用中发送到本地NIC;
  • 本地NIC读取缓存的内容,并通过网络传送到远程NIC;
  • 在网络上传输的RDMA信息包含目标虚拟内存地址、内存钥匙和数据本身;
  • 目标NIC确认内存钥匙,并直接读取应用缓存中的数据,其中用于操作的远程虚拟内存地址包含在RDMA信息中。

传统模式和RDMA模式的对比

如图3所示,通过对比传统模式和RDMA模式对发送和接收数据的处理过程,RDMA技术最大的突破在于给数据中心通信架构带来了低时延、超低的CPU和内存资源占用率等特性。

星融元:浅谈RDMA与低时延网络

低延时体现在:

  1. 在网卡上将RDMA协议固化于硬件。在网卡硬件上就完成四层解析,然后直接将解析后的数据上送到应用层软件,硬件的处理速率远高于软件,降低了报文的处理延时;
  2. 零拷贝网络。网卡可以直接与应用内存相互传输数据,消除了在应用内存与内核内存之间的数据复制操作,使传输延迟显著降低;
  3. 内核内存旁路。应用程序无需执行内核内存调用就可向网卡发送命令。在不需要任何内核内存参与的条件下,RDMA请求从User Space发送到本地NIC,再通过网络发送给远程网卡,这就减少了在处理网络传输流时内核内存空间与用户空间之间环境切换的次数,降低了时延;
  4. 消息基于事务。数据被处理为离散消息而不是流,消除了应用程序将流切割为不同消息/事务的需求;
  5. 支持分散/聚合条目。RDMA原生态支持分散/聚合,也就是说,读取多个内存缓冲区然后作为一个流发出去或者接收一个流然后写入到多个内存缓冲区里去。

超低CPU和内存资源占用率体现在:

应用程序可以直接访问远程内存,而不占用远程服务器中的任何CPU资源,远程CPU中的缓存资源也不会被访问的内容填满,服务器可以将几乎100%的CPU资源和内存资源提供给计算或其他的服务,节省了服务器资源占用的同时,提高了服务器数据处理带宽。

返回资源中心

简述AI网络

更多相关内容


人工智能(AI)是一项革命性技术,正在改变许多行业和领域。

技术正在从医学到金融服务和娱乐,它正在改变我们日常生活的许多行业和方面。

娱乐,实时游戏、虚拟现实、生成式人工智能和元宇宙应用的快速发展,正在改变我们的日常生活、 虚拟现实、生成式人工智能和元宇宙应用的快速发展正在改变网络、计算、内存、存储和互连 I/O 的交互方式、 存储和互连 I/O 的交互方式。随着人工智能以前所未有的速度 以前所未有的速度发展,网络需要适应 流量的巨大增长。

随着人工智能以前所未有的速度不断发展,网络需要适应数以百计和数以千计的处理器通过数万亿次交易和千兆位 吞吐量。随着人工智能迅速从实验室和研究项目向主流应用迈进的同时,也要求增加网络和计算资源。

最近的发展 ,只是未来十年发展的基石。

我们认为,人工智能集群在未来几年将大幅增长。

这些人工智能工作负载的一个共同特点是,它们都是数据和计算密集型的。典型的人工智能训练工作负载 涉及数十亿个参数和分布在数百或数千个处理器(CPU、GPU 或 TPU)上的大型稀疏矩阵计算。CPU、GPU 或 TPU。这些处理器进行密集计算,然后与同级处理器交换数据。来自对等处理器的数据 或与本地数据合并,然后开始新一轮的处理。在这个计算-交换-还原的循环中,大约有 20-50% 的作业时间用于跨网络通信,因此瓶颈对作业完成时间有很大影响。

典型的人工智能训练工作负载 涉及数十亿个参数和分布在数百或数千个处理器

TCP/IP 和 RDMA

RDMA 是一种关键的卸载技术,可实现现代人工智能应用所需的可扩展并行处理。在 TCP/IP 套接字中、数据必须先从用户空间复制到内核空间,然后才能到达网络驱动程序和网络。当处理与人工智能应用相关的大量数据时,CPU 可能会成为瓶颈。

TCP/IP 和 RDMA

这就是远程直接内存访问(RDMA)的用武之地。在高性能计算系统中,RDMA 无处不在,因为它无需依赖内核即可在主内存中交换数据。RDMA 有助于提高吞吐量和性能,从而提高数据传输速率,降低启用 RDMA 的系统之间的延迟,因为它减少了CPU 周期。

RDMA transfer

RDMA 传输的语义由 InfiniBand Verbs 软件接口定义。这包括内存块的注册、描述符的交换以及 RDMA 读写操作的发布、描述符的交换以及 RDMA 读写操作的发布。该接口独立于作为物理传输层的 Infiniband物理传输层。

RoCE 定义了如何通过以太网传输 InfiniBand 有效载荷。RoCEv2 通过允许流量路由,进一步扩展了这种可扩展性和功能,允许对流量进行路由,并支持在以太网上扩展 RDMA。

RoCE and RoCEv2 Frame Format

集体交流

现代大型语言模型以数十亿或数万亿个参数为基础,并使用大量数据集进行训练,这些数据集无法在任何单个主机 GPU 中运行。任何单个主机 GPU 都无法容纳。这些数据集和模型被分割到多个 GPU 中并行训练,得出的 梯度和权重,然后通过集体通信在各成员 GPU 之间聚合和同步。

集体通信允许在通信器的所有进程之间交换信息。常用的集体通信原语包括广播、聚集、分散、全对全、全局还原(或全还原)和全聚集。最终目标 是确保所有进程在每一步都能同步。在所有参数同步之前,通信器中的任何进程都不能继续运行。

程序员可以利用流行的集体通信库(如 NCCL、oneCCL、RCCL、MSCCL 等),将高效、久经考验的通信算法集成到其应用程序中。应用中集成高效、久经考验的通信算法。

环形算法和二叉树算法通常用于像 allreduce 这样需要在所有 GPU 之间交换信息的集体程序。所有 GPU 之间交换信息。下图显示了用于在四个进程间交换信息的环形算法。

Allreduce using ring algorithm

环路具有带宽最优性,要求网络在所有终端主机之间提供线速带宽。虽然带宽效率高,但随着用于训练模型的 GPU 数量增加,延迟也会随环路线性增加。

树形算法通过对参与进程进行排序并将其拆分为不重叠的二进制树,可在保持低延迟的同时扩展 GPU。

分成不重叠的二叉树。下图显示了 16 个进程被分成两棵不重叠的二叉树。

Non-overlapping binary trees

每个进程从两个对等进程接收信息,并向两个对等进程发送信息。这种模式的延迟 不会像环模式那样线性增加,但它要求网络有效地管理流量传输,以便上游进程能以尽可能接近线速的带宽向每个接收进程发送信息。

必须为人工智能网络选择合适的互连设备,以便高效地交换信息,并让进程通过每个障碍,继续前进,进程越过每个障碍,进入下一阶段的计算。

人工智能网络互联

以太网广泛部署在数据中心、骨干网、边缘网和园区网中,其使用情况各不相同,从非常低的速度到目前的 100G、200G、400G 和 800G 高速度,以及未来的 1.6T。到目前的 100G、200G、400G、800G 等高速,路线图中将达到 1.6T。另一方面,Infiniband 是一种网络技术 而 Infiniband 则是 HPC 集群中常用的一种网络技术。如前所述,AI/ML 工作负载是网络密集型的,不同于传统的 HPC 工作负载。

此外,随着大型语言模型(LLM)的激增 此外,随着大型语言模型(LLM)的激增,对 GPU 和存储容量的需求也在不断增加。容量。现代人工智能应用需要拥有数千个 GPU 和存储设备的大型集群。

现代人工智能应用需要配备数千个 GPU 和存储设备的大型集群,而这些集群 随着需求的增长,这些集群必须扩展到数以万计的设备。增长。随着 GPU 速度每隔一年翻一番,避免计算和网络瓶颈至关重要。通过可扩展的网络设计来避免计算和网络瓶颈。可扩展的网络设计。

当应用团队关注计算能力时 网络团队则必须根据以下几个因素对互连进行仔细评估互连:

绩效

衡量人工智能集群性能的关键指标之一是作业完成时间。工作完成时间。要达到理想的 性能,网络必须是无损的、无阻塞的,并且 提供合理的链路利用率。正如后面所讨论的,有了适当的 拥塞控制机制和高效负载平衡技术 技术,RoCEv2 可提供人工智能工作负载所需的最佳性能。

带宽和速度

随着培训工作的规模越来越大,提供更快的网络非常重要。使用端口速度更快的高密度 更快的端口速度。使用商用硅以太网解决方案,网络带宽可以每两年翻一番。同时降低每比特成本和每比特功耗。

Single Chip Ethernet Switch Silicon Through 2025

Data Center Ethernet Switching Bandwidth Growth, by SerDes Speed

无损网络

虽然更快的速度很有用,但无损网络对作业完成时间至关重要。Infiniband 采用基于信用的流量 流量控制,以避免数据包丢失。发送方在收到目标主机发送的表示有可用缓冲区的数据包之前,等待发送数据包。缓冲区。通过使用显式拥塞通知(ECN)和优先级流量控制(PFC),以太网也可作为无损信道运行。无损信道。这些机制对发送方施加反向压力,以避免主机或交换机缓冲区超限。可靠的传输 通过 IB 流量控制或带有 ECN/PFC 的以太网进行可靠传输,对于最大限度地提高 RDMA 性能至关重要

可扩展性

随着 LLM 模型规模的不断扩大,其能力也得到了可靠且可预测的提升。这反过来又推动了更大 这反过来又推动了更大的 LLM,进而推动了更大的人工智能集群互连。简而言之,网络的可扩展性是一个非常重要的考虑因素。

以太网已经证明了其在全球最大云网络中的扩展能力。网络团队能够采用云 设计,并利用运行边界网关协议(BGP)的 CLOS 架构构建分布式网络。

另一方面,Infiniband 的控制平面通过单个子网管理器集中管理,该子网管理器可发现物理拓扑,并在每个节点上设置转发表和 QoS 策略。它定期扫描网络,并根据拓扑变化重新配置设备。这在小型集群中效果良好,但在大规模集群中可能会成为瓶颈。有一些经过深思熟虑的复杂解决方案可以起到修补作用。不过,以太网中的分布式控制平面的规模超过了 Infiniband 48000 的最大子网规模,并提供了更高的弹性。

恢复能力

当 Infiniband 的子网管理器发生故障时,整个子网都可能瘫痪。Infiniband 确实有一些技术可以在某些情况下实现连续转发。在某些情况下可以连续转发,但最终控制平面仍然是集中式的,而且很脆弱。完全故障切换到 而子网越大,停机时间就越长(需要传输的状态越多、 跨节点的扫描范围越大)。根据与客户的交谈,停机时间可能是 30 秒到几分钟不等。在某些用例中,客户 但对于大型人工智能/ML 工作负载来说,这种故障会严重影响作业完成时间和整体性能。性能。使用以太网和 Arista SSU 等功能的分布式可扩展架构,链路和节点故障对整体性能的影响极小甚至没有影响。对大型人工智能网络的整体性能影响极小甚至没有影响。

可见性

遥测和可视性对于实现网络自动化和无缝操作极为重要。网络团队希望将目前用于数据中心通用计算和存储的工具、流程和解决方案扩展到人工智能集群中。

互操作性

OAI 网络通常与各种存储和通用计算基础设施相连接。基于以太网的人工智能网络实现了高效、灵活的网络设计,避免了通过这些不同系统的管道瓶颈。虽然 IP 流量可以通过物理 Infiniband 网络传输,但所有服务器都必须配备 Infiniband HCA 或通过 Infiniband 至以太网网关,这极大地限制了进出 IB 网络的吞吐量。

开放

以太网拥有一个非常强大的生态系统,包括多个芯片供应商、系统供应商和光学供应商,并推动基于开放和标准的解决方案在各供应商之间实现互操作。InfiniBand 则由于选择有限和锁定解决方案而明显落后。


以太网的人工智能工作负载的关键要求总之,以太网因其可扩展性、互操作性、可靠性、成本效益、灵活性和熟悉度而被认为是人工智能网络的最佳解决方案。以太网的良好记录、广泛采用和对高速网络的支持,使其成为希望建立高效、可扩展的网络基础设施以支持其人工智能工作负载的企业的不二之选。

让我们来看看使用以太网的人工智能工作负载的关键要求。网络需要支持 RoCEv2 的无损传输、优先处理控制流量的服务质量 (QoS)、可调整的缓冲分配、有效的负载平衡和实时监控。

返回资源中心

2023 年三大开源网络发展趋势

更多相关内容


用于企业级交换机文章的配图开源网络技术正引领着企业、云计算和电信的发展方向。这是隶属于 Linux 基金会的 LF Networking (LFN) 提出的方向。

推动开源网络发展的主要趋势:

趋势 1:继分解之后的再分解

就在十多年前,分解趋势从 SDN 开始,这是一种将网络堆栈中的硬件与软件分离的方法。这一趋势随着边缘和接入网络的分解而扩大。

“你猜怎么着?总得有人把它们放在一起,”Joshipura 说。

现在的挑战是,企业要意识到,他们必须将各种分解的网络组件重新组合在一起,才能为企业、云和电信服务提供商提供完整的端到端堆栈。

在谈到 5G 和开源时,Joshipura 说,LFN 已经提出了以该组织称之为 5G 超级蓝图的形式进行重新分解的计划。这些蓝图提供了一个项目参考堆栈,可以将这些项目整合在一起,创建一个完整的解决方案。

趋势 2. 垂直行业的开源网络运动

5G 超级蓝图并不是开源组件中出现的唯一一种完整解决方案堆栈。

Joshipura 表示,在企业、云和接入网络的多个用例中,开发满足特定垂直行业和用例需求的堆栈正成为一种日益增长的趋势。迄今为止,活跃的行业包括能源、商业和制造业。

“我们所做的就是专注于这些对每个市场都很重要的用例。乔希普拉说。

趋势 3. 以前互不相关的细分市场正在合并

另一个趋势是市场合并。

Joshipura 指出,企业、云计算和电信不再各自为战。电信公司现在通常与云提供商合作。企业既与电信公司合作,也与云计算公司合作进行网络建设,需求和解决方案正日益融合。

根据 Johsipura 的说法,企业、云和电信公司都在合作开发从网络核心到边缘的开源服务,包括网络即服务(NaaS)等。合并的原因有很多,开源的 Kubernetes 容器编排系统就是其中之一。Kubernetes 可运行企业、云和电信公司的工作负载。

“现在,Kubernetes 有了一个通用的水平层,”Joshipura 说。”这是这些市场走到一起的原因之一。”

返回资源中心

认识一下 SONiC,这个新的 NOS(绝对不同于旧的 NOS)

更多相关内容


开源的 SONiC 网络操作系统,即将成为“网络界的 Linux”

SONiC网络操作系统正在快速发展一个开发者和用户社区,这可能会改变许多大型企业、超大规模网络运营商和服务提供商运行网络的方式。

开源与开放的理念天然契合万物互联的数字时代发展要求。过去的十年间,开源技术的应用势不可挡。正因为有了创新的开发者社区,开源已成为云计算,SaaS 服务,下一代数据库,移动设备,互联网甚至区块链的基础。根据中国信通院相关数据,截至2019年,国内已经应用了开源技术的企业占比超过八成,开源技术自主可控、节约成本、部署快捷的优势已经被广大企业普遍接受。如今,一个开源项目甚至会衍生出一个全新的产业链生态。

SONiC这个基于 Linux 的 NOS 是由微软于2017年开发并开源的,它将上层的网络软件从底层硬件上解耦,让其可以在来自多个供应商的交换机和ASIC上运行,同时支持完整的网络功能,例如边界网关协议(BGP)、远程直接内存访问(RDMA)、QoS 和其他以太网/IP技术。SONiC的关键之一是交换抽象接口(SAI),它定义了一种API,以提供一种独立于供应商的方式来统一地控制转发。

SONiC社区(https://sonicfoundation.dev/)正在不断壮大,包括DELL、Arista、诺基亚、阿里巴巴、、思科、博通、Juniper,Edgecore,Asterfusion(星融元),Nvidia-Mellanox和VMware等公司。SONiC是微软Azure网络服务的基础。据IDC预测,到2024年,SONiC数据中心交换机市场价值将达到20亿美元。SONiC社区现在已经拥有850多个成员,包括主要的云服务提供商、服务提供商、芯片和相关组件供应商,以及网络硬件OEM和ODM商,业界普遍认为SONiC有可能成为网络界的Linux。

SONiC已经成为开放网络的领先开源标准

SONiC一开始主要部署在云数据中心的TOR交换机上,但它获得的行业支持和借助社区和支持厂商不断增加的新功能正在帮助它扩展到云数据中心的spine-leaf网络,广域网和企业园区网络等路由场景。IDC表示,预计在未来几年中,SONiC将越来越多地出现在5G和电信云边缘环境中,特别是随着完整的5G技术的推出以及5G在企业中的实践案例得到验证。

SONiC的开放解耦架构是驱动其发展的一个重要因素。SONiC项目的发起者微软,或许是SONiC的最大的收益者。微软使用来自多个供应商的设备和软件构建了一个异构数据中心,但仍然必须构建一个可靠的网络将所有这些新技术和应用拼接在一起。而SONiC提供了统一的软件层,网络工程师在做了技术调整之后可以更加轻松地将其推广到全球各个数据中心。据微软工程师透露, SONiC帮助检测和诊断Azure网络运行状态。“解决问题和修复问题的时间显著缩短了……我们可以在大约一个小时内找到问题的根本原因,并在大约四个小时内得到修复,而不是之前可能需要几天的时间。”

此外,作为开源软件,SONiC非常突出的长期价值之一是其可编程性。借助社区的力量,以及通用的编程语言,我们将能够更轻松地与社区分享问题,并利用各种技能构建更好的面向网络的应用程序。

企业级的SONiC和一站式的方案交付

在这个“软件定义一切”的时代,开源SONiC+白盒交换机提供了更加灵活、可定制和高性能的网络解决方案选择,使得自研交换机的门槛大大降低,我们已经看到例如字节跳动、阿里巴巴等一些大厂开始大规模部署,帮助他们优化成本并且简化运维。但遗憾的是,自研这条路对于绝大多数企业和组织来说不具备可行性。

星融元是国内唯一提供企业级 SONiC (点击了解AsterNOS)和白盒交换机硬件的厂商,以软硬件一体化的产品交付方式将大型云厂商的白盒化成功经验复制到规模更大的传统市场,为客户提供全栈、开放、可编程的自由选择。

星融元为云计算的各关键应用场景构建全栈网络

星融元自 2017 年以来一直在开发和维护面向生产环境开箱即用的SONiC ,源自开源,超越开源,领先社区,开放融合,一套NOS即可满足云计算时代下的多场景需求。对于云的建设和管理人员来说,无论是完成各项日常网络配置操作,还是集成各类开源网络工具甚至自开发应用,在星融元的AsterNOS之上,一切都变得前所未有的简单和高效。

更多基于SONiC的行业解决方案

网络可视化:基于池化DPU方案实现的报文深度处理

更多相关内容


网络可视化中的深度业务处理

网络可视化场景中,通常需要将采集过来的数据经过深度业务处理后再交给后端分析系统。

这些深度业务处理功能包括:传统的深度业务处理通常由带CPU的框式设备完成,但框式设备成本高、功耗大、扩展不够灵活的种种给客户带来了极大的困扰。

DPU算力的池化应用

DPU智能网卡设备

Helium智能网卡是星融元Asterfusion自主研发的基于高性能DPU芯片的25GE/100GE以太网智能网卡,符合PCIe及以太网协议,提供PCIe*8或PCIe*16 Gen3.0/Gen4.0通道接口,可以直接插入到标准服务器或者PC机的PCIe卡槽内。

Helium DPU资源池解决方案采用标准服务器+多块Helium DPU智能网卡的形式为客户打造高性能算力资源池。其中Helium负责网络数据转发及部分计算类业务,服务器CPU完成控制面以及实时性要求不高的复杂计算业务,进而实现优化资源分配,简化运维管理的目标。从而帮助客户在数据中心到边缘场景实现网络加速、算力扩展和资源共享,降低客户总体拥有成本,提高投资回报率,助力业务增长。

服务器内部展示图

除了网卡硬件以外,厂商还提供了底层基座操作系统和开发套件,方便应用功能快速开发和移植。客户原来跑在x86服务器上的各种DPDK应用和VPP应用,仅需要简单编译就可以迅速移植到Helium智能网卡上。

目前,星融元 Helium DPU智能网卡上的软件和场景已经开源:https://github.com/asterfusion/Helium_DPU/

基于Helium DPU网卡加速如SSL解密、关键字匹配等报文处理功能

以资源池的方式实现可视网络采集中的高级功能,可以替换成本高昂、资源浪费的专用设备。搭配星融元流量采集网可实现数据采集、数据处理、数据分析一体化的解决方案,助力客户运维网络建设。

以资源池的方式实现可视网络采集中的高级功能

示意图:1台4U服务器最多可以插8块DPU网卡

方案思路:

通过标准分流器采集数据,配置负载均衡策略,将采集到的流量分配到每块DPU上,每块DPU实现高级功能加速处理:例如报文去重、报文脱敏、关键词匹配、SSL解密等等。(单块DPU卡去重能力为80Gbps,1台4U服务器最多可以插8块DPU网卡,去重能力可以达到640Gbps)

并且,可通过服务器提供的CPU,完成数据的存储/分析/展示功能,形成一体化数据采样与可视化页面展示的完整功能。

  • 弹性平滑扩展,高级功能按性能需求灵活扩展
  • 提高处理性能,通过DPU硬件加速高级功能业务
  • 降低建设成本,对比专用设备方案成本降低1/3
  • 降低能耗支出,对比专用设备方案能耗降低2/3

更多有关DPU智能网卡的相关信息,请访问星融元官网或 vx号“星融元Asterfusion”。

返回资源中心

节约空间扩展算力,5G边缘计算中的DPU资源池化思路

更多相关内容


边缘计算面临的难题

5G时代下,基础网络设施迎来又一轮现代化改造热潮。
随着物联网、智能驾驶等业务的兴起,边缘网络算力需求愈发明晰,运营商及云服务商纷纷将工作负载及服务从核心迁移到边缘,比如部署5G UPF、5G MEC及边缘网关VNF等。

与此同时,边缘数据中心受限于空间、能耗等限制,无法进行大规模的算力扩展,只能承载有限的计算业务,阻碍了业务应用规模。

边缘数据中心实景

如何实现边缘计算中的DPU资源池化

通过给x86服务器加装DPU智能网卡,可将5G UPF、5G MEC及网关功能卸载到多块DPU网卡上,并进行资源池化——不但可以提升业务处理性能,还可实现计算资源的快速扩展和统一的管理分配。并结合网卡的硬件加速引擎进行业务加速(例如深度解析业务报文,对音视频、网页数据进行流分类),提高单位体积的处理性能,在有限的机架空间内低成本地灵活扩展算力。

服务器内部展示图服务器内部功能分区展示

  • 电源管理更方便
  • 节省机架空间
  • 降低功耗

并且,多块DPU网卡存储的数据可通过PCIe共享到同一台服务器,以标准服务器+DPU的 “算力资源池” 形式接受云管平台纳管,实现”从云到边”的资源统一管理和分配。

多块DPU网卡存储的数据可通过PCIe共享到同一台服务器

关于星融元Helium DPU 网卡(硬件平台)

Helium智能网卡是星融元Asterfusion自主研发的基于高性能DPU芯片的25GE/100GE以太网智能网卡,符合PCIe及以太网协议,提供PCIe*8或PCIe*16 Gen3.0/Gen4.0通道接口,可以直接插入到标准服务器或者PC机的PCIe卡槽内。

此外,Helium上已预装了开发套件(FusionNOS-Framework),客户无需关注底层开发环境,即可进行上层应用的开发及移植;在保证可编程性和性能的同时,无需像FPGA架构的智能网卡需要高度依赖原厂开发团队支持。

目前厂商已将软件和场景开源,开源地址:https://github.com/asterfusion/Helium_DPU

Helium DPU智能网卡提供全套的开发套件

Helium的典型应用场景:OVS卸载+第三方应用

DPU应用:OVS卸载+第三方应用

  • 算力释放:多核ARM处理器负责OVS控制面卸载以及第三方应用卸载
  • 网络加速:硬件加速协处理引擎负责OVS数据面卸载并加速数据处理效率
  • 敏捷开发:标准的容器虚拟化环境及开源开放的DPDK、VPP开发套件,加速应用卸载及移植

更多有关DPU智能网卡的相关信息,请访问星融元官网或 vx号“星融元Asterfusion”。

返回资源中心

从STP到”去STP”,园区网络高可靠技术的演进

更多相关内容


为了保证网络的可靠性,我们往往会对关键链路进行冗余设计,而这难免就会产生一个封闭的物理环路,但是以太网的转发机制又决定了不能有物理环路,一有环路,发给所有主机的广播就会在环路反复传播,这便是广播风暴,此时网络及应用的访问将会变得缓慢,发生网络丢包等,甚至导致网络完全中断。

广播帧泛洪对交换机的CPU影响巨大,会导致不能从本地或远程登录交换机,唯一的选择就是重启或拔线。然而,通常大型的网络中定位和发现网络环路的位置又是相当困难的事情。

为解决网络环路问题,一系列环路保护协议应运而生。其中比较有代表性便是STP(生成树协议)。

什么是STP(生成树协议)

生成树协议是计算机网络中用于构建网络拓扑的一种协议。它通过选择网络中的某些连接来构建一棵无环图,从而避免了网络中的环路,保证了网络的正常运行。
生成树协议的运行比较复杂,简单来说,生成树算法(STA)会首先创建一个拓扑库,找出并关闭网络中的冗余链路。运行STP后,数据帧就只能在STP选定的最优链路上传输。

STP这类防环协议的核心思想都是通过人为阻塞端口来破坏环路

其中值得注意也最让人诟病的是,诸如STP这类防环协议的核心思想都是通过人为阻塞端口来破坏环路,代价就是冗余的链路只能闲置下来做备份。

随着技术进步,人们逐渐开始采用可堆叠交换机和MC-LAG等方式来实现网络的高可靠,它们在一定程度上改善了网络环境,不过也带来了新的问题。

交换机堆叠的优势和弊端

交换机堆叠技术可以将不同物理交换机的端口进行链路聚合,使得下行链路具备更高的带宽和弹性,因为参与堆叠的交换机在逻辑上已经虚拟成一台交换机,所以也不需要为避免产生环路而去人为阻塞线路。

尽管堆叠技术为堆叠组内的多台交换机提供统一的管理界面,但由于堆叠技术高度依赖于软件控制,设备软件升级以及故障替换极易影响业务正常运行,一旦发生软件故障,整个网络节点都将瘫痪。此外,堆叠交换机的厂商锁定问题也较严重,私有的协议和专用线缆,给扩容改造增加了限制或者额外支出。

交换机堆叠技术可以将不同物理交换机的端口进行链路聚合

MC-LAG技术的优势和弊端

堆叠方案逐渐被MC-LAG所取代。

MC-LAG方案是一种采用多个物理连接和多个设备的链路聚合方案,MC-LAG设备在提供统一转发面的时,控制面板是独立的,可以轻松地添加或删除物理连接,从而提供更好的扩展性。

MC-LAG方案是一种采用多个物理连接和多个设备的链路聚合方案

但是,MC-LAG下的peerlink互联同样会占用端口资源,并且相对于堆叠,MC-LAG下两台设备逻辑上仍然是两台,运维复杂度更高。

去STP/堆叠/MC-LAG的新一代高可靠园区网络设计

为了追求网络的高可靠和高可用,大规模部署的二层以太网结构变得越来越复杂、但是健壮性变得越来越差,建设和维护成本都高居不下,那么有没有一种高可靠组网下的更简化的网络架构呢?

一个可行的思路便是压缩二层域,将云数据中心全三层的IP路由组网技术平移到园区网络。

基于Leaf/Spine的全三层IP路由组网

星融元云化园区网络架构从设计之处充分地考虑了环路规避、多路径转发、高可靠、多路径等因素,采用天然无环路的Leaf/Spine架构和轻量级的ECMP机制,基于L3的网络能力,在保证最高链路利用率和最低复杂度的前提下实现组网的可靠性。底层的网络架构得到了全面优化,传统的STP,堆叠,MC-LAG都不再需要了。

返回资源中心

交换机带外管理和带内管理的区别,中小规模园区网如何选择?

更多相关内容


交换机的带外管理是什么?

在带外管理模式中,网络的管理控制信息与用户网络的承载业务信息在不同的逻辑信道传送。

带外管理最大的优势在于,当网络出现故障中断时数据传输和管理都可以正常进行——不同的物理通道传送管理控制信息和数据信息,两者完全独立,互不影响。并且,带外管理可以实现远程管理和监控。

交换机带内管理是什么?

所谓带内管理,是指网络的管理控制信息与用户网络的承载业务信息通过同一个逻辑信道传送,是通过 LAN 管理网络的能力。

带内管理通过协议(如telnet/SSH)管理设备。这是一种常见的方式,提供基于身份的访问控制,以提高安全性。实际操作中需要将管理流量业务流量分开,比如创建一个管理VLAN或环回接口,用于传输设备监控、系统日志和SNMP等管理流量。

带内管理的优势是可以对网络进行实时监控和维护,但需要占用带宽资源,可能受到流量拥塞和用户网络的影响;单独连接console线登录设备执行操作较为不便。

总结:交换机带外管理和带内管理的区别

  • 带内访问是通过Telnet/SSH建立,带外管理访问是一般是通过控制台。
  • 带内访问取决于IP地址和Telnet/SSH端口号,而带外管理则取决于模板中配置的IP地址和端口号。
  • 当网络连接正常时,带内系统可以工作,而带外管理是网络中断时的备用路径。
  • 带内管理是同步的,带外管理是异步的。
  • 带内不需要物理访问,而带外管理也不需要物理访问,因为拨号线是可用的。
  • 带内连接速度高,带外管理连接速度慢。
  • 带内管理连接是通过putty或Secure CRT建立的,带外管理连接是通过终端访问建立的。

如何选择管理型交换机的管理方式?

一般来说,当在一个中小规模的网络环境下,只有少量的设备需要管理并且网络较为可靠时,带内管理是首选。当在一个大规模园区中,有大量的设备需要管理并且需要更高的可靠性时,带外管理是首选。

新一代园区交换机的集群管理——基于“云化集群”的带内管理网

传统情况下,我们的运维工程师需要接console线或者ssh分别登录单台设备执行操作,配其他设备时,又得把流程再执行一遍。这无疑是繁琐低效的,为此有些园区网络方案便会引入一个复杂的SDN控制器实现全网统一管理(带外管理)。但在某些场景下控制器则显得过于笨重了,一旦这种集中控制器出现问题,定位排障又陷入了死局。

星融元云化园区解决方案为中小规模的园区网络提供了一种轻量、灵活的带内网络管理方式——通过集成在交换机操作系统内部的软件模块,建立设备集群。

通过集成在交换机操作系统内部的软件模块,建立设备集群

  • 简化跨设备运维:登录到集群中任何一台设备, 就能管理和配置集群内的所有成员,完成配置备份、跨设备导出,批量升级等操作,无需关注物理连接和IP地址
  • 低成本部署:不用额外布线,不依赖带外网络和管理平台,对拓扑结构无要求
  • 随时启用:可在组网服务任何阶段安装/启用,成员加入和退出不影响控制面和转发面运行
  • 不改变使用习惯: 思科风格CLI,保持广大运维工程师熟悉的命令行体验

返回资源中心

云办公是什么?企业办公网络怎么搭?

更多相关内容


云办公是什么?

云办公又称远程协同办公,是指基于云计算应用模式的办公平台服务,具有应用轻量化、终端多样化、资源共享性、沟通协同性等新型特征,可实现随时随地的多终端灵活办公。

近年来,随着云计算、大数据、5G等技术的发展,办公场景正经历着日新月异的变化,人们的工作习惯也开始向移动化和灵活化转变。根据中国互联网络信息中心发布的第50次《中国互联网络发展状况统计报告》显示,截至2022年6月,中国在线办公用户规模达4.61亿,占网民整体的43.8%。2022年上半年,在线视频、电话会议用户规模较2021年12月增长5.9%。

云办公的趋势给企业办公网络的搭建提出了哪些要求?

为顺应“云办公”发展趋势和不断增长的用户需求,各大互联网企业纷纷加大投入,“钉钉”“腾讯会议”等一批线上办公工具应用规模快速壮大。截至2022年3月,“钉钉”已经服务超过2100万个机构用户;“腾讯会议”注册用户超3亿,月活跃用户数突破1亿。云储存、云笔记、在线会议、异地协同办公、电子合同、发票、移动审批等功能日益细化,各类办公系统应用、物联网设备上云进程如火如荼……随之而来的是访问终端增加,办公网络承载的流量剧增,现网与公有云和私有云的各种对接问题等等,以上这些都给传统办公网络运维管理带来了极大挑战。

  • 终端数量、带宽及相互交互不断增加,内网东-西向流量的持续增长,网络连接能力需要不断扩容
  • 新业务开通、定位广播风暴、增加访问策略、解决WiFi掉线….运维工程师工作繁琐复杂
  • 手机、PC、IoT、安防…对网络需求各不相同,对运维的要求更高

各类办公系统应用、物联网设备上云进程如火如荼

企业办公网络改造,重在云化架构

传统园区组网到云化园区组网变革

星融元用Spine-Leaf架构、Arp-to-Host、分布式网关等云数据中心领域先进的技术理念,对园区的底层网络架构进行了全面的变革。

相较于传统企业园区组网方案,星融元的全三层横向扩展组网可降低园区建设运营成本40%以上,架构精简、时延优化,支持弹性扩展、运维简单。

1、更精简的云办公网络架构,优化延迟,易于扩展

传统的接入-汇聚-核心是一种自下而上逐层收敛的传统园区网络结构,层级越往上,设备性能要求越高。随着网络规模的不断扩展,整个网络的性能瓶颈将聚焦在核心交换机上。

借鉴云数据中心更为扁平的Leaf/Spine架构,我们完全可以采用全盒式的单芯片交换机来搭建更高效、更精简的下一代园区网络。一级横向扩展至多级,接入终端数量轻松扩展至十万级别,并且扩展过程中原有网络架构保持不变,维护复杂度低。区别于三层传统架构,Leaf/Spine架构下的内网流量传输无需全部上行到核心交换机转发,可以降低通信延迟,提供更好的通信质量。

下一代园区网络,用Leaf/Spine架构替代传统三层拓扑

园区网络采用Leaf/Spine架构的网络能够从一级横向扩展至多级

2、全三层路由组网,100%带宽利用支撑云办公

星融元的云化园区网络解决方案是基于IP的全三层网络,其在设计之初就充分地考虑了环路规避、多路径转发、高可靠、多路径等因素,无需再引入STP等防环机制,天然杜绝了二层广播风暴——结合BGP路由和ECMP的负载平衡设计,企业网络中所有的物理线路理论上来说都可被充分利用,实现100%的带宽利用率和端口使用率。

基于Leaf/Spine的全三层IP路由组网

园区网络中所有的物理线路充分利用,天然无环路

3、设备上线即插即用,同层设备一个配置

星融元的云化园区网络解决方案引入了云网络运维体系中广泛使用的零配置部署机制。通过DHCP协议Option字段完成相关开局文件的自动化获取和加载任务,免去现场配置和部署,有效降低人力成本,提升部署效率。

零配置部署,设备上线即插即用

借助软件设计上的创新和初始配置的自动化,一个三层的园区网络,无论有几十台还是上百台网络设备,只需要维护三个网络配置,大幅降低运维综合成本。

园区网络的自动化运维

下一代园区网络,“接线上电”级别的极简运维

4、分布式网关,更优质的移动办公体验

传统的无线方案中,终端发生跨VLAN的AP漫游需建立隧道,将漫游后的数据包发回原先的网关来处理,导致转发路径长,效率较低,并且需要提前进行各种复杂的手动配置。

在星融元云化园区方案中,每个接入交换机上都同时运行着相同的多个子网的网关,可以直接以最优路径进行漫游转发,流量无需到某个集中式网关上“兜圈子”,这种毫秒级的网络切换对于正在运行的上层业务不会有任何影响。

集中式网关方案和分布式网关方案流量路径对比

下一代园区网络,“分布式网关”实现更高效的无线漫游!

返回资源中心

2023年了,汇聚层交换机的堆叠部署还有必要吗?

更多相关内容


汇聚层交换机是什么?

汇聚层是连接接入层和核心层的网络设备,为接入层提供数据汇聚、传输、管理、分发处理的网络节点。
在选择汇聚交换机时,需要考虑到网络中接入交换机的上行端口类型和端口数,以及核心交换机下行的端口类型。在一个典型的三层网络架构中,汇聚层交换机一般具有高速的上行接口和中速的下行接口,提供汇聚的功能。
例如根据策略进行地址合并、协议过滤、路由服务和认证管理,在网段划分的基础上实现网络隔离,避免问题蔓延和影响到核心层。此外,还需提供接入层虚拟网之间的连通性并控制其对核心层的访问,确保核心层的安全性和稳定性等等。

交换机堆叠技术是什么?

交换机的堆叠架构自20世纪90年代提出,其最大的优势在于简化管理。

这是因为堆叠后的交换机可以被视为一个逻辑实体,具有统一的管理界面,简化了管理和操作。

而在高可用性方面,堆叠系统可以将不同物理交换机的端口进行链路聚合,使得下行链路具备更高的带宽和弹性。堆叠系统在逻辑上虚拟成一台交换机,所以也不需要为避免产生环路而去人为阻塞线路。

此外,可堆叠交换机给中小企业提供了一个成本更低的选择——既有与大型框式设备类似的可扩展性,但又能更灵活地按需付费。但是对比模块化的机框式设备的单一电源,堆叠组中的每个设备都有自己的一套硬件,这便意味着需要多个电源线,对于机房电源的数量是有更高要求的。

交换机之间发送堆叠数据时还存在额外开销,因为一些堆叠协议为帧添加额外的报文头部信息。

这里我们整理总结了交换机堆叠技术主要的优势和劣势以供参考。

优势劣势
网络管理员仅仅需要面对一个统一管理界面厂商锁定。堆叠不是一个标准的协议,不同供应商的可堆叠交换机使用不同的电缆、连接器和软件,不可混用。
部署的灵活性。可堆叠交换机可以与其他可堆叠交换机一起运行,也可以独立运行。有限的扩展性和带宽。但由于堆叠带宽的限制,大多数供应商限制了堆叠组内设备的数量
在一些供应商的架构中,活动连接可以分散在多个设备中,如果堆叠组中的一个成员被移除或发生故障,数据将继续流经其他正常设备。扩展或删除堆叠设备可能会导致服务中断(堆叠分裂);复杂的堆叠技术会给交换机软件增加很多复杂性,多台设备高度关联,一损俱损,软件问题咳导致整个堆叠组的瘫痪
背板交换能力的升级,当汇聚层的交换机转发能力不能满足需求时,可以增加新交换机与原交换机组成堆叠系统来实现,提高了整体的转发能力。物理拓扑结构受限,需要采用专有的电缆,参与堆叠的交换机物理位置限制在了同一个机房甚至一个机柜

如何在汇聚层交换机上的进行堆叠部署

交换机堆叠的配置部署较为复杂,具体以各家厂商提供的配置手册为准。

不过其大致流程可总结如下:

  1. 提前规划好堆叠方案。
  2. 按照前期的规划,连接交换机之间的堆叠线缆。
  3. 完成高优先级交换机的堆叠配置,包括堆叠成员ID、堆叠优先级、堆叠域编号、堆叠端口等。完成后保存配置并重启交换机。
  4. 关闭高优先级交换机的堆叠端口,以避免在配置过程中因为堆叠合并而使得低优先级交换机提前自动重启,导致无法保存配置、堆叠无法建立。
  5. 完成低优先级交换机的堆叠配置,完成后保存配置并重启交换机。
  6. 打开高优先级交换机上被关闭的堆叠端口,使堆叠建立。
  7. 检查堆叠组建是否成功。

新一代园区网络架构中的去堆叠设计

如今星融元已将基于云的开放架构重新引入园区网。基于CLOS的Spine-Leaf架构保留了堆叠式架构的优点,同时也解决了其中的一些缺陷。所以星融元的云化园区网络方案中已经完全抛弃了堆叠方案,转而采用基于L3网络功能例如主机路由,ECMP等来实现类似的能力。

这是一种可靠度更高、扩展性更强、但复杂度约等于零的方案。

在这种方案下,不会有堆叠复杂的组网逻辑、纷繁的设备配置、脆弱的状态同步等机制——整个园区设备组网将如同一台具有成千上万个接入端口的超大型虚拟交换机,实现与堆叠类似的统一运维管理。

一台具有成千上万个接入端口的超大型虚拟交换机

  • 接入终端/服务器并不需要为此方案做出任何调整,依然是通过两条(或多条)的线路、采用通用的Bond技术,上连到不同的接入Leaf;
  • 接入Leaf通过使用ARP学习、32位主机路由、BGP同步等功能,利用L3网络天然的高可靠、多路径能力,达到跟传统堆叠一样的效果;
  • 不涉及复杂的堆叠软件开发,因此系统的稳定性非常高,不会因为复杂的堆叠逻辑引入潜在的Bug;
  • 利用L3网络的ECMP负载分担能力,可以充分利用交换机之间的所有带宽传递报文,网络性能更高。
 堆叠式架构云化园区网络架构
部署1.堆叠电缆连接(或业务口连接+堆叠配置)
2.增强配置(分裂检测,负载均衡模式)
1. Spine层和Leaf层之间使用通用线缆连接
2.配置本机接口和peer信息
高可用性物理设备之间的链路聚合全三层网络,天然避免广播风暴和以太环路;运行BGP和ECMP;使用分布式网关设计
物理拓扑结构限制在一个房间或机柜内没有物理限制
管理堆叠组作为一台逻辑设备Spine-Leaf集群作为一台逻辑设备
软件升级需要堆叠组重启,有业务中断在不中断的情况下单独升级每个设备
扩展需要根据当前堆叠的网络拓扑结构进行设计(链形加入到两端,环形需要拆环)按照标准CLOS架构的扩展
接入可扩展性以48口交换机为例最大堆叠成员数为8
最大8 x 48 = 384个接入端口
[2层CLOS,48口交换机作为Spine]最大48 x 48 = 2304个接入端口
[3层CLOS,64口交换机作为3级CLOS的Spine]最大48 x 48 x 64 = 147456个接入端口

方案细节请搜索“星融元官网”获取,或者关注vx:星融元Asterfusion了解更多资讯。

返回资源中心

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2