Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

什么是无线漫游?无线漫游的工作原理是什么?


关注星融元


什么是无线漫游

无线漫游是指在相同SSID(Service Set Identifier,服务集标识)的无线网络中,确保无线终端STA(如手机、电脑等终端设备)在移动过程中能够保持不间断网络连接的技术。因为在无线局域网中,每个AP(Access Point,无线访问接入点)设备的信号覆盖范围都有限,无线终端用户在通信过程中会从一个AP信号覆盖区进入到另一个AP覆盖区域,为了避免用户在不同的AP之间切换时,网络通讯中断,需要借助无线漫游技术,确保用户设备与新的AP自动关联,与原有AP断开关联,同时保持网络连接的连续性,使用户在移动通信的过程中自由切换且无感知地保持对网络的持续访问。

无线漫游分类

根据无线终端STA是否在同一子网内漫游,可将其分为二层漫游和三层漫游。如果STA在不同的AP间漫游切换时始终处在一个VLAN子网中,则为二层漫游;如果STA漫游前后处于不同的子网,则为三层漫游。
根据无线终端STA是否在同一个AC(Access Controller,无线控制器)管理的不同AP之间移动,可将其分为AC内漫游和AC间漫游。如果STA在同一个AC管理的AP之间移动,则为AC内漫游;如果STA在不同AC管理的AP之间移动,则为AC间漫游。值得注意的是,由于AC间漫游涉及到不同AC之间的数据同步和转发,可能需要借助隧道技术(如CAPWAP隧道)来实现数据的跨AC转发,在下文“无线漫游的工作原理”中会详细讲解。

无线漫游的工作原理

无线漫游阶段

漫游过程中,当STA进行通信时,会持续寻找其他无线AP,并与信号覆盖范围内的多台无线AP进行认证,但只和其中一台AP进行关联。终端远离其原本关联的AP后,信号强度会逐渐降低,当低于预设信号阈值时,它将尝试连接到周围信号最强的另一台AP,从当前的BSS(Basic Service Set)漫游到新的BSS,并提供终端的无缝切换。
根据以上工作原理,我们可以将漫游过程分为如下四个阶段:
  1. 信号检测:STA在移动过程中持续检测周围AP的信号强度。当其移动到两个AP覆盖范围的临界区域时,开始评估哪个AP的信号更强、更稳定。
  2. 漫游决策:根据信号检测结果,STA会做出漫游决策。如果新的AP信号强度明显高于当前连接的AP,且满足漫游条件(如信号强度阈值、漫游延迟等),设备将开始漫游过程。
  3. 认证与关联:STA向新AP发送认证请求,并进行必要的认证过程(如WPA/WPA2的PSK、EAP认证)。认证成功后与新AP建立关联,与原AP断开连接。
  4. 数据转发:漫游过程中STA的数据传输不会中断。对于AC内漫游的设备,数据可以直接在本地转发,无需经过额外的隧道或路由。而对于AC间漫游,可能需要通过隧道技术(如CAPWAP隧道)进行数据转发。

隧道协议CAPWAP

在隧道转发模式下,AP和AC之间需要建立隧道用以传输管理报文和数据报文,数据包被封装在CAPWAP隧道中,然后由AC转发到上层网络。CAPWAP协议本身并不包括任何无线技术, 协议目前由两部组成,一是我们常说的CAPWAP隧道协议,二是无线BINDING协议。CAPWAP隧道协议主要负责完成AP发现AC等基本协议功能并规定各个阶段需要完成的任务,无线BINDING协议则说明了在各种接入方式下如何完成CAPWAP协议规定的任务。
CAPWAP建立需要经历以下六个过程:
  1. AP获取AC的IP地址,AP本身IP地址有两种,静态地址和动态地址,并且AC通过广播的方式让AP获取自己的Loopback地址,为Discovery阶段。
  2. AC和AP建立控制信道的交互,称为Join状态。
  3. AC通过镜像下发使AP升级,称为Image Data状态。
  4. AC下发配置至AP,称为Configuration状态。
  5. AP发送Data Check报文确认配置,称为Data Check。
  6. AP与AC控制和数据信道均建立成功后进入Run状态。

星融元园区无线网新架构——基于SONiC+OpenWiFi+白盒硬件无CAPWAP集中式转发

星融元借助VXLAN实现了极简的无线漫游,即AP和网关交换机之间建立的是VXLAN 隧道。AP上运行 VTEP 对用户原始数据帧进行封装和解封装,并且用不同的VNI实现网络隔离。
该方案可应用于园区网络,客户只需引入一对具备一定可编程能力的“网关交换机”以及合适的AP即可。在此我们推荐Asterfusion CX-M系列园区交换机和基于OpenWiFi 的白盒AP设备。

总结

上述的经典“AP+AC”组网解决了STA的无线漫游问题。AC统一管理AP和下发配置,能给无线用户统一做认证,无疑做到了方便管理。除此之外,该模式在很多成熟方案中可以通过设置漫游阈值来促使终端自动切换到信号更好的AP,保证漫游过程中信号不中断。
但随着物联网加速普及、网络规模不断扩大,这种传统的无线漫游设计也存在一定的问题。在大规模网络下不仅多台AC的部署,冗余的设备、链路和交换策略的设计会使运维难度逐渐增加到难以掌控的地步,无线网络中心节点AC也极易成为整网性能瓶颈。除此之外,CAPWAP大多为厂商的私有协议,不同厂商的协议标准仍在修改迭代中,这就导致不同厂家产品,甚至同厂商的一些新旧产品都无法混合组网。要想突破这些局限性,还需要对现网升级,做到精简和高效。
具体升级方案会在后续文章中讨论,详情可参考园区无线网新架构:无CAPWAP的集中式转发

智算与算力网络、算网融合的关系是什么?


关注星融元


前文介绍了智算与云网融合的关系,那么智算与算力网络、算网融合的关系又是什么?让我们先来复习一下智算的概念。

AI智算的概念

智算即人工智能计算,主要面向人工智能应用,提供人工智能算法模型训练与模型运行服务的计算机系统能力,代表了人工智能领域的飞速发展。它主要用于处理复杂、高维、动态、非结构化的数据和问题。智能计算融合了计算机科学、数学、物理、统计学等多学科知识,并广泛应用于大数据分析、智能机器人、自动驾驶、智能家居、智能城市、智能医疗、金融科技等多个领域。智算不仅提升了计算能力,还为各行各业带来了智慧的变革,成为推动科技进步的重要引擎。

算力网络的概念

算力网络是实现泛在算力的手段。算力即计算能力(Computing Power),它集成了信息计算力、网络运载力和数据存储力,是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。而这种能力向边缘的扩展和延伸需要与网络结合,催生了算力网络。算力网络是以算为中心、网为根基,提供一体化服务的新型信息基础设施,可以理解为计算设施和网络设施共同建设的一张传输网络。我们可以利用算力网络实现云、边、端计算存储资源的灵活调度与分配。

算网融合的概念

算网融合是指算力与网络深度融合,这种融合可以发生在多个层面,包括硬件、软件、平台和应用等,有助于实现算网服务的极简一体化转变。算网融合通过深度整合这计算和网络资源做到算力的智能编排和灵活使用,进而加快算力传递提高系统的整体性能和效率。算网融合逐步推动算力成为与水电一样,可“一点接入、即取即用”的社会级服务,达成“网络无所不达、算力无所不在、智能无所不及”的愿景。
尽管算网融合听起来与算力网络十分相近,二者仍有区别。算力网络强调网络在算力资源管理和调度中的核心作用,是一种基础建设一张传输网络;而算网融合强调计算资源和网络资源的深度融合,更偏向于一种技术概念一种服务。可以理解为建设算力网络的目标是实现算网融合。
图3:算网融合应用 (来源中国移动研究院:算力网络白皮书2021)
图3:算网融合应用 (来源中国移动研究院:算力网络白皮书2021)

三者的关系是什么

通过上文对智算概念的描述,我们可以将智算翻译为“数据+算力+算法”,如图4所示。智算涉及丰富的计算场景,需要用到大模型计算,处理海量数据。基于智算的这种特性,算力需求激增。通用算力将增长10倍到3.3ZFLOPS 、人工智能算力将增长500倍超过100ZFLOPS,相当于一百万个中国超级计算机神威“太湖之光”的算力总和。云数据中心无法承载如此巨大的数据和算力,那么传统的云计算方式就无法满足海量数据的处理要求。除此之外,传统云计算是先将所有数据资源上传至云计算中心,设备端提出访问请求后再将计算结果返回,这其中会产生较长的响应时间而无法满足实时数据的处理要求。此时需要网络对算力进行调度,使得云、边、端都能得到灵活的资源分配,便催生出了算力网络。而算力网络整合了强大的计算能力和高效的网络资源,为智算提供坚实的基础设施。
建设算力网络的目标是实现“算力泛在、算网共生、智能编排、一体服务”,那么算网融合的概念自然而然地被提出。算力与网络在形态和协议方面深度融合,推动算力和网络由网随算动到融为一体,最终打破网络和算力基础设施的边界。网络从支持连接算力,演进为感知算力、承载算力,实现网在算中、算在网中。网络根据业务需求,按需进行算力网络编程,灵活调度泛在的算力资源,协同全网的算力和网络资源,实现算力路由。通过灵活部署的在网计算,对数据进行就近加速处理,降低应用响应时延,提升系统处理效率,实现算网发展互促互进,共生共赢。
总的来说,智算对算力激增的需求催生出算力网络,算力网络又提出了算网融合的目标。算力网络和算网融合为智算提供了强大的技术支撑,而智算的发展推动了算网融合和算力网络的进步,他们三者是相互促进的关系。

智算时代如何打造算力网络

在智算时代下,如何打造算力网络,做到算网融合呢?我们需要从其特点出发进行技术匹配。

算力网络的特点

  1. 灵活敏捷:根据业务需求,算力网络需要具备敏捷接入的能力来快速获取算力,并灵活动态地在云、边、端之间按需分配和灵活调度算力资源,进而实现资源的最大化利用,并应对各种突发情况。
  2. 无损安全:据测算,即使是0.1%的丢包率也可能导致高达50%的算力损失。这种损失对于依赖大规模计算资源的应用来说是不可接受的。因为在算力网络中,每一个数据包的丢失都可能对算力计算产生负面影响。无损传输能够保证数据在传输过程中不丢失、不损坏,从而确保数据的完整性和准确性。
  3. 感知可视:算力网络需要实时感知算力资源与网络资源的状态,结合不同业务的SLA要求、网络整体负载、可用算力资源池分布等因素,智能、动态地进行资源调度和计算协同策略。并构建可视网络数字地图,实时监控网络的状态和性能,优化网络拓扑和布局,提高网络运维的效率和准确性。

Kubernetes容器化技术

利用Kubernetes可以实现大模型算力的灵活调度,高效合理地分配管理资源。
Kubernetes(又称K8s)是一个开源的容器编排和管理平台。它采用了容器化的思想,将应用程序打包成容器并在集群中运行。Kubernetes中的调度器组件Scheduler可以把用户提交的Pod(最小调度单元,是一组容器的抽象)放到 Kubernetes 管理集群的某一节点Node上。具体位置依据它对 CPU、对 memory 请求大小后确定。这个过程就是一次调度工作,可用于大模型算力调度。
除此之外,Kubernetes 有业务负载检查的能力,可以实现资源合理分配、高效利用。它会监测业务上所承担的负载,如果这个业务本身的 CPU 利用率过高或响应时间过长,它可以对这个业务进行一次扩容。这种水平扩张是由Kubernetes 中的 Controller 来完成的,Controller控制器用于完成对集群状态的管理。
K8s的这些功能主要得益于其自身架构。Kubernetes 架构是一个相对典型的server-client架构。Master作为中央管控节点与Node进行连接,而所有user侧的组件,只会和Master进行连接,把希望的状态或者想执行的命令下发给 Master,再由Master把这些命令或状态下发给相应节点Node,完成最终执行。节点 Node是真正运行业务负载的,每个业务负载会以Pod的形式运行。Node中运行这些Pod的组件是 kubelet,它通过APIServer接收到所需要Pod的运行状态,然后提交到Container Runtime组件中,由Container Runtime负责创建、运行、停止和销毁容器。

DCB协议

利用DCB协议可以优化网络性能、提高网络可靠性,实现算力网络的无损运输。
DCB(Data Center Bridging)协议是一组由IEEE 802.1工作组定义的以太网扩展协议,用于构建无丢包以太网,满足网络无损传输的需求。主要包括以下技术:
  • PFC(Priority-based Flow Control)优先级流量控制技术,允许交换机基于数据帧的优先级标签来暂停或恢复数据流的发送。如图8所示,DeviceA发送接口分成了8个优先级队列,DeviceB接收接口有8个接收缓存,两者一一对应。当DeviceB的接口上某个接收缓存产生拥塞时,发送一个反压信号“STOP”到DeviceA,DeviceA停止发送对应优先级队列的报文。
图8:PFC工作机制
图8:PFC工作机制
  • ETS(Enhanced Transmission Selection)增强型传输选择技术,允许网络管理员根据流量的优先级或类别来分配带宽。ETS提供两级调度,分别基于优先级组PG(Priority Group)和优先级队列,如图9所示。接口首先对优先级组进行第一级调度,然后对优先级组的优先级队列进行第二级调度。
  • DCBX(Data Center Bridging Exchange Protocol)数据中心桥接交换协议,用于在支持DCB的设备之间自动协商和配置DCB参数,减少人为错误的可能性。DCBX能够交换的配置参数包括ETS的优先级组信息和PFC,以PFC参数为例,DCBX将其封装入链路层发现协议LLDP中的TLV中,由LLDP来进行链路两端设备的DCB配置交换。

INT技术

利用INT技术可以实现算力网络的精准感知和监控分析,帮助管理者提高运维效率。
在网络规模不断扩大,网络设备和链路数量急剧增加的情况下,传统的网络监控手段如SNMP、NetFlow、sFlow等,存在监控精度低、数据收集不全面、响应速度慢等问题,已无法跟上时代的步伐,满足不了数据中心的网络运维需求。网络的感知与监控应该具备实时性、准确性和全面性。
INT(In-band Network Telemetry)带内网络遥测技术提供了更实时、全面、精细的运维模式。它可以通过数据平面收集和报告网络状态,并且不需要控制平面再从数据平面收集和传送状态时进行干预和工作,大大缩短响应时间。在INT体系结构中,交换设备转发和处理携带遥测指令的数据包。当遥测数据包通过设备时,遥测指令指示INT设备收集和插入网络信息。INT数据包的转发需要经过三个过程:INT源交换机创建INT报头并插入到发送的数据包中;INT中转交换机根据INT报头中的指令收集数据平面中的元数据;INT汇聚交换机提取INT报头,并决定将收集的信息发送给监控系统。
我们可以看出INT技术采用主动推送模式,主动将网络的即时性能、状态、参数等信息收集并记录下来并发送给分析系统。这种方式确保了信息的实时性,有助于运维人员快速响应网络问题。除此以外,INT技术能够收集到网络各个层面的状态信息,能够实现纳秒级的时间戳采集,可以确保网络感知监控的全面性和精细性。如果结合图形化界面工具可以实现网络的可视化展示。

为泛在算力构建开放网络——星融元CX-N系列交换机

Asterfusion CX-N交换机面向AI/ML智算中心和云计算数据中心提供卓越的网络服务。
  • 高带宽低时延:CX864E-N交换机每秒能够传输800Gbps数据,单机转发时延(400ns)低至业界平均水平的1/4~1/5,能够确保大量数据在极短时间内完成传输,满足高性能计算和大数据处理的需求。
  • 无损可靠:支持DCB等数据中心高级功能,通过构建零丢包、高性能的无损以太网络来满足不同业务场景对数据中心网络提出的不同需求。
  • 灵活可扩展:采用模块化设计,提供开放RESTful API,搭载支持K8s的AsterNOS,实现功能的灵活扩展。将网络完全融入到云计算软件定义、弹性调度、按需扩展、自动运维的世界中。
  • 智能运维:提供INT功能,为网络分析平台提供实时、精细、准确和全面的网络遥测数据(包括出入接口、时间戳、延迟、队列长度等),并且全部由交换芯片实现,无需管理 CPU 参与。

智算与云网融合的关系是什么?


关注星融元


在了解智算与云网融合的关系之前,我们首先需要明确智算和云网融合各自的含义。

AI智算的概念

智算即人工智能计算,主要面向人工智能应用,提供人工智能算法模型训练与模型运行服务的计算机系统能力,代表了人工智能领域的飞速发展。它主要用于处理复杂、高维、动态、非结构化的数据和问题。智能计算融合了计算机科学、数学、物理、统计学等多学科知识,并广泛应用于大数据分析、智能机器人、自动驾驶、智能家居、智能城市、智能医疗、金融科技等多个领域。智算不仅提升了计算能力,还为各行各业带来了智慧的变革,成为推动科技进步的重要引擎。

云网融合的概念

而云网融合顾名思义包含云与网两个方面。云即云计算,包括计算能力、存储能力以及相关的软硬件。网是通信网,包括接入网、承载网、核心网等电信网络的方方面面。站在技术的角度,就是在云计算中引入网络的技术,通信网中引入云计算的技术,进而实现计算资源、网络资源和服务资源的无缝对接和高效协同。云网融合的核心技术可概括为“云调网、网随云”,重心是资源的调度。

智算与云网融合的关系

回到标题,那么二者的关系是什么呢?上文提到智算能够处理复杂的数据和任务,满足各种应用场景的需求,无疑智算的发展离不开强大的算力支持,而云网融合则为智算场景提供了强大的算力基础。云网融合通过软件定义网络(software defined network,SDN)和网络功能虚拟化(network functions virtualization,NFV)技术来构建高效的计算网络,将分散的计算资源、存储资源和网络资源进行统一管理和调度。

软件定义网络(software defined network,SDN)

SDN是一种异于传统的网络体系架构,理论上它将网络控制平面与数据转发平面分离,通过集中式的控制器对网络进行管理和控制,使得网络管理变得更加灵活且可编程管理,具有开放性和可编程性。被人们所熟知的框架结构为:应用层、控制层和数据层。
但在现实应用中,SDN往往与理论上存在差异。市场中很多已落实的商业SDN产品的数据转发平面与控制平面并不完全分离。随着SDN的不断发展,网络架构逐渐多样化。
图3中的(2a)为传统SDN架构,数据平面和控制平面完全分离。然而图3中的架构(3)才是当前市场上许多软件定义产品的一部分——基于SDN的Overlay架构。Overlay网络是在使用网络虚拟化在物理基础设施之上建立连接的逻辑网络。也有一些方案采用的是图3中的(2b)架构,例如 SD-WAN,控制整个网络的组件集中在控制器上,但控制平面保留在设备上,以便设备可以相对独立地运行。
对于SDN,我们了解其本质即可,提出SDN是为了灵活网络配置,高效率网络管理以及动态流量调控等。SDN本身不是产品,它更像是一种理念,最终产品形态还是取决于具体的解决方案。

网络功能虚拟化(network functions virtualization,NFV)

NFV是将传统上依赖于专用硬件设备的网络功能(如路由、防火墙、负载均衡等)从硬件中解耦,通过虚拟化技术转变为可在通用服务器上运行的软件,这些软件实体被称为虚拟网络功能(Virtual Network Functions,VNF)。

NFV架构的核心模块包括以下3个组成部分:

(1)虚拟化基础设施(Network Function Virtualization Infrastructure, NFVI)。包括计算和存储网络资源,用于承载网络功能的虚拟化实例。
(2)虚拟化网络功能(Virtual Network Functions,VNF)。能将传统的网络功能设备抽象为可在虚拟化基础设施上部署和管理的虚拟实例。
(3)虚拟化管理和编排(Network Function Virtualization Management and Orchestration, NFV-MANO)。负责虚拟网络功能的生命周期管理、资源编排和自动化操作,以实现对整个NFV环境的统一管理和控制。 NFV的架构使得传统的专用网络设备能够以软件的方式在通用服务器上运行,从而提高了网络功能的灵活性、可扩展性和可编程性,为传输网络的优化提供技术支持。

NFV在云网融合场景中的优势 :

(1)灵活性和可编程性。传统专用网络设备的功能和配置较为固定,难以适应快速变化的业务需求。采用NFV可以将网络功能以软件的形式部署在通用服务器上,实现对网络功能的灵活配置和编程控制,更好地满足不断变化的业务需求。
(2)资源利用率提升。通过NFV实现了计算资源、网络资源和服务资源在同一物理设备上的共享,提高了硬件资源的利用率。在智算场景中,这种共享机制可以确保计算资源的高效利用。
(3)成本降低。NFV可以降低网络部署和运维的成本。传统的专用网络设备需要大量硬件设备和人力资源进行部署和运维,而采用NFV可以通过软件定义和自动化操作简化网络运维流程,降低网络部署和运维的总成本。
(4)快速部署和创新。NFV可以加快新网络功能的部署速度和缩短创新周期。通过软件定义和自动化编排,可以大幅缩短网络新功能的上线时间,加快业务创新和服务交付的速度。

总结

综上所述,云网融合通过SDN和NFV技术为智算提供了强大的算力支持和资源共享机制,在服务层面也实现协同,而智算则通过引入智能算法和模型反向推动云网融合平台的创新和发展。

智算新时代的云网设备支撑

Asterfusion CX-N交换机帮助用户构建超低时延、 灵活可靠、按需横向扩展的数据中心网络,为AI/ML、高性能计算、分布式存储、多业务融合、云计算等场景提供卓越的网络服务。
  • 业界领先超低时延:单机转发时延(400ns)低至业界平均水平的1/4~1/5,将网络时延在AI/ML应用端到端时延中的占比降至最低,帮助大模型的训练大幅度降低训练时间、提升整体效率。
  • 云网融合,灵活开放:支持REST架构的Cloud OS、DevOps平台、第三方应用都能自动化地管理、调度星融元数据中心网络。同时,开放的RESTful API协同第三方云网控制器,简化网络管理和运维难度。将网络完全融入到云计算软件定义、弹性调度、按需扩展、自动运维的世界中。
  • 低投资,高可靠:CX-N全系列数据中心交换机标配RoCEv2、BGP EVPN、VXLAN、容器网络能力,400G/200G标配智能负载均衡能力。用户无须为此类高级特性额外增加网络建设成本的同时还能构建高可靠、可独立升级的数据中心网络,帮助用户获得更高的ROI(投资回报率)。

网络如何承载AI大模型流量?


关注星融元


前言

随着AI大模型的兴起,数据中心正在经历前所未有的变革。AI模型的规模巨大并持续快速增长。自2017年起,AI模型的规模每半年翻一番,从初代Transformer的6500万增长到GPT-4的1.76万亿,预计下一代大语言模型的尺寸将达到10万亿。

什么是AI大模型?

AI大模型(Artificial Intelligence Large Model)是指具有庞大参数规模和复杂程度的神经网络模型,它们通过大规模的数据训练,能够在各种任务中表现出高度准确和广泛的泛化能力(即对新鲜样本或未知数据的适应能力)。

AI大模型具备以下特点:

  • 参数规模庞大:AI大模型通常包含数十亿至数千亿个参数,这使得它们能够处理更加复杂的数据和任务。
  • 学习能力强:由于参数众多,AI大模型能够从海量数据中学习到丰富的特征和模式,从而实现对复杂问题的准确预测和判断。
  • 应用广泛:AI大模型在自然语言处理、计算机视觉、自动驾驶、医疗健康等多个领域都有广泛的应用。

不过AI大模型在展现其强大能力的同时,也为我们带来了如下挑战:

  1. 训练成本高昂:由于参数规模庞大,AI大模型的训练需要大量的计算资源和时间。
  2. 数据隐私和安全性问题:训练过程中可能涉及大量的敏感数据,如何保护这些数据不被泄露是一个重要问题。
  3. 泛化能力限制:尽管AI大模型在大规模数据上表现出色,但在少样本、小样本场景下的泛化能力仍有待提高。

AI模型是如何训练的?

上文提到AI大模型训练成本昂贵,那么AI模型是如何来训练的呢?它的训练步骤有哪些?

AI训练程序首先将模型参数加载到GPU内存中,之后进行多个epoch的训练。

每个epoch的处理过程可以简单描述为4步:

  1. 加载训练数据,在每个epoch中,根据batch size将整个数据集分为若干个mini-batch,分批次加载训练数据,直到遍历整个训练数据集。
  2. 训练,包括前向传播、计算损失、反向传播和参数/梯度更新,每个mini-batch都进行上述步骤。
  3. 评估,使用评估数据集对模型的指标进行评估。这一步是可选的,可以在整个训练完成后单独进行,也可以间隔若干个epoch进行一次。
  4. 保存checkpoint,包括模型状态、优化器状态和训练指标等。为了减少存储需求,通常经过多个epoch后保存一次。

AI大模型训练的网络流量有哪些?

在大模型出现之前,整个过程在一台AI服务器内部完成,训练程序从服务器本地磁盘读取AI模型和训练集,加载到内存中,训练、评估,然后将结果存储回本地磁盘。而大模型的出现改变了这一切。

首先是模型的参数规模超出了单个GPU的内存,以GPT-3为例,要加载1750亿参数及其优化器状态,需要至少125块H100/A100。其计算量也非常庞大,为了加速计算,需要更多的GPU,OpenAI在训练GPT-3时使用了1024块A100。 这些GPU要协同起来一起计算,需要相互之间通信以交换信息,包括参数/梯度、中间激活等。

同时,庞大的数据集被所有GPU共享,需要集中存放到存储服务器中。另一方面,定期保存的checkpoint包含了所有参数和优化器状态,也需要通过存储服务器共享。这样,在每个训练epoch中,都要通过网络读写数据,这些网络流量分为两类,如图1所示:

并行训练技术

图1 AI训练时的网络流量分类
  • 第一类是GPU之间同步梯度和中间激活的网络流量,它发生在所有GPU之间,是一种广播式流量,逻辑上需要所有GPU全连接。
  • 第二类是GPU和存储服务器之间的流量,它仅仅发生在GPU和存储服务器之间,是一种单播流量,逻辑上仅需要以存储服务器为中心的星型连接。

网络如何承载AI大模型流量?

上述第一类网络流量——GPU之间的网络流量,与传统数据中心内部的流量迥然不同,具有广播式、超大流量、超低时延、超高频率、零容忍丢包和严格时间同步的特点。毋庸置疑,这样的流量特点对网络提出了新的需求。网络承载AI大模型流量是一个复杂而关键的任务,需要从多个方面进行优化和应对。

(一)网络架构优化

1. 高带宽网络:AI大模型训练需要处理大量的数据,因此网络必须具备高带宽以支持高速数据传输。传统数据中心的100Gbps带宽接入可能无法满足需求,需要升级到800Gbps、1.6Tbps甚至更高的接入带宽。

2. 多轨道网络架构:采用多轨道网络架构可以提高集群通信效率,减少跨交换机的通信量。例如星融元的星智AI网络——基于LLM大模型的Rail Only网络,架构图如下。

Asterfusion星智AI网络解决方案

Rail-Only网络架构

3. 全互联架构:在AI大模型训练场景中,采用全互联架构可以减少网络跳数,降低时延。例如,在星融智算中心网络中,每个通道内Spine交换机和Leaf交换机之间做fullmesh全互联,如图2所示。

图2:full-mesh全互联组网

(二)协议与技术升级

1. RDMA:使用RDMA(远程直接内存访问)协议可以减少传输时延和提升网络吞吐。

RDMA工作原理

图3:RDMA工作原理

从图3可以看出,RDMA绕过了操作系统提供的协议栈,规避了TCP/IP的限制,直接在网络传输层之下进行数据传输,并且允许网络适配器直接从内存缓冲区中读写数据,而无需CPU的干预。与传统模式相比,RDMA大幅度降低了消息传输中的处理延迟,能够充分利用网络带宽,提高数据传输的效率。

RDMA架构图

传统模式和RDMA模式的对比

国际组织(InfiniBand Trade Association, IBTA)发布了最早的 RDMA技术——IB。IB是为 RDMA 量身定制的网络技术,能够提供极高的网络带宽,以满足高性能计算中对数据传输速度的需求。但RDMA 在早期采用 IB 作为传输层,必须使用专门的IB 交换机和 IB 网卡才可实现,导致设备成本和维护成本高,兼容性和灵活性差。

而后IBTA 发布了RoCE技术,允许应用通过以太网实现远程内存访问。RoCE 技术可通过普通以太网交换机实现,只需服务器支持 RoCE 网卡即可。目前的 RoCEv2标准是UDP 协议,虽然 UDP 协议效率比较高,但不像 TCP 协议那样有重传机制等来保障可靠的传输,一旦出现丢包,必须依靠上层应用发现了再做重传,这就会大大降低 RDMA 的传输效率。因此,要想发挥 RoCE 真正的效果,必须为 RDMA 搭建一套不丢包的无损网络环境。星融元的CX-N系列云交换机搭建的超低时延无损以太网能够很好地承载RoCEv2,并基于RoCEv2打造了一张低时延、零丢包、高性能的HPC高性能计算网络。

RDMA技术网络协议概览

2. 流量调控:流量控制技术的核心是限制单个客户端向服务器发送的数据量,以确保服务器能够及时处理这些数据。例如,星融元Asterfusion CX-N系列云交换机使用PFC技术来进行流控。

PFC是一种基于优先级的流量控制技术,如图所示,DeviceA发送接口被分成了8个优先级队列,DeviceB接收接口则存在8个接收缓存,二者一一对应。DeviceB接收接口上某个接收缓存发生拥塞时,会发送一个反压信号“STOP”到DeviceA,DeviceA则停止发送对应优先级队列的流量。

PFC工作机制

图5:PFC工作机制

3. 负载均衡:负载均衡技术的核心是将请求分发到多个服务器上,以提高系统的性能和可用性,避免拥塞和瓶颈。目前的负载均衡技术有DNS负载均衡、七层负载均衡、四层负载均衡等。下图是典型分布式架构的多层负载方案。

多层负载方案

图6:多层负载方案

(三)硬件与设备优化

  • 高性能交换机:使用高性能的交换机来支持高速数据转发和交换。交换机需要具备足够的端口数量和带宽,以支持大规模GPU集群的通信需求。如星融元CX864E-N 800G交换机等。
  • DPU硬件卸载:通过DPU(数据处理单元)硬件卸载技术,可以将网络处理任务从CPU转移到DPU上,从而减轻CPU的负担并提高网络性能。例如,GPU Direct RDMA和GPU Direct Storage等技术可以优化GPU之间的通信路径和数据传输效率。

为AI流量而生——800G超级以太网交换机

上文提到优化硬件以承载AI大模型流量,数据中心交换机需要马不停蹄地升级换代,而星融元CX864E-N 800G交换机正是这样一款超级以太网交换机。它具有如下特点:

  • 超大容量,支持64个800G以太网接口,共51.2T交换容量。
  • 超低时延交换网,在800G端口上实现业界最强的560ns cut-through时延。
  • 200+ MB大容量高速片上包缓存,显著减小集体通信时RoCE流量的存储转发时延。
  • Intel至强CPU + 大容量可扩展内存,运行持续进化的企业级SONiC——AsterNOS网络操作系统,并通过DMA直接访问包缓存,对网络流量进行实时加工。
  • INNOFLEX可编程转发引擎,可以根据业务需求和网络状态实时调整转发流程,最大程度避免网络拥塞和故障而造成的丢包。
  • FLASHLIGHT精细化流量分析引擎,实时测量每个包的延迟和往返时间等,经过CPU的智能分析,实现自适应路由和拥塞控制。
  • 10纳秒级别的PTP/SyncE时间同步,保证所有GPU同步计算。
  • 开放API,通过REST API开放全部功能给AI数据中心管理系统,与计算设备相互协同,实现GPU集群的自动化部署。

总之,星融元CX864E-N 800G交换机在保持极致性能的同时,实现可编程、可升级的能力,与计算设备形成协同,共同打造10万级别的计算节点互联,将数据中心重构为可与超级计算机媲美的AI超级工厂。

一文读懂:企业园区无线网技术及部署指南


关注星融元


前言:无线网络直接影响整体网络性能,在当今企业网环境中,已有超过一半的数据流量通过无线信道传输,随着物联网技术的普及,无线网将承载更多的关键业务流量。企业/园区场景的无线网络值得考虑的关键因素有很多,例如终端移动性,AP 漫游能力和覆盖范围、带宽和吞吐量、延迟、信道、射频干扰等。当然,还有网络安全配置和用户认证等等。


无论是新建还是升级无线网络,在采取行动之前回顾并更新有关无线网的关键知识是绝对必要的,我们将从以下几个方面入手,希望这篇文章帮助您做出更好的选择。

  • 无线网络基础概念和参数速查
  • 无线标准/协议的演进
  • 不同无线组网模式和适用场景
    ○ 常见的园区无线组网
    ○ 新一代云化网络
  • 无线AP部署要点

无线网基础概念和参数速查

在无线通信系统中,信息可以是图像、文字、声音等。信息需要先经过信源编码转换为便于电路计算和处理的数字信号,再经过信道编码和调制,转换为无线电波发射出去。其中,发送设备和接收设备使用接口和信道连接,对于有线通信很容易理解,设备上的接口是可见的,连接可见的线缆;而对于无线通信,接口是不可见的,连接着不可见的空间,称为空口(空间接口)

无线网络分类

无线网络根据应用范围可分为个人网络、局域网、城域网和广域网。

 个人网络 局域网 城域网 广域网
协议标准 BluetoothIEEE802.11b,IEEE802.11a,IEEE802.11g, IEEE802.11nIEEE 802.16,MMDS,LMDSGSM, GPRS, CDMA, 2.5-3G-4G
传输速度 小于1Mbps1Mbps~600Mbps22+ Mbps1-7Mbps-100Mbps
覆盖范围 10m100~300m十几公里几十到几百公里
应用场景 点对点、设备对设备企业、园区、学校、酒店等网络最后一公里接入移动电话

无线射频

无线电波是由振荡电路的交变电流产生的电磁波(日常使用中也被称为射频或无线电等),它能够通过天线发射和接收,无线电波的频率范围称为频段。所有的射频设备都有灵敏度等级,即无线终端在某个信号强度之上可以正确地解释和接收无线电信号。灵敏度单位是dBm。接收灵敏度值越小,说明接收性能越好。

常见无线频段
手机 GSM:900/1800MHz,CDMA:800MHz
5G方案 移动(2.6G 160MHz)/3.3G 100MHz室内共建,电信、联通3.5G 3400-3600MHz移动:4800-4900MHz,广电4900-5000MHz
调频87.5MHz-108.0MHz(民用广播)
70MHz-87.5MHz(校园广播)
108-160MHz(业余无线电通讯)
160MHz以上是对讲机和电视伴音通信频率,对讲机常集中在400~470MHz和136-174MHz
无绳电话 45~48MHz
无线网络 2.4GHz和5GHz( Wi-Fi 7还有6GHz )
蓝牙 2.4GHz

天线传播覆盖

天线是一种变换器,是在无线设备中用来发射或接受电磁波的部件,它可以将传输线上传播的导行波和在空间中传播的电磁波相互转换。天线一般有全向和定向两种信号覆盖模式(如下图所示)。

天线传播覆盖

空间流和MIMO

无线电在同一时间发送多个信号,每一份信号都是一个空间流。通常情况下一组收发天线间可以建立一个空间流。

MIMO指多输入多输出技术,也称多天线技术,分别使用多个发射天线和接收天线,实现多发多收,成倍地提高信道容量。空间流数是决定最高物理传输速率的参数。我们常用(AxB:C)数据格式表示多天线技术支持的最大发射天线数量(A)、最大接收天线数量(B)和最大空间数据流数量(C)。当前主流的802.11ac和802.11ax协议规定一个射频最大8个空间流;大多数智能终端使用 2×2:2 或 3×3:3 MIMO 无线电。

MIMO

MIMO系统中,发射端的多个天线可以各自独立发送信号(引入发射波束成形技术使多个天线的发射信号在接收机达到相同相位,从而增强信号强度),同时在接收端用多个天线接收信号并重组原始信息。

MIMO技术让1x1的客户端也能间接从中受益

MIMO技术让1×1的客户端也能间接从中受益

传播衰减

⑴ 自由空间路径损耗

自由空间路径损耗(FSPL)是指无线电波因自然扩展导致信号强度下降,这是波传播的自然属性。我们可以通过以下近似公式算出。

FSPL=32.44+(20log 10 (f))+(20log 10 (D))

FSDL=路径损耗(dB) ;f =频率(MHz);D=天线之间的距离(km)

实际部署时我们通常使用6dB法则进行估算,即:传输距离加倍将导致信号衰减6dB。

⑵ 穿透损耗(吸收)

电磁波穿过墙体、车体、树木等障碍物,被不同材质的吸收,导致信号衰减。下表总结了常见障碍物对无线信号的影响

典型障碍物厚度(毫米)2.4G信号衰减(dB) 5G信号衰减(dB)
普通砖墙 120 1020
加厚砖墙2401525
混凝土2402530
石棉834
泡沫板834
空心木2023
普通木门40 34
实木门40 1015
普通玻璃 847
加厚玻璃 12810
防弹玻璃302535
承重柱5002530
卷帘门101520
钢板803035
电梯803035

⑶ 反射损耗

当波撞击到一个比波自身更大的光滑物体时,波可能会往另一个方向传递。当无线发射信号与接收位置需要经过多次反射才可触达,我们可以通过尝试调整信号源位置并辅以定向天线来改善通信。

⑷ 衍射损耗

由于射频信号被局部阻碍,射频信号在物体周边发生的弯曲。位于障碍物正后方的区域称为射频阴影,它可能成为覆盖死角,一般是可以通过另一个AP的无线信号去消除。

无线标准/协议的演进

WiFi与 IEEE 802.11

WiFi 通常是指基于 IEEE 802.11 标准的无线网络。“Wi-Fi”一词由Wi-Fi 联盟(WFA)创造,该联盟是一个全球性联盟,致力于促进和认证无线设备的互操作性。简单来说,Wi-Fi 是描述无线网络技术的流行术语,而 IEEE 802.11 是定义无线通信底层协议和规范的技术标准。

技术标准

WiFi6 的核心技术

根据Wi-Fi联盟的报告,Wi-Fi 6 自2019年推出以来仅用3年就在全球市场份额超过了50%,而Wi-Fi 5用了4年时间。WiFi 6 为每个用户提供更大的总带宽,总频谱和信道,能够在高并发接入的环境下为每个用户较前代技术高 4 倍的吞吐量,其高带宽、高并发、低时延、低耗电的特点为未来的智能基础设施奠定基础。

⑴ 提升吞吐量:1024-QAM调制

802.11ax采用1024-QAM正交幅度调制,每个符号位传输10bit数据(2^(10)=1024);相对于802.11ac(采用256-QAM正交幅度调制,每个符号传输8bit数据)来说,802.11ax的单条空间流数据吞吐量提高了25%。使用1024-QAM调制对信道条件有较高要求。

⑵ 改善多用户并发接入:OFDMA 和上行+下行的MU-MIMO

MU-MIMO 代表多用户的多输入多输出,它允许单个 AP 设备同时通过多个通道与多个用户进行通信,802.11ax(WiFi 6)在原有基础上进行了增强,提高了并发上行用户数量,理论上能够在上行和下行链路上为最多 8 个用户提供服务,并向单个客户端同时提供 4 个流。MU-MIMO生效需要通信双方都支持MU-MIMO。

OFDMA(正交频分多址)将信道进一步细分为可单独分配的“资源单元”,这是实现性能优势的关键。它允许多达 30 个用户同时共享一个信道,从而减少延迟、提高容量并提高效率。

OFDMA

OFDMA 和 MU-MIMO 的技术作为先进无线网络中的互补技术,可以基于所服务的应用类型来改善用户体验。

对于流媒体电影或游戏等高带宽应用,MU-MIMO 允许多个终端并发传输数据,建立高带宽网络以达到每个客户端的的最大速率。此外,MU-MIMO 使访问无线网络的队列从一个变为多个,多个设备可同时访问而无需等待。

对于即时消息、电子邮件或网页浏览等低带宽应用,分配给每个客户端的资源单元数量取决于数据包大小、终端设备限制以及流量服务质量(QoS)配置等因素,而OFDMA使用单个频段可以为多个用户提供这类低流量传输服务,起到类似“拼车”的效果,大大提高了网络资源利用率。

⑶ 降低信道间干扰:空分复用技术(SR) & BSS Coloring

当相同或相邻信道上的AP和终端检测到单个信道资源利用率偏高,噪声强度超过阈值时,则会需要排队等待(CCA功率调节机制)。

WiFi6协议里采用了空间复用和着色机制以提升信道利用率,减少排队。它可以类比为在客户端和AP之间建立起了虚拟的“高架桥”,根据不同目的地在空间上划分为互相独立不干扰的通路。不同的AP会各自给下连的终端着色(例如下图左,同为信道6的3个AP分别着色),只要信道资源没有完全占满,就依然会传输数据。

⑷ 降低能耗调度:目标唤醒时间 TWT

TWT(目标唤醒时间)最早出现在 802.11ah “Wi-Fi HaLow” 标准中,用于支持大规模物联网环境中的能效,并随着 IEEE 802.11ax 的发展而得到扩展。它使用计划机制来告诉客户端何时唤醒和睡眠,而不是让它们一直在某个频道上监听。

在 TWT 中,客户端和 AP 之间会商定一个时间表,该时间表由时间段组成。它通常包含一个或多个信标(例如几分钟、几小时,甚至长达几天)。当时间到了,客户端被唤醒,等待 AP 发送的触发帧并交换数据,然后重新进入休眠状态。AP 和终端设备会独立协商特定时间,或者 AP 可以将终端进行分组,一次连接到多个设备。

Wi-Fi 6E 及其他

在 Wi-Fi 6 标准发布一年后,由于频谱短缺,Wi-Fi 6e 应运而生,将现有技术扩展到 6GHz 频段。Wi-Fi 6E 使用 WPA3 代替传统的 WPA2 来增强安全性,但它仍然使用 802.11ax,因此它算作 WiFi 6 的附加增强功能,而不是下一代标准。

此外,Wi-Fi 的演进还包括几个小众项目。例如,毫米波 Wi-Fi (802.11ad/ay) 以极低的覆盖范围为代价,支持高达 275 Gbps 的标称数据速率。大量用户无线访问的新兴交互式应用和新服务,例如8K 流媒体、AR/VR、游戏、远程办公、工业物联网、云计算等等,正在推动行业支持更高吞吐量的无线网络。

WiFi 7 还有多远?

Wi-Fi 7在Wi-Fi 6的基础上引入了320MHz带宽、4096-QAM、Multi-RU、多链路操作、增强MU-MIMO、多AP协作等技术,使得Wi-Fi 7相较于Wi-Fi 6将提供更高的数据传输速率和更低的时延。

由于国内暂未开放6G频段给Wi-Fi使用,Wi-Fi 7特性未能完整发挥。目前Wi-Fi7实际生效的有以下几项:

  • 4096QAM:每个符号位传输 12bit 数据,相比Wi-Fi 6 提升20%
  • 16x16MIMO:由8×8提升到16×16空间流,增强高并发能力
  • 多链路传输:AP 和 客户端之间同时建立多个链路进行数据通信,可以利用多条链路进行负载分担,提升单用户峰值吞吐量;利用多条链路进行多发选收,提高链路可靠性。
  • Multi-RU:Wi-Fi 6 标准下同一周期单用户只能分配到 1 个 RU ,必然有部分 RU 资源被闲置。Wi-Fi 7 突破了限制,允许单用户同时占用多 RU,且不同大小的 RU 之间可以进行组合,使得业务延时降低25%。

  • 前导码打孔:支持把受干扰的20M信道打孔、屏蔽,然后剩余的140MHz信道继续捆绑在一起传输信息,极大提高了信道利用率;Wi-Fi 6中的做法一般是将工作信道限制在20M内传输,剩余信道受阻。

前导码打孔

常见的无线组网模式

自治AP(胖AP)

此类AP设备是最早进入无线网络市场的类型,因其可以近乎“即插即用”的方式工作且无需额外的控制器,建网成本极低,非常适合例如家庭、小型商户和办公室等小型无线网场景,正如其名,每个自治AP都可独立工作并且内置了基础的网络配置、流量控制、认证等功能的完整逻辑,所以每个 AP 都需要单独手动配置。

自治AP

瘦AP+ AC(无线AP控制器)

这种集中式方法涉及 2 个无线产品,包括 AP 和无线 AP 控制器 (AC)。AC在该解决方案中扮演着最重要的角色,AP 仅提供基本的无线电频率,在物理层传输 802.11 数据包,并通过无线接入点控制和配置协议(CAPWAP)与控制器建立通信。

AC 可处理多种功能,例如访问控制、AP 配置和监控、数据包转发、漫游、安全控制。它的工作原理就像无线网络的大脑一样,允许在一个地方配置和管理整个无线网络。这些使其适用于具有许多接入点的大型企业网络。

⑴ AC部署模式

  • 串联模式:AC 串接进网络,现在比较少见。
  • 旁路模式:AC只管理AP,旁路连接到汇聚交换机,让据包经由AC集中转发再传输到上层网络,适合在不改变现有网络的情况下对无线网络进行改造。

⑵ 数据转发模式:直接转发和隧道转发

并不是所有的数据包都需要经过集中式AC的封装和处理。某些情况下,数据包可以直接转发到网络的上层,但这仅适用于二层网络。隧道转发模式下,数据包被封装在CAPWAP隧道中,然后由AC转发到上层网络。如下图所示,CAPWAP隧道可能是控制数据隧道,也可能是业务数据隧道。

AP+AC

⑶ VLAN 规划和 AC 备份

VLAN规划主要包括两个方面,一是划分管理VLAN和业务VLAN,二是根据需要映射业务VLAN和SSID。由于是集中式部署,需要考虑冗余的设备、链路、交换策略,确保单点故障不影响整个系统功能,所以AP+AC架构中往往还需要多个AC互为备份。如果要为大量无线接入用户实现AP漫游,这对网络工程师来说可能是一个巨大的挑战。

  • 方案一:尽量在二层网络中规划漫游区域,但二层网络越大,安全性越差。
  • 方案二:建立连接两个WAC的隧道,将漫游流量传回原AC,但这会导致网络配置复杂,流量绕行,影响漫游性能。

除了配置相对复杂之外,多家供应商都有自己的专有协议,并在自己的产品中不断更改这些协议以改善通信。一般来说不同供应商的产品无法实现通信和交互。

属性胖AP瘦AP
技术模式 传统 新型,管理加强
安全性 单点安全,无整网统一安全能力统一的安全防护体系,无线入侵检测
网络管理能力 单台管理统一管理
配置管理 每个AP需要单独配置,管理复杂配置统一下发,AP零配置
自动RF调节 没有射频自动调节能力自动优化无线网络配置
漫游能力 支持2层漫游功能,适合小规模组网 支持2层、3层快速安全漫游
可扩展性 无扩展能力方便扩展,对于新增AP无需任何配置管理
高级功能 对于基于WiFi的高级功能,如安全、语音等支持能力很差可针对用户提供安全、语音、位置业务、个性化页面推送、基于用户的业务/完全/服务质量控制等等

无线Mesh网络(WMN)

无线mesh网络最初是为军事应用而开发的,它是一种由无需连接到有线端口的无线电设备组成的架构。无线Mesh网络中的每个设备都像路由器一样工作,其中各个节点不仅可以增强信号,还可以计算网络拓扑并进行路由,将长距离数据传输划分为多个短跳。当配置好主节点信息后,配置将⾃动同步给整个网络中其他的节点。

Mesh组网在难以或无法布线的情况下特别有用,例如临时的室内或室外区域、老旧历史建筑内等。目前已有不少厂商提供了面向企业和家庭的Mesh网络解决方案,不过一般来说无线 Mesh AP 不兼容多供应商。

无线Mech网络

在为较小的区域设计无线Mesh网络时,我们可能只需要将一两个Mesh AP连接到有线网络,如果范围扩大,我们仍然需要将多个Mesh AP 插入有线网络以确保网络可用性。部署Mesh AP 时,应综合考虑数量、传输距离和电源位置,并且应将它们放置得更近以获得更好的信号,因此往往需要更多的 AP 来覆盖给定的区域,成本随之上升(甚至会抵消其他方面节省的费用)。

值得注意的是该种组网方式最大的问题:带宽损耗。因为无线mesh组网会占用一半的带宽(还有无线传输本身的损耗),经过中继后的AP的吞吐量一般会下降约50%。

新一代云化园区无线组网模式

分布式网关转发

云网络很早就开始采用分布式的网关架构,将网关部署到更靠近终端的接入/边缘层。这种架构在转发路径、网络运维、表项空间、安全性等方面都有着显著的优势,也为企业网络的创新提供了一种很好的思路。

在这样的 IP Fabric 中,分布式网关意味着所有子网都存在于每个接入交换机上,它们会自动同步整个网络的端点 IP/MAC 和安全策略。这样,每个接入交换机都得到充分利用,所有跨子网流量的转发/漫游都由最近的交换机处理,而无需经过很长的路径到达集中式 AC。

更多信息请参阅:下一代园区网络,“分布式网关”实现更高效的无线漫游!

 集中式网关(隧道转发)分布式网关
转发路径业务报文经过隧道封装,经由集中式网关统一转发业务报文在本地接入交换机上转发
运维部署部署时需要大量手动配置(例如AP分组规划,单独的SSID/VLAN等)较为复杂,日后维护起来难度大开局一次性配置分布式网关信息即可,无需其他额外操作
可靠性过于集中的网关功能有压垮设备的风险,一旦出现故障,影响面大网关功能分散到所有接入交换机上;但设备发生故障对业务影响小
扩展性承载着关键性的网关业务,需要高性能大容量的设备,也容易成为限制网络规模迅速扩展的瓶颈接入层交换机仅需存储本地表项,对设备容量要求不高,更容易扩展接入规模

去CAPWAP的集中式转发

这种新型WLAN的设计同样基于云网络技术,相比上文的“分布式网关”其最大的优势在于无需改变现有的有线网络架构,只需部署一台可编程交换机接入核心交换机作为集中式网关,然后将旧AP替换为新AP即可完成无线网络的升级。

VXLAN

每台网关交换机拥有 3.2Tbps 吞吐量,轻松支持 10K+ 接入点 100K+ 无线终端。接入点通过 VXLAN 隧道与网关通信,接入点上运行多个 VTEP 以实现网络隔离。此外,接入点可以是完全基于开源技术的白盒硬件,而且相对于CAPWAP,VXLAN 技术也更加开放和标准化。

至于惯常思路里的无线AC,在新一代云化园区的无线网络中已经不存在了,取而代之的是使用云原生控制器(Cloud SDK)来统一管理园区内的有线和无线网络设备并下发配置——它既可以融合部署在网关交换机或其他本地设备上,也可以灵活部署在云端,从手机、电脑随时随地通过加密域名访问。

更多信息请参阅:园区无线网新架构:无CAPWAP的集中式转发

无线接入点(AP)部署要点

影响AP覆盖范围的因素

  • 无线电发射功率:室内AP不超过100mW/20dBm,室外AP不超过500mW/27dBm
  • 天线增益:室内天线增益一般在3-5dBi,室外天线增益一般大于10dBi
  • 部署环境:周围环境是否有强电磁场、障碍物遮挡、同类型Wi-Fi干扰、相似类型无线干扰,金属或者电子设备等干扰,相同信道频谱干扰
  • 天线和终端接收灵敏度:与终端设备有关

影响AP接入量的因素

芯片性能:同等无线速率下,如果是不同的芯片等级,能同时并发的用户数也不一样

射频:

  • 单射频AP最大接入128/512
  • 双射频AP最大接入256/1024
  • 三射频AP最大接入384/1536

用户流量模型:不同的用户流量也直接影响了能同时并发多少用户。

比如办公场景每人4M,推荐人数在30人;公共上网场景每人1M,推荐人数在60-100人

所需无线带宽估算

估算带宽时可以根据人数模糊概论(尤其适用高密场景),假如要求有1000人同时接入,实际使用时同时接入的人数在600人;接入的600人并非所有终端同时并发,算下来约会在200左右。

并发用户数=估算接入人数 * 并发比率

根据用户数与单用户速率需求分析可以得到总带宽需求:

总带宽=并发用户数 * 单用户速率

下表仅供参考(单用户速率参考)

场景 终端类型 并发比率(按100人算) 最低标准 推荐标准 良好体验标准
办公室 笔记本 20%—50% 100KB/S下行
20KB/S上行
200KB/S下行
40KB/S 上行
300KB/S下行
100KB/S 上行
酒店
会议室
商超 手机 5%—30% 20KB/S下行
20KB/S 上行
50KB/S 下行
20KB/S 上行
80KB/S 下行
40KB/S 上行
室外
应用速率要求时延要求
网页浏览 160-512Kbps 200KB 的页面需要3~10s
P2P 流媒体1Mbps 实时
IM(如微信等)32-64Kbps 2KB/Session,0.5s
Email400Kbps 100KB/Session,2s
SNS(如微博等)200Kbps 50KB/Session,2s
VoIP512Kbps 实时
游戏 1Mbps 125KB,100ms
视频服务(标清) 2Mbps实时
视频服务(高清) 4Mbps 实时

AP通用部署原则

  • 尽量保证 AP 与终端之间可视无障碍物;
  • 优先考虑 AP 面积覆盖与间距合理,后考虑接入人数要求。
  • AP 以正六边形方式呈蜂窝状部署(同楼层平面,上下楼层同样)

AP通用部署原则

AP的覆盖部署

  1. 尽量减少信号穿过障碍物数量,一般建议最多穿透单层墙体(典型120mm砖墙)设计,部分特殊场景(如石膏墙、玻璃墙体等) 可考虑穿过2层墙体
  2. 240mm厚砖墙、混凝土墙体和金属材质墙体不建议穿透覆盖,如在不满足约束条件时仍采用AP穿透覆盖方案,则会导致穿墙后 弱信号和漫游不连续问题,针对此种情况,如需保障良好覆盖和漫游,网络规划时需要基于客户墙体结构新增部署AP点位
  3. 重点区域、VIP区域尽量保证单独部署AP以保障用户体验。
  4. 路口或拐角单独部署AP,保证信号覆盖连续性(大于-65dBm ),相邻AP可建立邻居关系表,保障良好漫游体验。
  5. AP安装位置远离承重柱3米以上

几条重要规则

  1. 不要采取在走廊部署吸顶AP去覆盖房间,除非拿设备验证过。像学校宿舍这种场景,如果有运营收费更不能放走廊。
  2. 任何场景 AP 间距不少于 8 米。同信道 AP 间距不少于 15 米。
  3. AP 吸顶安装时,需考虑吊顶材质,若为无机复合板、石膏板,衰减较小,可安装于吊顶内,若为铝制板,衰减较大,建议安装在吸顶安装于天花上,或用美化天线。
  4. 空旷的空间工勘时,一定要考虑后期放什么东西。比如宿舍,前期是空的,但之后可能放了金属桌子;空旷的仓库,之后可能放了很多金属货架。这些都会导致信号覆盖风险。
  5. 部署前务必先去现场工勘测试。不要“看图说话”。
  6. 室外项目中,为了保证使用效果,需使用定向天线,少用全向天线。不确定的情况找当地客服咨询。
  7. 室外项目务必要求施工方做好防水防雷,否则容易造成故障。

本文部分内容摘录整理自互联网公开知识,仅供各位读者参考,如有错漏和理解不当之处,敬请谅解、指正。

一文揭秘AI智算中心网络流量 – 数据存储篇


关注星融元


本篇为“揭秘AI智算中心网络流量“系列的第三篇,前篇请参阅:


01、生成式AI对数据存储有哪些需求?

对于较小规模的AI模型,本地连接的磁盘存储可能就足够;进入大模型时代,则通常需要基于对象存储或并行文件系统的共享存储。一个完整的生成式AI的工作流的各阶段对存储有不同需求,具体可拆解如下:

  • 数据挖掘:需要从多个来源收集非结构化的数据,一般与混合云集成,用数据湖作为存储平台;
  • 数据准备:进行数据汇总、标准化和版本控制,关注存储的效率和灵活的数据管理能力,多采用统一存储平台;
  • 模型训练和微调:在智算中心内部,结合GPU服务器本地内存和远端的并行/分布式存储系统。因为GPU的投入巨大,需要高性能存储来高效地提供数据,并在整个过程中保持高利用率;
  • 推理阶段:该阶段旨在利用已训练好的模型实时生成输出,需要将输入模型和推理生成的文字/图片/视频流存储下来作为备份。

02、智算中心的存储网络

我们大致可将AI智算中心内部的数据存储系统进行简单的层次分类,主要包括GPU内存、存储网和存储设备。

| 图片引自 NVIDIA技术博客

| 图片引自 NVIDIA技术博客

一般来说,在存储层次结构中位置越高,其存储性能(尤其是延迟)就越快。因为本文的定位在分析网络流量,我们将聚焦于存储网络(data fabric)层次,即智算中心内部GPU服务器内存与远端存储服务器之间传输的数据

在一个计算和存储分离的部署场景中,一般推荐部署2张Spine-Leaf架构的物理网:前端网和后端网。其中,存储前端网和业务网共用一张物理网。

存储后端网则单独使用一张物理网,以保证分布式存储集群能够快速无阻塞地完成多副本同步、故障后数据重建等任务。存储节点对网络接入侧的可靠性要求相对较高,因此推荐使用双归(MC-LAG)或者多归(EVPN-Multihoming)接入。

存储网络流量主要发生在模型训练的场景,它是一种单播流量,逻辑上仅需要以存储服务器为中心的星型连接。

  • 一是从存储服务器中分批加载训练数据集到GPU内存。
  • 二是训练的中间结果(定期保存的参数和优化器状态,即Check Point)要在存储服务器共享,并通过网络读写。

⑴ 数据集加载流量分析

在一个epoch中,整个训练集被遍历一次,如果进行评估,验证集也将被遍历一次。以下假设在每个epoch中进行评估,整个数据集的存储大小为D。

  • 数据并行时,整个数据集从网络存储读取,通过scatter操作分别加载到不同的GPU上,总网络流量为D。
  • 张量并行时,整个数据集从网络存储读取,通过broadcast操作发送给所有GPU,总的网络流量为 D x G。
  • 流水线并行时,整个数据集从网络存储读取,喂给流水线上第一个GPU,总网络流量为D。
  • 3D并行时,整个数据集从网络存储读取,在数据并行维度上分配,在张量并行维度上广播,总网络流量为D x G(tp) 。

以C4数据集为例,数据集的大小约38.5 TB,假设张量并行GPU数量为8,3D并行时每个epoch中加载数据集产生的网络流量为308TB

⑵ Checkpoint存储流量分析

Checkpoint中存储了模型参数、优化器状态和其它训练状态(包括模型配置、训练的超参数、日志信息等)。优化器包含了梯度、动量和二阶矩估计等,每一种数据大小都等于模型参数。其它训练状态的大小可以忽略不计。假设模型参数为P,数据格式为BFLOAT16,优化器为Adam/AdamW,则checkpoint总大小为:

2 x P + 2 x P x 3 = 8 x P

这个checkpoint要保存在存储服务器中,虽然在张量并行、流水线并行和3D并行时,这些数据从多个GPU上通过gather操作汇聚到存储服务器,但无论如何,数据总量是一个checkpoint大小。假设每个epoch存储一次。这样,每个epoch产生的流量为:

8 x P

以Llama3-70B模型为例,假设每个epoch均存储,则产生的网络存储流量为560GB

03、存储网设备选型:RoCE还是InfiniBand

相比训练场景,在智算中心存储网传输的流量与并行计算完全不在一个量级——虽然对链路带宽要求不那么高,但仍需满足高速分布式存储业务中所需的高吞吐、低时延、无损传输特性,并灵活满足存储集群规模调整所需的高可扩展性。

NVIDIA DGX SuperPOD™ 的方案在存储网采用的是200G的InfiniBand交换机。而事实上,随着近年来AI以太网技术的进步,RoCE与IB在转发时延上的细微差异,对分布式存储业务性能几乎没有影响。结合科学的网络参数调优,我们已在多个客户现场稳定测得了运行RoCEv2协议的交换机端到端性能全面优于IB交换机的结果。RoCE交换机作为IB平替已是不争的事实。

星融元 CX664P-N 是一款专为智算/超算中心设计的超低时延RoCE交换机,凭借以下特性在存储场景中脱颖而出。

型号为CX564P-664D-N数据中心交换机产品图

CX664D-N— 业务接口:64 x 200GE QSFP56, 2 x 10GE SFP+

  • CX-N系列一贯的超低延迟特性,端到端性能可媲美IB*(*测试数据详见方案手册)
  • 12.8Tbps 的线速 L2/L3 交换性能,提供高密度 200G/100G 以太网接口,满足主流存储网络需求并兼顾未来升级空间;另有两个 10G 端口用于管理网接入
  • 支持基于 RDMA 的 NVMe-oF (全端口标配RoCEv2)和EVPN-Multihoming → 什么是EVPN多归属,和MC-LAG的区别?
  • 搭载持续进化的企业级SONiC——AsterNOS网络操作系统,其开放的软件架构通过REST API开放全部网络功能给AI智算中心管理系统,实现无损以太网的自动化极简部署 → Easy RoCE:一键启用无损以太网

除存储网之外,基于通用、解耦、高性能的以太网硬件和开放软件框架,星融元可为大模型算力中心提供10G-800G的全场景互联能力。

一文揭秘AI智算中心网络流量 – AI推理篇


关注星融元


本篇为“揭秘AI智算中心网络流量“系列的第二篇,前篇请参阅:一文揭秘AI智算中心网络流量 – 大模型训练篇 。有关数据存储流量的分析将于下篇呈现,敬请关注。

AI推理是指从经过训练的大模型中获取用户查询或提示的响应的过程。

为了生成对用户查询的完整响应,AI推理服务器从一次推理迭代中获取输出token,将其连接到用户输入序列,并将其作为新的输入序列反馈到模型中以预测下一个token。这个过程被称为“自回归”计算,此过程重复进行,直到达到预定义的停止标准。

自回归

AI推理系统如何生成一次完整的响应?

⑴ 预填充/提示(Prefill):模型从用户那里获得输入序列。基于此输入,模型预测第一个输出token。

⑵ 解码(Decode):将生成的输出token连接到输入序列。更新后的输入序列被反馈到经过训练的模型中,然后生成下一个token。

⑶ 循环:解码继续进行,每个新token都是基于所有先前token的累积序列生成的。这种将输出token自回归地馈送到输入的过程确保模型在每个步骤的输出都受到所有先前token的影响,从而使其能够保持上下文和连贯性。

⑷ 终止:当模型达到停止标准时,它会终止该过程。停止标准可以是以下之一。

  • 最大序列长度:一旦达到总token(输入和输出)数量的定义限制
  • 序列结束 (EOS) :模型生成一个特殊token,表示文本生成的结束。
  • 上下文完成:当模型确定生成的文本已根据提供的上下文得出自然且合乎逻辑的结论

AI并行推理网络流量分析

由于在预填充阶段已知整个token输入序列,因此推理加速器可以并行计算所有输入token的信息,并执行模型来预测下一个输出token。

在大模型推理时,虽然模型经过了压缩(比如4bit量化),但模型尺寸仍可能超过单个GPU的内存,这时候就需要张量并行,即使单个GPU可以容纳整个模型,张量并行可以加速推理过程。如果并发用户数较大,单个GPU来不及及时响应,就需要数据并行

让我们再次回顾AI推理的两个关键阶段:

  1. 预填充(Prefill)阶段根据用户输入的prompt,生成输入token序列,并进行批处理,计算KV(Key, Value)缓存,并生成第一个输出token。这个阶段可以认为是大模型在理解用户输入,KV缓存存储了输入序列的上下文信息(为下面的Decode阶段缓存),其特点是需要大量的计算。
  2. 解码(Decode)阶段是一个循环过程,根据之前生成的token序列和KV缓存,计算下一个token,直到生成完整的输出。这个阶段可以认为是大模型在一个字一个字的说话。由于KV缓存的密集型计算已在 Prefill 阶段完成,因此此阶段仅处理上一阶段新生成的 token。因此,计算密集程度较低;但这一步需要从 KV缓存中读取前面所有token的Key,Value,所以需要高速的内存访问。

由于以上两个阶段对GPU的需求不同,我们可以采用Prefill-Decode解耦的方式,由2个不同类型的GPU分别承担Prefill和Decode阶段的计算任务,顺序执行。这时候就需要在两个阶段间传输KV缓存。

在生产部署时,通常结合上述几种方式。相比AI训练,AI推理只有前向传播过程,计算量相对较低,但需要快速的生成下一个token。流量产生有两个来源:

  1. 每次推理在Prefill GPU和Decode GPU之间传递KV缓存;
  2. Prefill GPU集群和Decode GPU集群分别实施张量并行,产生的中间激活的传递。不会有巨量的梯度同步流量。

假设并发用户数为U,数据并行维度为G(dp),张量并行维度为G(tp),用户输入序列的平均长度为S(in)个token,模型产生输出的平均长度为S(out)个token。

在张量并行时,前向传播产生了GPU间的网络流量,各个GPU计算出的中间激活值需要合并,由all-reduce操作进行求和。

假设模型有L层,在一次推理过程中,S(in)个输入token在模型的每一layer进行2次批量合并,共2L次,而对于每个输出Token,在模型的每个layer的中均进行2次合并,共 2xS(out) x L 次。此外,在Prefill阶段和Decode阶段之间有一次KV缓存的传递。AI并行推理网络流量如下图所示:

假设模型的隐藏状态大小为H,GPU数量为G,计算激活使用的数据格式为FLOAT16(2个字节表示一个数),每次all-reduce操作的通信量为

2 x H x (Gtp-1)x Gtp

在Prefill阶段,所有输入Token,在模型的每个layer的中均进行2次批量合并,共2xS(in)xL次。在Decode阶段,对于每个Token,在模型的每个layer的中均进行2次合并,共2xS(out)xL次。因此,U个用户的并发推理,中间激活值的总网络流量为

4 x U x(Sin+Sout)x L x H x (Gtp-1)x Gtp

另外,在一次推理中,KV缓存的大小为

4 x Sin x L x H

因此,U个用户的并发推理,KV缓存传递的网络流量为

4 x U x Sin x L x H

以Llama3-120B模型为例,模型层数140, 隐藏状态大小8192,张量并行度为4,用户prompt的平均长度S(in)为256个token,产生的输出的平均长度S(out)为4096个token。则要支持100个并发用户请求所需要的推理流量为:

4 x 100 x (256 + 4096)x 140 x 8192 x (4-1)x 4 + 4 x 100 x 256 x 140 x 8192 = 21.896TB

其中,KV缓存传递的流量虽然不大,每个用户约1.17GB,但需要在10ms左右的时间内一次传递完成。如果用1个800G端口传递,最快需要11.7ms。

AI推理对网络的需求

超高频率

AI推理流量虽然远小于训练时的网络流量,但值得注意的是,推理需要在很短的时间内完成,每个token在每一层产生2次流量,并要求在极短时间内传输完毕。假设至少要达到100token/s的推理速度,并行加速比为90%,那么每个token的推理速度要小于1ms,KV缓存需要在10ms左右完成。整个网络吞吐量应大于

4 x 100 x 140 x 8192 x (4-1)x 4/0.001 + 4 x 100 x 140 x 8192/0.01 = 5551GB/s 44.4Tbps

严格时间同步

无论是训练还是推理流量,都具有非常严格的周期性规律。基于木桶原理,如果GPU的时钟不同步,将造成同样的计算量花费不同的时间,计算快的GPU不得不等待计算慢的GPU。

开放与兼容性

AI推理进程涉及应用已训练好的AI模型进行决策或识别。对比AI训练,AI推理芯片门槛相对更低,我们的确也看到推理领域萌生出了开放生态的雏形,不少新兴初创企业加入竞争,涌现出基于不同算力架构的技术方案。

另一方面,在实际生产部署中的AI推理业务往往会与前端的业务/应用网络形成紧密配合,经由现有数据中心和云网络基础设施对外提供服务。

这便要求基础设施具备相当的开放性——网络不但要连接底层的异构算力(GPU、CPU、NPU)系统,还需要实现与上层管理系统的对接集成,例如与基于K8s的算力调度平台、已有的云管平台等等。

随着大模型的应用不断深化,AI算力部署将从训练场景逐步转向推理,推理需求也逐渐从云端迁移至边缘/终端,并呈现出垂直行业定制化的趋势。在云-边-端之间,我们需要构建一个更为均衡、通用化的网络基础设施体系。

在已被用户场景充分验证的数据中心开放云网能力之上(BGP、VXLAN、Calico容器路由、RoCE、NVMe-oF等),星融元推出的 星智AI 网络解决方案基于通用、解耦、高性能的以太网硬件和开放的SONiC软件框架,为AI智算中心提供10G-800G速率的以太网交换机,灵活支持单一速率或混合速率交换机组网,在保持极致性能的同时可编程、可升级,帮助客户构建高性能的AI智算中心网络,提供用于AI训练、推理、分布式存储、带内外管理等场景的互联能力。

  • 最大支持64个800G以太网接口,共51.2T交换容量
  • 超低时延,在800G端口上实现业界最强的560ns cut-through时延
  • 全端口标配支持RoCEv2
    200+MB大容量高速片上包缓存,显著减小集体通信时RoCE流量的存储转发时延
  • Intel至强CPU + 大容量可扩展内存,运行持续进化的企业级SONiC——AsterNOS网络操作系统,并通过DMA直接访问包缓存,对网络流量进行实时加工
  • INNOFLEX可编程转发引擎:可以根据业务需求和网络状态实时调整转发流程,最大程度避免网络拥塞和故障而造成的丢包
  • FLASHLIGHT精细化流量分析引擎:实时测量每个包的延迟和往返时间等,经过CPU的智能分析,实现自适应路由和拥塞控制
  • 10纳秒级别的PTP/SyncE时间同步,保证所有GPU同步计算
  • 开放的软件架构(生产就绪的SONiC,AsterNOS)通过REST API开放全部网络功能给AI智算中心管理系统,与计算设备相互协同,实现AI算力集群的自动化部署

AI Open Ecology

一文揭秘AI智算中心网络流量 – 大模型训练篇


关注星融元


前言:自2017年起,AI模型的规模每半年翻一番,从初代Transformer的6500万增长到GPT-4的1.76万亿,预计下一代大语言模型将达到10万亿规模。另一方面,用于模型训练的数据量持续增长,如C4数据集,原始数据量累计超过9.5PB,每月新增200-300TB,目前经过清洗加工后的数据集大小约38.5 TB,训练样本数364.6M。进一步,随着多模态大模型的兴起,训练数据从单一的文本过渡到图像和视频乃至3D点云,数据规模将是文本数据的1万倍以上。

AI模型的规模巨大并持续快速增长,不仅将带来数据中心流量的指数型增长,独特的流量特征也将为数据中心网络带来崭新的需求。

深入分析AI大模型在训练、推理和数据存储流量将帮助数据中心建设者有的放矢,用更低的成本,更快的速度、更健壮的网络为用户提供更好的服务。

本篇我们将聚焦于介绍AI大模型训练场景下的网络流量,AI推理和数据存储场景会在接下来的文章中呈现,敬请关注。

AI model

AI训练程序首先将模型参数加载到GPU内存中,之后将经历多个epoch(即使用所有训练集对模型进行一次完整训练),每个epoch的处理过程可以简单描述为4步:

  1. 加载训练数据,在每个epoch中,根据batch size将整个数据集分为若干个mini-batch,分批次加载训练数据,直到遍历整个训练数据集。
  2. 训练,包括前向传播、计算损失、反向传播和参数/梯度更新,每个mini-batch都进行上述步骤。
  3. 评估,使用评估数据集对模型的指标进行评估。这一步是可选的,可以在整个训练完成后单独进行,也可以间隔若干个epoch进行一次。
  4. 保存checkpoint,包括模型状态、优化器状态和训练指标等。为了减少存储需求,通常经过多个epoch后保存一次。

在大模型出现之前,整个过程在可在一台AI服务器内部完成,训练程序从服务器本地磁盘读取AI模型和训练集,加载到内存中,完成训练、评估,然后将结果存储回本地磁盘。虽然为了加速训练,也会采用多块GPU同时训练,但所有的I/O均发生在一台AI服务器内部,并不需要网络I/O。

AI大模型训练的网络流量有哪些?

进入大模型时代,AI训练的流量路径和其网络需求发生了巨大变革。

首先是模型的参数规模超出了单个GPU的内存,采用GPU集群协同计算,则需要相互之间通信以交换信息,这类信息包括参数/梯度、中间激活值等。

庞大的数据集被所有GPU共享,需要集中存放到远端的存储服务器中通过网络调用,分批加载到GPU服务器上。此外,定期保存的参数和优化器状态也需要通过存储服务器共享,在每个训练epoch中,都要通过网络读写数据。

由此,AI大模型训练的网络流量可分为以下两类:

  • 第一类是GPU之间同步梯度和中间激活的网络流量,它发生在所有GPU之间,是一种广播式流量,逻辑上需要所有GPU全连接。
  • 第二类是GPU和存储服务器之间的流量,它仅仅发生在GPU和存储服务器之间,是一种单播流量,逻辑上仅需要以存储服务器为中心的星型连接。

并行训练技术

其中,GPU之间的网络流量与传统数据中心内部流量迥然不同,这与AI大模型的训练方法息息相关——并行训练技术。

并行训练:AI智算中心的主要流量来源

当前广泛应用于AI训练并行计算模式主要有以下三类:

数据并行将不同的样本数据分配给不同的GPU,以加快训练速度;用在主机之间
张量并行将模型的参数矩阵划分为子矩阵,并分配到不同的GPU上,以解决内存限制并加速计算。一般用在主机内部。
流水线并行将模型分为多个阶段,每个阶段分配给不同的GPU,以改善内存利用率和资源效率。一般用在主机之间

并行训练

常见的集合通信流量模式(如下图)

Collective communication

1.数据并行(Data Parallelism)

在数据并行时,主要的网络流量来源于梯度同步,它发生在每次mini-batch处理之后,由一个all-reduce操作计算平均值。理想情况下,所有GPU全连接,每个GPU给其它G-1个GPU单独发送数据,共需发送G x(G-1)份数据。

FSDP(完全分片数据并行)是一种改进的数据并行技术,旨在优化内存使用和通信效率。它通过将模型参数和梯度在多个GPU之间分片(shard)存储,实现更高效的内存利用和通信。

在FSDP时,网络流量来自前向传播的参数收集以及反向传播中的梯度同步。

前向传播的参数收集由all-gather操作完成,all-gather的通信复杂度与all-reduce相同。

后向传播的梯度同步由all-reduce操作完成,由于每个GPU的参数只有原来的1/G,一个epoch中总的网络流量只有普通数据并行的1/G。

2.张量并行(Tensor Parallelism)

在张量并行时,模型参数分布到G个GPU上,每个GPU只存储1/G参数。网络流量主要来自前向传播过程的中间激活值的传递以及反向传播过程中的梯度同步。

前向传播中,各个GPU计算出的中间激活值需要合并,由一次all-reduce操作进行求和。对于每个Token,在模型的每个layer的中均进行2次合并,共2xTxL次通信。

反向传播中,梯度需要在GPU之间同步,这种在每一层的处理中发生2次,由all-reduce操作将各个GPU上梯度求和。这种同步发生在每个mini-batch的每个layer的处理过程中。共2×N×L次通信。

3.流水线并行(Pipeline Parallelism)

在流水线并行时,网络流量主要来自前向和反向传播过程的中间激活值的传递。与张量并行不同,这些流量的传递发生在模型的前后两个阶段之间,使用Point-to-point通信而非all-reduce操作,并且频率也大大减小了。

综上,在三种并行方式中,张量并行的网络流量最大、频率最高,流水线并行的流量最低,数据并行的通信频率最低。如下表所示,P为模型参数,T为token数,L为模型层数,H为隐藏状态大小,G为GPU数量,N为mini-batch的数量,采用BFLOAT16数据格式,每个参数占2个字节。在每个epoch过程中:

 流量模式后向传播总网络流量反向传播同步次数前向过程总网络流量前向过程传递次数
数据并行all-reduce2 × N × P × G × (G-1)100
FSDPall-gather + all-reduce2 × N × P × (G-1)L2 × N × P × (G-1)L
张量并行all-reduce4 × N × P × L × (G-1)2 × L4 × L × T × H × (G-1) × G2 × L × T
流水线并行Point-to-point2 × T × H × (G-1)G-12 × T × H × (G-1)G-1

以具有80层(L)的Llama3 70B(P)模型和C4数据集为示例计算:采用BFLOAT16数据格式,每个参数占2个字节,隐藏层维度设为8192(H),使用8个GPU(G)进行数据并行。C4数据集token(T)总数约156B,样本数364.6 millions;batch size为2048,则每个epoch包含约178,000个mini-batch(N)

计算可得每个epoch过程中:

 反向传播总网络流量(PB)反向传播同步次数前向过程总网络流量(PB)前向过程总网络流量
数据并行1396 PB100
FSDP1758017580
张量并行2662216021840160*156*10^9
流水线并行17.9717.97

3D并行技术下的网络流量

数据并行、张量并行和流水线并行三个技术通常会组合起来使用,可进一步提高训练大模型时的效率和可扩展性。这时候,GPU也就按照这三个维度组成了GPU集群。

3D并行技术

假设共有G(tp)×G(pp)×G(dp) 个GPU组成的3D并行阵列,全部P个参数将分割为G(tp)×G(pp)份,每一份大小为P/G(tp)/G(pp)。在模型并行、流水线并行和数据并行三个维度上都存在网络流量。接下来我们将深入到每个epoch的训练过程,分别计算不同阶段的网络流量组成和规模。

3D并行技术

1.反向传播中的网络流量

在每个mini-batch中,反向传播时的梯度同步分为:

  1. 张量维度上的梯度同步,在模型的每一层和数据维度的每一组中进行,总共 LxG(dp) 次,每次包含2个all-reduce操作。
  2. 数据维度上的梯度同步,在流水线维度的每个阶段和张量维度的每一组中进行,总共 G(tp)xG(pp) 次,每次包含1个all-reduce操作。

如下图所示:

反向传播中的网络流量

这样,在一个epoch中,梯度同步的总网络流量为:

4xNxP/Gtp/GppxGtpx(Gtp-1)xLxGdp+2xNxP/Gtp/GppxGdpx(Gdp-1)xGtpxGpp=2xNxPxGdpx[2xLx(Gtp-1)/Gpp+(Gdp-1)]

3.流水线并行维度的中间激活梯度传播,流量为:

2xTxHx(Gpp-1)

因此,在一个epoch中,整个反向传播的总流量为:

2xNxPxGdpx[2xLx(Gtp-1)/Gpp+(Gdp-1)]+2xTxHx(Gpp-1)

2.前向传播中的网络流量

前向传播时,中间激活的传递依次在张量并行、流水线并行维度上交替进行,其中张量并行的激活传递每次包含2个all-reduce操作。

如下图,以一个Token的前向传播所示:

Token的前向传播

因此,在一个epoch中,前向传播总网络流量为:

4xTxHxLxPxGtpx(Gtp-1)+2xTxHx(Gpp-1)

即:

2xTxHx(2xLxGtpx(Gtp-1)+(Gpp-1)

由此,我们以Llama3-70B模型为例,采用8路张量并行 x 8路流水线并行 x 16路数据并行的模式,在共1024个GPU上进行训练,一个epoch产生的总流量约为85EB。如此庞大的流量规模,如果用1个交换容量为51.2T的交换机,24小时满负荷运行,需要约20天才能传输完毕。

考虑到一次预训练通常包含100个左右epoch,如果需要在100天完成训练,至少需要20台51.2T交换机来传输训练过程产生的数据。

AI训练对智算中心网络的要求

通过以上分析和计算,我们可以得出一个典型的AI智算中心对计算网的核心需求。

  • 超高带宽:一个epoch就会产生85EB的数据量,相当于整个互联网2.5天的流量。
  • 超低时延:一个训练样本的处理,就会产生100GB以上的数据,并需要在小于1毫秒的时间传输完毕。相当于1000个800G接口的传输速度。
  • 集合通信:GPU服务器之间的All-reduce, All-gather操作带来广播式流量,在上万个GPU之间,也就是上亿个GPU-GPU对之间同步。
  • 零容忍丢包:基于木桶原理,在集体通信过程中,仅仅是一对GPU之间流量的丢包和重传,也会造成整个集体通信的延迟,进而造成大量GPU进入空闲等待时间。
  • 严格时间同步:同样基于木桶原理,如果GPU的时钟不同步,将造成同样的计算量花费不同的时间,计算快的GPU不得不等待计算慢的GPU。

星融元CX-N系列交换机正是为智算中心AI训练场景而生的超低时延以太网交换机——在保持极致性能的同时,实现可编程、可升级的能力,与计算设备形成协同,共同打造10万级别的计算节点互联,将数据中心重构为可与超级计算机媲美的AI超级工厂。

  • 最大支持64个800G以太网接口,共51.2T交换容量。
    超低时延,在800G端口上实现业界最强的560ns cut-through时延。
  • 全端口标配支持RoCEv2,支持Rail-only,全连接Clos以及200G/400G混合组网,灵活适应不同的算力中心建设方案
  • 200+ MB大容量高速片上包缓存,显著减小集体通信时RoCE流量的存储转发时延。
  • Intel至强CPU + 大容量可扩展内存,运行持续进化的企业级SONiC——AsterNOS网络操作系统,并通过DMA直接访问包缓存,对网络流量进行实时加工。
  • INNOFLEX可编程转发引擎,可以根据业务需求和网络状态实时调整转发流程,最大程度避免网络拥塞和故障而造成的丢包。
  • FLASHLIGHT精细化流量分析引擎,实时测量每个包的延迟和往返时间等,经过CPU的智能分析,实现自适应路由和拥塞控制。
  • 10纳秒级别的PTP/SyncE时间同步,保证所有GPU同步计算。
  • 开放API,通过REST API开放全部功能给AI数据中心管理系统,与计算设备相互协同,实现GPU集群的自动化部署。

发掘800G以太网的潜力

近期文章


什么是 800G 以太网?

800G以太网是一种用于数据传输和通信网络的高速以太网技术,可提供每秒800千兆位(800Gbps)的数据传输速率。

800G 以太网的速度是上一代 400G 以太网的两倍,可提供更大的带宽,主要用于大型数据中心、云环境和高带宽应用。它可以为这些场景提供更高的速率、更大的吞吐量和更好的网络性能,支持更快、更高效的数据通信。

800G 以太网采用 8 个通道,每个通道的传输速率为 100Gbps。这使 PAM4 的速度从上一代的 50Gbps 翻倍到 100Gbps。

800GbE 规范引入了新的媒体访问控制 (MAC) 和物理编码子层 (PCS)。它本质上重用了IEEE 802.3bs标准中的两组现有 400GbE 逻辑,并进行了一些修改,以在八个物理 106Gb/s 通道上分配数据。由于重用了 PCS,因此保留了标准 RS(544, 514) 前向纠错,以便轻松兼容现有的物理层规范。

实现800G以太网通常需要先进的网络硬件,并且通常采用低功耗设计以提高能源效率。

电气电子工程师协会 (IEEE)负责800G 以太网标准化,这有助于确保不同供应商设备之间的互操作性。

为什么我们需要 800G 以太网?

最直接的答案是应对数据爆炸。谈到训练大规模AI模型,公开数据显示,从GPT-1到GPT-4,模型参数数量已从1.1亿增长到5000亿,甚至可能超过万亿。据研究公司TrendForce称,GPT-3.5大型模型需要20,000个GPU来利用NVIDIA A100显卡的处理能力来处理训练数据。

因此,在超算集群的算力中心,先进芯片和先进算力并不对等,算力芯片只提供算力,先进算力其实遵循着“木桶效应”,算力、存储和网络传输三个核心环节,一个短板,整个系统的性能就会出现巨大的下滑。这也是为什么云服务商都在积极部署800G以太网的原因。

32-node

800 Gb/s 以太网规格

架构概述

800 Gb/s 以太网技术设计为使用 8 个 106 Gb/s 通道和 2xClause 119 PCS (400G) 的接口,用于连接以 800 Gb/s 运行的单个 MAC。下图说明了高级架构。可以使用两个 400G PMD(例如 2x400GBASE-DR4 模块)形成 800G 接口,尽管需要进行偏差管理才能保持在规范范围内。该架构还可以支持较慢的接口,例如 8×106.25G 或更慢的选项,但主要重点是使用 8×106.25G。

high-level architecture

利用现有标准

800 Gb/s 的容量可通过利用两个集成前向纠错 (FEC) 的 400 Gb/s 物理编码子层 (PCS) 实现,支持 8 条 106.25G 通道。400 Gb/s 的 IEEE 802.3 标准采用多通道分布 (MLD) 将数据从单个媒体访问控制 (MAC) 通道分配到 16 个 PCS 通道。在此 800G 标准中,将使用扩展到 800 Gb/s 的 MAC 以及两个经过修改的 400 Gb/s PCS 来驱动 8x100G 通道。这将产生总共 32 个 PCS 通道(400G 标准的 2×16),所有通道均配备 RS(544,514) FEC,如 400G 标准中所述。

MLD 条带化技术的一个重要方面是为每个虚拟通道实施唯一的对齐标记 (AM)。对于 400 Gb/s,每 163,840 x 257b 块将 AM 插入到条带化数据流中。这种做法将继续在 800 Gb/s 上进行,每个 400G 流的间距相同;但是,插入的 AM 数量将是原来的两倍,并且 AM 需要修改以确保 800 Gb/s 流的一致性,并防止配置错误的 400 Gb/s 端口与 800 Gb/s 流同步。芯片到模块 (C2M) 和芯片到芯片 (C2C) 接口采用 802.3ck 标准,每通道运行速度为 106.25G。

800G以太网网络时间表

800G以太网的发展建立在上一代400G以太网的基础上,近年来IEEE(电气电子工程师协会)、OIF(光网络互联论坛)等标准组织相继制定了400G网络的标准,为800G的发展奠定了基础。

2022 年:首款 51.2T 交换芯片发布

2022年,随着首款51.2T交换芯片的发布,网络行业迎来了重要的里程碑。这些交换芯片将支持64个800Gb/s端口,标志着800G以太网发展成为实际的硬件。与此同时,首批800G光模块的验证也在此期间开始。

2023年:标准发布和开发验证

2023年,标准组织取得了重大进展。首先,IEEE发布了IEEE 802.3df标准的第一版,该标准定义了800G以太网的物理层规范。与此同时,OIF还发布了224 Gb/s标准,为800G和1.6T系统构建112 Gb/s和224 Gb/s通道提供了指导方针。

物理层标准将于 2024-2026 年完成

未来两年,标准组织预计将继续努力,最终确定 800G 以太网的物理层标准。这将涉及进一步完善和测试规范,以确保网络设备的互操作性和性能。

800G以太网的多种应用场景

数据中心

  • AI数据中心:人工智能训练需要大量的数据传输和计算能力,高速以太网技术可以连接GPU集群和数据存储,支持深度学习模型的训练和AI推理。
  • 超高密度数据存储:数据中心需要大容量存储和快速数据传输来满足不断增长的数据需求。800G 以太网可以连接存储服务器,实现超高密度数据存储。例如,大型社交媒体公司可以利用这些技术来管理用户上传的大量照片和视频。
  • 虚拟化和容器化:虚拟化和容器化等技术需要快速的数据传输,以便在不同的虚拟机或容器之间共享资源。800G 以太网可以为虚拟机迁移和容器通信提供高带宽。例如,云服务提供商可以使用这些技术来支持客户的虚拟化工作负载。

云计算

  • 弹性计算资源:云计算提供弹性计算资源的能力,因此需要高速网络连接。800G以太网可以促进云计算用户之间的快速数据传输。例如,科研机构可以利用这些连接在云端运行复杂的模拟和数据分析任务。
  • 云存储和备份:云存储和备份服务需要大容量和高速传输来确保数据的安全性和可用性。高速以太网技术可以连接云存储设备和数据备份服务器。例如,企业可以使用它们来备份关键业务数据。

高性能计算

科学计算、计算模型训练等高性能计算应用需要高速的数据传输和处理能力。800G 网络可提高数据传输速度和网络性能,以执行高性能计算任务。这对于涉及处理复杂计算的科学研究、大数据分析和智能计算训练等应用至关重要。800G 以太网的引入将进一步推动高性能计算的创新和发展。

大数据

  • 数据传输和分析:大数据分析需要广泛的数据传输和处理能力。800G 以太网可以将大规模数据集从源传输到分析平台,从而加速数据处理。例如,医疗保健组织可以使用这些网络分析大量患者医疗记录,从而改善诊断和治疗。
  • 实时数据流:实时数据流需要极低的数据传输延迟。高速以太网技术可以支持实时数据流应用,例如金融交易监控和智能城市监控。例如,金融机构可以使用它们来监控和分析大量交易数据以检测潜在的欺诈行为。

物联网

800G以太网可以连接更多的物联网设备和传感器,实现大规模设备互联,物联网解决方案将具有更高的可扩展性和能力,促进智慧城市、智能交通、智能制造等领域的创新应用。

自动驾驶仪

  • 高清地图和传感器数据:自动驾驶汽车需要高分辨率地图和传感器数据来实现精确定位和环境感知。800G 以太网技术将传输这些大规模数据,增强自动驾驶的安全性和可靠性。
  • 车辆通信:车辆与基础设施之间的通信是自动驾驶的关键。高速以太网将支持车辆之间的实时通信,有助于防止碰撞并提高交通效率。

综上所述,800G网络对于推动创新应用、加速数字化转型、推动技术进步具有举足轻重的作用。

推出 Asterfusion 800G 超级以太网交换机

推出速度和效率巅峰的 Asterfusion 800G 超级以太网交换机!这款交换机采用尖端的Marvell Teralynx 10 51.2 交换芯片,可提供闪电般的性能,800GE 端口的端口到端口延迟低于 560ns。享受最佳的交货时间和价格,同时利用市场领先的 SONiC 企业分销AsterNOS的强大功能。以下是其出色的硬件和软件功能:

型号为CX864E-N的数据中心交换机

强调

  • 51.2T 交换机,2RU 内有 64x800G OSFP 或 128x400G/512x100G
  • 全球速度最快的交换机,800GE 端口的端口到端口延迟低于 560 纳秒
  • 满流量负载下,64x800G SR8 端口的最大 TDP 为 2200W
  • 200+MB 的大型片上缓冲区可实现更好的 ROCE(基于融合以太网的 RDMA)性能
  • 10ns PTP 和 SyncE 性能支持严格同步的 AI 并行计算
  • 先进的 INT(带内网络遥测)用于数据包延迟、丢包和路径遍历,从而实现更先进的拥塞控制算法
  • 基于 SONIC 的开放式 AsterNOS,具有最佳 SAI 支持,更加强大和可靠。
  • 与所有领先供应商的异构 GPU 和 SmartNIC 兼容
  • 线速可编程性,支持不断发展的 UEC(超级以太网联盟)标准

Asterfusion 800G 以太网交换机硬件亮点:

  • OSFP800 交换机端口,每个支持 1 x 800 GbE(100G PAM4),或通过分支电缆支持 2 x 400G GbE、4x 200 GbE 或 8 x 100 GbE。
  • 512 x 112G 长距离 (LR) 一流 SerDes,通过光学模块/分路器支持 64x800G、128x400G 或 512x100G 接口
  • 高达 14.4Bpps 的 L2/L3 全线速转发
  • 根据流/数据包平衡负载,防止拥塞并确保有效利用可用带宽
  • 前面板上有另外两个 10G SFP+ 端口用于网络遥测管理
  • 每个 OSFP800 端口的功率预算高达 24 W。
  • 采用 Marvell Teralynx10 交换系列硅片。[为 800GE 端口提供业界最低的端到端延迟(低于 560ns);经过验证的、强大的 112G Serdes,具有业界最低的误码率 (BER)。;全面的数据中心功能集:包括 IP 转发、隧道、丰富的 QoS 和强大的 RDMA。;可编程转发:提供可置换的灵活转发,使运营商能够随着网络需求的发展而编写新的数据包转发协议,而不会影响吞吐量、延迟或功率;广泛的实时网络遥测,包括 P4 带内网络遥测 (INT)。高级共享缓冲:  200+ MB 片上缓冲区,由每个端口动态共享,确保卓越的网络质量和更少的数据包丢失]
  • Intel Xeon 8 核 CPU,具有线速可编程性,可通过软件升级实现未来的网络协议
  • 具有 LAN 串行支持的 BMC 模块
  • 支持前后气流的热/冷通道
  • 2 RU 尺寸
  • 热插拔、负载共享、冗余 3200W AC PSU。
  • 3+1 热插拔风扇
  • 预装开放网络安装环境 (ONIE) 的硬件交换机
  • 使用 Asterfusion Enterprise SONiC Distribution (AsterNOS) 进行硬件交换机预加载

Asterfusion 企业版 SONiC- AsterNOS

想象一下这样一个世界:网络基础设施不再是障碍,而是一条高速公路。这就是 Asterfusion 正在构建的世界,一次构建一个网络交换机。当其他白盒供应商让您自己拼凑解决方案时,Asterfusion 会预安装其企业版 SONiC,为您提供一站式、交钥匙解决方案。

我们并非一夜之间就取得了这样的成就。自 2017 年以来,我们由 100 多名 SONiC 研发专家组成的专业团队一直专注于一项使命:打造世界上最好的SONiC 企业网络操作系统(NOS)。最终成果是 AsterNOS,这是一款强大的操作系统,专为我们自己的一系列校园和数据中心交换机量身定制,从 1G 一直到 800G。

但兼容性是关键。这就是 AsterNOS 能与所有主流行业芯片完美兼容的原因。我们谈论的不仅仅是最低限度的兼容性——我们的商业 NOS 在功能开发和坚如磐石的稳定性方面都胜过社区版本。此外,我们的顶级支持团队随时准备介入并保持您的网络正常运行。

实践才是真理。在过去的 7 年里,Asterfusion 的 SONiC 企业解决方案在公共云、电信运营商、大型互联网公司、私有云和企业网络的战壕中经过了实战考验。我们已经学到了一些如何让现代网络以光速运行的知识。

软件亮点

  • 预装的AsterNOS是SONiC的企业版,以SAI为内核
  • 集成丰富的L2/L3网络特性,完整支持网络虚拟化、QoS策略等服务
  • 先进的功能容器化和事件驱动的系统架构,加速网络服务开发/定制
  • 提供开放的REST API接口,可供云管理平台等第三方应用集中管理和调用
  • 为传统网络工程师提供KLISH命令行

说到现代 AIDC,AsterNOS 是从头开始构建的,旨在处理未来苛刻的工作负载,例如生成式 AI。我们的精简设计简化了最强大的以太网基础设施的管理和监控,因此您可以专注于最重要的事情 – 为您的用户提供令人难以置信的体验。借助自适应路由和 RoCE 拥塞控制,Asterfusion SONiC 可以像精心调校的管弦乐队一样优化流量,确保您的工作负载发挥最佳性能。

超低延迟网络

  • 无与伦比的速度:采用 Marvell Teralynx10 芯片,这是世界上最快的交换机,800GE 端口的端口到端口延迟低于 560ns。非常适合对延迟敏感的应用程序,例如 AI/ML、HPC 和 NVME。
  • 增强性能:RDMA 支持直接内存访问,将延迟性能提高到微秒级。

无损网络

  • 零数据包丢失:ROCEv2 可确保微秒级低延迟、高吞吐量和接近零数据包丢失,开启人工智能驱动的网络性能和可靠性时代。
  • 高级拥塞控制:受益于丰富的 QoS 功能,包括 ECN、PFC、DCBX、QCN、DCQCN 和 DCTCP,适用于大规模 RDMA 部署。
  • 智能网络遥测 (INT):监控数据包延迟、丢失和路径遍历,以实现高级拥塞控制算法。

高可靠网络

  • 强大的负载平衡和冗余:最多 8192 条等价多路径 (ECMP) 路由。
  • 无缝连接:BGP 多宿主,用于多个服务器连接,具有自动负载平衡和故障转移功能。
  • 主动/主动多路径:多机箱链路聚合组 (MC-LAG),实现卓越的 L2 多路径。
  • 快速故障转移:仅需 50 毫秒即可实现 BGP 和 OSPF 的 BFD。

时间敏感网络

  • 精确同步:实现 10ns PTP 和 SyncE 性能,这对于同步 AI 并行计算至关重要。
  • 自动化运维网络
  • 操作轻松:与Python和Ansible集成,支持自动化操作和维护。
  • 零接触配置 (ZTP):自动获取和加载部署文件,简化设备设置。

开放网络

  • 开放企业 SONiC 分发:AsterNOS 提供最佳的 SAI 支持,确保强大而可靠的性能。
  • 面向未来:线速可编程,支持不断发展的 UEC(超级以太网联盟)标准。

Asterfusion 800G AI网络解决方案

采用 NVIDIA DGX SuperPOD 的 RoCEv2 AI 解决方案

RoCEv2 AI Solution with NVIDIA DGX SuperPOD

通过 Asterfusion 800G 超级以太网交换机体验网络的未来——速度与可靠性和创新相结合。

参考:https://ethernettechnologyconsortium.org/wp-content/uploads/2021/10/Ethernet-Technology-Consortium_800G-Specification_r1.1.pdf

返回资源中心

最新动态

开源网络监控工具Prometheus,有哪些优势?


更多相关内容


网络监控是网络管理的重要组成部分,定期网络监控可以预防故障、优化性能、规划容量,确保网络的可用性、安全性等。相比较普通的监控工具,开源网络监控工具拥有可定制性、灵活性、可扩展性等优势,受到国内外众多企业的追捧,有哪些好用的开源网络监控工具,该如何选择呢?

一、盘点好用的开源网络监控工具

1、开源网络监控工具盘点

工具描述主要特点
Cacti一种图形解决方案,可与 RRDTool 一起收集 LAN 中的性能数据。–简单的网络管理协议(SNMP)支持
–绘制交通数据图表
–易于设置的模板
–用于数据存储的MySQL数据库
Nagios Core一种流行的监控工具,具有可扩展性和易用性的界面。– 自动发现设备
– 复杂的性能图
– 通过附加组件进行定制
– PHP Web 界面 (Nagios V-Shell)
– RESTful API
Icinga 2一个灵活的工具,建立在Nagios Core之上,提供可定制的仪表板和出色的可视化功能。– 用于自定义配置的RESTful API
– 实时性能数据监控
– 对 Graphite 和 InfluxDB的原生支持
– 通过电子邮件或文本发出警报和通知
Zabbix涵盖网络、服务器、云、应用、业务监控的综合监控工具。– 网络带宽使用情况跟踪
– 网络运行状况和配置更改监控
– SNMP、IPMI 和 IPv6 支持
– 用于轻松发现设备的模板
– 警报和通知
– 支持广泛的平台
Prometheus一种用于监控时间序列数据的流行工具,拥有大量社区追随者。– 时间序列数据监控
– 用于事件通知的警报管理器
– 与各种数据源(Docker、StatsD、JMX)集成
– 用于可视化的 Grafana 集成

2、对比展现Prometheus优势

作为发行时间最晚(Prometheus发行于2016年)的开源网络监控工具,Prometheus有哪些优势呢?以传统的Zabbix为例,一起来对比吧!

 ZabbixPrometheus
监控规模集群规模上限为10000个节点支持更大的集群规模
监控对象物理机环境云环境
存储关系型数据库时间序列的数据库
服务发现PushPull/Push
配置配置复杂一个核心Server组件,配置简单
社区活跃度国内比较活跃,社区活跃度相对较低开源社区非常活跃CNCF支持

二、Prometheus 是做什么的?

Prometheus 是一款免费软件,可帮助监控和发送有关计算机系统的警报,2012年已经产生并一直存在,并在公司和组织中变得非常流行。许多开发人员和用户积极为它做出贡献。它不属于任何特定公司,由共同工作的社区管理。2016 年,Prometheus 成为云原生计算基金会的一部分。

《Prometheus》-配图-01

《Prometheus》-配图-02

核心组件:

  • Prometheus Server
  • Exporter
  • Alertmanager
  • Pushgateway
  • Service discovery

Prometheus Server是Prometheus组件中的核心部分,负责实现对监控数据的获取,存储以及查询。

1、工作流程

  1. Exporter将监控数据采集的端点通过HTTP服务的形式暴露给Prometheus Server;
  2. 在Prometheus Server中支持基于PromQL创建告警规则,如果满足PromQL定义的规则,则会产生一条告警,而告警的后续处理流程则由AlertManager进行管理;
  3. Prometheus Server与Push网络需求无法直接满足时,就可以利用PushGateway来进行中转;
  4. Service discovery:监控系统而言就意味着没有了一个固定的监控目标,所有的监控对象(基础设施、应用、服务)都在动态的变化。

2、Exporter

定义:广义上来讲,任何向Prometheus提供监控样本数据的程序都可以被称为一个Exporter,Exporter的一个实例称为Target。

《Prometheus》-配图-03

若要从Target (host or service)收集监视数据,首先必须在要收集的Target上安装收集组件,称为Exporter,他们的官网(http://prometheus.io)上有很多Exporter:

– Consul exporter (official)
– Memcached exporter (official)
– MySQL server exporter (official)
– Node/system metrics exporter (official)
– HAProxy exporter (official)
– RabbitMQ exporter
– Grok exporter
– InfluxDB exporter (official)

可根据所监控的对象选取特定的Exporter:

范围Exporter
数据库MySQL exporter, Redis exporter, MongoDB exporter, MSSQL exporter等
硬件Apcupsd exporter, IoT Edison exporter, IPMI exporter, Node exporter等
消息队列Beanstalkd exporter, Kafka exporter, NSQ exporter, RabbitMQ exporter等
存储Ceph exporter, Gluster exporter, HDFS exporter, RabbitMQ exporter等
HTTP服务Apache exporter, HAProxy exporter, ScaleIO exporter等
API服务AWS ECS exporter, Docker Cloud exporter, Docker Hub exporter, GitHub exporter等
日志Fluentd exporter, Grok exporter等
监控系统Collected exporter, Graphite exporter, InfluxDB exporter, Nagios exporter, SNMP exporter等
其他Blockbox exporter, JIRA exporter, Jenkins exporter, Confluence exporter等

工作方式:

– 注册指标:exporter需要定义要导出的指标及其相关信息
– 数据收集:exporter定期从系统或应用程序中收集指标数据
– 指标转换:exporter将收集到的指标数据转换为Prometheus的指标类型
– 暴露指标:exporter提供一个HTTP接口,通过该接口将转换后的指标暴露给Prometheus

《Prometheus》-配图-04

3、告警产生以及推送

《Prometheus》-配图-05

  • Prometheus会周期性的对告警规则进行计算,如果满足告警触发条件就会向Alertmanager发送告警信息
  • Alertmanager根据配置推送给对接的平台,支持对接多种平台告警推送

流程:

  1. 告警路由:会根据事先定义的路由配置对告警进行路由。路由配置规定了如何处理不同的告警,包括将告警发送到不同的接收者(如电子邮件、PagerDuty、Slack等)、进行静默处理或者进行其他操作。
  2. 告警抑制:Alertmanager会对接收到的告警进行去重处理,以避免重复通知。
  3. 告警分组:Alertmanager会将具有相同标签或属性的告警进行分组,以便进行更有效的通知和处理。这样可以避免发送大量重复的告警通知,提供更清晰的告警视图。

三、示例:将Prometheus与AsterNOS结合

1、为什么使用Prometheus监控AsterNOS

《Prometheus》-配图-06

2、效果展示

以星融元CX-M园区网络为例,使用Prometheus + SNMP + Grafana组合方案进行监控,能够采集系统运行数据,实现网络数据可视化以及网络架构拓扑展示。

园区方案

《Prometheus》-配图-07

在AsterNOS设备上部署Node exporter,以HTTP接口的形式暴露AsterNOS的系统运行数据,Prometheus将主动Pull数据。Prometheus获取到数据后一方面用于评估告警规则——若产生告警将由Alertmanager推送给所对接的服务;另一方面落地到Prometheus服务器本地存储中。Grafana可以利用Prometheus所存储的监控数据来进行可视化展示。

《Prometheus》-配图-08

以Node exporter所采集的数据作为来源展示

《Prometheus》-配图-10

《Prometheus》-配图-09

返回资源中心

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2