网络性能的效率在确保人工智能应用程序有效运行方面起着至关重要的作用。这种效率决定了系统处理信息的速度,同时也影响着整体应用性能。
人工智能应用程序通常是数据密集型的,需要处理大量信息,因此需要在交换机、路由器和服务器等各种设备之间快速访问和快速传输。速度慢或延迟高的低效网络会干扰实时或接近实时的输入信号,从而缩短处理时间。应用程序的算法依赖于这些信号来识别对准确结果至关重要的特定模式。
当应用程序在网络基础设施上运行时,处理器通过处理器间传输与远程存储器交换信息。这种传输会大大减少延迟和带宽,最终限制应用程序的效率。中央处理器的处理速度与内存访问速度之间的差距越来越大,这给人工智能应用带来了被称为 “内存墙 “的挑战。
尽管 CPU 处理能力有了长足进步,但在提高内存访问速度方面的进展却相对缓慢。这一瓶颈限制了系统的整体性能。
人工智能内存墙问题与网络
在人工智能应用中,处理大型数据集是无可争议的必要条件。然而,这一过程却带来了潜在的绊脚石。由于带宽限制或此类系统特有的高延迟,在处理单元和内存系统等不同组件之间传输上述数据集的速度可能会很慢。
更复杂的是,现代计算机拥有独立的内存层,这些内存层在特定属性(如访问速度和容量)方面各不相同。在这些不同层级之间移动数据会导致内存墙问题,访问时间的增加会影响性能。
在缓存方面,有时会出现请求数据,但却无法在先前为快速检索而设计的缓存中找到数据的情况。这种故障会增加另一个导致瓶颈的问题,即缓存缺失。这种中断会导致严重的延迟,往往会造成系统整体性能的滞后。此外,如果多个处理单元或线程同时访问一个处理单元,就会出现资源争夺,导致效率降低。
不过,网络可以缓解这些问题。分布式系统可以通过将计算和数据分布到多个节点来使用网络资源。这种方法可以改善内存访问时间,减少内存墙问题对人工智能应用性能的影响。
在庞大的网络中,在不同节点间移动信息会产生过多的开销,而减少这些开销的一个有效方法就是采用包含远程直接内存访问(RDMA)的网络技术。
RDMA 实现了两个远程系统内存之间的直接数据传输,无需 CPU 参与。这一过程加快了数据传输,同时最大限度地减少了 CPU 的开销。就人工智能应用而言,RDMA 为优化内存访问开辟了途径,以最快的速度和最高的效率简化了网络各部分之间的通信。
例如,在分布式深度学习系统中,企业可以使用 RDMA 将数据从 GPU 调度到另一个 GPU 或异地存储设施,灵活性极高。RDMA 可以优化可用内存的使用,同时规避潜在的内存障碍,限制内存墙问题的影响。这种模式的转变对基于人工智能的应用具有重大影响,因为在人工智能应用中,无缝通信往往是性能平平与性能卓越的分水岭。
性能之外的网络需求
人工智能应用需要的不仅仅是令人印象深刻的网络性能。以下是网络可使人工智能应用受益的其他领域:
安全性
人工智能应用通常会处理敏感信息,如个人信息或金融交易。使用加密技术和身份验证控制等安全措施确保此类数据的保密性和完整性至关重要。
可扩展性
大规模分布式系统需要较高的可扩展性,因为它们是人工智能工具和快速响应时间的基础。使用软件定义网络等可快速扩展的技术,可确保人工智能应用根据需要无缝增长。
高速连接
大多数人工智能应用需要提供实时或接近实时的洞察和预测,因此保持高速连接至关重要。要正面解决这一问题,需要使用具有高可靠性和容错功能、冗余链路和故障转移机制的网络设计,以确保即使在出现问题时也能不间断地运行。
服务质量QoS
不同类型的信息可能需要不同程度的优先级。由于高优先级数据优先于其他数据,网络产品已发展到提供 QoS 功能。这些功能使应用能够在各种类型的数据流量之间分配网络带宽,并确保优先处理最关键的信息。
星融元AIGC承载网设计方案
超低TCO、超高性价比
相较于IB方案,大幅度降低用户的网络TCO,同时确保超高性能
横向平滑扩容、1:1收敛无阻塞
无收敛的网络设计确保无阻塞的大容量网络,按需横向扩展
整网RoCEv2
基于CEE/DCB能力,提供可与IB媲美的性能和同样无损的网络服务
开放网络操作系统
星融元网络操作系统AsterNOS,SONiC企业级发行版,支持灵活的功能扩展、在线升级
无缝对接云管
AsterNOS 利用简单易用的REST API,可轻松让第三方的云平台/控制器快速纳管
专家级服务
专业、全面、可靠的研发、方案与服务团队,为客户提供小时级的快速响应服务
详情可参考:客户案例:高性能、大规模、高可靠的AIGC承载网络
智能网卡和人工智能应用
智能网络接口控制器(SmartNIC)等专用外设可帮助有效部署人工智能应用。SmartNIC 的一个关键功能是能够将网络处理从主机 CPU 卸载到专用硬件加速器。这可以减少 CPU 负载,同时为运行人工智能应用释放更多资源。
智能网卡使用硬件加速器来执行加密、压缩和协议处理等任务。这种方法还能加快数据传输,从而减少延迟,提高网络吞吐速度,从而加快数据传输,缩短处理时间。
使用智能网卡还能更轻松地解决所有人工智能应用面临的内存墙问题。智能网卡改变了服务器系统处理网络基础设施需求的方式。智能网卡能够承担通常会加重主机 CPU 负担的某些任务,这意味着性能大幅提升,尤其是在数据分析等内存密集型操作中。
将数据包过滤和流量分类任务卸载到 SmartNIC 的专用硬件上,而不是依赖于服务器 CPU 的通用架构,可有效降低服务器 CPU 的使用率,并获得更好的整体效果。此外,许多 SmartNIC 型号都具有本地缓存功能,这意味着无需进行冗长的网络传输,也减少了等待关键信息的时间。
基于开源DPU资源池,破解边缘云算力扩展难题 – 星融元Asterfusion
与其他类型的应用相比,人工智能应用有其独特的要求,对网络基础设施的吞吐量、延迟、安全性、可靠性和可扩展性提出了很高的要求。因此,企业可能有必要调整当前的数据中心网络基础设施,以支持这些需求。