开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

站点精选

2022-04-25

关注星融元

站点精选

云网络的回归之路-高性能篇(上)

2022-04-25

“ 在高性能的Asterfusion云网络中,全面开放的设计理念与整体架构确保它与云计算环境的无缝融合。”

云计算给传统网络带来的挑战

云计算从2000年中首次出现,至今如火如荼大行其道,它成为当今世界发展最快、影响面最大的IT基础设施支撑技术之一,而数据中心(也就是云计算的载体),这些年来也一直保持着强劲增长和快速演变的趋势。

云计算数据中心的新兴发展趋势

图1:云计算数据中心的新兴发展趋势

这些新兴的发展趋势包括:

  • 云中虚拟计算节点的飞速增长

虚拟计算节点指在物理服务器上通过使用虚拟化技术提供的具备独立计算能力的虚拟机(VM,Virtual Machine)、容器(Container)和虚拟桌面(VD,Virtual Desktop)。

在2000年,即云计算的早期阶段,每台物理服务器能够支持的虚拟计算节点的数量仅仅限于十几个;当云计算发展到了今天,随着物理服务器性能的不断提升与虚拟化技术的越来越轻量化,单台物理服务器能够支持1000个容器已经成为现实。

  • 云中租户数量越来越多

随着云计算技术的逐渐普及,越来越多的传统IT用户深切体会到其弹性扩展、按需使用、快速部署等便捷之处;云平台在稳定性越来越高的同时性能也不断提升,针对大规模云的运维能力的也在持续增强,这些都使得公有云能够为越来越多的租户提供虚拟私有云服务。

在今天世界知名的公有云上,同时运行着100,000+租户的10,000,000+虚拟计算节点的案例并不少见。

  • 云中部署的关键业务越来越多

在云计算的早期阶段,只有那些对性能和可靠性要求并不严苛的应用(如Email、文件传输、网站等)被迁移到云端;

得益于云计算自身的飞速发展,如今,越来越多的关键业务已经被迁移到云端(如高频交易系统、大数据分析系统、人工智能训练系统、区块链平台等)。

如何基于无差别构建的云平台为关键业务和普通业务提供差异化的服务将成为未来云运营的主要关注点之一。

  • 云中基础设施的融合

CloudOS负责在云中统一、垂直管理所有的基础设施资源(计算、网络和存储),而自动化部署业务、资源动态调配等需求的提出与实现,都要求云中的基础设施资源不再以彼此分离的方式存在,而是在管理层面被整合为“融合基础设施”。这就要求部署在云中的设备要通过DevOps、RESTful API等方式主动将自身纳入到CloudOS的统一管理中。

遗憾的是,在云计算如火如荼发展的今天,作为云计算三大支撑基础设施之一的网络却未能跟上云计算整体的发展步伐,从而使传统网络需要面对来自云计算的各种挑战…

  • 大规模、多租户虚拟网络的共存与隔离
    在同一张云上,往往同时承载了大量的租户,每个租户都需要有属于自己的多个网络来支撑部署云中的业务,因此,传统网络要有能力将自身虚拟化成多个属于不同租户、彼此之间又完全隔离的网络。这样的网络虚拟化对于租户的业务来说是完全透明的,业务并不需感知自身是运行在虚拟网络之上的。
  • 虚拟计算节点的爆炸性增长
    传统的网络面对的是由数量较少的物理服务器和物理存储设备构成的计算世界和存储世界,因此也按照这样的模型架构自身的系统,但是在云中,这一模型被彻底颠覆,网络面临的外部世界从单台服务器、单个存储节点爆炸性地增长为成千上万的虚拟计算节点和软件定义存储节点,数量增长了2-3个量级。
  • 虚拟计算节点的频繁动态迁移
    云计算为业务系统提供了对计算资源的按需申请、动态调配,这就意味着虚拟计算节点在云中的物理位置需要随时进行动态迁移,而这一迁移在逻辑上又必须保持静态不变(即无论如何迁移,该计算节点在逻辑上仍处于同一个虚拟网络),这就要求网络必须感知服务器内部虚拟计算节点的生命周期(创建、迁移、删除等)。
  • 虚拟化云网络的自动化部署与运维
    同一张云承载了大量租户的海量业务,同时运行的这些业务频繁发生的变化也要求底层支撑网络随时应需而变、动态调整,所有的这些变化和调整都要通过云操作系统的统一控制和管理而实现。传统网络提供的以命令行、SNMP网管为核心的部署运维工具根本无法满足云中网络自动、快速调整的需求。
  • 虚拟网络功能网关的分布式部署
    除了基础的交换机以外,网络中存在各种功能网关(NFGW,Network Functionality Gateway)设备,这些NFGW与交换机等一同构成网络为上层业务提供服务。在传统网络中,所有的NFGW一般以独立设备、集中部署的资源池形式存在。同样的模型部署到云中,将会导致大量无谓的东西向流量,致使整体效率大幅降低。

传统网络游离于云计算整体架构之外

图2:传统网络游离于云计算整体架构之外

“那么,在这样的限制之下,今天的云计算是如何使用传统网络?又是如何面向租户构建虚拟网络的呢?”

运行在计算空间中的“软件模拟虚拟网络”

为了规避上述问题带来的限制,今天的云计算运营者采用了“在计算空间中用软件模拟虚拟网络”的思路:

运行在计算空间中的软件模拟虚拟网络

图3:运行在计算空间中的软件模拟虚拟网络

在之前的文章,我们提到过,“软件模拟虚拟网络”虽然解决了传统网络无法解决的问题,满足了云计算运营者对网络的需求,但也有着显而易见的缺点,下面来展开说说这些缺点吧:

  • 侵占服务器计算力
    软件模拟虚拟网络的所有虚拟网元完全运行在服务器的CPU上,大量的CPU计算力被用于运行虚拟网络,无法用于创建承载业务的虚拟计算节点,致使服务器CPU计算力使用效率低下。
    相反地,承载云的底层物理网络却处于非常轻载的运行状态,使用效率也非常低。随着摩尔定律逼近天花板效应,这样的效率低下将愈演愈烈。
  • 虚拟网络性能受限
    网络已经进入100G时代,而服务器内部的网卡与CPU之间的通道(一般是PCIe)却仍然停留在G比特时代,成为无法逾越的瓶颈。
    相对于处理计算任务,x86架构的通用CPU处理网络流量有着天然的性能劣势,而热点业务在云中是一种常态,海量报文在瞬间涌向集中的热点,致使这样的性能劣势被进一步放大。
  • 网络使用效率低下
    在IT时代已经发展进化了很长时间的、基于高性能交换硬件、面向网络流量转发处理而设计的网络,在云中只被用于最简单的承载通道,所有网络的高级特性和性能均无法使用。
    一方面是服务器中CPU计算力的捉襟见肘和使用效率低下,另一方面却是底层网络的基本闲置和低效使用。
  • 端到端QoS能力缺失
    底层网络一般具备很强的业务质量保证(QoS,Quality of Service)能力,能够在高性能的硬件平台上为重要业务提供质量保障的传送通道。而软件模拟虚拟网络则不同,其软件模拟的属性往往使其不具备类似的能力;而且,因为软件模拟虚拟网络在底层网络上以隧道形式传送,致使上层业务无法利用底层网络的QoS能力。
  • 维复杂度高
    云计算的管理员在运维软件模拟虚拟网络时,面向的是运行在云中每一台物理服务器上的各种虚拟网络节点,其数量往往比云中的底层网络节点高出两个数量级。面向如此之多的虚拟网络节点的运维复杂度和效率是无法忽视的问题,而这个问题现在仅仅是被DevOps和软件自动调度等工具暂时掩盖了起来而已。

综上所述,
传统的底层网络因其自身不开放等原因不被云计算所接受,而在物理服务器的世界中用软件模拟出来的虚拟网络又面临着以上诸多问题。

未来的云网络将何去何从?

全面创新的高性能网络方案

基于对云网络需求的深刻理解和对构建软硬件一体化系统核心技术的全面掌握,星融元Asterfusion为云计算数据中心设计了新一代的云网络解决方案。

在高性能的星融元Asterfusion云网络中,全面开放的设计理念与整体架构确保其与云计算环境的无缝融合,云中租户的虚拟网络和分布式网络功能网关被从计算空间中卸载出来,直接承载在可编程和高性能的Asterfusion硬件平台之上,独创的专利算法PICFA™通过整合一个交换网络中所有硬件系统的交换能力,来为云中多租户和多业务提供一个容量为千万量级虚拟计算节点的超大规模分布式虚拟交换系统,同时,星融元Asterfusion能够自动感知虚拟计算世界的变化,相应的自动调整虚拟网络以及各种适配策略,并且为不同的租户、不同的业务提供不同的QoS保障。

那么,星融元Asterfusion高性能都体现在哪些方面?能带给我们怎样的惊喜呢?


无缝融入到云中的Asterfusion全开放云网络

基于对客户需求、云、网络产业现状及未来发展趋势的深刻理解,和所掌握的软件、硬件核心技术,星融元Asterfusion为云计算环境提供全开放的云网络解决方案。解决了传统云网络在开放性方面所面临的各种挑战,无缝地将云网络彻底融入到云中,使网络与计算、存储一起成为真正意义上的“云基础设施”。

星融元帮助云网络真正融入云计算

图4:Asterfusion帮助云网络真正融入云计算

高性能、可编程的Asterfusion硬件平台

基于业界最领先的可编程交换技术与芯片,星融Asterfusion打造了超高性能的可编程硬件平台作为其全线产品的载体;基于这个载体,为云计算交付“不妥协性能的灵活性”的云网络解决方案。

高性能、可编程的星融元硬件平台

图5:高性能、可编程的Asterfusion硬件平台

与传统交换芯片将报文处理和转发逻辑固化在芯片硬件中不同,可编程交换芯片是能够通过软件来按需调整的。
在以可编程交换芯片为核心的交换系统中,业务与控制软件不再受限于底层芯片的能力,可以根据业务的需求进行开发与定制;通过为不同的需求、不同的场景定制不同的报文处理和转发逻辑,芯片的各条流水线能够协同工作,在不损失系统整体性能前提下,将这些需求在芯片的报文转发层面实现。

传统交换芯片与可编程交换芯片

图6:传统交换芯片与可编程交换芯片

可编程交换芯片不仅是一次交换芯片硬件技术的发展,更是SDN理念在支撑网络的硬件芯片层面的一次伟大实践;
可编程交换芯片让网络在保持高性能的前提下,前所未有地拥抱了软件定义这一未来发展趋势。

在星融元Asterfusion云网络中,根据交换机在网络中所处位置与所承担角色的不同,运行在交换机转发芯片内部的软件被有针对性地进行了转发与处理逻辑上的优化,从而使得星融Asterfusion云网络以更好的性能和能力为各种上层业务提供支持。

根据不同的场景动态优化资源分配与转发逻辑

图7:根据不同的场景动态优化资源分配与转发逻辑

如图7所示,同样的Asterfusion CX硬件平台能够被按照其在底层网络中的不同角色进行资源划分与转发逻辑的优化。这些不同的角色包括:

  • Spine交换机(图7中的❶):主要承载云中所有Leaf交换机之间的所有流量,这个角色的主要优化方向在于在尽可能多地将系统资源划分给FIB表的同时,要具备大容量的多租户区隔能力,即要支持创建和维护相当数量的BD(Bridge Domain)和VRF(Virtual Route Forwarding)。
  • 服务器ToR交换机(图7中的❷):主要承载云中虚拟计算节点之间的东西向流量,完成各种内部业务/应用的高速、大容量交换,这个角色的主要优化方向是尽可能多地将系统资源划分给FIB表,以承载尽可能多的二层MAC转发表项和三层主机转发表项。
  • 网关ToR交换机(图7中的❸):主要承载云中提供对外业务的虚拟计算节点与外部世界(互联网或企业内联网)之间的南北向流量,是云中业务对外提供服务的转发通道,这个角色的主要优化方向是尽可能多地将资源划分给三层路由表,同时要支持诸如负载均衡、地址转换一类的各种网络功能。

运行在高性能硬件平台上的云网络

在星融元Asterfusion云网络中,曾经运行在物理服务器内部、计算空间中的虚拟网络回归到底层的高性能网络硬件平台之上,帮助服务器将大量的CPU计算力从“软件模拟虚拟网络”的重负中释放出来,更高效地为计算服务。

运行在高性能硬件平台上的星融元云网络

图8:运行在高性能硬件平台上的Asterfusion云网络

在星融元Asterfusion云网络中,云计算面对的是同样开放、将自身彻底融入到“云计算基础设施”中的网络,而非传统网络那样游离于云之外、封闭的体系又与架构、独立不互通、手工配置管理的局面。

星融元Asterfusion云网络的开放性确保了云管理平台对网络基础设施(虚拟网络和底层网络)的统一、自动管理,为租户对虚拟网络的操作提供了与虚拟计算、虚拟存储同样的体验:点击两下鼠标即可,其余所有的事情,包括跨越不同设备、机架、数据中心、甚至是可用区域的对网络的配置,全部由云管理平台通过软件调用星融元Asterfusion云网络的REST API自动完成。

虚拟网络直接承载着云中不同租户的不同业务,而不同的业务对虚拟网络的需求又由该业务自身的特性决定。

那么,如何在一张无差别构建的底层网络上构建出具备不同能力的虚拟网络以适应不同的上层业务需求,就成为了云网络的不得不面对的难题。


星融元Asterfusion高性能硬件平台的可编程性完美地解决了这一难题。

在星融元Asterfusion云网络中,所有虚拟网络的处理逻辑完全可以根据业务需求来优化、定制甚至重构,网络功能的灵活性从此不再被蚀刻在ASIC中固化的处理逻辑所禁锢,让云网络世界再度焕发出前进与创新的光芒。

性能与灵活性从来都是一对同时出现的矛与盾。

随着ASIC交换芯片的能力越来越强,网络的性能自然而然地被大幅提升,二十年前的网络工程师根本无法想象今天的网络能够在1U的空间内交付3.2Tbps甚至6.4Tbps的交换能力;

遗憾的是,越来越高的性能背后隐藏的潜台词则是网络承载业务的灵活性在不断丧失。

可编程交换芯片的出现完美的解决了这一难题。可编程交换芯片同时兼具了传统ASIC的超高性能和基于软件编程的业务灵活性,使得“通过软件灵活定义业务逻辑+通过高速芯片转发业务流量”成为可能。

星融元Asterfusion基于对网络各种业务和云计算需求的深入理解,基于可编程硬件平台构建云网络,为云计算交付具备“不妥协性能的灵活性”的星融Asterfusion云网络。

PICFA™从容应对千万量级的虚拟计算节点

今天,即便是对于一个可容纳5,000台物理服务器的中小规模的云数据中心,将其最低虚拟计算节点容量设计为5,000,000是一个最正常的需求。

但是,在当前的商业以太网交换芯片市场上,为1RU高的Leaf交换机设计的交换芯片的FIB表项空间的容量最常见的只有128K。

由此,5,000,000和128K的矛盾就尖锐地显现出来了;而造成这种矛盾的根本原因,就是底层网络依据传统架构、传统模型和传统理念所设计的集中式方案。

星融元Asterfusion全面创新地提出了PICFA™
(Protocol Infinity Cloud FabricArchitecture,协议无限云网架构)。

PICFA™采用独创的分布式路由算法和与之相配合的转发逻辑,完全重构了云网络的控制平面与数据平面,彻底抛弃了传统网络中低效的集中式存储结构与转发逻辑,将云网络对云中虚拟计算节点的容量支持一举提升100倍至千万量级,同时大幅提升转发性能,使网络不再成为云计算容量的限制因素,从而为云网络从计算空间向底层物理网络的迁移打下坚实的基础。

PICFA™从容应对千万量级的虚拟计算节点

图9:PICFA™从容应对千万量级的虚拟计算节点

在部署了PICFA™的星融元Asterfusion云网络中,所有租户的所有虚拟网络信息被动态、智能、均衡地分布在全网的所有Spine和Leaf交换机上,充分利用所有交换机的所有表项空间,由此,单台网络设备的FIB容量不再成为云的容量限制,虚拟机数量获得量级的提升,服务器计算力被充分利用!

相关阅读:对!这届GNTC唯一捧得双奖的黑马就是我们!

-未完待续-

相关文章

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2