Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

标签: 中立科普

一文梳理新一代云化园区网络建设方案-架构篇(2023版)


关注星融元


从传统的园区网络架构说起

顾名思义,园区网络指的是部署在一个园区范围内的网络,这个网络被用来连接其所在园区内的所有固定终端(台式机、服务器、打印机等)、移动终端(笔记本电脑、平板电脑、智能手机、服务机器人等)和IoT终端(门禁、考勤机、摄像头、烟雾传感器等);园区网络需要支持所有这些终端之间的互联互通,还需要按需将其中的一部分终端接入到互联网。

一个典型的园区网络往往由有线网络和无线网络两部分构成,无线网络负责通过WiFi接入各种移动终端和具备无线接入能力的IoT终端,有线网络负责接入各种固定终端和只具备有线接入能力的IoT终端;当然,无线网络最终也需要接入到有线网络中去,从而完成所有终端之间的互联互通。

在现实世界中,园区的规模或大或小,小到可能是一个容纳三五人的办公室,大到可以是同时容纳上万人、覆盖若干个大楼、甚至分布在多个城市的集团型的办公园区;相应的,园区网络的规模也可大可小,小到只需要接入个位数的各种终端,大到需要同时接入几十万数量的各种终端。

我们的讨论从一个典型的基于传统架构的园区网络模型开始。

一个典型的基于传统架构的园区网络模型

图1:一个典型的基于传统架构的园区网络模型

在图1所示的模型中:

  • 一个三层网络连接着若干二层网络,不同的区域往往划归到不同的二层网络,所有终端连接到不同的二层网络;
  • 同一区域终端间的通信在本地二层网络内部完成,跨区域的终端间的通信由连接各个二层网络的三层网络完成;
  • 所采用的网络设备(自下而上)一般包括:盒式的二层接入交换机、中等规模的框式汇聚层交换机和中/大规模的框式核心层交换机;
  • 网络的扩展能力主要基于框式设备的纵向扩展能力;
  • 网络的运维主要依赖于人工运维。

什么是开放网络架构的云网络?

在云计算发展的起步期,云的网络架构是参考传统园区网络搭建起来的。但云计算工程师很快便发现,这样的架构并不能满足云计算的业务所需,于是广大云计算工程师开始对云网络进行持续的改进和优化。

在市场需求与科技进步的双驱动之下,云网络经历了二十年的蜕变和升华。时至今日,尽管云网络架构诞生于园区网架构,但其发展早已远超后者——无论是整体的网络架构还是在硬件设备、扩展能力、运维能力等维度,云网络相比起传统园区网络都有了长足进步。

一个主流的基于开放网络架构的云网络模型

图2:一个主流的基于开放网络架构的云网络模型

在图2所示的模型中:

  • 根据所连接服务器所处物理位置的不同,网络被分成了若干个POD,所有POD则通过一个更大的网络连接起来;
  • 与传统园区网络架构不同的是,任何一个POD内的网络、连接所有POD的网络都是三层网络,网络的总体规模从连接几十台到几十万台服务器不等,这个网络往往被称为Underlay Network;
  • 在同一个Underlay Network之上,管理员创建出不同的虚拟网络为云上的不同租户和不同业务提供连接服务,租户和业务并不感知Underlay Network的存在,只感知有一个(虚拟)网络为自己在服务,这个虚拟网络往往被称为Overlay Network;
  • 云网络的搭建一般不再采用或大或小的框式网络设备,而是根据需求选择不同规格、性能的盒式设备,从而避免单设备的复杂度给整体网络运营和运维带来更高的成本和难度;
  • 基于Clos架构,这些盒式网络设备可以组成从连接几十台服务器到几十万台服务器的不同规模的网络,并且网络规模可以按需横向扩展;
  • 云网络的运维往往通过云管平台、网络控制器等实现自动化运维。

经过这些年的发展,为了区别于传统的网络架构,业界往往采用“开放网络架构”这样的术语来指代云网络架构。

随之而来的问题就是:如果将开放网络的架构及其技术推广到更广泛的网络世界,譬如园区网络,将给这些“更广泛的网络世界”带来什么样的改变?这些改变将会带来什么样的好处?

开放网络架构与技术将从哪些方面改变园区网络?

接下来,从网络的规划、建设、运维三个维度,我们分别探讨开放网络架构与技术有可能带给园区网络的改变,以及这些改变能够带来的好处。为了便于论述,我们将“基于开放网络架构和技术的园区网络”简称为“云化园区网络”,一来便于与“传统园区网络”方案进行区别,二来便于描述其本质(即“沿袭自云网络架构的新一代园区网络架构”)。

1. 多级CLOS结构的网络

如下图所示,在采用了开放网络架构的云化园区网络中,全部采用CLOS结构的组网模型。

云化园区多级CLOS结构的网络

多级CLOS结构的网络

以一个园区为例:

  • 从楼层到整个园区,是个三级/四层的CLOS网络(Leaf-Spine结构的网络):
    • 在楼层范围内,接入层交换机作为Leaf(也可称为接入Leaf),楼层汇聚交换机作为Spine(也可称为楼层Spine),构成第一级的CLOS网络;
    • 在楼栋范围内,楼层汇聚交换机作为Leaf,楼栋汇聚交换机作为Spine(也可称为楼栋Spine),构成第二级的CLOS网络;
    • 在园区范围内,楼栋汇聚交换机作为Leaf,园区汇聚交换机作为Spine(也可称为园区Spine),构成第三级的CLOS网络;
  • 随着园区规模的从小到大,这个多级的CLOS网络能够从一级横向扩展至多级,使得网络能够接入的终端数量从几十个到几十万个不等,并且,扩展的过程中,原有的网络架构完全保持不变,新扩展的模块与原有模块架构完全一致,从而最大限度地降低了维护的复杂度;
  • 基于其横向扩展能力,这个多级CLOS网络完全采用盒式的单芯片交换机来搭建,彻底抛弃了传统网络架构中各种规模的框式设备,从而在最大限度上避免了框式网络硬件带来的高昂成本;
  • 在图中所示的三级CLOS网络中,任意两个终端之间的通信可保证在1跳(最优情况)到7跳(最坏情况)之内完成,并且因为路由结构的设计,所有的网络通信会充分利用所有的物理线路,因此网络通信质量是高性能、高可靠且可以预测的,从而在最大限度上确保了网络提供服务的质量。

2. 数据中心级的交换机设计

基于开放网络架构的云网络在过往十几年的发展过程中,在交换机设计方面逐渐形成了其独有的特点,我们将这些特点称之为数据中心级的交换机设计。

数据中心级的交换机设计

将这些特点运用于云化园区网络会极大地提升园区网络的架构先进性、整体性能和可持续发展性:

  • 开放的硬件架构:由控制系统、数据中心级交换芯片、监控系统、电源、风扇等标准化模块构成,设计理念不再追求传统厂商主导的大规模、复杂的框式结构,而是追求标准化、单芯片、简单的结构,并且通过Clos架构来提升网络的横向扩展能力和整体接入能力;
  • 数据中心级交换芯片:交换容量从2Tbps开始,依次向上增长到3.2Tbps、6.4Tbps、12.8Tbps、25.6Tbps,甚至51.2Tbps,基于这样容量芯片的单芯片、盒式交换机部署在园区网络的核心位置上足以承载大规模网络的流量;
  • 超高端口密度:无论是接入Leaf还是各级Spine交换机,均可以提供超高密度的端口,譬如,在1U的空间内,接入Leaf可以提供48个千兆PoE接入端口和6个25GE上行端口,楼层Spine可以提供48个25GE接入端口和8个100GE上行端口,楼栋Spine则可以采用具备32个或者64个100GE端口的交换机,对于超大规模的园区,则可以采用具备128个甚至256个100GE端口的交换机作为园区Spine;
  • 超高转发性能:所有数据中心级交换机均支持多流水线、全线速转发,从而保障云化园区网络支持零阻塞、无收敛的性能,这一点在今天大规模的园区网络中非常有价值,能够确保大量的访问数据中心的流量(业务系统访问等)和终端之间的P2P流量(音视频交流、文件传送等)无损的传送,提升园区网络用户的使用体验;
  • 丰富的端口类型:25GE、100GE接口已经数据中心普遍使用,400GE接口也正在规模部署阶段,这些高速接口能够将网络传送每比特的成本降低至传统方案的20%~50%,并且能够有效地在未来五到八年之内保护用户的投资,因此,在云化园区网络中广泛部署此类高速接口将大幅度降低园区网络的TCO,更值得一提的是,在接入Leaf上支持Multi-Giga接口(2.5Gbps/5Gbps)可以为即将规模部署的Wi-Fi 6提前做好物理接入带宽的准备。

3. 开放的网络操作系统

开放的网络操作系统是开放网络架构的灵魂,它使得网络管理员能够以SDN(Software Defined Network,软件定义网络)、IBN(Intention-Based Network,基于意图的网络)和NetDevOps的方式运维开放的网络。

开放的网络操作系统

开放的网络操作系统

上图以星融元的开放网络操作系统AsterNOS为例,描述了一个基于SONiC的网络操作系统在整个云网络中的位置、功能以及与周边系统、角色的关系。可以类比的是,当我们将同样的操作系统引入到云化园区网络后,网络管理员将能够:

  • 通过图形化界面将网络部署、变更的意图提交给网络控制器,即可自动化完成对所有网络设备的配置,即避免了繁琐的逐设备的命令行配置,又能够有效避免人工操作引入的人为错误,从而提升网络的整体健壮性;
  • 网络管理员无需再在每台网络设备上维护纷繁复杂的配置文件,而是好像维护代码一样在服务器上完成对网络配置文件的变更管理、版本管理、模拟上线运行等工作,并且网络启动时配置文件自动完成加载,无需管理员手工干预;
  • 将日常运维网络的各种软件工具,以容器化的形式运行到开放网络操作系统中去,既提升了网络运维效率,又节省了网络运维的成本(不再需要部署软件工具的物理服务器);
  • 将开源世界中的各种软件集成到现有的网络运维体系中去,并且将它们与网络操作系统紧密的融合在一起,创造出前所未有的网络运维方法;
  • 甚至,网络管理员能够通过调用开放网络操作系统提供的各类API,在各种基础网络功能之上编制出符合自身业务需求的“新”网络功能/设备来,从而真正让“应用定义网络”;
  • 更为重要的是,当园区网络与数据中心网络使用同一个网络操作系统时,将对网络运维带来运维效率提升、运维人员减少、设备备件统一等诸多便利之处。

4. 一网多用

在同一张云网络的物理网络(Underlay)之上可以为不同的租户创建不同的虚拟网络(Overlay),从而实现“一张网络为多个租户服务、并且彼此隔离”的目的。在云化园区网络上,亦是如此,可以为不同的业务、不同的用户群创建彼此隔离的“逻辑网络”。

一网多用

一网多用

在上图中,三种不同的业务(办公系统、业务系统和物联网)承载在同一张云化园区网络之上,云化园区网络提供了三张彼此隔离的逻辑网络为不同的业务服务,每种业务都认为自己被承载在一张专用的网络之上,无需感知其他逻辑网络的存在。

在云化园区网络之上创建这些彼此隔离的逻辑网络时,可以采用以下不同的方法:

  • 完全复制云网络基于VXLAN(Virtual eXtensible Local Area Network,虚拟扩展局域网)的隔离方案,适用于超大规模、网络空间复杂且重叠的园区网络,是一种比较重的方案;
  • 如果园区网络是扁平的地址空间,但是对路由隔离的要求比较严格,则可以利用VRF(Virtual Routing and Forwarding,虚拟路由与转发)的隔离性,将不同的逻辑网络隔离到多个不同的VRF中;相较于VXLAN方案,多VRF方案复杂度较低、开销较小;
  • 如果园区网络是扁平的地址空间,并且规模较小、对隔离的要求仅限于对不同业务之间互通的访问控制,则可采用IP子网规划和ACL(Accessing Control List,访问控制列表)的组合,即可达成目标;相较于前两种方案,该方案基本不会带来额外的复杂度、开销约等于零,是最轻量的隔离方案。
  • 因此,云化园区网络对多业务的支持采用的是“从大到小、越来越轻”的设计思路,可以支持接入从几十万终端到几十个终端不同规模的网络,并且采用越来越简单的逻辑隔离方案,降低部署与维护的复杂度。

下一篇我们将从园区网络的建设层面(路由、网关、广播风暴、园区网络安全、高可靠部署、园区漫游……)来继续探讨。

借鉴云数据中心网络的发展经验,星融元Asterfusion创新性地提出了新一代精简高效的云化园区网络架构。其中,型号丰富的CX-M系列主要作为接入或汇聚交换机,而高速率、高密度的CX-N系列作为汇聚和核心交换机。

云化园区组网架构图

相关文章

干货 | 浅谈负载均衡的实现方式


关注星融元


负载均衡技术的产生背景

随着数据中心规模和网络行业的高速发展,大型网站的规模体量和存储数据呈现指数级上升。如何处理来自这些海量用户,海量数据的存储和访问需求,给客户提供一个高可用的访问环境,成为了广大厂商必须去思考的问题。

比如我们熟悉的支付宝红包活动,每年都有上亿人次的参与,背后都需要访问后端的业务服务器。业务服务器面临保证访问质量的极大压力。再如微博服务器经常出现爆炸宕机,其实就是在负载均衡方面没有做好。

服务器的性能不够时,可以有两种解决思路:

  • 垂直扩展-提升单机性能,比如扩展CPU、内存和磁盘大小,但单机性能是有瓶颈的,而且会受到厂商的限制,达到一定阈值后需要付出很高的成本投资
    横向扩展-通过构建服务器集群去分担客户端的访问流量
  • 而在横向扩展的情况下,我们又迎来了另一个挑战:如何保证来自客户端的请求能够以可靠的方式去分发到我们每个服务器集群中的各个节点?这里便会涉及到所谓的“负载均衡“技术了。

什么是负载均衡技术?

为了解决高可靠、高并发以及海量数据的存储和访问,负载均衡它起到的核心作用就是把来自客户端的请求合理地分配给后端服务器上的某个节点。具体到原理上就是在负载均衡器上去执行某种算法,根据某种算法把客户端的请求去按照算法分配的结果去响应到实际服务器,再由服务器把相应数据返回给客户端。

无论是用专用硬件设备,还是目前更为流行的软件处理方式,负载均衡方案其实都是要建立一种一对多的映射机制,把一个请求给它映射到多个处理请求的节点。

负载均衡方案其实都是要建立一种一对多的映射机制

以下是典型的客户端请求的流量转发流程。首先从网站上发起一个请求会先到 DNS 服务器上进行域名解析。域名解析完成之后会进入公网,经由一些网络设备执行转发,最后走到服务器端的安全处理安全模块。做完安全之后,我们今天要讲的重点内容了——会进行 4 层负载,之后是 7 层的负载,最后转发给后端服务器集群中的某个节点。而且到了服务器集群之后,其实还有一系列负载均衡机制。

典型的客户端请求的流量转发流程

按通信层次划分:四层负载均衡和七层负载均衡

七层负载均衡:作用于应用层,负载均衡器提供一个虚拟IP,根据访问用户的HTTP请求头、URL信息将请求转发到特定的主机。主要通过反向代理实现。
四层负载均衡:作用于传输层,负载均衡器提供一个虚拟IP,基于IP地址和端口号进行请求的转发。主要依靠修改IP地址+端口号实现。

按实现载体划分:硬件方案和软件方案

硬件负载均衡:一般是在定制的处理器上运行的独立负载均衡服务器。硬件负载均衡方案一般都支持全局负载均衡,并提供全面的、复杂的负载均衡算法,功能强大;并且基于专用的处理器,吞吐量也能做到很高,可以支持单机百万以上的并发。此外硬件负载均衡往往具备防火墙、防DDOS等安全功能。

软件负载均衡:软件负载均衡也是目前主流的互联网厂商所选择的方式。这些厂商他的体量非常大,面对海量的用户端请求处理的负载均衡需求,如果都去采购专用硬件厂商的设备,成本就会非常高。另外,像京东、阿里这类自身有云业务的公司,他们也想做到云管平台的统一灵活管控,这是难以做到的。

从软件层面实现负载均衡,一般可以在任何标准物理设备上运行。软件负载均衡基于软件的方式能够实现非常低的成本和良好的扩展性。目前主要产品有Nginx、HAProxy、LVS等。

另一种思路:P4+DPU的可编程开放硬件平台(需配合用户自研负载均衡软件)

基于算网融合硬件平台可以实现面向大规模云计算环境中的负载均衡系统,并且使其既具备软件vLB的开放性、灵活性,又具备硬件vLB的高性能。
型号为X312P-48Y-T的设备图
相关链接:P4可编程硬件平台

  • 对比单纯的基于硬件实现的负载均衡:通过算网融合平台的可编程能力和开放性使得管理平面、控制平面和数据平面可以全部与云管平台对接起来,让这一开放负载均衡系统集群具备了“软件vLB”的开放、灵活、弹性。
  • 对比软件实现的负载均衡:算网融合平台将可编程交换芯片的“高性能快路径”和智能业务处理单元的“智能慢路径”相结合,大幅提升整体性能、降低整体成本,使得开放负载均衡系统集群能够具备“硬件vLB”的高性能和低成本。
  • 在实际的负载均衡场景中往往有着非常定制化的开发需求。为大大缩短开发者的开发周期,X-T系列可编程硬件平台可搭载AsterNOS-Framework,它提供了一站式的综合开发环境,是一款针对开放、可编程网络构建的底层操作系统,以轻量化的SONiC为内核,将三种异构硬件单元(x86/ARM/P4 Switch ASIC)融合成一个完整的网络系统。

相关文章

遗憾,Tofino芯片止步于此?无妨,网络可编程的故事仍将续写!


关注星融元


假期刚刚过去
爆竹的余响还未消散
小编的行业群里又炸开了锅!

坊间流传许久的消息终于实锤
Intel对外宣告:
将停止Tofino交换芯片后续开发工作
一时之间舆论四起……

英特尔Tofino智能网络处理器的信件

“Tofino交换机这就没啥搞头了???”
“市面上最流行的P4交换芯片停止开发……是不是意味着方兴未艾的P4可编程快要凉了?”

对此各位真的不必过于焦虑
首先,P4“凉凉”这事一定是你想多了
P4给网络可编程带来的革新价值有目共睹
尤其是边界网关场景下
P4交换机已经有了不少工业界落地实践

另外,英特尔停止Tofino系列的后续开发
不等于全线停产
已发布的产品仍在正常销售和维护中

我们知道 越到核心骨干位置
越需要更高的吞吐量
对于业务灵活性的要求越低
在边界和网关场景
需要实现更为复杂的网络互连
P4所带来的业务灵活性更为关键
Tofino上有数T的性能就绰绰有余了
甚至没有必要用到TF3那样过大的带宽

Tofino的三代芯片规格

更何况——
开放网络的关键软件技术 诸如P4和SAI
并不依赖于具体的某款芯片
最终用户也无需关注底层芯片相关技术

因为一家优秀的开放网络设备商
有能力通过软件定义网络(SDN)技术
屏蔽不同芯片的差异
基于市面上现有的多种可编程芯片能力
为不同的场景构建最合适的产品和解决方案


作为开放网络的先行者
星融元已经在网络可编程领域积累了
成熟的软硬件产品和服务支持能力

我们以领先的开放网络软件技术
结合自研算网融合硬件平台
构建了可编程芯片+DPU的开放网络解决方案

P4可编程硬件平台产品开箱图

星融元X-T可编程硬件平台

P4 ASIC大规格芯片表项资源、多核ARM64 DPU智能处理模块

结合可编程ASIC提供的大表项资源和线速转发能力,以及可扩展的DPU业务处理模块(高性能处理器+大容量内存),该平台可灵活应对多场景下的网络业务功能需求,缩短定制化开发周期。

  • 数据中心互联的云边界网关
  • 分布式的带内网络遥测(INT)
  • NFV网关(如大容量的负载均衡/NAT等)
  • 大路由表项交换
  • 网络可视化(NPB)
  • ……

网络可视化举例:新一代网络可视化前端架构

基于可编程ASIC执行数据匹配、报文截短/修改等基本功能,灵活性和线速转发性能兼备;基于DPU模块来执行应用层协议匹配、特征码匹配、报文去重、SSL解密、头部输出等高级业务处理功能。

星融元网络可视化解决方案

星融元网络可视化解决方案

市场风云变幻
拥有过硬的技术支持和产品交付能力的公司
永远值得期待!

相关文章

开源网络操作系统“SONiC”,今年因何备受期待?


关注星融元


2023年,对于开源网络操作系统 SONiC 来说可能是非常重要的一年,SONiC不光得到了来自全球范围内许多颇具实力的初创公司的企业级支持,业界主流网络设备厂商对它的兴趣也越来越大。

SONiC最初由微软开发并开源,微软在去年的 4 月份将该项目移交给了Linux 基金会及其 450,000 名开发人员。同时,支持 SONiC 的供应商名单也在不断壮大,例如包括DELL、Arista、诺基亚、阿里巴巴、Marvell、Nvidia-Mellanox 和 VMware等等知名厂商,以星融元Asterfusion为代表的初创型企业里也迎来新的成员如Hedgehog、Aviz。

随着越来越多的企业将工作负载和应用程序跨越不同的云环境,网络支持团队在体验到云的操作后也开始尝试在本地基础设施中采用类似云的工作流和接口。我们可以预见,SONiC即将迎来更为广阔的市场空间。650 Group 的分析师 Alan Weckel 表示,“SONiC的采用将在未来几年内大大超过整个市场的增长速度”,该公司预测,到 2026 年全球 SONiC 收入将超过 50 亿美元。

01 数据中心网络场景,SONiC热度不减

当前我们可以确定的一点是,数据中心网络设备的“白盒化”趋势仍将持续。

CIMI Corp. 总裁Tom Nolle 认为,数据中心交换可能是未来开放网络模型或白盒网络元素的热点,因为“数据中心需要开放式交换架构来支持多厂商交换芯片”,并且业界已经有了一些方案,这包括 SONiC 以及P4可编程。其中,基于 Linux 的云中开放网络软件(SONiC)便是将网络软件与底层硬件分离,使其可以在来自多个供应商的数百个交换机和 ASIC 上运行,同时支持全套网络功能。

与此同时,网络也将继续扩展并增加其复杂性,这推动着运维支持团队不断延展其能力边界。SONiC的云原生特性非常有利于云中各类网络自动化工具的部署,并帮助实现对 NetDevOps 的AI支持 ,由此运维团队可以快速发现并解决网络问题,缩短排障时间,从而降低运营成本并缓解目前面临的人员短缺问题。

02 新的转变,对SONiC的支持和创新从云覆盖至大型企业

Dell’Oro 预测,到 2026 年,部署在企业网络中的交换机中会有将近 10% 运行 SONiC。

650 Group 的分析师 Alan Weckel 举例了两种 SONiC方案的实现路径,其中第一种是企业将 SONiC 与 Arista等品牌提供的硬件结合使用,尝试SONiC并从中受益,因为“SONiC 中有很多云的自动化部分,企业可以使用它们来补充现有供应商的短板”。第二种则更像是纯粹的 SONiC,它直接被安装在白盒交换机上,这一路径可被视为完全替代品牌供应商的基础设施。

当前全球已有不少初创型企业瞄准了高端大型企业,旨在解决将 SONiC 应用到生产环境中所必须应对的挑战,这其中就包括大部分客户所缺乏的自研 NOS的技术能力。Dell’Oro Group 园区和数据中心交换机以太网副总裁 Sameh Boujelbene 表示, “我们目睹了很多实际运营者为解决这类可支持性问题所做的多次尝试。然而,生态系统真正需要的是一个中立的实体来填补这一支持缺口。”

无论是哪种实现路径,随着SONiC方案逐步扩展到企业园区网络市场,对NOS的商业支持和创新能力都将成为这一赛道的竞争要素。

03 全面拥抱SONiC,星融元推出多场景下的开放网络解决方案

相较于上述提到的两种实现模式,星融元更像是“第三种”——相比第二种纯粹的“开源SONiC+白盒”,我们在自研白盒硬件的基础上提供了企业发行版的SONiC,为客户提供“软硬芯一体”的开放网络解决方案。

作为国内第一批SONiC社区成员,星融元围绕开放网络技术进行了长期、持续的投入,并结合各种典型应用场景做了足够的测试验证和缺陷修复,所提供的SONiC企业级发行版AsterNOS目前已可稳定兼容几乎所有主流商业交换芯片,构建的一系列有特色的硬件平台能够实现从数据中心到云化园区的跨场景使用。

截至2022年底,AsterNOS已针对社区原生版本的缺陷和不足完成了大量开发工作,并切实提升了软件的可靠性和易用性,这其中就包含了VXLAN、ARP Host Routing、BGP EVPN、VLAG、Monitor-link、STP/MSTP等网络功能补充和增强,以及对思科风格的CLI的支持。

为了更加充分地发挥开源开放的力量,AsterNOS还在SONiC云原生的架构之上提供了强大的SDK能力——用户可通过丰富的API(Rest API和系统级API)在网络设备上简单快速地开发第三方APP,以及与各种开源运维工具/平台无缝集成。

星融元AsterNOS的能力图

结合可编程交换芯片和其他创新的开放式白盒化硬件架构,我们可以很方便地扩展出丰富的应用场景,为客户构建出以业务为中心的新一代网络。从云数据中心内部到园区接入层,如果您在传统网络设备/方案使用过程中有感受到那么一些“束缚”和“不便”,不妨尝试一下我们所提供的更为开放灵活的解决方案。

一、面向数据中心高性能计算和分布式存储、高频交易场景,以SONiC+芯片级别的时延优化+分布式算法的超高性价比低时延全以太网络解决方案,用以替代专网专用的Infiniband;

二、面向云边缘的复杂场景,具有高度定制化能力的SONiC+P4可编程的智能网关系列产品(例如东西向网关、专线网关、公有服务网关、限速网关、对等体网关以及业务融合网关等等),助力各类创新应用的落地;

三、面向中大型企业园区,星融元的全三层的云化网络架构+全功能SONiC,带来了完备的园区网络特性和安全能力,轻松解决传统园区网络架构繁琐、运维复杂的难题,帮助广大企业构建高效、精简的园区网络。

相关文章

星融元:为开源新模式下的多赢构筑生态底座


关注星融元


说到“开源”的话题,一部分人将其理解为去中心化的开发模式,源代码公开可见,由社区成员共同维护;也有人认为开源更是一种商业模式——软件产品孵化于开源社区,整个生命周期都与社区保持紧密联动。

无论如何,争论的存在恰恰说明了一点:开源模式作为一种分布式的协作模式,早已不局限在软件开发层面,而是已经扩展到了商业化维度。

开源重塑世界

开源与开放的理念天然契合万物互联的数字时代发展要求。

过去的十年间,开源技术的应用势不可挡。正因为有了创新的开发者社区,开源已成为云计算,SaaS 服务,下一代数据库,移动设备,互联网甚至区块链的基础。根据信通院相关数据,截至2019年,国内已经应用了开源技术的企业占比超过八成,开源技术自主可控、节约成本、部署快捷的优势已经被广大企业普遍接受。

如今,一个开源项目甚至会衍生出一个全新的产业链生态,在生态内部逐渐形成了一种“开放式的供应链关系”。

开源与开放的理念天然契合万物互联的数字时代发展要求。

过去的十年间,开源技术的应用势不可挡。正因为有了创新的开发者社区,开源已成为云计算,SaaS 服务,下一代数据库,移动设备,互联网甚至区块链的基础。根据信通院相关数据,截至2019年,国内已经应用了开源技术的企业占比超过八成,开源技术自主可控、节约成本、部署快捷的优势已经被广大企业普遍接受。

如今,一个开源项目甚至会衍生出一个全新的产业链生态,在生态内部逐渐形成了一种“开放式的供应链关系”。

开源正在深刻影响商业交付模式

让我们以SONiC/SAI为中心的开源网络生态为例。

SONiC/SAI是由微软(Microsoft)主导的两个在开放云网络领域的开源项目,它们通过实现交换机的软硬件解耦,打破了从前主要由硬件设备供应商“承上启下”的单向产业链条,形成了更加开放的”多边交付模式”。

SONiC/SAI的多边交付模式

模式的悄然变化带来了两个转变:

第一,用户可以根据预算和业务需求更加自由地选择软硬件供应商,不必被单一厂商锁定,从而加快新技术和新产品在生产环境的应用;

第二,为了实现共同目标,最终用户,软硬件供应商,乃至上游芯片供应商之间都需要更加紧密合作。

我们知道,发生交互的角色数量一旦多起来,项目沟通协作的难度便会呈指数级上升。而云计算时代下,只会有越来越多的定制化需求,生态内各方参与者或多或少都会经历这般不得不面对的挑战。

说起来可能还是有点抽象,不如看看下面的案例:

A公司是一家平台日活用户过亿的互联网公司,也是这个故事中的最终用户。A公司内部研发能力很强,他们为自身业务量身打造了一款网络操作系统,打算应用在私有云里,但是市面上已经没有任何一家传统厂商能为他们实现这个业务构想了。

于是A公司找到一家老牌硬件厂商B提供白盒硬件,以及一家国际知名的ASIC厂商C共同参与到项目中,可事情远不如他们所预想的那么顺利……

开源通过生态实现多赢

开源生态所形成的新型商业交付模式下,我们开始需要一种新型的技术供应商,一个专业可靠的,服务全生态的合作伙伴,才能帮助项目顺利落地,实现多赢。

或许你已经猜到了,A公司的故事其实就是星融元曾经真实服务的案例之一。

你可能会好奇我们在其中究竟做了什么?在这里讲大段大段的技术细节肯定不现实,简单概括一下就是:我们的能力补上了客户和硬件/芯片供应商的技术短板,为项目落地扣上关键一环,将“自研软件+白盒硬件”的业务构想变为了现实。

这个难题之所以能在我们的参与下圆满解决,是因为我们是真正专注于开放网络的技术供应商。若要在一个领域内做到专业、可靠,背后的底气必然是长期实践中积累的深厚经验。

星融元是国内最早一批加入SONiC社区的成员,并且以此为发展引擎构建了“软硬芯一体化”的产品体系。自团队组建以来,我们一直是开源生态下活跃的使用者和服务者,也是积极贡献者。

星融元产品图

角色1:开源网络生态内的服务者

星融元在开源网络领域的积淀集中体现在这款企业级SONiC发行版:AsterNOS

区别于传统厂家的版本管理模型,AsterNOS采取的是社区化版本发行管理方法,充分吸纳合作伙伴和个人开发者的代码和缺陷修复成果,在领先社区的同时考虑后续版本的融合,每季度与社区版本和重大问题更新保持同步。

AsterNOS从功能特性、产品质量、组件维护等方面对社区版进行了改善,并结合各种典型应用场景做了足够的测试验证和缺陷修复。

早在2018年,我们先于社区支持REST API,并且完成了后续与社区mgmt- framework的融合。此外更是做了大量面向生产环境的增强(VXLAN、ARP Host Routing、BGP EVPN、VLAG…),还开发了原生SONiC目前不具备的功能(Monitor-link、STP/MSTP等),大幅提升了系统的整体可用性。

截至2022年,最新版本的AsterNOS已经稳定兼容几乎所有主流商业交换芯片,实现了一套网络操作系统在数据中心和云化园区跨场景使用。在最近的一次SONiC Plugfest中,AsterNOS完美通过第三方各项测试。

为了更加充分地发挥开源开放的力量,AsterNOS还在云原生的架构之上提供了强大的SDK能力——用户可通过丰富的API(Rest API和系统级API)在网络设备上简单快速地开发第三方APP,以及与各种开源运维工具/平台无缝集成。

AsterNOS的云原生架构

角色2:开源网络生态内的使用者

紧跟当前开源网络技术的发展趋势,我们一直在使用各种优质开源项目和工具的力量赋能产品的迭代升级。

  • Klish 命令行——用思科风格命令行来配置SONiC交换机,兼容传统网络工程师使用习惯
  • Jenkins + testbed——通过构建大量自动化测试脚本,实现在多用户环境中进行多分支并行测试,保证大规模软件团队开发的质量和效率
  • Github改库,优化编译时间
  • 提供DPDK/VPP开发套件——在ARM架构的平台上加速应用开发和跨平台移植……

角色3:开源网络生态内的贡献者

结合丰富的实践经历,我们也在持续提交缺陷修复和软件特性代码回馈社区,在企业级SONiC发行版厂商维度的社区贡献排名里星融元位居中国前三。

星融元在企业级SONiC发行版厂商维度的社区贡献排名

近年来我们与中国联通研究院、阿里、美团等单位和企业共同起草了《P4可编程应用案例技术白皮书》,《白盒交换机技术白皮书》等行业优质文档,并联合未来网络学院、紫金山实验室开办了国内首个“白盒交换机与SONiC实战训练营”,推动开源网络技术的传播和推广。国内外各大开放网络组织联盟处处有我们活跃的身影。

星融元:为开源网络技术应用构建“生态底座”

在充满创新和活力的开源模式下,星融元更大的愿景是作为“生态底座”帮助各方实现共赢。

对于最终用户,在星融元的AsterNOS平台之上,你甚至可以用Python/Golang语言在交换机上开发面向业务的各类“APP”,将大量开源项目和工具快速应用于生产环境,提高网络整体运营效率。

当然,在现阶段内,更多用户可能会更倾向于使用我们已经“打包”好的软硬一体化的整机产品和解决方案。毕竟,在超低时延计算/存储网络、可编程智能网关、园区接入等等场景下,我们所提供的功能特性已经可以满足绝大部分需求了,相比一些专用网络设备(例如IB交换机)会更有性价比优势。

对于硬件/芯片厂商,AsterNOS及其相关软件连接了商用可编程ASIC与各类定制化需求,用软件定义的方式充分发挥出特定场景中的芯片性能。另外,一套NOS便可兼容从数据中心核心网到园区接入网的几乎所有主流商业交换芯片,并可基于ARM平台做算力与网络的结合……我们在软件层面的优化和创新,也是在为硬件产品拓展更广阔的应用空间。

对于其他软件供应商,可以借助我们提供的开源底层开发套件,在星融元各类开放硬件平台之上(例如各类白盒交换机/网关平台、DPU网卡等)快速启动上层软件的开发、移植工作,而无需再考虑底层实现的细节,大大加速了产品化进程。

对于网络运营商而言,避免供应商锁定、增加技术选择的灵活性的需求驱动了网络设备白盒化,在这样的趋势之下,我们期待与运营商客户共同解决各类创新应用的落地问题。

相关文章

数据中心网络自动化运维面临的6大挑战


关注星融元


EMA(Enterprise Management Associates,企业管理协会)近期发表了《数据中心网络自动化的未来》的调查报告,在对359名来自企业、云供应商和网络服务提供商的IT网络从业者的访问中发现:48%的受访人所在公司所使用的数据中心网络自动化解决方案中仍有部分是依赖于手工收集数据的——云管理员必须手动查询单独的系统来寻找他们需要的数据,以便用网络自动化工具来做出变更。

其中更有超过86%的公司预计未来两年内,用于数据中心网络自动化的预算还将增加;但只有23%的受访者对他们接下来的自动化战略充满信心。

让我们从报告结果出发看看推动数据中心网络运维自动化的不同阶段中,各行业的资深从业者们都面临着哪些挑战?

规划和评估阶段

各系统工具之间的协同配合

根据调查,39%的技术团队最为关注网络自动化工具如何与其他工具和管理系统互动。这是因为网络基础设施和运营团队通常有多种工具来管理网络,包括数据中心网络自动化的多种工具。除此之外,其他团队例如存储、安全、应用和DevOps等都在用他们自己的工具集来管理数据中心运营的各个方面。网络团队必须要考虑他们的自动化工具如何与其他工具和团队交互。

预算和成本控制

许多企业(37%)表示,他们在规划预算和了解与数据中心网络自动化相关的成本方面有很大困难。EMA认为,自动化计划的复杂性是造成成本不明确的原因。大多数受访人表示,自己所在公司和组织既购买商业自动化工具,又有自己开放的自动化软件,很难预测要实施和维护这一系列工具所需的成本是多少。

部署阶段

基础网络设备的配置复杂低效

在推动实施数据中心网络自动化时,44%的组织在网络基础设施问题上大费周章。数据中心的网络设备和其他组件往往还有很多历史遗留问题,使得这项工作变得更加困难。例如,旧设备可能缺乏API,于是自动化团队不得不通过效率更低的的命令行脚本来配置设备。

更麻烦的是,生产网络中往往有多个版本的供应商的网络操作系统(NOS),而每个NOS版本在命令行(CLI)语法上可能有细微的差别,这就造成了更大的复杂性。不少网络工程师表示,他们有些设备上的API在应用范围、功能和质量等方面都非常局限。

与整体应用交付系统的集成

近一半(44%)的企业认为,难点在于将他们的自动化pipeline集成到整体应用服务交付系统中。这其实与规划阶段的第一个难点相呼应了。

使用阶段

数据权限和质量问题

在使用自动化时,有42%受访人认为数据权限和质量是主要问题。数据是网络自动化的命脉,工程师需要有关网络状态的数据(如设备指标和流量等)来了解需要执行哪些变更。他们还需要有关配置标准和安全策略的网络数据,依据这些信息去更改网络,并保证其稳定运行。但许多企业都在数据存储库上遇到了难题。

网络变化带来的不确定性

有40%的受访者担心网络变化会影响现网的应用行为和性能。正如来自一家价值500亿美元的咨询公司的一名网络架构师所言,”把新的网络配置一键推送给成千上万的盒子并不难,但要是这个配置是错误的,你就GG了” 。


附录:数据中心网络自动化运维相关工具

Ansible与AsterNOS SDK

Ansible – 红帽Redhat https://www.redhat.com/zh/technologies/management/ansible

在市面上各类网络自动化工具中,红帽公司的Ansible极具代表性。它能够将运营环境中大量的重复性工作以“Playbook”的方式进行自动化,从而为管理员降低工作负载,提升工作效率。Ansbile不需要被管理对象(服务器或网络设备)安装任何客户端,而是通过标准的SSH通道进行交互,所有需要被管理对象执行的命令和返回给服务器的结果都在这个标准通道中传递。Ansible的这种架构在很大程度上降低了自身的运维与管理复杂度。

AsterNOS – 星融元Asterfusion 

AsterNOS是一款基于SONiC的企业级发行版网络操作系统。

星融元(Asterfusion.com)为AsterNOS开发了符合Ansible标准的AsterPlaybook,通过AsterPlaybook,Ansible服务器能够快速、便捷地完成自动化运维。 同时,对于任何以容器模式运行在AsterNOS内部的第三方应用,也能完全融入到基于Ansible的DevOps环境中去。

面向NetDevOps的开发环境

更重要的是,AsterNOS还拥有一套面向NetDevOps的开发环境(AsterNOS SDK

运维工程师可以通过AsterNOS SDK所提供的REST API和/或System API自动化地、高效地运维网络,甚至开放自己的网络应用。

对应用系统访问情况的高效审计

例如:对应用系统访问情况的高效审计

在网络中,访问控制一般是通过ACL(Access Control List,访问控制列表)实现的。AsterNOS支持ACL功能,并且能够提供所有ACL被命中过的统计数据;AsterNOS SDK所提供的REST API中,包含对ACL各个字段和统计数据的访问接口,通过调用这些接口,即可直接获得ACL的这些信息用以分析。
AsterNOS支持ACL功能,并且能够提供所有ACL被命中过的统计数据

伪代码:

伪代码展示

相关文章

全栈可编程的P4交换机,星融元诠释开放网络的“豪华铁三角”


关注星融元


P4可编程交换机用来做什么?

  • 简化网络,降低复杂度,扩展表项空间
  • 快速增加新的网络特性——快速开发和验证新协议、隧道或封装处理(如DCE、私有云VXLAN、 ETH+MPLS+PW+ETH+PPPoE+IP、两层VXLAN等)/ NFV加速(LB、DDoS、NAT等)/ 新的拥塞控制算法
  • 帮助实现INT带内网络遥测,从而追溯每个数据包的转发过程——网络包走了哪条路径?依据哪条规则选择的这条路径?在每一跳的节点逗留了多长时间?有哪些其他的流在共享这条物理链路?

传统的网络交换机 ——封闭黑盒,不可编程

  • 处理协议固定
  • 表项空间写死
  • 业务流程固化

传统的交换芯片

设备所支持的协议,表项空间和转发逻辑在出厂时就已经固定了,当网络中有新的协议、隧道封装和转发逻辑,现有设备无法做到灵活支持,用户便只能选择更换设备。

基于SDN的尝试,有限的开放网络——Openflow带来的控制平面可编程

  • 控制平面可编程
  • 数据平面不可编程

OpenFlow 的SDN控制器相当于SDN的“大脑”,由它通过OpenFlow协议指导Openflow交换机设备的转发。不过这里的表不再是普通的IP五元组,而是整合了网络中各个层次的网络配置信息,由一些关键字和执行动作组成的灵活规则。

OpenFlow实现原理
OpenFlow实现原理

OpenFlow实现原理:OpenFlow流表的每个流表项都由匹配域(Match Fields)、处理指令(Instructions)等部分组成。流表项中最为重要的部分就是匹配域和指令,当OpenFlow交换机收到一个数据包,将包头解析后与流表中流表项的匹配域进行匹配,匹配成功则执行指令。

所以通过OpenFlow SDN控制器给设备下发流表,我们可以修改和变更网络定义和实时策略了。

但设备所支持的协议和字段仍然是在出厂时已经确定,我们只能根据现有的协议来定义流表项,无法支持新的协议。

对于不断更新变化的应用场景和协议类型来说,Openflow并没有彻底解决特定用户的业务创新需求。反倒是因为匹配字段增多(随着OpenFlow的升级迭代,所支持解析的字段从12增加到了45个)让匹配效率和表项空间占用的缺陷暴露得更加明显。

星融元的“全栈可编程”——将网络可编程进行到底,让网络真正服务于业务

P4硬转发

1、可编程线速硬转发:P4交换芯片——打开了封闭的数据平面

可编程线速硬转发:P4交换芯片——打开了封闭的数据平面

全端口、全流量、全线速转发可编程交换芯片加速新业务验证、部署和上线,与传统ASIC相比,周期缩短可达95%

  • 资源可编程
  • 转发逻辑可编程
  • 协议解析可编程

P4可编程芯片可以用来做什么?

  1. 简化网络,降低复杂度,扩展表项空间

  2. 快速增加新的网络特性——快速开发和验证新协议、隧道或封装处理(如DCE、私有云VXLAN、ETH+MPLS+PW+ETH+PPPoE+IP、两层VXLAN等)/ NFV加速(LB、DDoS、NAT等)/ 新的拥塞控制算法

  3. 帮助实现INT带内网络遥测,从而追溯每个数据包的转发过程——网络包走了哪条路径?依据哪条规则选择的这条路径?在每一跳的节点逗留了多长时间?有哪些其他的流在共享这条物理链路?

2、可编程控制面:基于SONiC的网络操作系统+x86通用CPU的云原生环境

  • 标准Linux+容器架构的开放环境
  • 各类网络控制协议(控制面功能)容器化,如需增加新的控制功能模块,只需增加新的容器
  • 可集成第三方NetDevOps运维工具
  • 向上提供Rest API ,可无缝集成控制器和Openstack、Vmware等云管平台

基于SONiC的网络操作系统+x86通用CPU的云原生环境

3、VPP&DPDK可编程软转发:高性能计算单元(DPU模块)+容器化部署环境

高性能计算单元(DPU模块)+容器化部署环境

  • 承载各种虚拟网络功能,打造开放的网络生态
  • 多核高性能处理器+大容量内存:可用于千万级会话状态处理、下游流量缓存、流量加解密等
  • 易移植的开放网络开发环境:通过所提供的底层基座操作系统,客户可以不用考虑底层支撑框架,直接开发上层应用程序,原先x86上运行的各种软件功能仅需要简单的重新编译就可以加载运行

“铁三角”豪华套餐:可编程、全开放、高性能的星融元P4可编程交换机

可编程、全开放、高性能的星融元P4可编程交换机

  • 可编程ASIC:让网络适应业务,而非业务适应网络,快速定制
  • 开放标准:业界通用标准架构,无锁定
  • X86控制 & ARM业务处理:一次开发,自由迁移,投资保护,大幅提升算力
  • 敏捷易用:简单易用的开发环境,加速产品迭代节奏
  • 标准内核:标准的Linux/ONIE/SONiC/P4Runtime,无锁定
  • 无缝运维:完全重用既有的运维团队、知识栈、工具

星融元全线可编程产品线——面向未来网络,承载创新需求

应用一:云数据中心/超融合私有云的网络部署

云数据中心/超融合私有云的网络部署

应用二:打造开放的网络生态

打造开放的网络生态

基于SONiC的容器能力拓展,自由扩展控制面能力,轻松实现NetDevOps

  • 基于容器架构的网络操作系统支持自开发/第三方应用
  • 全面支持DevOps,支持运行在星融云网络上的自开发/第三方应用自动化运维工具

算网融合,基于高性能计算单元可部署各种虚拟化网络功能

  • 可编程交换芯片:基本网络功能,自动化流量牵引和编排
  • 高性能业务处理单元:提供标准的容器环境,可以加载各种网络应用,打造网络领域的“Android”生态
  1. Stateful LB、IPSec、SSL、应用层安全网关、vFW、vIPS、vWAF…
  2. DPI、Netflow、IDS、NPM、APM、 元数据提取、流量捕获…

应用三:定制化的数据面重构

  • 基于状态的负载均衡功能的卸载,为数据中心服务器减负
  • 基于业务的精准化、实时化、可视化的带内网络遥测技术
  • 无穷大的微浪涌吸收能力,构建零丢包的云网络
  • 5G UPF……

应用四:DPU网卡卸载服务器负载

  • 卸载OVS同时集成第三方应用
  • SSL解密卸载加速
  • ……

相关文章

星融元数据中心云网络解决方案,助力千行百业数字转型


关注星融元


星融元是中国最早参与SONiC社区、并积极向社区贡献缺陷修复和软件特性代码的公司之一。从SONiC诞生之初,星融元就选择开源网络操作系统作为构建全栈开放网络的发展引擎,推出以SONiC为内核的AsterNOS开源开放网络操作系统

几年来,随着研发队伍不断发展壮大,AsterNOS经过持续更新迭代,已经升级到4.0版本,其软件特性和芯片支持不断完善扩充,在稳定性和易用性方面也实现了极大的改进,完成了数万个现场商业部署的拷贝。

配图

星融元致力于通过软硬件解耦的开放架构,让软件定义网络大规模产品部署得以实现。凭借创新的产品、完整的方案和优秀的服务能力,星融元不断在收获着国内外客户的认可和信赖。

配图-02

1、多场景应用

基于AsterNOS,星融元针对不同的应用场景选择最适合的芯片能力构建了一系列有特色的硬件平台,例如通过Teralynx芯片释放低时延的能力,可满足高频交易、机器学习、高速存储等延时敏感型应用场景的需求;又如通过Tofino P4可编程能力,可满足多数据中心互联、边界网关、安全隔离等大表项策略路由的需求。结合同一个软件平台上长期的成果积累和不同芯片的独特能力,星融元总能为用户找到适合他们应用需要的解决方案。

在一个拥有数万台服务器的数据中心,客户需要导入一款新的交换机芯片。芯片规格选择相对容易,在尽量短的时间内完成基于该芯片的产品部署落地却没那么容易。得益于AsterNOS对多芯片的支持能力,星融元迅速完成了SAI新版本开发、INT能力集成、SONiC不同版本在不同平台上的适配等工作,确保了新平台顺利上线。

因为业务流量不断增加,荷兰某银行需要对网络安全设备进行扩容来加强防护能力,但是现有网络架构很难横向扩展,引入星融元的网络服务链功能后,客户原有的安全威胁检测和SSL加速都改造成了资源池的部署方式,性能提升只需要旁路增加虚机即可。通过四个月严格的实验室测试和现场测试,星融元获得了这份数百万美金的采购合同框架。

隐私计算头部厂商华控清交的解决方案对网络低时延有明确要求,和国内某网络设备大厂相比,星融元交换机帮助客户降低了50%的端到端时延。同样,在法国一个大学的高性能计算中心,星融元与某传统大厂同时用各自的交换机测试RDMA承载MPI应用的现场效果:集群处理能力benchmark基本相同,不同的是,大厂采用了传统的InfiniBand协议,星融元采用的是标准以太网和开放架构的软硬件技术——相同的产品能力、一半的交付周期和供货成本帮助星融元赢得了这个客户上百台的订单。

2、智能化运维

一个超大数据中心的客户,想用华为、Mellanox、星融元交换机进行混合组网,如何保证不同设备之间的协议互通,如何解决大量异构设备之间的集中管理问题?客户选择了用AsterNOS给Mellanox交换机硬件进行刷机升级,星融元的云网控制器AFC(Asteria Fabric Controller)通过REST API接口将现网所有存量Mellanox设备和星融元交换机不加区分地统一管理起来,而开源的AsterNOS又帮助客户逐一找到了路由协议中和大厂设备无法对通的兼容性问题,多厂家设备在大云环境中形成了运维效率最高、成本效益最佳的兼容方案。

配图-03

厦门航空、中国银联和安徽电力这些不同行业的企业,也都各自选择了星融元的AsterNOS与AFC的联合部署方式,规模构建弹性调度的云网络,用智能化的管理模式来降低运维成本。

3、高质量服务

一位长期使用台湾地区ODM厂商供货可编程白盒交换机的用户,在使用该厂商提供的SONiC社区版本软件的过程中,因为遇到的底层技术问题既无法从厂商获得支持,也不能在社区中找到答案,几个项目都一再延期无法产品化落地。在星融元发布自己的AsterNOS及白盒平台后开始尝试切换:开发手册、技术顾问和软件BUG定位这些服务帮助客户解决了众多阻碍性问题,保证了项目顺利地从研发阶段转入到生产环节。

星融元发布自己的AsterNOS及白盒平台后开始尝试切换:开发手册、技术顾问和软件BUG定位

在Hutchison的快速响应支持也是星融元服务能力的一个典型案例:在对包括Arista和Gigamon在内的头部厂家进行严格安全渗透测试的过程中,由于星融元对SONiC内核和架构的深刻理解,解决安全问题的速度和质量都得到了客户的认可:“because of your good work we are considering to replace all the monitoring switches and will only buy from you in the future because you are the only one who are meeting security requirements.”

始于SONiC,持续精耕AsterNOS,星融元正源源不断地为行业输送开放网络的力量,多维度构建全新的云网络模式。开放网络生态正在快速发展和完善,它催动的数字化转型发展,或许远超乎你我的想象。

相关文章

云网络的回归之路-业务可视篇(2)


关注星融元


业务可视云网络:Visibility-as-a-Service(VaaS)

VaaS(Visibility-as-a-Service,可视即服务)是星融Asterfusion为云网络设计开发的业务可视整体解决方案,能够轻松应对、完美满足云计算时代的运维所面临的各种挑战和需求。

构建VaaS方案的基石是NT(Network Telemetry,网络遥测)技术。

那么啥是NT技术呢?

NT技术为运维人员提供网络运行的实时参数和状态,并且能够将需要深度分析的网络数据复制出来,按照预先设置好的策略经过智能处理后,交给后端运营分析系统的子系统(运维、安全、审计、回溯、优化等)进行关联分析和呈现。

VaaS整体架构一览

VaaS方案主要由这4部分构成:

  • INT(In-band Network Telemetry,带内网络遥测)
  • VNT(Virtual Network Telemetry,虚拟网络遥测)
  • ONT(Out-band Network Telemetry,带外网络遥测)
  • AFC(Asteria Fabric Controller)Asterfusion业务可视云网络整体架构

图2:Asterfusion业务可视云网络整体架构

  • INT:基于可编程交换芯片的INT方案,在转发业务流量的同时,将网络的即时性能、状态、参数收集并记录下来,在网络的出口发送给运营分析系统,用来精准分析物理网络的健康状况。
  • VNT:VNT方案是为运行在计算空间的虚拟网络开发的流量采集与分析方案,在不影响业务系统性能的前提下,虚拟网络流量会被VNT采集出来,然后通过隧道发送给ONT方案,用来分析虚拟网络的运行状况;对于那些单租户,VNT能够将所采集的虚拟网络流量直接发送给后端的运营分析系统。
  • ONT:ONT方案将来自于物理网络和虚拟网络的采集流量进行租户和业务的关联对应,再按照预先设定的策略进行智能处理(例如汇聚、分流、负载均衡、隧道解封装、业务负载裁剪、元数据提取、特征标记等),最后将处理后的ONT数据发送到后端的运营分析系统进行分析。
  • AFC:AFC(Asteria Fabric Controller)是VaaS的统一管理和调度平台,向南通过调用INT、VNT、ONT的REST API自动部署、按需调度、集中管理VaaS方案,同时向北为Cloud OS提供业务级的REST API,接受Cloud OS的统一调度和自动化管理。

VaaS整合了INT、VNT和ONT三个维度的技术与方案,即可以运行在星融Asterfusion的硬件平台之上,也可以运行在云计算的虚拟化环境中。

基于VaaS的业务可视云网络全面解决了云网络运维的各种挑战,完美满足云计算对云网络的运营提出的各种新需求。

接下来,让我们看看VaaS方案是怎么解决这些运营需求的。

虚拟网络与物理网络的综合运营

在星融元Asterfusion业务可视云网络中,不同的组件方案都能完成对虚拟网络和物理网络的运营分析,并且能够在同一张ONT网络上完成虚拟网络与物理网络分析结果的关联对应。

虚拟网络与物理网络的综合运营

图3:虚拟网络与物理网络的综合运营

如图3所示:

  • VNT方案采集虚拟网络中需要被分析的流量,并进行适当的处理以降低对云中东西向带宽的消耗(例如过滤掉不感兴趣的流量、将感兴趣流量的负载部分裁剪掉),然后通过隧道发送到ONT网络进行处理;
  • ONT方案通过分光或者端口镜像的方式采集物理网络中需要被分析的流量,这些流量也被发送到ONT网络进行统一处理;
  • ONT网络接收到采集完虚拟网络和物理网络的流量后,提取流量当中的特征,完成虚拟网络与物理网络的流量关联,然后将关联后的流量按照预先设置的策略进行智能处理,后发往运营分析系统;
  • INT方案能够将交换机在转发业务流量的那一瞬间自身健康状况数据采集出来,并且在业务流量离开网络进入业务系统之前,将业务流量携带的交换机健康状况数据从中剥离出来,发送给运营分析系统;
  • 运营分析系统根据接收到的ONT数据和INT数据,对云网络整体进行综合运营分析。

我们看到,当云网络发生故障时,

星融元Asterfusion业务可视云网络以虚拟和物理相结合的方式,帮助云的运营者快速、精准定位到是哪个租户的哪个业务出了问题,问题来自于虚拟网络还是物理网络,是业务流量超越SLA、还是物理网络自身性能瓶颈所致。

云级网络的整体运营

星融元Asterfusion业务可视云网络能够被部署在云中的任何位置~

云级网络的整体运营

图4:云级网络的整体运营

如图4所示:

  • 当云中两个虚拟计算节点(两个蓝色的VM)通信时,在他们之间形成了一条虚拟网络路径(图中蓝色虚线),VNT方案能够将这条路径上的流量采集出来进行分析;
  • 当这条虚拟网络路径上的流量通过物理网络传送时,在物理网络上存在两条路径在实际承载虚拟网络的流量,即图中的“物理网络路径-A(红色)”和“物理网络路径-B(金色)”,这两条路径协同工作,为两个虚拟计算节点提供高可靠、高带宽的通信通道;
  • 在某一瞬间,虚拟网络流量使用哪一条物理网络路径,是由那一瞬间物理网络设备的负载状况、虚拟网络流量的自身特征、物理网络上同时承载的其他租户和业务流量的大小等因素共同决定的,并不能提前预知;
  • 为了对图中的虚拟网络流量做全面的分析,ONT方案在物理网络的各个节点上都采集了流量,然后将这些流量智能处理后,发到后端的运营分析系统;
  • 所以,运营分析系统就能够分别通过VNT和ONT获取全面的虚拟网络流量信息和全量的底层物理网络流量信息进行关联分析。

通过对物理网络的全量采集(任意位置、任意流量),再结合虚拟网络采集流量进行关联分析后,能够帮助运营者在网络层面构建云中业务的全景视图,因此,星融Asterfusion业务可视云网络能够为用户提供面向全网的整体运营能力。

面向云网络健康状况的精准运营

INT是最近几年出现的,能够对网络健康状况进行精准测量和分析的技术,目前已经被IETF所接纳,正处于被标准化的过程中。INT的整体架构如下图所示:

INT的整体架构图5:INT的整体架构

与传统的用于观察网络健康状况的工具及能力(例如SNMP)相比,INT从根本上改变了观察网络健康状况的方法。

INT系统一般由运Controller软件系统和支持INT能力的网络设备构成,Controller软件系统一般包含两个模块:策略编排模块、分析呈现。而网络设备要能够接收Controller下发的策略,并且采集策略所要求的数据,最终输出到Controller进行分析与呈现。

一般来说,INT系统的工作流程大致如下:

  1. Controller的策略编排模块根据管理员的需求生成对某种业务的测量策略,并通过管理通道将生成的策略下发到业务转发路径上支持INT能力的网络设备上;
  2. 网络设备的控制平面接收来自Controller的策略,将策略编译后下发到转发芯片中;
  3. 工作在转发平面的转发芯片根据来自于控制平面的指令在其所转发的业务流中采集相关的数据(出入接口、收发时间、队列长度、缓存状况等),并将这些数据按照指令的要求编码在业务流中向前传送;
  4. 在业务流离开网络进入业务系统之前,网络设备将所有的采集数据从业务流中剥离出来发往Controller的分析呈现模块,并将复原的业务流继续发送到业务系统;
  5. Controller的分析呈现模块对所接收到的采集数据进行分析、呈现,描绘业务路径上的网络设备在转发业务流那一时刻的健康状况。

从工作流程可以看出INT具备如下主要特点:

  • 动态。按照业务与管理的需求对INT系统进行动态调整,能够随时对需要重点关注的业务进行观察。
  • 推送。INT系统会在转发业务流量的同时,主动向管理与分析系统推送采集的测量数据,而不是响应管理侧周期性的查询。
  • 数据平面采集。INT系统直接从网络设备的转发平面获取采集数据,这样就规避了传统模型中采集数据由控制平面生成、无法反应转发平面的真实状况或数据。
  • 高精度。传统模型中网络健康数据只能够反应网络在查询时刻的状况,精度较低,而INT采集的各种健康数据描述的则是交换机在真正转发指定业务流量的那一时刻的状态,精准度非常高。
  • 多租户网络。在承载着多租户、多业务的云上,INT系统能够仅仅对某一个租户的某一种业务进行转发过程的数据采集,帮助管理员针对租户/业务进行网络健康状况的精细分析。

    星融元Asterfusion基于可编程交换芯片与全开放架构开发的CX系列和NX系列云交换机全面支持INT能力。

    面向云网络健康状况的精准运营

    图6:面向云网络健康状况的精准运营

    如图6所示:

    在星融元Asterfusion业务可视云网络上,运营分析系统能够为不同租户的不同业务定义分析策略,然后动态下发到由星融Asterfusion云交换机(CX系列 & NX系列)构建的云网络上去;针对不同的业务流,云交换机在转发时刻将采集交换机的各种健康状况数据,然后将这些数据发送到运营分析系统,由运营分析系统从租户/业务维度完成对云网络健康状况的精准分析。

    对于发现问题的业务流量,运营分析系统能够通过星融Asterfusion云网络的sFlow能力采样该业务流的部分报文,或通过ONT方案获取该业务流的全部报文,进一步的深入分析、定位问题。

    不影响生产网络的高性能运营

    星融元Asterfusion业务可视云网络的ONT方案能够帮助运营分析系统全量获取云中的业务流量,从而获得更智能、更全面的业务分析数据。

    ONT方案全量获取业务流量却不会给生产网络带来任何性能的影响,并且在生产网络与运营分析系统之间建立起一条不受距离和规模限制的传送通道。

    一般来说,运营分析系统从生产网络获取业务流量的主要方法是端口镜像。

    如下图所示,当需要对流动在生产网络中的某一业务流量进行跟踪分析时,管理员通常会在该业务流量所流经的某一台生产网络交换机上,利用该交换机的端口镜像能力,将正常转发的业务流量复制一份、经过镜像端口发送给后端的运营分析系统。

    通过交换机端口镜像采集数据

    图7:通过交换机端口镜像采集数据

    对于小规模、业务流量较小、业务变化不频繁的场景,端口镜像的部署方案完全没有问题。

    但是,在云计算的环境,端口镜像方案有着显而易见的缺点:

    • 对生产网络的性能带来巨大影响。通常,交换机开启端口镜像后,会对其自身的转发性能产生很大的影响;在云中因为业务路径的不确定性,需要在业务可能路径的所有交换机上开启端口镜像,才能完成针对业务路径的全量分析;所以,在大规模的云中使用端口镜像,将会对生产网络的性能带来巨大的冲击。
    • 交换机可支持镜像的端口十分有限。一般的,交换机支持镜像端口的总数量是有限的(个位数),对于大规模部署的云来说,仅交换机支持的镜像端口的数量就已经无法满足全量采集的需求了。
    • 浪费生产网络的端口资源。对于云计算来说,云网络最宝贵的资源之一就是其端口资源,在同样的空间内,每多一个网络端口投入到生产系统,就意味着ROI(投资回报)的提升和TCO的降低,所以,将大量的生产网络端口资源当作镜像端口使用实在不是一个明智之举。
    • 耗时耗力,为生产网络的安全运维引入风险。因为镜像对性能的影响,不可能随时对任何业务流量都开启镜像功能,但在云中,网络承载着数以十万计的租户和业务的流量,不同的租户和业务随时也都有可能产生运营分析的需求,这就意味着管理员要频繁地变更生产网络的配置,费时费力,而且为生产网络的安全运维引入了巨大的不可控风险。
    • 要求后端运营分析系统服务器的数量线性增长。在镜像部署场景中,每开启一个镜像端口,就意味着后端的运营分析系统要保留一个专门的端口来接收发送过来的业务流量,无论这个端口中实际传送的流量是端口带宽的10%还是100%;从今天服务器的一般配置与处理能力来看,这种端口密度匹配要求,意味着后端运营分析系统的服务器数量的线性增长。

    为了解决上述问题,星融元Asterfusion的ONT方案采用基于分光器的旁路部署、带外采集方案,在满足全量、全网采集的同时,对生产网络的性能、运维不带来任何影响。

    不影响生产网络的高性能运营

    图8:不影响生产网络的高性能运营

    如图8所示:

    在星融元Asterfusion ONT方案中,与生产网络并行地建设一张ONT网络,然后通过分光器将需要采集分析的生产网络的线路旁路接进ONT网络,所有通过这条线路传输的业务流量在正常传送的同时,都会被分光器全量地复制一份。通过分光线路发送给ONT网络,经过智能处理后进入运营分析系统。

    相对于镜像方案的缺点,ONT方案的优点也是显而易见的:

    • 因为分光的过程仅仅是对物理层光信号的复制与放大,因此对生产网络的性能没有任何影响。
    • 数据采集的规模不受生产网络设备端口数量的限制,只需在需要分析的线路上部署分光器即可;
    • 生产网络的端口可以全部用于生产,确保采集全量分析数据的同时,生产网络的ROI不会降低;
    • 所有的变更、操作全部在独立的ONT网络上发生,不会对生产网络的运维带来任何风险;
    • ONT网络的智能处理能力能够将从生产网络采集到的业务流量进行智能处理、高效收敛,大幅降低运营分析系统所需服务器的数量。

    更为值得一提的是,构建ONT网络的星融元Asterfusion PX系列网络可视交换机采用可编程硬件平台,在单位空间内提供超高端口密度和超高处理性能的同时,还提供包括流量汇聚、负载均衡、流量裁剪、租户关联等各种智能处理能力,并且能够根据网络规模按需任意扩展,在生产网络和运营分析系统之间建立一个全线速的智能通道。

    能够负担得起的低TCO运营

    构建一个业务可视化分析系统对于运营好一张云来说的确是不可或缺的,一般来说,可视化分析系统的架构大致如下:

    业务可视化分析系统的一般架构

    图9:业务可视化分析系统的一般架构

    从逻辑上来说,业务可视化分析系统分为两层:

    • 网络流量存储层
    • 业务分析呈现层

    ❗网络流量存储层与业务系统的生产网络直接连接,接收从生产网络镜像或者分光过来的业务流量,完成针对网络流量的初级处理之后,将报文及处理产生的元数据存储在本地,供业务分析呈现层使用。

    该层需要执行的动作主要包括:

    1. 一对一全量接受网络流量
    2. 流量过滤,匹配识别流量特征
    3. 网络流量的编辑
    4. 全量储存过滤后的网络流量
    5. 解除封装、终结隧道、识别协议
    6. 元数据的提取与分析
    7. 元数据的存储

    有一点需要强调的是,因为架构的关系,同属于一个业务的流量信息有可能存储在网络流量存储层的任何一台服务器上。所以,给业务分析呈现层带来了分析与处理层面的复杂度。

    ❗业务分析呈现层直接向运营者展示业务分析的结果,它首先从网络流量存储层获取各种流量报文及其对应的元数据,按照业务逻辑对这些流量报文和元数据完成重构与各种分析后,按照预定的规则及分析逻辑将结果呈现在直接面对运营者的控制面板上。该层需要执行的动作主要包括:

    1. 获取全量元数据
    2. 完成虚拟网络与物理网络的关联
    3. 完成元数据的去重
    4. 完成业务逻辑的一致性重构
    5. 分析与呈现

    显而易见的,上述架构最大的问题在于:

    • 大量的服务器在重复地做着同样的事情;
    • 服务器大量地存储了对于业务分析来说无用的数据;
    • 大量的服务器在做不擅长的事情;
    • 架构没能解决业务逻辑一致性的问题,浪费CPU的计算力来解决;

    这些问题导致为云中业务构建一个可视化分析系统的TCO会非常高,除了镜像/分光的成本以外,还意味着大量的服务器和存储系统。

    星融元Asterfusion VaaS的ONT方案成功的解决了上述问题,让针对云业务进行整体运营分析成为可以负担得起的方案。

    显而易见的,上述架构最大的问题在于:

    大量的服务器在重复地做着同样的事情;

    服务器大量地存储了对于业务分析来说无用的数据;

    大量的服务器在做不擅长的事情;

    架构没能解决业务逻辑一致性的问题,浪费CPU的计算力来解决;

    这些问题导致为云中业务构建一个可视化分析系统的TCO会非常高,除了镜像/分光的成本以外,还意味着大量的服务器和存储系统。

    星融元Asterfusion VaaS的ONT方案成功的解决了上述问题,让针对云业务进行整体运营分析成为可以负担得起的方案。

    被ONT优化的业务可视化分析系统架构

    图10:被ONT优化的业务可视化分析系统架构

    星融元Asterfusion VaaS方案在业务系统的生产网络和可视化分析系统之间构建了一个独立的ONT网络,然后将网络流量存储层和业务分析呈现层原先需要服务器做的工作全部卸载到ONT网络上,由ONT网络一次性地、高效地、专业地完成,不再浪费服务器的计算力做这些不擅长的事情,而是专注在对业务的可视化分析与呈现上。

    并且,星融元Asterfusion的ONT网络还具备如下特点,可以进一步优化业务可视分析系统:

    • 网络流量裁剪。可选的报文截短功能将从生产网络接收到的全尺寸报文截短再到指定的长度,去除对于分析系统无意义的负载部分而只保留报文头部,在确保业务分析逻辑正确的前提下,有效降低后端存储服务器接收、处理负担,同时大幅降低报文存储的压力,提升单台服务器的使用效率;需要强调的是,星融元Asterfusion VNT也能够支持网络流量裁剪功能。
    • 重复流量剔除。星融元Asterfusion ONT网络能够将从生产网络的不同分段,接收到的重复的网络流量剔除后,只保留一个拷贝、发送给后端的报文存储服务器,大幅节省后端报文存储服务器的处理时间,降低其存储压力,并且为分析与呈现服务器降低处理重复数据的负担,进一步提升其处理效率。
    • 业务逻辑重构。ONT网络在转发从生产网络分光过来的流量时,除了完成原先在两层服务器上做的工作,同时,还从业务逻辑的层面还原、重构了同属于一个业务的流量(即同源同宿),确保同属于一个业务的所有数据全部输出到同一台网络流量存储层的服务器上,分析呈现层的服务器只需要从这一台服务器上就可以获得指定业务的所有信息,节省了从所有存储服务器读取数据的开销和自行完成业务逻辑重构的开销;
    • 业务弹性分布。对于流量较大、单台服务器无法完成分析的业务,星融元Asterfuison ONT网络支持将业务按照逻辑分布到由多台服务器组成的存储、分析集群上去,由集群中的多台服务器并行地完成对业务的存储、分析和呈现,而这种情形,在ONT网络缺失的情况下,是根本不可能完成的。
    • 不妥协性能的灵活性。构建星融Asterfuison ONT网络的Asterfusion PX系列产品是基于业界最领先的可编程交换芯片及技术开发的,能够按照业务需求将各种功能(协议识别、隧道终结、流量裁剪、业务重构、报文编辑、元数据提取等)在芯片内部的处理逻辑中通过软件编程的方式实现,在以超强的灵活性确保快速响应业务需求的同时,又不降低系统的性能。

    通过以上架构与能力,星融Asterfusion为云计算交付的是真正能够负担得起的低TCO运营的方案:

    • 15:1的流量收敛;
    • 单位空间最高6.4T的处理性能;
    • 8倍的端口使用效率提升;
    • 3倍的服务器效率提升;

    更值得一提的是,构建星融元Asterfusion ONT网络的PX系列网络可视交换机与构建云物理网络的CX系列NX系列云交换机基于相同的硬件平台开发,对于运营来说,相同的硬件平台则意味着统一库存、备件管理和灵活的部署选择,将进一步降低运营的综合成本。

    -未完待续-

    相关文章

    云网络的回归之路-业务可视篇(1)


    关注星融元


    云与云上业务的不确定性和无关性

    云计算在过去的十年当中大行其道,IT架构及其所承载业务系统的交付模式几乎发生了天翻地覆的变化:

    • 传统基础设施的竖井式部署架构被彻底抛弃,被资源池、虚拟化、按需部署、动态调度取而代之;
    • 传统基础设施的封闭体系被完全打破,取而代之的是开放、开源、解耦、软件定义。

    相应的,上层业务系统的开发、部署、交付、运营模式也与传统时代大相径庭:

    1. DevOps(Development and Operations,开发运维)让业务系统对底层支撑系统的操控达到前所未有的程度;
    2. CI/CD(Continuous Integration/Continuous Deployment,持续集成/持续部署)将业务系统的迭代速度大幅提升、发布周期大幅缩短;
    3. SaaS(Software-as-a-Service,软件即服务)取代传统的固化、私有安装的发布模式 成为业务系统的主要交付模式……

    自然而然地,云计算(或者运行在云计算平台之上的业务系统)的运营也必将与传统时代的IT运营不可同日而语,云计算自身的特征为运营带来了一系列的新挑战、新需求。

    云与云上业务的不确定性和无关性

    图1:云与云上业务的不确定性和无关性

    如图1所示,从云计算的整体模型与运营关系上看,新挑战主要体现在两个方面:

    业务对云的需求的不确定性

    云平台的本质是将各种基础设施资源进行池化、虚拟化,然后按照租户的申请和业务的需求进行自动调度,即相对于所承载的租户与业务来说,云平台是一组“无差别”构建的基础设施资源的集合。而云平台之上承载的不同租户、以及同一租户的不同业务是千差万别的,租户规模有大有小、业务范畴有复杂有简单、运行时段有高峰有低谷,是一个在时间和空间上不停动态变化的过程。所以说,云平台首先面对的挑战是上层业务需求的不确定性。

    云与业务的所有权的无关性

    云平台的所有权属于云的运营者,而上层业务系统的所有权则属于租户;相应地,对上层业务系统运营的权利和义务也属于租户,对云平台自身运营的权利和义务则属于云的运营者。这就是云与业务的所有权的无关性。但是,云自身的特性(基础支撑平台,支撑其上的所有业务顺利运行)决定了云的运营者在实质上要对上层业务能否正常、高效运行来承担责任。

    例如,云的运营者要给自己(和租户)提供一种工具,当租户的某种业务发生中断或者性能降级时,能够很快速、精准地定位到发生故障的位置(甚至原因)。

    无论是出于对租户业务运行环境保障的目的,还是出于证明云平台对SLA(Service Level Agreement,服务等级协议)的合规遵从的目的,云的运营者都需要拥有相应的工具与方法,在这样一种以无关性为前提的关系下,为双方的运营提供更好的支撑。

    也正是因为这样的不确定性和无关性的存在,使得云的运营者需要找到一个契合点,通过这个契合点能够同时对云和云上的业务进行全面的运营,同时又可以规避不确定性带来的影响、确保无关性的关系不被打破。

    于是,作为三大支撑基础设施之一的云网络,作为连接云中所有资源的最重要载体,自然成为了这个契合点。

    那么,随之而来的,相较于传统网络的运营,对于云网络的运营,云计算又提出了哪些新的需求呢?

    云计算对云网络提出新的需求

    1、运营需要同时面对物理网络和虚拟网络

    因为网络在云计算的世界中与计算、存储资源被一起云化(虚拟化、资源池化),所以云网络运营与传统网络运营的最大区别在于对象不再是单一的、静态的一张物理网络,而是同时包含了运行在这张物理网络上的、动态变化的所有虚拟网络;

    这就意味着,云网络的运营工具除了要面对高速交换的物理网络,而且还包括动态变化(创建、删除、迁移、变更等)的虚拟网络。并且,因为所有的虚拟网络其实都运行在同一张物理网络上,所以云网络的运营要有将物理网络与虚拟网络关联在一起进行运营分析的能力,以便在网络发生故障时快速定位到发生故障的点是在物理网络上还是虚拟网络上。

    2、云业务流量在云网络上的传送路径无法预知

    前述的不确定性与无关性在云网络方面的具体表现之一就是:直接承载云业务的虚拟网络在运行时刻具体通过物理网络的哪一条路径完成交换是不可定义和不可预知的。

    物理网络一般会在众多计算节点之间提供多通道能力以确保高性能与高可靠性,虚拟网络的流量在交换时刻会被物理网络根据自身在那一时刻的各种状态参数动态地分布到最合理的路径上去,而承载着众多租户、众多业务和众多虚拟网络的物理网络的瞬时动态参数基本是不可预测的。再考虑到云中虚拟计算节点频繁的动态变化(按需创建或删除、动态迁移或调整等),我们基本可以认为,云业务的流量在云网络上的分布是“随机的”,

    这样的“随机”设计给云网络运营带来最直接的挑战就是:云业务的流量有可能出现在网络中的任何一点,无法通过预先设置假设到某一点或某一条路径上去观察。

    3、无法获知网络的精准健康数据

    物理网络承载了云中所有的虚拟网络和租户业务,因此其健康状况直接影响到云及云中业务的运行状况。

    传统的观察网络健康状况的工具,包括WebUI、SNMP、syslog等,都是属于静态的、Pull模式的工具,往往需要管理员预先定义好各种参数,然后以周期性查询的方式获取数据,这些静态的数据精度很低,只能反映查询瞬间的网络健康状况,而非网络在真正转发业务那一时刻的,而且,这些数据往往来自于网络设备的控制平面,并不能代表网络数据平面(或转发平面)最真实的健康状况。

    尤为重要的是,传统的采集工具无法应对今天云中“虚拟网络运行在物理网络之上”的模型。因此,如果说传统网络的运营工具是X射线的话,今天的云网络则急需类似于CT这样具备更精准能力的工具完成深层次的网络运营。

    4、运营不能对生产网造成性能影响

    为了更好地对云中的生产网络(虚拟网络+物理网络)进行运营,必须从生产网络获取一定的数据供运营分析系统使用;但是,不可避免从生产网络获得运营支撑数据一定会对生产网络自身的性能带来影响。当然,运营分析系统希望获得“尽可能多的运营数据”以便能够提供更智能、更全面的分析信息,但是“尽可能多的运营数据”对生产网络而言则意味着更大的性能冲击,尤其在云计算的环境中,业务大规模集中部署,并且承载在统一的底层平台之上,对任何一个租户或业务运营数据需求的激增,都有可能影响到其他租户或业务。

    很多情况下,运营分析系统的多个子系统(例如安全审计系统和性能分析系统)还需要各自得到一份数据的完整拷贝,会让这种数据获取对生产网络的冲击成倍放大。于是,数据获取不能影响生产网络(或者尽可能降低对生产网络的影响)成为了云网络运营的前提。

    5、精细运营不能过度增加成本

    一般来说,运营分析系统与生产网络在物理上是隔离开的,并且有一定距离,在跨数据中心、广域的场景中,这个距离很有可能是跨越城市的。因此,如何让“尽可能多的运营数据”从生产网络简捷、快速地到达后端的运营分析系统也是一个需要重点考虑的问题。

    当这些“尽可能多的运营数据”抵达后,对后端运营分析系统随之而来的需求就是更大的数据存储容量与更高的数据处理性能。

    例如,在一些针对网络交易质量的分析场景中,运营分析系统需要追踪、接收、存储、分析、复原每一笔交易的所有过程,精确记录过程中每一次交互的时间、状态、结果等信息,从而为决策者提供判断与决策依据;不难想象,一个这样的运营分析系统对数据存储和处理的性能要求之高。

    所以,“尽可能多的运营数据”无论对于传送来说,还是对于后端的运营分析系统来说,都意味着“更高的成本”,而当这个成本高到一定程度后,也就意味着运营分析系统不再具备存在的可行性。

    于是,如何有效降低整个运营分析系统的TCO(Total Cost of Ownership,总拥有成本),也成为云网络运营的刚需。

    6、运营系统要将自身融合到云中

    云计算的世界是软件定义的世界,从上层业务的部署到底层基础设施的调度,从虚拟计算、存储节点的创建、迁移到虚拟网络的连通、策略跟随,都是通过Cloud OS对各种业务、平台、基础设施提供的REST(REpresentation State Transfer,表述状态转移)风格API(Application Programming Interface,应用软件编程接口)的软件编程调用来完成的。

    相应的,部署在云中的运营方案也需要支持同样的软件定义、统一编排能力,要能够被Cloud OS自动调度,即在需要的时候,运营人员只需要点击两下鼠标,即可完成规则定义、数据采集、数据传送、数据分析的全部过程,甚至运营系统要能够根据运营人员预先设置好的策略与触发阈值,在需要的时候自动化地完成上述过程,而不需要人工干预。

    7、保护用户隐私不受侵犯

    在公有云中,前述的“云与业务所有权的无关性”给云及云网络的运营带来了无法回避的合规需求。

    公有云上运行着各种各样的业务,这些业务以及所产生的数据的所有权属于租户,而非公有云的运营者,而公有云的运营者在对云及云网络的运营过程中,不可避免地要获取各种业务的网络流量,此时,如何确保租户/用户的业务隐私和数据不被碰触就成了最关键的问题。

    欧盟于2018年5月正式颁布执行的GDPR(General Data Protection Regulations,通用数据保护条例)就是应对这种风险的法律准备,那么,对于云的运营者来说,如何通过技术手段避免任何形式的接触用户数据,从而规避自身的法律风险,成为当务之急。

    8、将运维能力作为一种服务提供给租户/用户

    当租户将业务部署在云上,自然地,也就产生了对业务以及所拥有的虚拟网络的运维需求。

    但是因为租户并不拥有云平台,而只拥有云上的虚拟化资源,因此,云的运营者需要将云上的运维工具作为一种增值服务提供给租户。

    对于购买了这种增值服务的租户,完全可以自助部署针对特定业务系统的运维环境,实时监控业务系统的运行状况,及时发现可能的性能瓶颈与潜在的故障风险,以确保业务的连续性与高可靠性。

    而对于公有云的运营者来说,这样的自助运维系统则意味着更高的用户粘性、更低的用户故障率和更多的潜在收入。

    那么问题来了,云网络的运维所面临的重重困难,是如何解决的?

    关注我们,下期更精彩!

    -未完待续-

    相关文章

    对星融元产品感兴趣?

    立即联系!

    返回顶部

    © 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2