开放网络的先行者与推动者—星融元
技术支持(Support)  TEL:(+86)4000989811

产品, 文章

2022-04-28

关键词


关注星融元

产品, 文章

云网络的回归之路-业务可视篇(1)

2022-04-28

云与云上业务的不确定性和无关性

云计算在过去的十年当中大行其道,IT架构及其所承载业务系统的交付模式几乎发生了天翻地覆的变化:

  • 传统基础设施的竖井式部署架构被彻底抛弃,被资源池、虚拟化、按需部署、动态调度取而代之;
  • 传统基础设施的封闭体系被完全打破,取而代之的是开放、开源、解耦、软件定义。

相应的,上层业务系统的开发、部署、交付、运营模式也与传统时代大相径庭:

  1. DevOps(Development and Operations,开发运维)让业务系统对底层支撑系统的操控达到前所未有的程度;
  2. CI/CD(Continuous Integration/Continuous Deployment,持续集成/持续部署)将业务系统的迭代速度大幅提升、发布周期大幅缩短;
  3. SaaS(Software-as-a-Service,软件即服务)取代传统的固化、私有安装的发布模式 成为业务系统的主要交付模式……

自然而然地,云计算(或者运行在云计算平台之上的业务系统)的运营也必将与传统时代的IT运营不可同日而语,云计算自身的特征为运营带来了一系列的新挑战、新需求。

图1:云与云上业务的不确定性和无关性

如图1所示,从云计算的整体模型与运营关系上看,新挑战主要体现在两个方面:

业务对云的需求的不确定性

云平台的本质是将各种基础设施资源进行池化、虚拟化,然后按照租户的申请和业务的需求进行自动调度,即相对于所承载的租户与业务来说,云平台是一组“无差别”构建的基础设施资源的集合。而云平台之上承载的不同租户、以及同一租户的不同业务是千差万别的,租户规模有大有小、业务范畴有复杂有简单、运行时段有高峰有低谷,是一个在时间和空间上不停动态变化的过程。所以说,云平台首先面对的挑战是上层业务需求的不确定性。

云与业务的所有权的无关性

云平台的所有权属于云的运营者,而上层业务系统的所有权则属于租户;相应地,对上层业务系统运营的权利和义务也属于租户,对云平台自身运营的权利和义务则属于云的运营者。这就是云与业务的所有权的无关性。但是,云自身的特性(基础支撑平台,支撑其上的所有业务顺利运行)决定了云的运营者在实质上要对上层业务能否正常、高效运行来承担责任。

例如,云的运营者要给自己(和租户)提供一种工具,当租户的某种业务发生中断或者性能降级时,能够很快速、精准地定位到发生故障的位置(甚至原因)。

无论是出于对租户业务运行环境保障的目的,还是出于证明云平台对SLA(Service Level Agreement,服务等级协议)的合规遵从的目的,云的运营者都需要拥有相应的工具与方法,在这样一种以无关性为前提的关系下,为双方的运营提供更好的支撑。

也正是因为这样的不确定性和无关性的存在,使得云的运营者需要找到一个契合点,通过这个契合点能够同时对云和云上的业务进行全面的运营,同时又可以规避不确定性带来的影响、确保无关性的关系不被打破。

于是,作为三大支撑基础设施之一的云网络,作为连接云中所有资源的最重要载体,自然成为了这个契合点。

那么,随之而来的,相较于传统网络的运营,对于云网络的运营,云计算又提出了哪些新的需求呢?

云计算对云网络提出新的需求

1、运营需要同时面对物理网络和虚拟网络

因为网络在云计算的世界中与计算、存储资源被一起云化(虚拟化、资源池化),所以云网络运营与传统网络运营的最大区别在于对象不再是单一的、静态的一张物理网络,而是同时包含了运行在这张物理网络上的、动态变化的所有虚拟网络;

这就意味着,云网络的运营工具除了要面对高速交换的物理网络,而且还包括动态变化(创建、删除、迁移、变更等)的虚拟网络。并且,因为所有的虚拟网络其实都运行在同一张物理网络上,所以云网络的运营要有将物理网络与虚拟网络关联在一起进行运营分析的能力,以便在网络发生故障时快速定位到发生故障的点是在物理网络上还是虚拟网络上。

2、云业务流量在云网络上的传送路径无法预知

前述的不确定性与无关性在云网络方面的具体表现之一就是:直接承载云业务的虚拟网络在运行时刻具体通过物理网络的哪一条路径完成交换是不可定义和不可预知的。

物理网络一般会在众多计算节点之间提供多通道能力以确保高性能与高可靠性,虚拟网络的流量在交换时刻会被物理网络根据自身在那一时刻的各种状态参数动态地分布到最合理的路径上去,而承载着众多租户、众多业务和众多虚拟网络的物理网络的瞬时动态参数基本是不可预测的。再考虑到云中虚拟计算节点频繁的动态变化(按需创建或删除、动态迁移或调整等),我们基本可以认为,云业务的流量在云网络上的分布是“随机的”,

这样的“随机”设计给云网络运营带来最直接的挑战就是:云业务的流量有可能出现在网络中的任何一点,无法通过预先设置假设到某一点或某一条路径上去观察。

3、无法获知网络的精准健康数据

物理网络承载了云中所有的虚拟网络和租户业务,因此其健康状况直接影响到云及云中业务的运行状况。

传统的观察网络健康状况的工具,包括WebUI、SNMP、syslog等,都是属于静态的、Pull模式的工具,往往需要管理员预先定义好各种参数,然后以周期性查询的方式获取数据,这些静态的数据精度很低,只能反映查询瞬间的网络健康状况,而非网络在真正转发业务那一时刻的,而且,这些数据往往来自于网络设备的控制平面,并不能代表网络数据平面(或转发平面)最真实的健康状况。

尤为重要的是,传统的采集工具无法应对今天云中“虚拟网络运行在物理网络之上”的模型。因此,如果说传统网络的运营工具是X射线的话,今天的云网络则急需类似于CT这样具备更精准能力的工具完成深层次的网络运营。

4、运营不能对生产网造成性能影响

为了更好地对云中的生产网络(虚拟网络+物理网络)进行运营,必须从生产网络获取一定的数据供运营分析系统使用;但是,不可避免从生产网络获得运营支撑数据一定会对生产网络自身的性能带来影响。当然,运营分析系统希望获得“尽可能多的运营数据”以便能够提供更智能、更全面的分析信息,但是“尽可能多的运营数据”对生产网络而言则意味着更大的性能冲击,尤其在云计算的环境中,业务大规模集中部署,并且承载在统一的底层平台之上,对任何一个租户或业务运营数据需求的激增,都有可能影响到其他租户或业务。

很多情况下,运营分析系统的多个子系统(例如安全审计系统和性能分析系统)还需要各自得到一份数据的完整拷贝,会让这种数据获取对生产网络的冲击成倍放大。于是,数据获取不能影响生产网络(或者尽可能降低对生产网络的影响)成为了云网络运营的前提。

5、精细运营不能过度增加成本

一般来说,运营分析系统与生产网络在物理上是隔离开的,并且有一定距离,在跨数据中心、广域的场景中,这个距离很有可能是跨越城市的。因此,如何让“尽可能多的运营数据”从生产网络简捷、快速地到达后端的运营分析系统也是一个需要重点考虑的问题。

当这些“尽可能多的运营数据”抵达后,对后端运营分析系统随之而来的需求就是更大的数据存储容量与更高的数据处理性能。

例如,在一些针对网络交易质量的分析场景中,运营分析系统需要追踪、接收、存储、分析、复原每一笔交易的所有过程,精确记录过程中每一次交互的时间、状态、结果等信息,从而为决策者提供判断与决策依据;不难想象,一个这样的运营分析系统对数据存储和处理的性能要求之高。

所以,“尽可能多的运营数据”无论对于传送来说,还是对于后端的运营分析系统来说,都意味着“更高的成本”,而当这个成本高到一定程度后,也就意味着运营分析系统不再具备存在的可行性。

于是,如何有效降低整个运营分析系统的TCO(Total Cost of Ownership,总拥有成本),也成为云网络运营的刚需。

6、运营系统要将自身融合到云中

云计算的世界是软件定义的世界,从上层业务的部署到底层基础设施的调度,从虚拟计算、存储节点的创建、迁移到虚拟网络的连通、策略跟随,都是通过Cloud OS对各种业务、平台、基础设施提供的REST(REpresentation State Transfer,表述状态转移)风格API(Application Programming Interface,应用软件编程接口)的软件编程调用来完成的。

相应的,部署在云中的运营方案也需要支持同样的软件定义、统一编排能力,要能够被Cloud OS自动调度,即在需要的时候,运营人员只需要点击两下鼠标,即可完成规则定义、数据采集、数据传送、数据分析的全部过程,甚至运营系统要能够根据运营人员预先设置好的策略与触发阈值,在需要的时候自动化地完成上述过程,而不需要人工干预。

7、保护用户隐私不受侵犯

在公有云中,前述的“云与业务所有权的无关性”给云及云网络的运营带来了无法回避的合规需求。

公有云上运行着各种各样的业务,这些业务以及所产生的数据的所有权属于租户,而非公有云的运营者,而公有云的运营者在对云及云网络的运营过程中,不可避免地要获取各种业务的网络流量,此时,如何确保租户/用户的业务隐私和数据不被碰触就成了最关键的问题。

欧盟于2018年5月正式颁布执行的GDPR(General Data Protection Regulations,通用数据保护条例)就是应对这种风险的法律准备,那么,对于云的运营者来说,如何通过技术手段避免任何形式的接触用户数据,从而规避自身的法律风险,成为当务之急。

8、将运维能力作为一种服务提供给租户/用户

当租户将业务部署在云上,自然地,也就产生了对业务以及所拥有的虚拟网络的运维需求。

但是因为租户并不拥有云平台,而只拥有云上的虚拟化资源,因此,云的运营者需要将云上的运维工具作为一种增值服务提供给租户。

对于购买了这种增值服务的租户,完全可以自助部署针对特定业务系统的运维环境,实时监控业务系统的运行状况,及时发现可能的性能瓶颈与潜在的故障风险,以确保业务的连续性与高可靠性。

而对于公有云的运营者来说,这样的自助运维系统则意味着更高的用户粘性、更低的用户故障率和更多的潜在收入。

那么问题来了,云网络的运维所面临的重重困难,是如何解决的?

关注我们,下期更精彩!

-未完待续-

相关文章

对星融元产品感兴趣?

立即联系我们

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2