开放网络的先行者与推动者—星融元
技术支持(Support)  TEL:(+86)4000989811

产品, 文章

2022-06-15

关键词


关注星融元

产品, 文章

数据中心的“天眼”,告诉你什么叫网络监控世界的内卷

2022-06-15

前段时间,有客户咨询我们,他们在处理日常业务的过程中,偶尔感知到数据传输丢失、突发高时延等故障问题。客户的数据中心内部有上千台的交换机,依靠人工排查问题,不仅定位难,而且耗费时间也长,严重影响业务连续性。所以怎么才可以快速定位到具体故障设备,甚至具体故障端口,然后进行故障修复呢?

在超大规模的数据中心里,故障的精准定位是一个普遍存在的网络运维难题。

落后的传统运维模式

大型数据中心,既有由交换机、路由器等物理硬件组成的物理Underlay网络,也有在Underlay网络上为业务或用户构建逻辑隔离的虚拟Overlay网络空间,其网络架构复杂,技术堆栈层次多,对故障的识别、海量策略的下发等网络运维工作带来极大困难。特别是一些对网络时延要求较高的业务, 如高性能计算、人工智能等,业务交互关系更复杂,数据交换更频繁,网络架构更加复杂,对故障的响应时间和定位速度要求极高。

但是当前的网络运维还是以人工为主,当故障一旦出现后,通常要一台台地识别,不仅工作量巨大,甚至会对整个网络产生影响,阻碍业务的正常开展。同时,传统网络基于CLI、SNMP机制的被动运维模式:通过拉模式来获取设备的监控数据,故障定位缓慢;采集精度粗略,只能做到分钟级别的采集,监控到的网络节点数据并不准确;缺乏对设备队列、端口状态信息的查询,故障定位不详细。这种被动响应以及故障定位迟缓、粗略的网络监控方式,管理效率越来越低,已无法跟上时代的步伐,无法满足数据中心网络运维要求。

因此,面对大规模、高性能的网络监控需求,用户需要一种全新的工具,让网络运维更加智能化。

针对传统网络运维方面的种种挑战,星融元在充分了解客户痛点的基础上,将实现客户的网络运维的智能可视化放在重要位置:设计和研发了一款智能网络运维产品——AFF(Asteria Fabric Foresight)云网智能遥测系统,具备网络状态实时监控,网络质量全面感知、网络故障快速定位等功能,帮助用户在星融元为其搭建的网络里,从容解决来自网络运维方面的难题。

AFF云网智能遥测系统

AFF(Asteria Fabric Foresight)云网智能遥测系统,遵循INT(Inband Network Telemetry,带内网络遥测)技术,能够在不影响设备的性能和功能的情况下,实现更高精度的网络数据监控;能够快速、精准地掌握全网设备的实时运行状态,帮助用户提升响应速度和运维效率,告别过往问题发生时的束手无策。

INT作为一种混合测量技术,是一种借助数据面业务进行网络状况的收集、携带、整理、上报的技术。两个关键技术点:第一点是Inband(带内),意味着借助数据面的业务流量,而不是像很多协议那样专门使用协议报文来完成协议想要达到的目的,第二点就是Telemetry(遥测),具备测量网络的数据并远程上报的特点。

1、精细运维

即便是在规模不断增大的数据中心网络,也可以做到纳秒级别的监控粒度,能够完整、准确地反映网络状况,据此预估可能发生的故障。并通过WEB页面清晰完整地展现全网设备的连接拓扑,帮助用户对整体网络质量有全面直观的了解,为用户的网络优化提供有力的数据依据。

2、快速定位

在复杂的网络中,能够帮助用户快速地定位故障,达到纳秒级的故障定位速度,并通过远程预警方式快速告知客户详细网络故障信息;同时当用户需要回溯故障详情时,可以通过系统日志精准定位故障设备,从而大幅减轻了运维工作人员的压力。

3、释放资源

AFF基于INT遥测技术,采用订阅上报机制,通过设备的交换芯片转发INT流量,不占用设备CPU开销;此外,AFF可以直接在生产业务网络环境中进行部署,使用现有的网络链路直接传输INT流量,无需对生产网络环境进行复杂的改动,节省部署成本。

AFF与AFC的智能联动

AFF是星融元为了让客户的网络管控和智能运维更加一体化而研发的一项高级扩展功能,该功能基于星融元自研的SDN云网控制器AFC(Asteria Fabric Controller)。AFC是星融元自研的一款面向各行业云数据中心等应用场景,提供网络设备的智能管控及配置自动下发等功能的SDN云网控制器。

用于AFF的应用场景拓扑图

通过为AFF设计全面的REST API接口,AFF可以与AFC无缝对接,智能联动,为客户提供一个全网健康状态可见的网络分析平台。即便在一个数据中心有成千上万台的星融元交换机,如果想要进行一个时延阈值的设置,只需通过AFC,一键下发配置策略即可,可以极大减轻运维人员的工作难度,帮助客户在业务部署中,减少设备配置的复杂度,提高业务的上线速度。并且面对AFF上报的故障问题,通过AFC可以对业务流量的转发路径进行快速调整,避开故障设备或故障端口,保障业务流量的正常转发。

AFF的出现解决了云网环境中由于网络设备数量过于庞大,从而给运维人员带来的网络故障定位难、运维时间成本高、工作效率低等难题;实现了全网设备健康状态的可视化,提升了网络监控数据的实时性和精确度,保障业务稳定、可靠运行。AFF也让星融元的云网络解决方案功能更加完整,服务更加全面,从网络的搭建,再到网络的管控和运维,一站式全网健康管理,网络质量尽在掌控之中。

相关文章

对星融元产品感兴趣?

立即联系我们

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2