如何通过带内网络遥测(INT)技术实现精细实时的网络运维?
星融元通过提供AFF(Asteria Fabric Foresight)云网智能遥测系统搭配可编程云网交换机产品,构建了一套遵循INT技术的解决方案,能够在不影响设备的性能和功能的情况下,实现更高精度的网络数据监控;在转发业务流量的同时,将网络的即时性能、状态、参数收集并记录下来,在网络的出口发送给运营分析系统,用来精准分析物理网络的健康状况,让运维人员快速、精准地掌握全网设备的实时运行状态,帮助提升响应速度和运维效率。
带内网络遥测 VS. 传统网络运维模式
1、传统网络——基于CLI、SNMP机制的被动运维模式
在INT技术出现之前,数据中心多采用SNMP、NetFlow、sFlow之类的协议进行网络数据的采集监控。
1、SNMP(Simple Network Management Protocol,简单网络管理协议) :可以采集到网络设备的CPU、内存、日志等信息,但缺点是无法采集到网络数据流量,无法判断链路拥塞情况。这种Pull拉取式的模式已无法满足当今云数据中心需求。SNMP本质是工作在设备内部的一个 server,snmp 的 客户端要定期地到这个 server 里面去拿指定的数据。 server 是运行在设备的控制面,如果要通过控制面去采集一些数据面的信息的话,会导致设备的性能大打折扣。
2、NetFlow、sFlow:后续出现的高级采集协议,有NetFlow、sFlow等,可以实现网络数据流量的采样和推送,但其推送的是原始数据,不能直观地显示网络情况;而且是按照一定比例采集的,不能反映整个网络链路的流量全貌,所以不能预测流量和拥塞,sFlow通过设定的采样比采集端口数据,采样比越大,收集的数据量越少,采样比越小,收集的数据量越多越详细。缺点也很明显,采集的流量在端口流量比较小的情况下,反映网络状况不是很准确,尤其是在端口各种流量比较丰富的情况下,就可能会漏掉部分流量。
- 通过拉(pull)模式来获取设备的监控数据,故障定位缓慢;
- 采集精度粗略,只能做到分钟级别的采集,监控到的网络节点数据并不准确;
- 缺乏对设备队列状态信息的查询,故障定位不详细
这种被动响应的网络监控方式,故障定位迟缓、粗略,使得管理效率越来越低,已无法跟上时代的步伐,满足不了数据中心云网络运维需求。
2. 带内网络遥测(INT,In-band Network Telemetry)——更实时、全面、精细的运维模式
INT是通过数据面业务进行网络状况的收集、传送、上传的。通过名称我们可以看出两个技术关键点。“带内”意味着可以从传输网络内部收集信息,而不是通过额外搭建的业务网以及实际端口收集;“遥测”,表现在测量网络的数据并且远程上报的特点。对比上述传统技术,INT的特点优势一目了然:
- INT采用主动推(push)模式:制定完规则后,网络设备主动推送运维人员所需要的数据。
- INT无需控制层面干预:采集过程无需控制层面干预,减轻设备负担。
- INT可实现纳秒级时间戳:INT协议本身支持纳秒级时间戳从而采集的数据精度高。
- INT实现快速响应:在数据平面芯片内部进行采集,响应时间非常快。
目前,INT已成为了当代大型数据中心运营的关键组成部分,能实现整网的流量可视化,通过对网络设备的数据进行远程高速采集和监控,提供更实时、更全面和更精细的网络监管能力,从而帮助加速网络故障排除、预测网络容量增长和评估网络性能的潜力。
INT如何实现?
1、INT的头部报文格式
正确类型的遥测数据使网络运营商能够主动解决网络盲点并保持其业务系统高效运行。所以,我们不妨先了解下INT的头部报文格式。
- Ingress-port(9bit):报文入端口号
- Egress-port(9bit): 报文出端口号
- Queue_id(5bit):报文出端口队列号
- Queue_occupany(19bit):队列占用率
- Timestamp(32bit): 报文出端口时间戳
- D(1bit):指原始报文是否在本交换机被Drop
- Q(1bit):指原始报文出队列上是否存在拥塞
- F(1bit):指INT采集是否是通过ACL匹配识别
- Seq_number(32bit):该报文计数,报文发送INT数据的个数
- Timestamp(32bit): 报文入端口时间戳
2、INT数据包的传递
知悉了头部数据包内容,下面我们看下带内网络遥测架构数据包的传递过程。
在带内网络遥测架构中,交换设备转发处理携带遥测指令(Telemetry instructions)的数据包。当遥测数据包经过该设备时,这些遥测指令告诉具备网络遥测功能的网络设备应该收集并写入何种网络状态信息。
一般来说,一个INT过程涉及3个功能节点:
- 交换机-1充当INT source,负责指出需要收集信息的流量和要收集的信息
- 交换机-2作为支持INT遥测的设备
- 交换机-3作为终点负责将收集到的信息上报给监控设备或者系统
通过上述信息,我们不难发现:INT可以精准地描述一个报文在交换机里的运作情况。这是传统的遥测技术比如Snmp,sFlow所无法实现的,它体现的是网络在转发业务那一瞬间最真实的情况,在当今数据中心呈现“高速率、大规模、多接入、不可预期”的特点下,INT技术无疑更加满足运维人员的实际需求。
星融元基于可编程交换芯片的INT方案
星融元通过提供AFF(Asteria Fabric Foresight)云网智能遥测系统 搭配可编程云网交换机产品,构建了一套遵循INT技术的解决方案,能够在不影响设备的性能和功能的情况下,实现更高精度的网络数据监控;在转发业务流量的同时,将网络的即时性能、状态、参数收集并记录下来,在网络的出口发送给运营分析系统,用来精准分析物理网络的健康状况,让运维人员快速、精准地掌握全网设备的实时运行状态,帮助提升响应速度和运维效率。
SSL加密原理
- 精细运维:纳秒级别的监控粒度、一针见血反映网络状况。
- 快速定位:远程预警方式快速告知客户详细网络故障信息。
- 释放资源:采用订阅上报机制,通过设备的交换芯片转发INT流量,不占用设备CPU开销