即插即用零配置,数据中心带外管理网的快速上线方案
数据中心的带外管理网是一个独立于业务网络的专用管理通道,是数据中心运维体系中关键的容错和保障机制,其核心作用是在主业务网络发生故障、设备宕机或系统无法远程登录时,为管理员提供一条“备用通道”,从而实现对设备的持续访问和控制,保障业务的连续性。
数据中心管理网的传统配置方式
通常我们会使用千兆电口交换机去连接区域内所有不同类型服务器和网络交换机的带外管理口,并为其划分出独立的IP地址段,与业务网络地址段严格区分,以避免路由混淆。
典型配置工作如下:
- 登录所有服务器设备,按照规划给服务器带外口/网络设备管理口配置静态的管理IP地址,掩码和网关信息
- 在交换机上根据设备类型或管理权限划分不同的VLAN(如服务器管理VLAN、网络设备管理VLAN),以实现逻辑隔离和权限细分
而如今,上述的配置工作也可以免去了。
图1:管理网零配置上线方案概要
在星融元的交付实践中,我们依托SONiC交换机的开放特性,通过在交换机内部运行DHCP server 和 TFTP server,已轻松实现了带外管理网的“即插即用”零配置开局配置,无需额外的管理节点。
✦ 交换机自动上线并分配到不同 VLAN 用于标识和区分
✦ 终端主机根据DHCP请求包 option 携带的主机位置自动获取到预先规划的IP地址,完成上线(比如按照设备物理安装和连接位置按序分配,后续管理时可轻松定位)
✦ 双活DHCP服务器,高可靠设计保障业务
数据中心管理网的零配置上线方案
本例所用到的设备为:
- 星融元 CX202P-24Y-M,2x100GE + 24x25GE QSFP28,作为管理网的Spine /核心交换机,运行TFTP server 和 DHCP server,支持 DHCP option82/66/67
- 星融元 CX206Y-48GT-M,6x10GE+48x1GE RJ45,作为管理网的 Leaf/接入交换机,下连各类被管理设备;
以上交换机均搭载基于SONiC的 AsterNOS 网络操作系统,容器化架构,支持完备的数据中心/云化园区网络特性。
被管理交换机设备的零配置上线
- 被管理交换机通过发起DHCP请求获取IP地址、配置文件所在的TFTP服务器地址和开局文件名称
- 被管理交换机根据 DHCP 服务器给出的地址与TFTP Server 建立联系,获取开局文件(
Smart_config.ini)并解析,开局文件中包含与此设备MAC匹配的唯一配置文件名称(MACn.cfg) - 被管理交换机根据解析出的配置文件名称再次向TFTP Server 获取对应的配置文件并应用
配置文件为每台交换机分配了 VLAN,并配置好 DHCP Relay使其下接入的终端也能顺利通过 DHCP 过程获取到 IP 地址。
终端主机/服务器的零配置上线
- 主机通过DHCP请求获取IP地址
- 主机所连接的被管理交换机分别在 DHCP discover 报文 Option 82 字段中加入自身MAC地址和连接终端的端口号、VLAN号,用来标识该主机位置
- Spine 交换机上DHCP Server 根据 Option82 字段中的信息,匹配到唯一的IP地址并回复给接入主机
- 主机按照规划获得到与位置对应的 IP 地址
DHCP server 的高可靠设计
上述方案中,管理交换机和上行链路之外,DHCP server 也支持双活部署以提升业务可靠性:两台Spine交换机上都分别运行了DHCP服务器,并进行地址分配等相关信息的同步,当其中一台服务器出现故障,另一台服务器将继续从地址池中续订租约
正常情况下:两台DHCP服务器均收到DHCP请求,并向客户端发送IP地址,客户端挑选一条回复,收到回复的服务器并向对端设备同步地址信息,客户端到达任一个服务器均可以续租。
若某台DHCP服务器出现故障:客户端获取地址时由当前存活的DHCP服务器响应请求,根据客户端信息和地址池状态分配地址,交互完成后,本地更新租约信息,客户端的续租请求仅向存活服务器发起。






