Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

星融元高性能私有云网络解决方案


关注星融元


背景与需求

客户的IT建设面临着以下几个问题:

  • 随着公司规模日趋发展壮大,目前已经有北京、西安、苏州、武汉、长沙等多个研发中心,研发队伍不断壮大,截止2021年研发人员数量已经达到120多人。大多数研发仍然在个人PC上进行开发,涉及到交换机操作系统的编译,一次编译需要好几个小时,开发效率很低。
  • 公司目前在公有云和公司内部机房部署了不少应用,如BUG管理平台、文档管理平台、源码管理平台、企业官方网站、ERP系统、网盘系统,这些应用分散,占用的资源大多还需要额外付费,维护起来也比较麻烦。

针对以上问题,客户决定建设一套自己的私有云网络环境。通过私有云来分配较高配置的虚机满足研发的快速编译需求;通过将企业的IT应用迁移到私有云来节省不必要的开支,并实现统一运维和管理;

Asterfusion解决方案

私有云分成两个区域,一个区域为线上使用环境,主要满足研发虚机分配和客户IT应用部署的需求;

另外一个区域为测试演示环境,主要满足产品测试需求和客户演示需求。同时两个区域相互可达。

客户私有云共分为两期实现:

  • 一期线上使用环境主要满足研发虚机使用需求,迁移部分应用,测试演示环境满足基本的组网测试需求。
  • 二期主要扩容测试环境,通过加入更多的星融元网络设备,完成更多虚机支撑、业务覆盖全面的的数据中心组网环境。

客户私有云一期网络拓扑图

图1:客户私有云一期网络拓扑图

图1为私有云一期网络拓扑,CX532 设备做Spine,CX306 设备做Leaf

  • 线上使用区域:2台Spine,2台Leaf,15台服务器。
  • 测试演示区域:2台Spine,4台Leaf,10台服务器。

1RU的标准机身,Asterfusion CX5系列下一代云交换机可以提供32个100G/40G高速以太网接口,向下接入服务器和/或向上连接到骨干层的Spine交换机。其具体款型:CX532P整机交换容量为6.4Tbps。

在1RU的标准空间内,Asterfusion CX3系列下一代云交换机可以提供48个10G或25G以太网接口,向下接入服务器,同时提供6个100G/40G高速以太网接口,向上连接到骨干层的Spine交换机。其具体款型:CX306P-48S和CX306P-48T的整机交换容量为2.16Tbps,CX306P-48Y的整机交换容量为3.6Tbps。

无论是线上区域还是测试区域,Spine和Leaf的端口密度都完全满足需求,并为后期扩容提供冗余空间。

在本案例中主要用到了CX306支持的以下高级功能:

  • 最大支持64路基于权重的ECMP(实现流量的负载均衡,保证网络转发的高性能)。
  • 支持EVPN,可实现VXLAN隧道自动建立、虚拟网络路由动态传播 、分布式网关、非对称IRB、对称IRB。
  • 支持LAG/LACP,最大256个聚合组,每聚合组最大128个接口。
  • 支持静态路由 / BGP / MP-BGP。
  • 支持命令行 / WebUI / Controller / 集中管理 / REST API。

针对一期测试设备种类较少,覆盖功能不全面,客户私有云二期在测试演示环境又增加了一些网络设备。主要增加了防火墙和border-leaf边缘出口交换机。

私有云二期测试演示环境扩容后网络拓扑图

图2:私有云二期测试演示环境扩容后网络拓扑图

图2是客户私有云二期演示环境扩容后的网络拓扑图。X532做Spine,X308、X312、X306做Leaf。服务器4台部署Openstack云平台,2台做INT网络监测方面的测试,1台做Firewall、其余3台做裸金属。

二期主要设备类型:Spine -X532,Leaf-X308,Leaf-X312,Leaf-X306

测试演示环境扩容后能够覆盖更多的网络设备,能够演示更多的网络功能。

另外,星融元的网络设备都可以通过星融元控制器AFC来进行统一配置管理。

星融AFC控制器主界面

图3:星融AFC控制器主界面

AFC(星融元控制器)覆盖主要功能:

  • 整网拓扑自动绘制,拓扑中展示流量的来源、去向,拓扑中带宽占比TOP10设备展示
  • 整网输入输入流量建模并AI分析
  • 整网设备数量、类型展现,整网端口使用情况、整网实时输入输出流量折线图概览、历史峰值、平均值
  • 整网规则余量、整网策略(融合规则)配置,支持搜索某一融合策略并显示该策略途径设备的拓扑
  • 支持RestAPI导出第三方接口
  • 支持快照功能,包括流量快照、拓扑快照、策略快照等
  • 支持AAA、TACACS认证、用户管理、日志、告警、系统设置
  • 支持设备批量升级、配置导入导出
  • 支持登录设备自带WEB
  • X86服务器部署、计划最多支持100台设备的管理

客户的私有云管平台线上环境采用平安自研的云管平台PA_Stack。如下图4是PA_Stack的运营管理员主界面,可以看到目前的虚机资源分配情况。

星融私有云管平台主界面

图4:星融私有云管平台主界面

客户私有云管平台测试演示环境采用开源的OpenStack(Rocky版本),同时星融元基于该版本开发了Networking-AFC插件。通过将L2/L3网络功能(网络overlay)卸载至CX交换机上,提高云环境下计算节点的性能。插件依赖于AFC软件,通过该软件所提供接口配置CX交换机。

特色亮点与客户价值

高密度的高速接口设计

在1RU的标准空间内CX3系列下一代云交换机可同时交付48个10G/25G以太网端口和6个100G/40G高速以太网端口,最大程度上提升了空间、能源的使用效率,降低TCO(总拥有成本)的同时获得更高的ROI(投资回报)。

按需自由扩展的扁平化云网络

在 Scale-wide 的云网络中,不需要再为价格高昂的框式 Spine 交换机支付超额的成本,并且将网络的规划、部署、调整、优化、扩展的主动权牢牢掌握在自己手中。CX系列构建的扁平云网络极大地简化了云网络基础架构的复杂性,同时具备超强的横向扩展能力,使云计算 Pay-as-you-grow 的基本理念在云网络中得以体现。

转发平面集成线速的NFV

在可编程交换芯片的支持下,星融元 创造性地将云计算常用的NFV(网络功能虚拟化)特性在CX系列的转发平面中编程实现,从而进一步提升了云网络的使用效率。CX系列云交换机目前支持的NFV功能包括:四层SLB(服务器负载均衡)、NAT(网络地址转换)、DDoS(分布式拒绝服务)攻击流量识别与统计。

易用、多样的网络操作系统支撑二次开发

基于对网络应用的深刻理解,星融元在提供的网络操作系统AsterNOS之上开发了从操作系统内核适配、驱动适配、接口适配、虚拟化网络协议、高可靠控制协议等多种功能特性,以改善开源的SONiC/SAI和Stratum/gNMI/gNOI的可用性、易用性。

与云计算无缝融合的云网络

运行在每一台CX系列云交换机上的 AsterNOS 是星融元基于纯粹的 SDN 理念为云计算时代设计开发的一款开放、智能、易用、高性能的网络操作系统。Asteria Fabric Controller (AFC) 是星融为云计算环境设计开发的Cloud SDN Controller,是一个面向云中业务与应用的Cloud SDN 平台。

相关文章

星融元的超低时延交换机CX-N,让Infiniband交换机不再是唯一的选择


关注星融元


近期与同事去某物理所技术交流,满机房的都是IB交换机,十分壮观。

然而,客户这次叫我们来,目的却是想换掉他们,一台不留。客户无奈地说,IB 交换机的时延方面,没得说,但是”想买到“太难了,由于IB 交换机只支持IB 通信协议,所以每当有扩容的需求时,也只能继续选择IB 交换机,但IB 交换机太难买到,尤其是去年全球供货市场都紧张的情况下,更是遥遥无期,今年市场供应好了很多,客户反应说,依旧要6个月起步,根本等不起!此外,一旦交换机出点什么问题,想找售后,更是根本找不到,相隔两个大陆,一个太平洋的距离让客户对”及时响应“也只能是想想罢了,价格贵还能忍,但是想用的时候没有供应,绝对不能忍!

  1. 因此,经过长时间的被动与折磨,客户果断寻求替代厂家及其产品,在国内,能够平替IB 交换机的厂家便是星融元及其研发的超低时延交换机。
  2. 目前,星融元的低时延交换机CX-N共有五个系列,覆盖10G、25G、100G 、200G 、400G,可满足不同规模的建网需求。星融元是一家国内厂商,能够用户提供7X24小时的专家现场服务,只需要一个电话的时间,与IB交换机售后困难形成鲜明对比。不仅如此,星融元的低时延交换机还具备以下特点:
  3. 价格低廉,平均只要IB 交换机的一半成本。
  4. 交货周期短,能够及时满足客户的使用需求,不会耽误项目推进。
  5. 使用的是TCP协议,可实现网网互通。
  6. 最重要的是时延方面与IB相差无几。星融元交换机使用RoCEv2,降低传输协议时延,采用的是超低时延交换芯片,降低网络转发时延。我们曾在HPC 场景下,用星融元的CX-N与IB 交换机做过实际对比,数据相差无几,考虑到星融元设备价格的优美,其高性价比的特色不言而喻。

用户用星融元的CX-N低时延交换机替换了IB 交换机,不但解决了之前的掣肘,且节约了大量的成本,一举多得。

当今,数据中心算力正在成为新的生产力,数据中心向算力中心演进,为了满足大算力的需求,HPC 高性能计算成为常态。计算集群规模不断扩大,HPC 高性能计算的计算节点之间交互对网络性能的要求越来越高,目前明确提出低时延需求的业务有四类:第一是金融和电子交易类用户,特别是大家耳熟能详的从事期货等产品高频交易的电子交易类用户;第二是基于TCP协议的高清视频类业务,包括4K/8K高清视频直播和点播业务、高清视频会议、以及未来的虚拟现实(VR)等实时性要求极高的大带宽业务;第三是部分云业务,特别是虚机迁移、数据热备份和实时性要求比较高的云桌面、云支付等业务;第四是5G移动网络的传送承载业务,目前5G网络对传送承载层预留的时延指标非常苛刻,需要一些低时延传输新技术加以保障。

高性能计算、分布式存储等场景提供低时延以太网组网图

相关文章

智能开放、超高性能、超低时延, 星融元数据中心网络解决方案重新定义网络基础设施


关注星融元


随着数据流量的不断增长,特别是大数据时代到来后,各行业业务产生的流量激增,数据中心面临着来自应用和数据的网络压力也在“狂飙”。数据中心亟待解决数据中心之间的海量数据高速迁移问题,消除数据中心间的带宽瓶颈,大幅提升数据中心间的带宽利用率等问题。大数据的时代来临,数据中心网络重要性日益显现。

构建一个智能开放、超高性能、符合业务需求的数据中心网络对支撑业务的发展尤为重要,星融元基于多年在开放网络领域的积累,能够为不同用户构建不同规模不够特性的数据中心网络。

构建中小规模的数据中心

在数据中心规模不大,但对大缓存或超低时延有强烈需求的场景中,如提供视频、搜索服务等场景对大缓存有要求,而提供高频交易、AI等高性能计算应用对超低时延有要求,可使用CX564P-N。

和CX308P-48Y-N构建Spine-Leaf扁平化组网,极大地简化了云网络基础架构的复杂性,同时具备超强的横向扩展能力,大幅度降低云网络的TCO(Total Cost of Ownership),使云计算Pay-as-you-grow的基本理念在云网络中得以体现。

该应用的组网使用CX564作为Spine层、CX308P-48Y-N作为Leaf层的两层架构搭建按需自由扩展的扁平化云数据中心网络,两层之间全部采用100G进行互联,采用25G光纤连接具备25G接口的服务器,可实现3072台服务器的接入。


图1: 中小规模数据中心的典型组网

如上图,具体的数量与交换能力分析如下:

设备型号交换层交换机/16 * 100GE线卡数量
CX564P-NSpine8/64
CX308P-48Y-N(8 * 100GE + 48 * 25GE)Leaf64
合计72
交换容量8 * 6.4T = 51.2T/数据中心
可接入服务器64 / 2 *48 = 1536/数据中心
收敛比1.5:1
接入效率1536 / 72 = 21服务器/交换机

构建超大规模、高性价比的数据中心

随着视频、社交网络、大数据分析等数据密集型业务的迅猛发展,云数据中心的流量呈现出指数级的增长态势,势必要求服务器的部署数量达到数万级的规模,对网络也提出了超大规模建设的需求。如图所示,仅通过低成本的1U盒式设备就可以满足大规模的组网需求,用户不需要再为价格高昂的框式核心交换机支付超额的成本,并且将网络的规划、部署、调整、优化、扩展的主动权牢牢掌握在自己手中。

该应用的组网使用CX532P-N作为Fabric层和Spine层、CX308P-48Y-N作为Leaf层、采用三层CLOS架构搭建超大规模的云数据中心网络,各层之间全部采用100G进行互联,采用25G光纤连接具备25G或者10G接口的服务器,可实现24576台服务器的接入。

图2: 超大规模、高性价比数据中心的典型组网

如上图,具体的数量与交换能力分析如下:

设备型号交换层交换机/16 * 100GE线卡数量
CX532P-N(32 * 100GE)Fabric8交换网 * 16/交换网 = 128
Spine32接入模块 * 8/接入模块 = 256
CX308P-48Y-N(8 * 100GE + 48 * 25GE)Leaf32接入模块 * 16/接入模块 = 512
合计896
交换容量16 * 32 * 100GE = 512.T/交换网,
8 * 51.2T = 409.6T/数据中心
可接入服务器16 *48 = 768/接入模块
32 * 768 = 24,576/数据中心
收敛比1.5:1
接入效率24,576 / 896 = 27服务器/交换机

构建超低时延无损以太网承载分布式存储集群

云计算、大数据、物联网以及人工智能,这些热议的技术话题,已逐步落地并大规模应用推广。在这样的技术背景下,数据规模将会持续保持着爆炸式的增长趋势,因此对大容量存储的需求也在急剧增加。随着高可靠性、高扩展性、高性能的全闪分布式存储的普及,许多对存储性能要求比较高的业务场景也开始使用分布式存储。但是,想要将SSD的性能完全发挥出来,不仅需要在存储软件层面进行优化,还需要一张低时延、零丢包、高性能的存储网络。

分布式存储集群部署场景中,用户可使用CX-N系列云交换机根据上层业务需求的不同,选择进行单归或双归接入,存储后端网将单独使用一张物理网,以保证分布式存储集群能够快速无阻塞地完成多副本同步、故障后数据重建等任务,而存储前端网和业务网则共用一张物理网。通过CX-N系列云交换机,配合具有RoCEv2功能网卡对整网流量进行统一规划,构建一张超低时延无损以太网承载分布式存储集群,能够有效的提高用户网络效率,进一步提升分布式存储的性能和效率。

图3: 存算分离场景的网络架构

构建大规模高性能计算低时延无损以太网络

伴随着 5G、大数据、物联网、AI 等新技术融入人们生活的方方面面,可以预见,在未来二三十年间人类将迈入基于数字世界的万物感知、万物互联、万物智能的智能社会。数据中心算力成为新的生产力,数据中心目标也从原有的资源规模向算力规模转变,算力中心的概念被业界广泛接受。数据中心向算力中心演进,网络是数据中心大算力的重要组成部分,提升网络性能,可显著改进数据中心算力能效比。为了满足大算力的需求,多个计算机协同工作,采用十台、百台,甚至成千上万台计算机“并行工作”。各个计算机之间需要互相通信,并对任务进行协同处理。因此,随着业务需求的变化用户对互联网络性能要求越来越高,计算和网络深度融合成为趋势,这就需要建立一套对时延、带宽等有着严格要求的高速网络。

CX-N系列云交换机采用了标准以太网协议和开放软硬件技术,支持无损以太网技术和网络无损防拥塞技术,充分满足用户在HPC应用下对网络带宽、时延等的高要求,为用户构建大规模高性能低时延的无损网络。

图4: 高性能计算无损以太网

构建承载多业务的融合增强型以太网

CX-N系列云交换机可为云数据中心构建超低时延、零丢包、超高性能、业务可视的融合增强型以太网CEE,承载RDMA的以太网能同时支撑高性能计算业务、存储业务和普通业务的路由转发,在保证业务需求的同时,不但能够帮助用户简化网络复杂度,降低用户运维难度,还能帮助用户有效降低TCO的同时获得更高的ROI。

图5: 承载多业务的融合增强型以太网典型组网

相关文章

星融元:浅谈RDMA与低时延网络


关注星融元


网络的发展好像在各方面都是滞后于计算和存储,时延方面也不例外,网络传输时延高,逐渐成为了数据中心高性能的瓶颈。

数据中心进行高性能分布式并高性能计算时的过程会产生数据流,形成了占据70%流量的东西向流量。这些流量,一般为通过TCP/IP网络传输。所以如果能够提升服务器之间的TCP/IP传输速率,,那么数据中心的性能自然也会跟着提升。

于是,RDMA的作用开始发挥了,并广泛应用于高性能(HPC)科学计算中。随着数据中心高带宽、低时延的发展需求,RDMA也开始逐渐应用于某些要求数据中心具备高性能的场景中。

RDMA( Remote Direct Memory Access,远程直接地址访问技术 )是一种新的内存访问技术,RDMA将服务器应用数据直接由内存传输到智能网卡(固化RDMA协议),由智能网卡硬件完成RDMA传输报文封装,这样就可以让服务器直接高速读写其他服务器的内存数据,而不需要经过操作系统/CPU耗时的处理。具体看如下:

RDMA的内核旁路机制允许应用与网卡之间的直接数据读写,规避了TCP/IP的限制,将协议栈时延降低到接近1us。RDMA的内存零拷贝机制,无需在应用程序内存和操作系统中的数据缓冲区之间复制数据。这样的传输不需要CPU、缓存或上下文切换器完成任何工作,大幅度降低了消息传输中的处理延迟,同时传输与其他系统操作并行进行,提高了网络传输的性能。

传统模式和RDMA模式的对比

图1:传统模式和RDMA模式的对比

通过对比传统模式和RDMA模式对发送和接收数据的处理过程,RDMA技术最大的突破在于给数据中心通信架构带来了低时延、超低的CPU和内存资源占用率等特性。

低时延主要体现在RDMA的零拷贝网络和内核旁路机制。零拷贝网络网卡可以直接与应用内存相互传输数据,消除了在应用内存与内核内存之间的数据复制操作,使传输延迟显著降低。内核内存旁路机制使应用程序无需执行内核内存调用就可向网卡发送命令。在不需要任何内核内存参与的条件下,RDMA请求从用户空间发送到本地网卡,再通过网络发送给远程网卡,这就减少了在处理网络传输流时内核内存空间与用户空间之间环境切换的次数,降低了网络时延。

超低CPU和内存资源占用率主要体现在应用程序可以直接访问远程内存,而不占用远程服务器中的任何CPU资源,远程CPU中的缓存资源也不会被访问的内容填满,服务器可以将几乎100%的CPU资源和内存资源提供给计算或其他的服务,节省了服务器资源占用的同时,提高了服务器数据处理带宽。

基于对“HPC高性能计算的网络需求”和“RDMA技术”的分析和理解,星融元Asterfusion推出了CX-N系列超低时延云交换机

使用RoCEv2,降低传输协议时延

目前RDMA的网络层协议有三种选择,分别是InfiniBand、iWarp(internet Wide Area RDMA Protocol)、RoCE(RDMA over Converged Ethernet)。

RoCE,允许应用通过以太网实现远程内存访问的网络协议,也是由IBTA提出,是将RDMA技术运用到以太网上的协议。同样支持在标准以太网交换机上使用RDMA,只需要支持RoCE的特殊网卡,网络硬件侧无特殊要求。目前RoCE有两个协议版本,RoCEv1和RoCEv2,RoCEv2是一种网络层协议,可以实现路由功能,允许不同广播域下的主机通过三层访问,是基于UDP协议封装的。但由于RDMA对丢包敏感的特点,而传统以太网又是尽力而为存在丢包问题,所以需要交换机支持无损以太网。

在这几类RDMA网络中,RoCEv2的性能较好、部署成本低。星融元Asterfusion CX-N系列云交换机搭建的超低时延无损以太网能够很好地承载RoCEv2,并基于RoCEv2打造一张低时延、零丢包、高性能的HPC高性能计算网络。

网络融合大趋势下的RDMA

图2:网络融合大趋势下的RDMA

超低时延交换芯片,降低网络转发时延

星融元Asterfusion CX-N系列云交换机,具备业界领先的超低时延能力,可满足高性能计算三大典型场景的低时延网络的需求以及对紧耦合场景中“对于各计算节点间彼此工作的协调、计算的同步以及信息的高速传输有很强的依赖性”提出的超低时延需求。使用 CX-N系列云交换机搭建的高性能计算网络,可大幅降低业务的处理时延,提升高性能计算性能。

使用PFC高优先级队列,提供无损网络

PFC是暂停机制的一种增强,PFC允许在一条以太网链路上创建8个虚拟通道,为每条虚拟通道指定一个优先等级并分配专用的资源(如缓存区、队列等等),允许单独暂停和重启其中任意一条虚拟通道而不影响其他虚拟通道流量的传输,保证其它虚拟通道的流量无中断通过。这一方法使网络能够为单个虚拟链路创建无丢包类别的服务,使其能够与同一接口上的其它流量类型共存。

PFC的工作机制

图3:PFC的工作机制

使用ECN拥塞控制算法,消除网络拥塞

ECN(Explicit Congestion Notification,显式拥塞通知)是构建无损以太网的重要手段,能够提供端到端的流量控制。通过使用ECN功能,网络设备一旦检测到出现了拥塞,会在数据包的IP头部ECN域进行标记。被ECN标记过的数据包到达它们原本要到达的目的地时,拥塞通知就会被反馈给流量发送端,流量发送端再通过对有问题的网络数据包进行限速来回应拥塞通知。从而降低网络延迟与抖动,进而提升高性能计算集群的性能。

ECN的工作机制

图4:ECN的工作机制

  1. 发送端服务器发送IP报文标记ECN。
  2. 交换机在队列拥塞的情况下收到该报文,修改报文ECN字段并转发。
  3. 接收端服务器收到被标记的拥塞报文,正常处理该报文。
  4. 接收端产生拥塞通告,周期发送CNP(Congestion Notification Packets)报文,要求报文不能被网络丢弃。
  5. 交换机收到CNP报文后正常转发该报文。
  6. 发送服务器收到被标记的CNP报文,解析后使用对应的数据流限速算法进行限速。

相关文章

白盒交换机迎来爆发式增长,星融元已经做好准备


关注星融元


IDC数据2023年最新的数据报告显示,预计2026年我国主要网络设备市场规模将达170.56 亿美元,较2020年增长 65.34%,2020-2026年 CAGR达 8.74%。其中,我国25G/100G 数据中心交换机的市场规模将由2017年的1.08亿美元增长至 2024年的 25.13 亿美元,CAGR高达 56.86%;另据 Dell’Oro Group预测,未来 400G及以上速率交换机将成为市场主流。

大型数据中心建设下,交换机白盒化趋势明显

大型数据中心建设需要较多数量的交换机,对交换机产品的兼容性及开放性提出了较高要求。随着云计算市场不断发展,大型及超大型数据中心建设不断加速,软硬件解耦的白盒交换机市场发展迅速。

传统的黑盒交换机(品牌交换机)预装品牌商自有软件,导致不同厂商设备之间互通性低,运维团队难以统一管控,且难以快速定位故障,同时,黑盒设备的封闭式架构对后期网络的升级和功能拓展带来障碍;白盒交换机将网络中的物理硬件和操作系统(NOS)进行解耦,让标准化的硬件配置与不同的软件协议进行匹配。

换言之,下游数据中心客户可选择为交换机安装外部操作系统或在交换机厂商已提供开放式操作系统基础上开发上层应用软件,客户可组建更为开放灵活的网络方案,在大幅提高数据中心运维效率的同时,降低了建网成本。

星融元作为开放网络厂商,主打白盒交换机产品,能够满足各行业在数据中心场景下对白盒交换机的需求。能够全面解决传统云网络在开放性方面所面临的各种挑战,无缝地将云网络彻底融入到云中,使网络与计算、存储一起成为真正意义上的“云基础设施”。

  1. 底层硬件平台基于开放架构、商用可编程交换芯片设计,在为上层软件提供高性能运行环境的同时,彻底抛弃传统网络硬件私有、黑盒的设计理念。更加值得一提的是,星融元云网络的整体架构设计完全遵循了业界最领先公司广泛部署和使用的Scale-wide架构(按需自由扩展架构),将原本封闭在大型机架式网络设备中的CLOS交换架构开放到网络拓扑设计当中,帮助用户在只采用盒式网络设备的前提下仍然能够搭建出大规模的扁平化云网络,使用户在享受高性能、按需自由扩展的同时,最大限度地降低云网络的TCO(Total Cost of Ownership,总拥有成本)。
  2. 运行在硬件平台上的标准Linux内核为上层应用提供开放的操作系统内核支撑,使得当前主流的DevOps工具能够直接运行在网络设备上,任何第三方应用也都能以容器的形式运行在这个标准的Linux内核之上。
  3. AsterNOS是一款开放、智能、易用、高性能的网络操作系统,以SONiC/SAI为内核,为星融元云网络提供设备级的控制平面,同时支持RESTful API能力开放、主流DevOps工具集成、主流Cloud OS集成、高性能内存数据库等云计算时代的必备功能。
  4. 对SAI(Switch Abstraction Interface,交换机抽象接口)标准的支持将AsterNOS和星融元的交换硬件平台彻底解耦开来,AsterNOS可以运行在任何遵从SAI标准的硬件平台之上,星融元交换硬件平台也能够支持任何遵从SAI标准的网络操作系统在其上运行。
  5. Asteria Fabric Controller(AFC)是为云计算环境设计开发的Cloud SDN Controller,与运行着AsterNOS的交换机系统共同组建一个面向云中业务与应用的Cloud SDN平台,在这个SDN平台上,所有的网络能力均以RESTful API的形式向Cloud OS开放,Cloud OS完全以自动化的形式、从业务的视角对云网络进行部署、调度,无需再关注网络底层的细节。

在部署了星融元云网络的云中,网络与计算、存储一样,自下而上形成了层次分明的“开放硬件世界”、“标准内核世界”和“自动管理世界”,从而使得Cloud OS能够对三大基础设施完全一致地统一管理、按需伸缩、自动调度。

除了白盒交换机,星融元的CX-N系列超低时延云交换机迎合了数据中心发展的新趋势。目前,数据中心融合已开始应用运行在以太网基于 TCP/IP协议的RDMA技术,与传统的 FCoE技术相比,RDMA技术不需要FC接口,就可以直接运行在以太网接口上,更有利于大型数据中心的规模建设。

CX-N使用的恰恰是 RDMA 技术,能够提供无损和超低延时网络,时延仅为400ns,星融元让低时延网络不再是金融/证券行业的专属!目前在移动云、世纪互联、卡巴斯基等已规模化应用。

相关文章

园区网络无线漫游的实现策略之分布式网关设计


关注星融元


什么是无线漫游?

无线漫游是指终端在不同AP覆盖范围之间移动且保持用户业务不中断的行为。

实现WLAN漫游的两个AP必须使用相同的SSID和安全模板(安全模板名称可以不同,但是安全模板下的配置必须相同),认证模板的认证方式和认证参数也要配置相同。

跨三层的无线漫游场景示意图

园区网络的无线漫游策略是为了解决什么问题?

在跨三层的无线漫游场景中,因为所在的IP子网发生了变化,终端不得不获取新的IP地址以适应新的网关,这势必会造成终端网络的断联。

  • 避免漫游过程中的认证时间过长导致丢包甚至业务中断。
  • 保证用户授权信息不变。
  • 保证用户IP地址不变。

传统的园区网络中最常见的无线漫游解决方案

方案1:尽可能将需要漫游的区域规划在一个二层网络里,由于同在一个子网,所以不需要再建立隧道去处理漫游后的数据报文流量,而是本地直接转发

方案2:通过在新旧网关之间建立隧道,把漫游后的终端流量通过隧道传输到原来的网关进行转发

方案1:同一子网下直接转发

AC只对AP进行管理,业务数据都是由本地直接转发

用户的数据报文到达AP后,不经过CAPWAP的隧道封装而直接转发到上层网络。AC只对AP进行管理,业务数据都是由本地直接转发
优势:数据流量不经过AC,AC负担小
问题:二层网络越大越不安全,这样的园区漫游有相当大的限制条件

方案2:建立capwap隧道转发

AC不但进行对AP管理,还是AP流量的转发中枢

业务数据报文由AP统一封装后到达AC实现转发,
AC不但进行对AP管理,还是AP流量的转发中枢。
用户的数据报文经过CAPWAP隧道封装后再由AC转发到上层网络。

优势:数据流和管理流全部经过AC,可以更容易对无线用户实施安全控制策略。
问题:复杂的配置和低效的流量转发路径。

转发模型特点
二层漫游直接转发由于二层漫游后漫游终端仍然在原来的子网中,所以漫游后接入的AP和AC对二层漫游用户的流量转发和平台新上线的用户没有区别,直接在本地完成直接网络转发,不需要通过隧道转发回原网关中转
二层漫游隧道转发由于二层漫游后漫游终端仍然在原来的子网中,所以漫游后接入的AP和AC对二层漫游用户的流量转发和平台新上线的用户没有区别,直接在本地完成直接网络转发,不需要通过隧道转发回原网关中转
三层漫游直接转发原AP和原AC之间的业务报文不通过CAPWAP隧道封装,无法判定他们是否在同一个子网内,此时设备默认报文需返回到原AP进行中转
三层漫游隧道转发原AP和原AC之间的业务报文通过CAPWAP隧道封装,此时可以将他们看作在同一个子网内,所以报文无需返回原AP,可直接通过原AC中转到上层网络

新一代云化园区:基于分布式的网关设计,高效实现园区无缝漫游

云化园区网络在全三层组网的基础上借鉴了云网中分布式网关的概念,即:在每一台接入交换机上运行统一的分布式网关,实现对上层业务无感知的终端无缝漫游。分布式网关的另一个好处是实现了终端(一般为服务器)通过网卡配置Bond双上行到不同的Leaf,无需堆叠和MC-LAG。

园区网络分布式的网关设计

  • 当移动终端发生漫游时,分布式网关的作用尤为重要,因为漫游后的接入Leaf上已经配置了网关信息,并且自动学习和同步了漫游终端的IP/MAC信息,因此漫游后的终端可以高性能的接入网络(所发信息无需再到一个“集中的网关”上去兜圈子),并且漫游过程中业务不断连(即确保不丢包,因为漫游后的接入Leaf上已经有了该漫游终端的所有信息);
  • 对于网络管理员来说,只需要在网络初始化时一次性配置好所有分布式网关的信息即可,无需在运行过程中动态调整,从而进一步降低运维的复杂度。

相关文章

新一代云化园区网络架构,根除网络广播风暴难题


关注星融元


广播风暴(broadcast storm)简单的讲是指当广播数据充斥网络无法处理,并占用大量网络带宽,导致正常业务不能运行,甚至彻底瘫痪,这就发生了“广播风暴”

当一个数据帧或包被传输到本地网段 (由广播域定义)上的每个节点就是广播;由于网络拓扑的设计和连接问题,或其他原因导致广播在网段内大量复制,传播数据帧,导致网络性能下降,甚至网络瘫痪。二层广播风暴问题会导致灾难性的网络故障。然而广播风暴的产生存在很多原因:

广播风暴产生的原因1:网段划分不合理

当网段划分不合理,很多设备处于同一个网段内,网络充斥了大量ARP、DHCP广播包,便很容易在园区二层域产生广播风暴,影响到正常的网络通信。

广播风暴产生的原因2:冗余设计造成的网络环路

交换机之间为了冗余、带宽提升或错误连接难免会产生一个封闭的物理环路;环路时,数据包会不断的重复传输,引发广播风暴。

广播风暴产生的原因2:网络病毒

一旦机器被感染依靠二层广播扩散的网络病毒,就会损耗大量的网络带宽,引发广播风暴。

广播风暴常见的解决方式

  1. 综合运用排除、替换和网线插拔等方法,一步一步地定位引发广播风暴的故障点,查出原因定向解决;
  2. 在交换机上开启广播风暴抑制功能(这需要交换机本身支持),避免因硬件损坏或链路故障导致的网络瘫痪;
  3. 在二层网络中应用破环技术,比如运行生成树协议(STP),通过一定的算法在逻辑上破坏网络中存在的环路
  4. 在局域网内部署防病毒服务器,并保持病毒库版本的实时更新。

新一代云化网络架构,极限压缩二层域避免广播风暴

借鉴云数据中心网络的发展经验,对园区网络进行云化改造是大家一致认同的解决方案。在星融元的云化园区网络解决方案下,我们选择用当前数据中心广泛应用的,极具扩展性的Spine-Leaf网络架构来搭建园区的全三层IP路由网络。

区别于传统园区的“接入-汇聚-核心”三层结构,在这种创新的全三层IP路由网络中,我们将L2的工作范围限制在接入终端和其所连接的接入层交换机端口之间。即在确保以太网能正常工作的前提下,最大限度地压缩L2区域,彻底消除以太网广播在网络中的传播,从而将广播带来的各种复杂度、脆弱性和安全风险彻底排除。

也就是说,每个接口就是一个广播域,终端之间二层隔离,因二层广播机制而产生的安全风险都将不复存在。

云化网络架构,极限压缩二层域避免广播风暴

避免使用生成树协议,释放交换机的大带宽能力

  • 利用Spine-leaf网络结构,星融元云化园区网络在物理上就是一个天然无环的网络,因此也不需要人为地阻塞掉一半的物理线路使其处于不工作状态,相较于同样规模的传统架构园区网络,无需浪费掉一半的线路资源,即,在同等线路带宽的投入下,云化园区网络可接入终端的数量是传统园区网络的一倍(或者,在同等接入终端数量的前提下,云化园区网络所需要投入的带宽资源是传统园区网络的一半);
  • 如前所述,借助IP协议的各种L3能力,无环的云化园区网络能够做到超大规模,网络中交换机的数量不再受STP的理论限制,几百台、上千台的交换机组成的云化园区网络能够接入几十万的终端,组建超大规模的园区网络;
  • 最后,当将网络中各种额外的复杂因素去除掉以后,整个网络的建设与运维难度都会大幅度降低,节省网络建设者的综合成本。

开源DPU如何加速数据中心网络/安全/存储应用?


关注星融元


数据中心场景下,是什么在侵占服务器的业务算力?

后摩尔定律时代,数据中心服务器算力的增长跟不上带宽的增长,原本用来处理业务的算力被大量浪费在处理网络数据和基础设施业务上(OVS、NFV),通过CPU软件模拟的方式性能已经无法满足需求,服务器性能已经达到瓶颈,市面上不少客户可能会考虑两个选择:

  1. 增加服务器数量;
  2. 为服务器增加一块智能网卡,用于网络业务卸载。显而易见,增加服务器数量需要消耗的成本远大于购买智能网卡需要的成本。

DPU智能网卡实现CPU负载卸载

传统的智能网卡上,首包的处理在CPU上,流表下发到网卡芯片里依旧占用了CPU的资源,并且需要为卸载的业务定义接口和相关的协议,实现起来比较复杂,定位问题难。

而DPU架构的智能网卡上,可以实现全卸载,相互之间没有太多业务接口,定位问题清晰。相当于有专门的计算资源来处理智能网卡相关的控制面,可实现控制面+转发面的全卸载,并且对比FPGA或SoC架构的网卡,DPU的处理性能处于绝对优势。

以云网关接入为例。在保证总接入用户数量的前提下,引入DPU架构智能网卡的建设方案相对于纯2U服务器的建设方案在机架空间占用、总功耗、成本上都具有明显优势。其中机架空间节省超过2/3,总功耗节省超过1/2,建设成本节省8W,同时机架平均每U接入的用户数有3倍以上的提升。

云网接入的数据表

DPU架构的智能网卡——星融元Helium DPU智能网卡现已开源!

Helium DPU 智能网卡的特色

  • 开源开放的生态:通用处理器 + 标准的Linux系统(可适配多版本),并且还提供了全开源的软件开发环境,可以轻松搭载任何基于Linux的自研应用,高度灵活、自主可控
  • 性能&功耗:对比其它网卡厂家采用FPGA或SoC架构的产品,Helium智能网卡采用集成度更高的DPU架构,做OVS或NFV的处理性能处于绝对优势;另外同等性能或更高性能下,Helium智能网卡的功耗更低;
  • 大量的应用场景验证:包括OVS卸载(控制面数据面全卸载)、5G UPF(信令面用户面全卸载)、DPVS卸载、SSL加解密卸载等场景

Helium DPU 智能网卡硬件架构

  • 高性能DPU芯片:24个ARMv8.2核、众多硬件加速协处理器
  • 业务接口:4 x 25GE、2 x 100GE
  • 高速连接:PCIe Gen3.0/4.0 x 16
  • 内存:16GB,可扩展至64GB
  • 存储:64GB EMMC 5.1

Helium DPU 智能网卡的一站式软件开发环境

  • 标准Linux底层基座操作系统(可以定制更换,包括Linux、CentOS、Ubuntu、Debian、中标麒麟等)
  • 标准容器虚拟化环境
  • 开放的库和API(DPDK套件(19.11、20.11、21.11)、VPP、其它网络和安全开发工具)

Helium DPU 智能网卡典型业务性能数据参考

  • 纯转发:128字节数据包100Gbps线速转发
  • OVS卸载性能:80Gbps
  • 5G UPF性能:80Gbps
  • IPsec性能:50Gbps

开源地址:GitHub – asterfusion/Helium_DPU: Helium DPU

实例1:Open vSwitch(OVS)卸载到Helium DPU 智能网卡,同时集成第三方应用

Open vSwitch(OVS)卸载到Helium DPU 智能网卡

  • 可以在网卡上安装各种容器应用功能
  • 同时打通各容器之间、以及容器与VM之间的数据通道

实例2:Helium DPU 智能网卡卸载SSL加解密引擎

Helium DPU 智能网卡卸载SSL加解密引擎

  • 内置硬件加解密引擎
  • SSL加解密:29K TPS;10~20Gbps

实例3:Helium DPU 智能网卡卸载eBPF

Helium DPU 智能网卡卸载eBPF

  • eBPF功能卸载至智能网卡,智能网卡上携带的ARM处理器单独实现一个后端,将中间的eBPF字节码编译成ARM处理器体系结构的指令码,载入网卡RAM(智能网卡包含DRAM,因此MAP也可以被卸载),智能网卡从网卡RAM里载入eBPF程序并运行
  • eBPF处理以后的数据报文以及元数据和统计信息返回给主机应用

实例4:Helium DPU 智能网卡完全卸载5G UPF

Helium DPU 智能网卡完全卸载5G UPF

  • UPF全部功能(信令面和用户面)卸载至智能网卡,与MEC Host无缝融合
  • UPF与MEC逻辑隔离,互不影响,MEC无需重新架构即可获得高性能

相关文章

开源的DPU “Helium”,给性能不足的服务器安上“外挂”!


关注星融元


数据中心为什么需要智能网卡?

CPU的算力发展跟不上算力需求,所以人们考虑可以将一部分原本CPU承载的功能卸载到其他专用硬件上去处理(比如网卡),从而释放CPU算力,让其专注于处理关键的(创造经济效益的)用户业务。

但这反过来对于用来卸载CPU的硬件提出了更高要求——不仅仅需要收发流量等转发面的功能了,我们还需要网卡承担起更多元化的功能,把传统网卡转变为“智能网卡”。

传统网卡与智能网卡对比图

智能网卡在数据中心的应用广泛于网络加速、存储加速和安全加速

  • 网络加速:如OVS卸载/VXLAN终结、TCP卸载、GRE/GTP等隧道封装/解封装、可靠UDP、5G UPF加速等;
  • 安全加速:如IPSec、SSL、XDP/eBPF、vFW/vLB/vNAT、DPI、DDoS、压缩/解压缩等;
  • 存储加速:如RDMA卸载、NVMe-oF等。

DPU智能网卡加速后示意图

将智能网卡升级成DPU架构后有什么提升?

传统的智能网卡上,首包的处理在CPU上,流表下发到网卡芯片里依旧占用了CPU的资源,并且需要为卸载的业务定义接口和相关的协议,实现起来比较复杂,定位问题难。而在DPU架构的智能网卡上,可以实现全卸载,相互之间没有太多业务接口,定位问题清晰。相当于有专门的计算资源来处理智能网卡相关的控制面,可实现控制面+转发面的全卸载。

对比市面其他架构的智能网卡

ASIC架构FPGA架构SoC(多核 + ASIC)
性价比高低延时
低功耗
高灵活性
控制面、转发面同时卸载
可编程性差
开发周期长
可编程,但开发复制性高
开源生态不完善
价格高
功耗较高

DPU的架构是把多核处理器+ASIC做到一个芯片上(SoC 是把他们集成到板上,虽然DPU集成度更高但本质上架构类似))

  • 采用通用CPU,易于编程和移植
  • 容器化的部署环境,需要卸载的不同功能放在不同的容器里,就像一个小服务器,可以同时实现多种功能

开源的DPU智能网卡——星融元 Helium DPU智能网卡

当前,秉承着开放网络的理念,星融元已将Helium智能网卡的产品资料和代码开源,诚邀各位合作伙伴共同打造智能网卡行业生态!

Helium智能网卡采用高性能DPU架构设计,提供全开放的软件开发环境,可针对云数据中心、HPC、边缘计算等场景中客户原本跑在x86服务器上的的虚拟网络和虚拟网络功能进行卸载和加速处理,为客户提供更高性能体验的同时降低总体拥有成本。

高性能DPU架构设计图

以NFV(如vFW)为例,对比x86服务器:

通过以下数据可以发现,在提供了更低转发时延和更高流新建会话数的情况下,Helium智能网卡的功耗仅为服务器的1/6,购买成本节省超过1/3。

 处理性能转发时延流心间会话数功耗
2U机架式服务器
2 x Intel Xeon Gold 5118
24核
60G200μs12W350W
Helium 智能网卡
24核
60G100μs15W60W

以云网关接入为例:

在保证总接入用户数量的前提下,引入Helium智能网卡的建设方案相对于纯2U服务器的建设方案在机架空间占用、总功耗、成本上都具有明显优势。其中机架空间节省超过2/3,总功耗节省超过1/2,建设成本节省8W,同时机架平均每U接入的用户数有3倍以上的提升。

接入环境设备配置机架空间总功耗平均每U接入用户注释
1.44Tbps
流量接入
24 x 2U服务器48U,2个42U标准机柜8400W6000单2U服务器典型功耗按350W计算;
单4U服务器典型功耗按500W计算;
Helium智能网卡典型功耗为60W;
单流量牵引交换机典型功耗为430W;
各产品购入成本均取该规格对应的市场均价;
3 x 4U服务器
24 x Helium 智能网卡
1 x 流量牵引交换机
14U,1个42U标准机柜3390W20671

产品特性

  • 4*SFP28接口或2*QSFP28接口,100Gbps典型混合业务处理能力
  • 高性能DPU芯片,24核ARM处理器,集成加解密、压缩解压缩、虚拟化、数据包处理、流量整形协处理引擎
  • 主机侧提供DPDK和VPP开发套件;网卡侧运行标准Linux + 容器虚拟化环境,并提供DPDK和VPP开发套件
  • 大容量状态表和ACL表,最大64GB内存配置,支持千万级会话表
  • 提供PCIe*16 Gen3.0/Gen4.0,支持PCIe在线升级
  • 独立的管理网口

应用场景

  • 网络加速:OVS卸载/VXLAN终结、TCP卸载、GRE/GTP隧道封装/解封装、可靠UDP、5G UPF等
  • 存储加速:NVMe-oF(TCP)、压缩/解压缩等
  • 安全加速:IPSec、SSL、XDP/eBPF、vFW/vLB/vNAT、DPI、DDoS防御等
  • 客户自研场景下个性化应用的开发和移植

相关文章

干货 | 浅谈负载均衡的实现方式


关注星融元


负载均衡技术的产生背景

随着数据中心规模和网络行业的高速发展,大型网站的规模体量和存储数据呈现指数级上升。如何处理来自这些海量用户,海量数据的存储和访问需求,给客户提供一个高可用的访问环境,成为了广大厂商必须去思考的问题。

比如我们熟悉的支付宝红包活动,每年都有上亿人次的参与,背后都需要访问后端的业务服务器。业务服务器面临保证访问质量的极大压力。再如微博服务器经常出现爆炸宕机,其实就是在负载均衡方面没有做好。

服务器的性能不够时,可以有两种解决思路:

  • 垂直扩展-提升单机性能,比如扩展CPU、内存和磁盘大小,但单机性能是有瓶颈的,而且会受到厂商的限制,达到一定阈值后需要付出很高的成本投资
    横向扩展-通过构建服务器集群去分担客户端的访问流量
  • 而在横向扩展的情况下,我们又迎来了另一个挑战:如何保证来自客户端的请求能够以可靠的方式去分发到我们每个服务器集群中的各个节点?这里便会涉及到所谓的“负载均衡“技术了。

什么是负载均衡技术?

为了解决高可靠、高并发以及海量数据的存储和访问,负载均衡它起到的核心作用就是把来自客户端的请求合理地分配给后端服务器上的某个节点。具体到原理上就是在负载均衡器上去执行某种算法,根据某种算法把客户端的请求去按照算法分配的结果去响应到实际服务器,再由服务器把相应数据返回给客户端。

无论是用专用硬件设备,还是目前更为流行的软件处理方式,负载均衡方案其实都是要建立一种一对多的映射机制,把一个请求给它映射到多个处理请求的节点。

负载均衡方案其实都是要建立一种一对多的映射机制

以下是典型的客户端请求的流量转发流程。首先从网站上发起一个请求会先到 DNS 服务器上进行域名解析。域名解析完成之后会进入公网,经由一些网络设备执行转发,最后走到服务器端的安全处理安全模块。做完安全之后,我们今天要讲的重点内容了——会进行 4 层负载,之后是 7 层的负载,最后转发给后端服务器集群中的某个节点。而且到了服务器集群之后,其实还有一系列负载均衡机制。

典型的客户端请求的流量转发流程

按通信层次划分:四层负载均衡和七层负载均衡

七层负载均衡:作用于应用层,负载均衡器提供一个虚拟IP,根据访问用户的HTTP请求头、URL信息将请求转发到特定的主机。主要通过反向代理实现。
四层负载均衡:作用于传输层,负载均衡器提供一个虚拟IP,基于IP地址和端口号进行请求的转发。主要依靠修改IP地址+端口号实现。

按实现载体划分:硬件方案和软件方案

硬件负载均衡:一般是在定制的处理器上运行的独立负载均衡服务器。硬件负载均衡方案一般都支持全局负载均衡,并提供全面的、复杂的负载均衡算法,功能强大;并且基于专用的处理器,吞吐量也能做到很高,可以支持单机百万以上的并发。此外硬件负载均衡往往具备防火墙、防DDOS等安全功能。

软件负载均衡:软件负载均衡也是目前主流的互联网厂商所选择的方式。这些厂商他的体量非常大,面对海量的用户端请求处理的负载均衡需求,如果都去采购专用硬件厂商的设备,成本就会非常高。另外,像京东、阿里这类自身有云业务的公司,他们也想做到云管平台的统一灵活管控,这是难以做到的。

从软件层面实现负载均衡,一般可以在任何标准物理设备上运行。软件负载均衡基于软件的方式能够实现非常低的成本和良好的扩展性。目前主要产品有Nginx、HAProxy、LVS等。

另一种思路:P4+DPU的可编程开放硬件平台(需配合用户自研负载均衡软件)

基于算网融合硬件平台可以实现面向大规模云计算环境中的负载均衡系统,并且使其既具备软件vLB的开放性、灵活性,又具备硬件vLB的高性能。
型号为X312P-48Y-T的设备图
相关链接:P4可编程硬件平台

  • 对比单纯的基于硬件实现的负载均衡:通过算网融合平台的可编程能力和开放性使得管理平面、控制平面和数据平面可以全部与云管平台对接起来,让这一开放负载均衡系统集群具备了“软件vLB”的开放、灵活、弹性。
  • 对比软件实现的负载均衡:算网融合平台将可编程交换芯片的“高性能快路径”和智能业务处理单元的“智能慢路径”相结合,大幅提升整体性能、降低整体成本,使得开放负载均衡系统集群能够具备“硬件vLB”的高性能和低成本。
  • 在实际的负载均衡场景中往往有着非常定制化的开发需求。为大大缩短开发者的开发周期,X-T系列可编程硬件平台可搭载AsterNOS-Framework,它提供了一站式的综合开发环境,是一款针对开放、可编程网络构建的底层操作系统,以轻量化的SONiC为内核,将三种异构硬件单元(x86/ARM/P4 Switch ASIC)融合成一个完整的网络系统。

相关文章

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2