开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

标签: 解决方案

thailand

全面升级!对比SDN园区方案,云化园区方案好在哪?


关注星融元


SDN的概念提出已十几年,至今却仍不温不火,当下主流的SDN控制器方案集网络的部署、配置、分析为一体,比起传统网络更具优越性,却并未获得市场成功。

Hype Cycle for Enterprise Networking

Gartner在2021和2023发布的《Hype Cycle for Enterprise Networking(企业网络技术成熟度曲线)》中,SDN技术因未能引发大量市场兴趣,被归为obsolete“过时”,相较于SDN,SONiC在园区网络建设中如火如荼。随着SONiC的广泛普及,客户可以按需从不同的基于SONiC的服务商获得网络服务,云化园区基于开源SONiC,这和SDN园区方案有着质的区别。

下文将全面对比星融元云化园区方案和SDN园区方案。

网随人动,策略随行

  1. 云化园区无需控制器,通过交换机组网和配置即可实现网随人动和策略随行,但SDN园区方案需要依赖SDN控制器。
  2. SDN园区方案通过VxLAN实现网随人动和策略随行,涉及Underlay(物理网络)和Overlay(虚拟网络),不仅配置复杂,还涉及隧道封装和解封装,报文头开销更大,网络负担比较重,而云化园区只涉及Underlay,技术框架更简单,配置和部署更方便。

对比图

有线无线统一管理

云化园区通过一个符合TIP OpenWiFi标准的轻量级网络控制器即可实现有线无线统一管理,不再需要传统的AC控制器;SDN园区仍需要AC控制器负责AP上线,并且有线无线统一管理依赖于SDN控制器(SDN控制器调用AC控制器的API接口),方案更沉重。

对比图

流量编排

  1. SDN园区的服务链功能需要SDN控制器、Leaf交换机、Spine交换机相互配合,缺一不可,而云化园区仅需一对流量编排交换机即可。
  2. SDN园区的服务链功能在原始流量之上封装了VxLAN,又在VxLAN之上扩展了服务链字段,报文开销大,网络负担沉重,而云化园区不对原始流量做任何改动,转发和处理更高效。

对比图

业务网与可视网相融合

  1. SDN园区方案的厂商是没有可视网方案的,一般与第三方进行方案集成和合作,而云化园区可以提供整套业务网+可视网的融合方案。
  2. 由于SDN园区方案采用VxLAN,在流量采集时还需考虑如何去除VxLAN的封装,对流量采集设备要求较高,而云化园区对原始流量未封装处理,对流量采集设备没有特殊要求。
  3. SDN园区方案需要对每一个Leaf交换机做流量采集,而云化园区仅需采集若干Leaf上联的Spine即可,采集点大大减少,节省可视网建设成本。
  4. 云化园区支持基于用户过滤流量,而SDN园区方案无法实现。

对比图

控制器成本

  1. 云化园区的控制器无需占用太多的服务器资源,部署成本更低。
  2. 云化园区的控制器更轻量级,功能精简实用,部署和配置简单,运维成本较低。

对比图

成本低、配置方便、原始流量转发处理更高效……与SDN园区方案相比,云化园区方案还在技术路线和开放性方面有所突破,更符合未来园区网络发展趋势,能够更好地满足不断增长的网络需求和日益复杂的应用场景。随着云化园区方案的推广和应用,将为园区的数字化转型智能化发展提供有力支持。

对比维度SDN园区(如AD园区方案)云化园区
技术路线1、基于VxLAN构建虚拟网络
2、通过沉重的SDN控制器进行管控
1、基于Leaf-Spine的全三层组网架构
2、通过轻量的云端面板管理
开放性私有NOS和私有技术实现有线/无线均采用开源开放的系统架构

星融元新一代云化园区方案已经推出,还在等什么?来试试吧!一起推动园区网络方案的新变革!

相关文章

 

Sora催化算力需求暴涨,星融元为泛在算力构建开放网络


关注星融元


龙年伊始,AI领域又出重磅新闻:OpenAI发布文生视频大模型Sora,生成式AI迎来新里程碑。

从技术层面来看,Sora的进化速度近乎不可思议。2023年6月发布的Gen-2只支持4秒视频生成并且掉帧明显得像幻灯片,11月,Meta发布的视频生成大模型Emu Video可以生成512*512、每秒16帧的视频,3个月后发布的Sora已经能够做到生成任意分辨率和长宽比的视频,还能够执行一系列图像和视频编辑任务,根据文本提示创建详细的视频、通过静态图像生成视频。

用于文章的配图

Sora根据文字提示生成的视频截图

AGI行业的快速发展需要大量模型训练和推理,推动算力需求持续高涨。在实际应用中,并不是所有的计算资源都能被充分利用,在计算、数据处理等过程中,大量算力被“闲置”,此时可以考虑泛在算力,从计算、存储和网络服务三个方面提高算力利用率。

泛在算力需要稳定的网络来连接各种计算资源,开放网络的高带宽、低时延、传输稳定性和可靠性等特性为泛在算力提供更多应用场景和可能性。国内企业想乘AI技术东风,推动数字化和智能化的发展,却不知道应该选择什么厂商来提供网络服务?


星融元致力于为泛在算力构建开放网络,业务覆盖云网络、高性能计算/人工智能、企业数据中心、园区接入等领域,同时支持分布式存储、网络可视等功能,在保障规模、带宽、时延及稳定性等性能的同时极大降低成本。

以Sora为例,由于Sora基于“Patch”而非整个视频进行训练,类似于大型语言模型(LLM)中的文本标记,把所有类型的视觉数据转换为统一的表示从而进行大规模的生成式训练,这一过程需要高效处理大量数据,星融元星智AI网络解决方案轻松组建智算中心万卡网络:

  • 在不影响数据传输性能的情况下,精简网络架构,极大降低用户网络建设成本;
  • 将网络转发路径跳数降低至1跳,大大减少业务时延;
  • 简化网络结构,降低运维以及故障排查难度。

Rail-only 架构图

在网络性能方面,Asterfusion星智AI网络解决方案有以下优势:

提升了单机网络带宽

  1. 增加网卡数量,初期业务量少可以考虑CPU和GPU共用,后期给CPU准备单独的1到2张网卡,给GPU准备4或8张网卡;
  2. 提升单机网卡带宽,同时需要匹配主机PCle带宽和网络交换机带宽,星融元200G、400G、800G以太网交换机将配合网卡确保数据传输高带宽;

200G、400G、800G

应用RDMA网络(RoCE)

  1. 借助RDMA技术减少GPU通信过程中的数据复制次数,优化通信路径,降低通信时延;
  2. 通过Easy RoCE一件下发复杂的RoCE相关配置(PFC、ECN等),帮助用户降低运维复杂度;

应用RDMA网络

减少网络拥塞

  1. 减少网络侧时延,提高GPU使用效率:超低时延降至400ns;
  2. 通过DCB协议组减少网络拥塞:通过PFC、PFC WatchDog、ECN构建全以太网零丢包低时延网络。
  3. 双网分流:CPU的流量与GPU流量彻底分离开,减少不同网络流量的占用和干扰。

用于文章的配图

作为开放网络领域的先行者,星融元持续为客户提供性能优越、成本优势明显的产品和方案,助力企业实现更高效的运营与发展。依托先进技术和丰富经验,星融元将为泛在算力的发展开辟更广阔的空间,为行业带来更多的机遇和可能性。

相关文章

 

星融元针对LLM大模型承载网发布星智AI网络解决方案


关注星融元


人工智能是数字经济的核心驱动力,AI 大模型是人工智能的新引擎。近年来,随着 ChatGPT 等生成式人工智能(AIGC)的突飞猛进,业内领军企业竞相推出万亿、10 万亿参数量级别的大模型,还对底层 GPU 支撑规模提出了更高的要求,达到了万卡级别。然而,如何满足如此庞大规模的训练任务,对网络的规模、性能、可靠性和稳定性等方面提出了前所未有的挑战。

一、AI大模型型对智算中心网络的需求

  • 应用计算量呈几何级数增长,算法模型向巨量化发展,当前 AI 超大模型的参数目前已经达到了千亿~万亿的级别。训练这样的模型,毫无疑问需要超高算力。AI 超大模型训练使用GPU训练,互联网络需求在100Gbps~400Gbps,使用RDMA协议来减少传输时延可提升网络吞吐。
  • 在 AI 大模型训练场景下,机内与机外的集合通信操作将产生大量的通信数据量。流水线并行、数据并行及张量并行模式需要不同的通信操作,这对于网络的单端口带宽、节点间的可用链路数量及网络总带宽提出了高要求。
  • 网络抖动会导致集合通信的效率变低,从而影响到 AI 大模型的训练效率。因此在AI 大模型训练任务周期中,维持网络的稳定高效是极其重要的目标,这对网络运维带来了新的挑战。
  • 在数据通信传输过程中产生的网络时延由静态时延和动态时延两个部分构成,其中真正对网络性能影响比较大的是动态时延。动态时延包含了交换机内部排队时延和丢包重传时延,通常由网络拥塞和丢包引起。
  • 由于 AI 大模型训练中集群规模大,这进一步增大了配置的复杂度。在庞大的架构和配置条件下,业务人员能够简化配置部署,有效保障整体业务效率。

AI 大模型对网络的需求主要体现在规模、带宽、时延以及稳定性等几个方面。从当前数据中心网络的实际能力来看,完全匹配AI 大模型的需求在技术上仍然有一定的差距。

AI大模型型对智算中心网络的需求

二、传统承载网络在AI算力网络的不足

随着大模型训练对于算力需求的不断提升,智算GPU从千卡到万卡,面对万卡以上的建设需求,传统网络解决方案为三级CLOS架构,通常让一台服务器配8块GPU卡,对应的8张万卡连接到单个HB域中的8台Server Leaf上,实现同一卡号GPU在一个Server Leaf上通信。同时为了确保高速转发,每个层级要保证1:1无收敛,以128端口盒式设备为例,Server Leaf和Spine设备的端口分配为上下各64个端口,Super Spine设备的128个端口全部用于下行接入,基于这样的端口规划,整体网络规模有8个HB域,64个POD和64个Fabric,网卡接入规模为32768。

可以直观的看到,整体网络架构极为复杂,不但网络建设成本高,网络转发路径跳数多,并且后续的运维和故障排障极其困难。

传统承载网络在AI算力网络中的不足

全Full Mesh网络成本高

  • 跨 Leaf 交换机,转发路径有 3 跳,跨POD流量跳数更多,极大的增加了业务时延
  • 网络结构复杂,运维以及故障排查困难

以32768个GPU,128端口交换机组网为例:

  1. CLOS层数:3层
  2. 交换机需要:1280台=((64+64)*8)+256
  3. 光发射器数量:196608
架构两层胖树架构三层胖树架构
同GPU卡号转发条数1跳3跳
不同GPU卡号转发条数(无优化情况)3跳5跳

为了缩小技术上的差距,星融元推出星智AI网络解决方案,针对LLM大模型场景构建了一张大规模、低时延、大带宽、高稳定、自动化部署的AI承载网

三、Asterfusion星智AI网络解决方案

1、方案介绍

与传统方案相比,星智AI网络消除了跨GPU服务器不同GPU卡号之间的连接,只保留了与GPU相连的Leaf层交换机,将原本用于上连Spine的端口全部用于下连GPU,进一步提高Leaf交换机连接效率,并且这种网络架构仍然可以通过转发实现不同HB域之间的通信。

不同智算节点服务器间相同编号的网口需要连接到同一台交换机。如智算服务器 1 的 1 号 RDMA 网口,智算服务器 2 的 1 号 RDMA 网口直到智算服务器 N 的 1 号 RDMA 网口都连到 1 号交换机。

Asterfusion星智AI网络解决方案

在智算服务器内部,上层通信库基于机内网络拓扑进行网络匹配,让相同编号的 GPU 卡和相同编号的网口关联。这样相同GPU 编号的两台智算节点间仅一跳就可互通。

不同GPU编号的智算节点间,借助NCCL通信库中的Rail Local技术,可以充分利用主机内GPU间的NVSwitch的带宽,将多机间的跨卡号互通转换为跨机间的同GPU卡号的互通。

星智AI网络解决方案轻松组建智算中心万卡网络,满足用户智算中心网络建设需求的同时,也避免了传统网络在智算中心的不足。

  • 不影响性能的情况下,网络架构精简极大的降低用户网络建设成本
  • 网络只需1跳,减少业务时延
  • 网络结构简化,降低运维以及故障排查难度

以32768个GPU,128端口交换机组网为例:

  1. CLOS层数:1层(Rail Only)
  2. 交换机需要:256台
  3. 光发射器数量:65536
  4. 网络成本最大可降低:75%

2、方案优势

性能提升①:提升单机网络带宽

(1)增加网卡的数量,初期业务量少,可以考虑CPU和GPU共用,后期给CPU准备单独的1到2张网卡,给GPU准备4或8张网卡;

增加网卡数量

(2)提升单机网卡带宽,同时需要匹配主机PCIe带宽和网络交换机的带宽;

网卡速率40G100G200G400G
PCIe3.0*83.0*164.0*164.0或5.0*16
交换机Serdes4*10G4*25G4*50G8*50G

性能提升②:应用RDMA网络(RoCE)

(1)借助RDMA技术,减少了GPU通信过程中的数据复制次数,优化通信路径,降低通信时延;

借用RDMA技术(2)通过Easy RoCE技术,一键下发过去比较复杂的RoCE相关配置(PFC、ECN等),有效帮助用户降低运维复杂度;

性能提升③:减少网络拥塞

(1)减少网络测时延提高GPU使用效率:超低时延~400ns;

(2)通过DCB协议组减少网络拥塞:PFC、PFC WatchDog、ECN构建全以太网零丢包低时延网络;

减少网络用塞

随着 ChatGPT、Copilot、文心一言等大模型应用的横空出世,AI 大模型下的智算中心网络也将带来全新的升级。星融元持续投入研发,星智AI网络解决方案在一次次客户实地检测中得到认可。我们将与AI厂商通力合作,逐步推动AI 大模型下的智算中心网络关键技术的成熟与落地,针对用户场景,我们不断追求更加美好的解决方案,期盼与众多合作伙伴共同打造大规模、高带宽、高性能、低时延以及智能化的 AI 大模型智算中心网络。

背景内容参考中国移动研究院《面向AI 大模型的智算中心网络演进白皮书(2023 年)》

相关文章

 

AI时代,如何吃下数据传输这块蛋糕?


关注星融元


“30台AI服务器1个亿?这就是在抢钱啊!”

近日,中国移动江苏有限公司发布《中国移动智算中心(南京)2023年智算算力项目算力设备采购项目》招标公告,招标项目内容显示,需采购30台人工智能通用计算设备(训练型),预估金额10890万元(人民币/含税),单价限价363万元/台。

招标公告

从2021年底ChatGPT上线迅速引发广泛关注后,AI行业持续火爆至今,随着行业巨头纷纷下场,AI基础设备的军备竞赛如火如荼。AI训练模型需要大量数据和计算资源,这对网络基础设施提出较高带宽和低时延的要求,很多人立马会想到InfiniBand,但昂贵的方案价格、无法与其他网络设备互通互访的特性以及较长的供货周期让国内AI厂商犯难,基于Ethernet的RoCE方案成了数据传输的首选:提供媲美InfiniBand的高宽带低时延性能,加上较低的成本,网络使用RoCE方案已经成为AI厂商的必然发展趋势。

AI技术需要强大的计算资源来支撑,具有强并行计算能力的GPU能够大幅提升计算效率,缩短AI训练模型时间,配备合适的网卡能够充分发挥GPU的性能,但GPU芯片供应常年短缺,对AI厂商来说抢到GPU已属不易,更遑论挑选型号,采购GPU和网卡的流程往往同时进行,此时无法预判究竟应该配备200G还是400G的网卡。

omdia research

网卡负责处理网络通信与数据传输,无法确定网卡参数时,可以通过200G/400G RoCE的混合组网来简化管理和部署,使数据中心拥有更好的可扩展性。在混合组网的落地过程中,时常有参数流量超越线路带宽、网络丢包的风险,产生训练速度降级,GPU资源闲置率过高等问题,军备竞赛当前,应该挑选哪家厂商承担基础设施建设的重任?

目前中国市场上的交换机有多种规格,1G/10G/25G/40G/100G都比较常见,市面上200G端口的交换机凤毛麟角,少数厂家能提供200G低密度宽口或是框式交换机,在网络扩展升级的灵活性、成本效益方面都存在劣势;400G端口的交换机也较少见,一般用于高性能数据中心或大型企业网络中,因此能够提供200G/400G RoCE混合组网的厂商十分有限。

星融元作为国内新一代开放云架构解决方案的提供商,7年来始终大力投入研发,拥有众多技术创新,是业界唯一能够提供200G/400G RoCE混合组网、无缝衔接、且网络无损的开放网络厂商。

基于RoCE的分布式概念

星融元采用基于RoCE的分布式概念替换了传统机框,相比较框式交换机,星融元盒式交换机拥有高性价比、低故障率、低时延等优点,星融元200G交换机在2U盒式形态下提供64高密度端口,能够提供更大的接入能力,与400G交换机混合组网部署网络,充分满足客户需求。另外星融元“零丢包”数据传输特性保障了网络的稳定性和可靠性,让AI厂商模型运行不中断,为高性能计算集群提供了真正意义上的低时延、零丢包、高性能的网络

名称型号硬件指标数量备注
交换机Asterfusion CX664D-N/664口200G低时延交换机
服务器超聚变CPU:Intel Xeon Platinum 8469C
内存:2048G
8/
Mellanox网卡MCX755106AS-HEAT Mellanox CX-764/
BlueField-38
网卡驱动MLNX_OFED-5.8///
GPUNVIDIA H800NVIDIA Corporation Device 232464/
操作系统Ubuntu22.04///
CUDAV12.2///
OpenMPIV4.1.3///
GPU驱动V535.129.03///
NVIDIA FabricmanagerV535.129.03///
NCCLV2.18.5///

客户现场软硬件环境&性能测试指标

GPU Server-Leaf-Spine-Leaf-GPU Server

Bond RoCEv2带宽GB/sQP=0QP=128QP=300QP=1024TX_UTIL
Hash enhancement186.32300.32344.64355.2598.62%
No Hash enhancement186.84296.84338.26349.5297.13%

GPU Server-Leaf-GPU Server

Bond RoCEv2带宽GB/sQP=0QP=128QP=300QP=1024TX_UTIL
Hash enhancement187.14301.39342.91351.8498.84%
No Hash enhancement187.32297.84339.38349.3296.60%

在多次客户实地RoCE能力测试中,星融元使用Asterfusion CX-N超低时延云交换机搭建AIGC网络,完成RoCEv2吞吐性能测试、网卡Bond性能测试和NCCL all_reduce_perf测试,AIGC计算节点完成RDMA配置和性能优化,获得客户的认可。

AI对市场竞争格局的影响愈发明显,200G/400G交换机的需求越来越多,提出高带宽、低时延、大规模部署的技术要求,同时也带来了诸多市场机会,“重金求设备”便可一窥趋势。

准备好迎接AI基础设施这一波“泼天的富贵”了吗?星融元准备好了。

相关文章

 

星融元新一代NPB方案助力头部金融客户降低40%网络运维成本


关注星融元


为方便人们管理和监控数据中心的运营情况,通常采用可视化方案,以便管理员直观地了解数据中心的整体状态、各项指标的变化趋势以及故障的发生情况,从而及时做出调整和应对;然而传统的可视方案依靠专用的汇聚分流设备来采集、汇聚和过滤需要监控的流量,这样的方案带来了巨大的成本、极高的复杂性和频繁的维护。

为优化可视化解决方案,世界各地的工程师做了诸多尝试,其中金融行业尤甚。基于金融行业对于信息安全和数据监控的严格要求,国外客户采用先进技术降低成本和运维难度。

配图

O客户是中东欧最大的商业银行之一,A客户是西欧最大的跨国金融机构之一,金融行业数据中心作为汇聚分流器的最典型应用场景,这两家客户在多年的实践中积累了丰富的运维经验,并对可视网络的发展有着独特的见解。开放网络浪潮在全球范围内盛行的今天,O和A客户不约而同地把目光投向开放网络,期望在可视网络领域也能享受到开放网络的红利。

星融元联合海外合作伙伴,向O和A两家客户推出了新一代的可视网络解决方案:

  1. 1.标准化白盒交换机:使用基于商业交换芯片的标准化白盒交换机替代传统昂贵、复杂、不易维护的专用设备,降低客户设备购买成本和人员培训成本。借助商用交换芯片飞速发展的潮流,可视设备的端口速率也可以轻松达到200G,400G甚至800G,为数据传输提供更高带宽、更快传输速度、更高连通性和更低时延,即使在处理大规模高频交易的业务流量时,也能保障汇聚、分发和流量预处理的速度。
  2. 2.基于开源架构的软件:在SONiC容器化开源架构的基础上,实现汇聚、分流的基础功能,可以部署在任何符合SONiC标准的白盒交换机上,避免因软硬件不适配重新采购造成资源浪费。开源架构的软件
  3. Spine-Leaf组网架构:传统可视网络的部署方式下,新增采集或分发节点会对网络产生影响,不易于网络的扩展,采用Spine-Leaf组网的新一代可视网络架构,可以轻松扩展数以百计甚至千计的采集和分发节点,满足客户业务拓展需要。技术方案可参考《下一代园区网络,用Leaf/Spine架构替代传统三层拓扑》
  4. 池化深度业务处理:扣卡、网卡、交换机形态的所有DPU芯片资源池化,按不同用户流量处理需求提供所需的高级功能处理,资源利用率高且灵活,打破高级功能处理性能与单设备性能绑定的困局。资源池

通过上述改变,星融元的新一代可视网络解决方案降低了O客户和A客户40%以上的TCO,让客户真切感受到了拥抱开放网络带来的便利和好处。

提供优异服务,成就客户和同伴,星融元通过开发一系列针对金融行业数据中心不同应用场景的解决方案,获得了众多金融客户的认可。未来,星融元将继续努力,为客户提供更具竞争力的产品与解决方案,提升客户网络性能、稳定性与安全性,实现合作共赢。

相关文章

 

开放网络+私有云=?星融元的私有云承载网络解决方案实例


关注星融元


在全世界范围内的云服务市场上,开放网络一直是一个备受关注的话题。相比于传统供应商的网络设备,开放网络具备软硬件解耦、云原生、可选组件丰富等优势,对云服务商和超大型企业有足够的吸引力。

SONiC作为开源的网络操作系统,使得新一代网络中的高级可编程性成为现实。在Gartner 2023年发布的企业网络技术成熟度曲线中,由微软发起并开源的SONiC已经取代了往年“开放网络”的概念,并被Gartner称为“网络领域的Linux”,SONiC无疑成为了开放网络操作系统的最佳选择。包括微软、阿里巴巴在内的诸多云服务商选择在自己的生产环境中运行SONiC,以获得更高的性价比和灵活性,同时摆脱对传统网络设备厂商的依赖。

文章配图

相较于头部云服务商基于SONiC架构自研操作系统的做法,另一种更具性价比的方案备受青睐:采购支持SONiC的白盒交换机,并运行开源版本的SONiC软件,T就选择了这种方案。

T是一家全球化的通信服务提供商,为客户提供基于云的服务,帮助企业通过API建立和扩大他们的通信能力。T的网络基础设施遍及全球,基于自身的私有全球云网络,他们可以为客户提供比传统电信公司更优质、更可靠的服务。

在长期实践中,T享受了开放网络的便利,也遇到了种种挑战:

  • 首先,SONiC的开源版本迭代周期长,并且没有明确的路标可供参考。当急需某个开源版本不具备的特性时,通常需要被动等待很久,而自行开发又需要大量的研发投入,如何平衡等待时间与研发投入之间的关系成了一个问题。
  • 其次,开源版本存在不少已知或未知的bug,运维人员(通常是网络工程师)并不具备直接解决这些bug的能力,在生产环境上规避bug给运维人员增加了大量不必要的工作量。

星融元私有云承载网络解决方案

助力T客户构建自身网络

星融元的SONiC企业发行版AsterNOS凭借脱胎于SONiC的开放性及标准化能力,联合行业领先的OpenStack软件供应商Canonical形成了完整的私有云解决方案,采用全盒式CLOS架构、高性能网络Overlay、统一云管、INT遥测-全面掌握网络安全,解决了传统数据中心网络转发性能瓶颈、功能扩展受限、部署运维低效等问题。T通过采购星融元CX-N系列交换机,使用星融元私有云承载网络解决方案,攻克了种种技术难题。

全盒式CLOS架构提升接入层与汇聚层的高可靠性

星融元私有云网络解决方案采用星融元CX-N系列全盒式设备构建CLOS架构网络,单Pod最大可支持10W+虚机条目;同时还可以进行多Pod扩展,以实现更大规模的网络接入能力;结合BGP等价路由负载、MC-LAG、Monitor-Link联动等技术实现接入层和汇聚层的高可靠保护机制。

AsterNOS在开源版本的基础上对数据中心常用功能如BGP EVPN和VXLAN做了增强,并领先于开源版本提供了EVPN Multihoming能力,使T客户在接入层可靠性上多了一种更高效的选择。

全盒式CLOS架构

CX-N全开放NOS提升用户网络管控效率

CX-N系列交换机搭载的AsterNOS是星融元为云计算业务场景设计开发的一款全开放、高性能、高可靠、功能易扩展的云网操作系统。采用了标准的Linux内核、开放的容器化架构,并向最终用户提供系统集成环境与开发套件,支持用户将运营经验工具化的插件、新业务功能模块集成部署在AsterNOS之上,提升最终用户网络管控的效率以及满足新业务场景对网络功能的需求。

T使用的Prometheus + Grafana的运维组合,在过往的运维经历中和设备的相性并不很好,而AsterNOS可以将Prometheus运行在容器化环境中,从而能够更高效地获取设备的KPI指标,从而提升运维效率。

全开放NOS

星融元持续致力于开放网络领域,为客户提供标准化、开放的产品和解决方案的同时,通过丰富的研发和运维经验将客户需求落实到具体的解决方案,帮助客户更好地拥抱开放网络。

CX-N系列产品在T客户这一全球化的通信服务提供商私有云领域的成功商用,一方面为我们树立了业界标杆,也提供了持续推动开源网络发展的信心;另一方面也为云服务商的网络架构优化提供了参考:星融元致力于为客户降低TCO,提供统一纳管、高效运维的产品,可为云数据中心多业务融合、高性能计算、大数据分析等多种业务场景提供卓越的网络服务。

相关文章

 

互联科技:全域托管云赋能百行百业的数字化转型


关注星融元


在这个数字经济时代,云计算技术为企业提供了更加高效的业务管理机会,百行百业加速上云。对比几种云网方案,目前公有云方案存在可控性低、数据暴露风险、个性化需求难以满足、服务受限等问题;私有云方案存在建设成本高、建设周期长、弹性差、复杂度高、扩展受限等问题。互联科技作为科创型数字新基建龙头企业世纪互联(VNET.US)集团全资子品牌,推出的全域托管云方案则恰好弥补了公有云方案和私有云方案的缺点,更加灵活、弹性、可靠、安全。

互联科技全域托管云降低中小企业业务上云成本

世纪互联数据中心有限公司是全球具有重要影响力的网络空间基础设施服务提供商之一,也是中国领先的第三方中立数据中心运营商之一。作为世纪互联的全资子品牌,也是世纪互联创新推出“大定制+新零售”双引擎战略中“新零售”业务主体,互联科技致力于成为客户数字化转型全生命周期的合伙人,通过整合数据中心机柜服务、云原生服务、网络服务、运维管理服务,互联科技逐步搭建起成熟完善的全域托管云服务,并面向未来构建超互联新算力基础设施,助力数字经济快速发展。依托世纪互联近30年深耕数据中心的经验,互联科技拥有包括全国30+城市的50+数据中心“主战场”和强大网络连接能力。

托管云(Managed Cloud Services)是指一种云计算服务模式,旨在帮助IDC托管客户构建并管理其云计算基础设施,以便客户可以在获得专属云服务的同时更专注于自己的业务。“全域托管云”解决方案为客户提供企业级一站式全域IT服务,通过新模式新平台助力上云新途径。

星融元CX-N交换机助力互联科技全面加速托管云业务

为保障弹性托管云方案的数据传输和存储,支持网络的高效流转,经过多家厂商的激烈对比,互联科技选择了全开放、性能优、资源利用率高的星融元CX-N系列云网交换机,为互联科技提供托管云的承载网络。

快速集成

利用星融元交换机的开放架构,互联科技的云管系统可以通过调用星融元交换机RESTful API快速将交换机的管理和配置工作集成到云管系统当中。星融元交换机除了提供原子级RESTful API的调用,针对云网下发配置,还提供事务级RESTful API的调用,只需要简单调用运管系统,互联科技就可完成一系列的云网配置下发,大大减轻运维难度。

随时升级

以往互联科技使用传统交换机,底层网络配置变更、更换设备等操作往往只能在业务闲时进行割接操作,星融元交换机因为容器化技术及高可用架构,可以随时进行系统应用的升级。如果涉及到更换设备,也可以通过复制配置文件,快速完成设备更换。这样避免对交换机进行二次配置,减少人为配置出错的可能,同时也大大提升了效率。

方案架构图

降本增效

充分利用星融元的云网设备的特性,世纪互联可以将主机Overlay网络卸载到星融元的交换机上,这大大了减轻客户主机CPU资源占用率,客户在创造更多虚机、提升资源利用率的同时,还能够大幅降低成本。

易于扩展

同样缘于星融元开放的特性和容器化的架构,互联科技可以在星融元的交换机上部署第三方容器应用,目前通过部署Prometheus官方提供的开源Node-exporter,可以实现通过Prometheus查看和监控星融元交换机的系统状态信息。客户还可以根据自己的需要,安装其他的容器应用,来满足自己个性化的需求。

本次合作将星融元在开放网络领域的技术能力融入到互联科技全域托管云解决方案中,打造业界领先托管云数字化解决方案,赋能百行百业的数字化转型。目前通过使用星融元交换机构建的云网络,互联科技目前已经在多个数据中心部署全域托管云业务。

未来,双方将在全域托管云场景化方案建设和市场推广领域展开深入合作,为不同规模和发展阶段的企业提供更利于长远发展的互联网基础设施全生命周期服务,互联科技全域托管云业务也将会迎来飞速发展。

相关文章:星融元携手世纪互联打造全域托管云,赋能企业数字化转型!

相关文章

 

天翼云:“百万IOPS”助推政企上云


关注星融元


随着数字化转型的加速,越来越多的企业选择了业务上云。众所周知,不论是政企关键/核心业务中的大型数据库、NoSQL、AI训练,还是互联网业务中的游戏、渲染等场景,对数据读写IOPS和时延有极高的要求。作为全球领先的云服务商,天翼云拥有200万+客户,整合中国电信的平台资源,天翼云以“云网融合、安全可信、绿色低碳、生态开放”四大优势向客户提供公有云、私有云、专属云、混合云、边缘云全栈云服务,很好地满足了政府机构、大中小企业数字化转型需求。

天翼云logo

业务飞速发展考验天翼云基础网络设施

多数业务上云早期的方案大多采用物理机+本地盘的方式,这种方式虽然满足了用户的性能需求,但受限于单台服务器的存储资源,一方面可靠性无法得到保障,不仅无法容忍double fault(双点失效),即使单点故障也无法容忍;另一方面也导致了容量难以扩展。

为此,中国电信天翼云推出完全自主研发的“百万IOPS”X系列云硬盘,与上一代极速型SSD、超高IO云硬盘相比,X系列云硬盘带宽、时延、IOPS等规格指标提升了2~10倍。在提供本地盘级别的性能体验的同时,还提供高达99.9999999%的数据持久性与99.975%的业务可用性,完美满足了关键业务、核心数据库、内存数据库(持久化)、AI训练等场景对存储的性能可靠性及扩展性需求。

对天翼云这样庞大的云来说,除了解决存储问题,还迫切需要一张能够支持大规模分布式存储的网络来满足业务需求,为此,天翼云业务团队做了大量的洞察和分析,也对业界各大云服务商当前提供的解决方案做了深入研究,选定了 Asterfusion 超低时延以太网解决方案

最终,天翼云基于其自研存储引擎LAVA发布了的X系列云硬盘搭配上星融元全球超低时延交换机形成极具优势的分布式存储解决方案,在性能、可靠性、扩展性、开放性四方面均取得了重大技术突破——“百万IOPS”,“百微秒时延”,性能容量“按需扩展”,满足用户开放网络需求。

天翼云海报

低时延、大规模分布式存储网络便捷业务上云用户管理

低时延无损:构建零丢包以太网

TCP协议栈在接收发送报文时,内核需要做多次上下文的切换,每次切换需要耗费5-10微秒。另外还需要至少三次的数据拷贝和依赖CPU进行协议工作,这导致仅仅协议上处理就会带来数10微秒的固定时延,同时增加CPU的负载。

CX664D-N 64*200G高密度大带宽交换机凭借全球最低时延——400ns时延与RDMA—RoCEv2技术,配合天翼云X系列云盘全自研L-RDMA协议减少了GPU通信过程中的数据复制次数,从而大幅降低CPU开销,提升数据传输效率。同时,为了避免网络丢包对分布式存储的影响,Asterfusion云网设备支持“一键无损”方案,通过一键式配置不但支持PFC、ECN等无损网络协议构建低时延零丢包以太网络,还能减轻用户运维复杂度。

RDMA架构图

设备高可靠:业务持续不中断

为避免部件故障或设备版本升级造成业务中断,Asterfusion针对设备的关键部件,如电源、风扇等,均进行了冗余备份,单个部件发生故障不影响业务的稳定性和连续性,所有模块支持热插拔,故障部件替换轻松便捷无需开关机。

解决方案上,与过去用户网络采用堆叠,每次设备进行版本升级或者故障替换时业务都会中断的情况不同,Asterfusion“去堆叠”技术提供的两种接入方式(MC-LAG、ARP to HOST)满足用户不同需求下的灵活选择,在网络侧提高系统可靠性和业务持续性。

去堆叠组网图

灵活易扩展:性能容量“按需扩展”

中国近年来整体云服务市场规模持续增大,给天翼云的存储扩展性提出高要求,Asterfusion云网络的整体架构设计完全遵循了业界最领先公司广泛部署和使用的Scale-wide架构(按需自由扩展架构),将原本封闭在大型机架式网络设备中的CLOS交换架构开放到网络拓扑设计当中,帮助用户在只采用盒式网络设备的前提下仍然能够搭建出大规模的扁平化云网络,使用户在享受高性能、按需自由扩展的同时,最大限度地降低云网络的TCO。

合作共赢:共享开放生态

天翼云基于自身核心优势,与产业链上下游合作伙伴加强合作,不断丰富产业生态,在网络的选择上也同样如此。区别于传统黑盒交换机,Asterfusion云网交换机硬件基于开源开放OCP标准,以开源开放的SONiC、SAI为内核构建的网络操作系统,打破传统黑盒网络设备软硬件一体的封闭架构,帮助用户解决传统黑盒网络设备的封闭性、锁定性问题,满足用户以及业务对网络开放的需求。

以开源开放的SONiC、SAI为内核构建的网络操作系统

作为中国TOP3云计算服务市场的重要参与者之一,天翼云依托自身技术创新优势,凭借众多政企客户群,正持续助推更多政府机构和企业实现数字化转型。天翼云 “百万IOPS”X系列云硬盘采用了Asterfusion的CX664D-N交换机,为全网200万+客户的业务上云提供优性能、高可靠、易扩展、强开放的网络基础设施环境,最终将惠及用户,更加安心上云。

企业数字化转型推动社会经济发展已然成为时代之大势,天翼云顺势而为, “百万IOPS”X系列云硬盘的公测将有利于企业加快信息化、数字化、智能化转型,有助于企业降本增效。未来,天翼云将持续以领先算力服务助推数字经济发展。

相关阅读:开源网络操作系统AsterNOS:星融元开放网络背后的的力量

相关文章

 

事务级 REST API 在网络管理中的应用


关注星融元


什么是REST API?

REST(Representational State Transfer,也称RESTful)API是一种架构风格,用于构建网络应用程序和服务之间的通信,是基于HTTP协议的一种应用程序接口。它提供了一组规范和约定,使得不同应用程序之间可以进行数据的传输和交互。还将应用程序的功能暴露为一组资源,每个资源都有一个唯一的标识符(URI),通过HTTP方法(如GET、POST、PUT、DELETE等),可以对这些资源进行操作和访问。同时,REST API使用轻量级的JSON或XML格式进行数据的传输,使得它易于理解、扩展和集成到不同的平台和语言中。

使用REST API的好处有以下几点:

↦ 灵活性和可扩展性:REST API提供了一种基于标准HTTP协议的通用接口,可以在不同的平台和语言之间进行交互。

↦ 简化集成:REST API使用轻量级的数据交换格式(如JSON或XML),易于理解和解析。这使得与其他系统和服务进行集成变得更加容易。无论是与内部系统还是与第三方服务进行集成,REST API提供了一种简单而直观的方式来实现系统之间的数据传输和交互。

↦ 跨平台和跨设备支持:由于REST API使用标准的HTTP协议,因此可以在各种设备和平台上进行访问和使用。这意味着无论是在桌面计算机、移动设备还是其他嵌入式系统上,都可以轻松地使用REST API进行通信和操作。

什么是事务级REST API?

事务级REST API是REST API的一个扩展,相比于原子级REST API它引入了事务性操作的概念,支持对设备进行批量配置操作,能够帮助用户简化运维难度。

事务级REST API的成功案例

事务级REST API的部署案例

如上图,国内领先的第三方中立数据中心服务商用户部署示例,该托管云用户是中国领先的互联网基础设施服务提供商之一,主要提供IDC、云计算、网络加速、CDN和安全服务,2022年新增了托管AI业务需求,采用BGP-EVPN、VXLAN、MC-LAG等技术构建可靠的大二层网络满足生产网络稳定性需求。

在实施部署时,因设备数量较多,需要配置大量MC-LAG、EVPN、VXLAN等协议,用户苦恼不已。

用户认为:使用CLI手动执行这些操作会耗费大量时间和精力,并且CLI可能需要用户记住复杂的命令和参数,对于他们非技术同事来说不太友好。但是使用原子级REST API,无法很好的保证数据一致性和完整性,且无法进行批量操作。

而事务级REST API的出现很好的满足了用户需求,在之后的实施部署与运维过程中,用户总结出了事务级REST API以下好处:

  • 数据一致性和完整性:用户可以放心进行复杂的网络配置更改,确保所有更改都一致地应用于系统,避免配置错误或中断导致的网络不稳定。
  • 自动化和批量操作:REST API允许用户编写脚本或程序来自动执行各种操作。这对于需要进行大量配置更改、批量操作或定期任务的用户来说非常实用。
  • 可视化和友好的界面:REST API支持通过Web界面或开发应用程序的方式进行访问。提供了直观和用户友好的界面,使得配置和管理变得更加可视化和易于操作。
  • 灵活性和可定制性:通过REST API,用户可以根据自己的需求自定义请求和操作。他们可以选择只调用需要的API端点和功能,而不必受限于预定义的CLI命令。这种灵活性和可定制性使得用户能够更好地适应他们的具体需求和工作流程。

事务级REST API配置下发示例

使用星融元CX-N低时延交换机事务级REST API,可以轻松进行批量配置(同时进行多VRF、多VLAN、VXLAN等配置),节省用户时间与精力,保障数据一致性,提高运维效率。

事务级REST API配置下发示例

星融元CX-N低时延交换机,您网络管理的完美选择。利用我们强大的事务级REST API,您将体验到前所未有的灵活性、可靠性和高效率。

相关文章

 

【客户案例】私有云边界网络部署实践


关注星融元


业务背景

在私有云的业务场景中,常见的通信中包含了同VPC内虚机互访、不同VPC之间的虚机互访、VPC访问Underlay资源、VPC访问Internet资源、VPC提供服务,被Internet访问、VPC与专线网络之间互访等;实际应用中,大多数云业务通信场景都需要依赖安全、NAT、负载等边界设备组合使用来实现,云承载网络中与边界设备对接的Leaf节点我们通常定义为Border角色。私有云网络设计图

云网络中的Border角色如何与防火墙、负载均衡为典型的边界设备进行对接实现不同VPC租户业务需求,是私有云网络设计中一个关键问题。

Border边界网络对接方案简介

在星融元私有云网络解决方案中,CX-N系列交换机作为Border角色支持VLAN与VXLAN之间、VXLAN与VXLAN之间的映射和封装转换;采用“共享VTEP+物理横联设计”和“不同VTEP+无横连设计”两种基础架构设计,并可以进行混合部署使用;

Border共享VTEP方式
实现一:Border共享VTEP方式
Border区分VTEP方式
实现二:Border区分VTEP方式

客户案例

01、客户需求

  • 承载网的Border设备与边界两台防火墙、边界出口路由器旁挂对接,同时保证设备和链路层面的高可用性;
  • 承载网的Border设备同时下挂OSS存储,作为OSS存储的接入网关。

02、Border组网架构设计

Border组网架构设计

物理连接:两台Border与两台防火墙、两台边界路由器做Full Mesh全互联,两台Border之间建立横联线路,同时OSS主机链路聚合双上行对接两台Border设备。

<Border部署方案一>

Border部署方案

两台Border共享同一个VTEP地址,并组建MC-LAG系统,设置Monitor-Link上行口联动所有下行端口,Border端口放通相关的业务VLAN,并在设备内部创建VLAN虚接口作为面向防火墙和边界路由器的分布式互联地址、以及作为OSS主机的分布式网关。(该方案适用于防火墙双主部分主备场景以及采用静态路由方式的对接场景

<Border部署方案二>

Border部署方案两台Border配置不同的VTEP地址,利用物理三层接口以及三层子接口和边界防火墙和边界路由器对接;同时组建MC-LAG系统,设置Monitor-Link上行口联动与OSS主机相连的下行端口,Border与OSS主机相连端口放通OSS业务VLAN,并在设备内部创建VLAN虚接口作为OSS主机的分布式网关。(该方案适用于防火墙主备场景以及采用动态路由协议的对接场景

VPC承载:

Border建立L3 VXLAN与VLAN的映射关系,同一对L3 VXLAN和VLAN对应的L3VNI虚接口和VLAN虚接口会绑定至一个相同的VRF,该VRF承载并隔离对应的VPC流量;

流量转发:

Border在对应的VRF中将VXLAN报文重新封装成VLAN报文发送至防火墙,防火墙依据VLAN tag识别此报文所属VPC;Border从防火墙收到VLAN报文,匹配云内主机路由条目将带有VLAN封装的报文按照映射关系重新封装成VXLAN报文通过VXLAN隧道发送至云内的Leaf节点;对于VM虚机访问Border下挂OSS资源的流量,Border会在本地做跨VRF的转发进行实现。

相关文章

 

对星融元产品感兴趣?

立即联系!

返回顶部

© 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2