Skip to main content
开放网络的先行者与推动者—星融元
加入我们技术支持(Support)  TEL:(+86)4000989811

标签: 公司动态

解读 Gartner 魔力象限:SONiC 或将成为下一代数据中心网络标配


关注星融元


近期,Gartner 发布了《数据中心交换魔力象限》(Magic Quadrant for Data Center Switching),这也是该报告的首个版本,用以取代原来的“数据中心交换市场指南”(Market Guide for Data Center Switching)。

报告原文: https://www.gartner.com/doc/reprints?id=1-2KN9D5PG&ct=250401&st=sb (可点击文末阅读原文)

报告聚焦于全球数据中心网络技术的竞争格局与未来趋势,指出随着AI智算中心对高性能网络的需求激增,厂商的技术创新力、产品开放性与生态整合能力成为关键评价维度

Gartner report

Gartner 市场趋势和建议

人工智能的普及催生了对网络交换领域新投资的需求,为供应商带来了巨大的增长和收益机会。

Gartner 发现,各大供应商正在大力投资其产品方案以满足人工智能对高性能网络的需求,包括创建高性能、无损且节能的网络,以最大限度地利用 GPU ……同时推动了围绕更高带宽接口(800G 及以上)、节能硬件和光学器件以及 GPU 流量优化等特定的功能增强。

具体的新兴功能包括:高级低熵抑制(advanced low-entropy mitigation)、自适应负载平衡/路由、高级拥塞协议、高精度遥测、对超以太网(UEC)规范的支持,以及对新型拓扑/架构(包括轨道优化技术、Dragonfly 等)的支持。

对于在数据中心网络软硬件和相关管理方面进行投资的组织机构,Gartner 建议重点关注底层的管理和自动化方面,而不是仅仅是交换机的硬件特性,以下是原文翻译:

  • 通过使用具有盒式交换机(fixed-form-factor switches)和 25G/100G 接口的 leaf-spine 架构设计来部署适当规模的网络基础设施,以解决传统数据中心的工作负载。
  • 为基于 AI/GPU 的工作负载构建单独的物理专用交换机,并在有限数量的交换机上配备更高速的接口。
  • 在较小的环境(500 台虚机或更少)中,采用双机部署(two-switch implementation)方案并寻找基于 SaaS 的管理控制台来简化运营开销。
  • 在非常大(超过 250 个交换机)的环境和/或前瞻性组织中,试点应用 SONiC 作为 NOS 来推动创新并减少供应商锁定。

开放网络模型正在重塑行业生态

值得注意的是,报告虽未直接以SONiC作为核心指标,但已经将“对 SONiC 的商业支持”纳入市场定义/描述,并将“SONiC 集成能力”作为评估维度之一,部分入选魔力象限的企业因缺少与 SONiC 相关技术产品而被 Gartner 视为风险要素。(例如Alcatel-Lucent Enterprise,Extreme Networks,HPE,Huawei)

SONiC(Software for Open Networking in the Cloud)是属于 Linux 基金会下的模块化开源网络操作系统 (NOS)架构,核心价值在于通过SAI(交换机抽象接口)实现的硬件无关性,支持在不同厂商AISC灵活切换;以及利于版本升级和各类工具集成的容器化架构(SONiC每个模块放置在独立的 docker 中,每一个组件都是完全独立于平台特定细节而编写)

1、SONiC的开放生态与市场潜力

Gartner 报告中对“多厂商兼容性”与“网络自动化”的强调,与SONiC的核心价值高度契合。当前,包括百度、Comcast、eBay、LinkedIn、Microsoft、Target 和腾讯在内的数百家知名企业正在生产环境中运行 SONiC,这些环境大多非常庞大。到2027年,在大型数据中心网络(超过250个交换机)中运行 SONiC 的企业数量将翻一番,达到10%。SONiC 的市场潜力已被 650 Group,Dell’Oro 等全球知名行业分析机构一致认可。

2、从超大规模云向企业级场景延伸

SONiC 的初期采用者集中于超大规模云服务商,但其“企业级发行版”正逐步覆盖金融、制造等行业。传统品牌交换机厂商正面临白盒化方案的挑战。

3、开放网络驱动的网络运维革命

SONiC 的云原生架构为各类AI管理控制台集成提供了更灵活的基础,例如通过实时遥测数据与 NetDevOps 流水线结合,实现故障自愈与策略优化。

星融元(Asterfusion)入选 Gartner 荣誉提名

作为开放网络领域的资深玩家,我们虽然由于市场规模未能入选 Gartner 数据中心交换魔力象限的首版本评级,但却是荣誉提名中唯一特别提到有 SONiC 产品方案的厂商。

Honorable Mentions

星融元通过软硬一体交钥匙的企业级 SONiC 解决方案,支持从AI智算,通算中心直至企业园区接入的跨场景部署,并通过增强 VXLAN、BGP EVPN、EasyRoCE 等功能弥补社区版短板,同时兼容多风格 CLI 模式以降低企业迁移门槛。

区别于白盒厂商,我们提供的是较于纯白盒硬件+社区 SONiC 方案更可控,更开箱即用的开放网络,更在此基础上把业内最前沿的工程实践经验和技术理念持续不断地产品化迭代,服务于更广大的企业用户。

AsterNOS

RoCE

相遇在2025电博会的这些人,那些事


关注星融元


清明公休假稍瞬即逝,与“断点续传”的工作记忆一同到来的还有一年一度在深圳举办的中国电子信息博览会(CITE)。

借着这个电子信息产业最新产品和技术的国家级平台,我们将自研的(也是业内最尖端的)800G 51.2T RoCE 交换机首次带进了展会现场,并与华南地区的上下游企业,区域集成商合作伙伴进行了高密度的面对面交流。

短短三天,六米见方的展台里,我们经历了一次次来访者的试探、不解,甚至当面挑战,直到与我们建立起技术信任、向我们发出高层交流甚至现场测试的邀约。

这些有着不同技术市场背景和工作经历的来访者,往往理解行业、了解客户、知道问题、渴望答案——他们或在星融元的展台上找到了答案,或为星融元的持续创新带来了启发。

展会现场

“都没听说过你们公司,有案例吗”

此次展会多数都是AI服务器系统集成商,其中一位来访者之前都是将服务器直接配置IB交换机整体打包给客户。年初由于DeepSeek的爆火他们接触到不少小规模算力组网需求,而当前国际市场环境下,采购英伟达IB交换机总归有点风险(别说之前还遭遇过6个月交付周期+超预算的困境)。他见我们是做RoCE网络的,于是带着存疑的态度前来咨询。

“都没听过你们公司,你们的产品在DeepSeek推理网有案例吗?”

接待他的同事结合自己对DeepSeek开源模型理解,就着刚刚完成的基于星融元CX732Q-N(400G)的详细组网方案给这位集成商介绍起来——我们的组网方案比起其它RoCE友商64口400G和32口400G成本更优;又如我们此前为沐曦C500 DeepSeek做的组网方案,一台机器可以将训练网、存储网、业务网融合,简单到网络即插即用,完全可以替换IB,成本至少降低了三分之一;结合最近中美关税政策,能降低一半。

展会现场

至于性能,我们直接向他展示CX-N系列交换机与IB在AI智算,HPC和分布式存储等场景的多个对比数据(–>测试报告参考)。一番沟通下来,这位项目经理直接与我们共享了之前给某运营商的DeepSeek AI硬件基础设施报价, 其中全套IB的网络价格直接与采购的AI服务器价格相近了,导致客户认为网络成本太高而没能顺利落单。

再细细核算一波,如果当时用我司设备组网,应该就能符合客户预期了。

“Hash不均你们怎么解决”

有位算力行业的客户来到我们展台,他虽非网络工程师,但对RoCE网络在算力场景下的IB替代趋势和面临的一些挑战已有不少了解。

与那位AI服务器系统集成商类似,他也问到了我们的RoCE网络相对其他的厂家优势所在,不过要更加具体。

“比如对于大模型中常见的hash不均,你们会怎么解决?”。他表示一般厂商会采用例如调整哈希因子之类的方式,但仅以他本人在项目中的感知,实际效果非常有限,不足以满足需求,想知道我们是否还有其他办法。

答案当然是肯定的,这几乎也是每个算力网络运维架构师都会问到我们的问题。具体来说,如果以软件方式实现,我们完全可以采用“主动规划”的思路为每条业务流提前规划路径,预先设置,生成脚本一键下发,就像提前给每辆车固定住了行驶的路线并且自动为客户设备加载路由条目,这便是开放网络的技术路线带给客户最直观的价值体现之一。

除了主动规划,还可以结合硬件能力的实现类似“自动驾驶”(动态哈希)方案,就好比让每辆车自动选择不堵车的线路和选择多种解决hash不均的实现以适应不同的使用场景。

可惜时间场地受限,我们没法在这个闹哄哄的展台长时间地交流。互相交换联系方式后我们推荐他关注微信公众号(与他谈到的产品动态和技术分享多少都能在日常更新里找到),之后再预约时间深度交流,探讨合作空间。

相关阅读:解锁AI数据中心潜力:网络利用率如何突破90%?

展会现场

“像IB一样好用的RoCE网络,真的吗”

一位年轻的工程师站在展台的EasyRoCE展示屏前面看了又看,似有疑虑但不知如何开口。主动上前三言两语聊下来,我们大概了解到这位工程师是华南的一家规模很大的系统集成商的网络方案架构师,这家集成商在网络方面的主要业务之一是为客户提供基于IB的网络方案,应用场景主要是高性能计算和最近两年爆火的AL/ML网络。

吸引这位工程师流连在星融元展台的主要原因是EasyRoCE提供的简捷部署和整体监控方案。作为一位技术从业人员,这位工程师对RoCE技术、方案与产品已有很深入的理解,但是往往在考察了市面上现有的方案,考虑到的部署、实施、运维、监控等环节的挑战之后,就被劝退了。

“我们的很多现场工程师往往只具备最基础的运维能力,不能要求他们具备在现场去分析、定位交换机的队列、水线以及它们之间复杂关联的能力,他们更需要在问题发生的时候能够一眼就看到故障点在哪里、然后快速解决……”,这位年轻人如是说。

在了解了EasyRoCE的工具集的各项能力之后,他表示能够感觉到这些工具解决的问题真的是在很多方案中都遇到过的。

“你们这个方案是不是可以替换UFM了?”

的确,EasyRoCE工具集可以说就是星融元RoCE方案的“UFM”。我们将自己在过往两三年中,在AI/ML的RoCE网络部署中踩过的坑、碰到的问题,结合我们的技术能力,全部工具化了,通过这些工具将RoCE赋能给合作伙伴和最终用户。

像IB一样好用的RoCE网络,这一点,我们来真的。

展会现场

“这对IT运维排障人员太友好了!”

还是有关EasyRoCE。

在给某华南地区数据中心IT负责人介绍EasyRoCE多个小工具的时候,他看到光模块地图立刻叫了暂停,跟我们确定地图上的不同颜色是否表示交换机的光模块的运行状态。在得到肯定答复后他忍不住感叹:再也不用收到网络故障通知后,不管三七二十一先挨个ssh到交换机上去show一下全局接口状态了。“通过光模块地图一眼就可以排除物理因素,并且直观定位故障模块,这个东西对IT运维排障人员太友好了!”

光模块

“几百万的设备怕是还不如你们的SONiC交换机”

一位国内某量化交易公司的一线工程师在前台拿着彩页仔细看了好一会儿,才指着”高精度监控”向我们发问。算力系统经常出现毫秒级延迟波动,传统网管工具完全无法定位。于是我们引导他前往展示区,结合远程演示环境和数据,现场介绍如何捕捉由微突发引发的丢包。

“原来我们每年花几百万买的’高端设备’,精度还不如你们一台白盒交换机!” 虽不知他们到底买了什么高端设备,但得到这样的评价我们还是十分高兴的,也期待后续有机会在他们的新建网络中展示开放网络的更大潜力。

“这小盒子玩得挺花,说不定我能用上”

800G 交换机之外,我们还带了一台半宽的开放硬件平台:ET2500。这款设备我们尚未正式在国内市场发布,初步定位的场景是部署在企业出口,作为算网融合开放网关承担从路由器、防火墙到网络流量分析器的全部功能,替代原本用价格不菲的多台专用设备串联而成的出口架构。

不过,它的玩法绝不止于此——小小的盒子提供1G/2.5G/10G接口,内置了PoE模块、PTP模块、5G/LTE模块,还能选配AI 加速卡和WiFi7/6E模块和外置天线,加之上层运行的标准Linux和我们定制优化的DPDK/VPP软件包(已开源),给足了用户想象空间。

ET2500,出口网关

有位路过的客户转头一瞥就被我们的ET2500外观吸引住了,左右打量半天,开口问的第一个问题是,这个小盒子能帮我做算力调度吗?

接着就畅谈他们的业务场景:算力调度网络,把分布在全国的零散算力资源统一调度起来,分布式计算的场景和ET2500(以及此前发布的 CX102S-DPU)天然契合——小盒子里面的三颗芯片协同工作,可以帮他们极大减少边缘部署的设备数量和复杂度。经过一番业务场景的沟通和探讨之后,他对这款小盒子非常感兴趣,留下了联系方式并表示后续要再交流探讨。

电博会上与星融元偶遇的这些人,那些事,再一次坚定了我们用高效、实用的开放网络技术栈帮助各行业客户切实解决问题的信心,并将其作为星融元在这个充满着挑战和机遇的全球市场上不变的生存与发展之道。

RoCE交换机

2025电博会前瞻:星融元邀您共绘AI算力产业新蓝图!


关注星融元


邀请函

(扫码上方⬆️二维码可报名参会喔)

2025年4月9日-11日,星融元将参加第十三届中国电子信息博览会(CITE),作为行业先锋,星融元始终致力于推动算力产业的技术革新与生态协同。此次展会,我们将分享最新的技术成果,期待与您深入交流,共绘算力行业新蓝图。

星融元的核心技术是开放网络操作系统 AsterNOS(国内唯一的企业级SONiC发行版,成熟度和易用性位居世界前列),截至2024年底,AsterNOS已在全球25个国家实现了几万个商业部署的拷贝应用,并保持快速增长。

为充分发挥开放架构的力量,星融元自主设计了从云到园区的系列化开放网络硬件,在与AsterNOS等软件完成严格的适配测试和调优后,形成了开箱即用的交钥匙方案。目前方案已陆续进入国内外一线IDC、运营商云,并在金融、能源等重点行业实现了规模化部署。

场景一:中立开放的AI网络基础设施,一站式构建智算中心四张网(参数网、存储网、业务网、管理网)

  • 中小规模算力网络建网成本最多下降 75% (基于Rail-only架构);
  • 网络对业务彻底开放,可融入AI/ML业务调度平台(容器架构容器能力开放,被K8s统一纳管)支持对现有开源开放监控系统的重用;
  • 弹性架构:从Rail-only到全连接CLOS,支持平滑横向扩展至万卡规模;
  • 高性能RoCE交换机时延低至450-560ns,支持智能负载均衡技术,RoCE网络监控(基于星融元EasyRoCE Toolkit);
  • HPC应用测试(WRF、LAMMPS等),   CX-N组网与IB组网性能相当,差异在3%以内。

数据中心产品

场景二:通用云计算,开放云网架构完全对标Google, Azure, AWS, Meta 等一线大云厂商

  • 支持与第三方控制器和云管平台(如OpenStack)对接,无缝融入云中统一管理;
  • 已被充分验证的云网能力应用于虚机/裸金属/容器网络,一套基于SONiC开放式系统适用从业务承载网、云边界网络到数据中心互联(DCI)全场景。

场景三:分布式存储,端到端存储读写测试性能媲美 IB,局部超越

  • 一键RoCE配置,现有存储系统运维团队也可快速上手;
  • 开放架构可与数据库一体机控制器无缝对接。

场景四:新一代云园区,将云网中优秀的理念、架构和技术,有机移植到园区网络

  • 无线终端云漫游:分布式网关设计将漫游域无限扩大,终端安全策略随行(无需复杂的漫游配置),零丢包漫游;
  • 全新网络架构:多级Spine-Leaf,所有设备独立部署实现高可靠易扩展;
  • 全三层路由组网:无环路,无广播风暴,消除依赖广播攻击的内网病毒工具,内生安全;
  • 整网流量无收敛:上行接口25G/100G起步;
  • 极简开局和运维:分钟级业务开通,网络状态可视,有线无线统一管理;Portal认证+动态VLAN;支持云上运维;

园区产品

AP

    星融元EasyRoCE Toolkit更新,带来智简开放新体验


    关注星融元


    什么是EasyRoCE?

    EasyRoCE是星融元依托开源、开放的网络架构与技术,专为AI智算、高性能计算(HPC)场景设计的一系列实用特性和小工具,涵盖从前期的络规划实施到日常运维监控,为网络架构师简化了各个环节的复杂度,大幅简化运维难度、提升了运维体验;同时,EasyRoCE支持二次开发和集成,轻松应对网络升级、扩容等运维难题。

    超实用小工具先睹为快

    统一监控面板UG

    星融元统一监控面板(Unified Glance,UG)基于主流开源监控工具,为用户提供了一个简洁易用的可视化网络监控平台,拓扑、流量、设备等信息可以在UG中统一呈现,一目了然;并且支持灵活、精准的自定义监控,满足用户多样化的监控需求。
    经过在大规模生产网络中的部署与验证,UG平台能够有效辅助用户决策,解决生产网络运维中的关键问题,并显著提升网络运维及集群优化的效率。
    UG(1)
    UG(2)

    图形化设备面板DP

    星融元图形化设备面板(Device Panel,DP),以交换机的实际面板布局为基础,图形化展示了设备的运行状态:
    • 前面板监控:覆盖了交换机端口收发包的关键性能指标(端口状态、端口速率及丢包情况等);
    • 后面板监控:监控风扇和电源的运行状态;
    • 异常状态快速定位:通过颜色变化(橙色或红色)显著标记设备异常点。

    DP(1)

    DP(2)

    DP(3)

    高精度流量监控RTR

    RTR(Real-time Traffic Reporter)是星融元依托开放网络操作系统AsterNOS(企业级SONiC发行版)提供的实用小工具,部署在客户监控节点上。RTR支持读取自动化配置文件,整合毫秒级网络监控数据,并以标准格式输出至统一监控面板实现可视化呈现。
    RTR(1)
    RTR(2)
    RTR(3)

    星融元与绿算技术全闪存储设备完成兼容性互认证


    关注星融元


    近日,星融元CX-N系列超低时延交换机绿算技术ForinnBase GroundPool系列(简称GP)全闪存设备完成兼容性测试,整体运行效率稳定高效。

    绿算技术产品兼容互认证书

    当下,AI 和大模型技术呈爆发式增长,这对网络、存储等基础设施的性能标准提出了更高要求,如更高吞吐量、更低时延、更高稳定性等。而优质算力的构建并非依赖于某一环节的单方面提升,更需要网络与存储设备的紧密配合,充分释放协同效应达到 “1+1>2” 的效能,从而为优质算力保驾护航。

    广东绿算技术精心打造的GP系列产品,采用了PCIe Switch技术,保障数据的高速传输;基于NVMe-oF RDMA协议,由专用硬件芯片(FPGA/ASIC)实现数据的处理,时延降低至4μs;整体架构采用存算分离,使得资源的使用变得更加集约化,广泛应用于高性能计算(HPC)、AI/ML、云计算、大数据分析等行业。

    绿算技术

    星融元 CX-N 系列超低时延交换机,面向 AI/ML 智算中心和云计算数据中心提供一站式全开放网络解决方案,以其构建的超低时延无损以太网,通过 RDMA 技术在以太网上的实现,帮助高性能计算方案突破网络瓶颈,为计算集群提供低时延、零丢包、高性能的网络环境。

    星融元产品

    本次,星融元与绿算技术顺利完成产品兼容性认证,凭借双方各自在网络和存储领域的专业技术实力,携手突破AI时代下基础设施能力瓶颈,为客户提供开放、灵活的方案选择。

    未来,星融元将继续与绿算技术等更多合作伙伴深化技术协同,共同为客户提供卓越性能的产品方案,助力客户在AI时代的浪潮中稳立潮头,实现业务的高效增长。

    CDCE参展预告:精彩看点不容错过


    关注星融元


    12月5-7日,星融元将参加2024国际数据中心展(CDCE),扫描下方二维码立即报名。CDCE邀请函二维码

    EasyRoCE方案演示

    在IB与RoCE的较量中,RoCE以其卓越的开放性和成本效益脱颖而出,然而其复杂的部署实现也让不少用户纷纷踩坑,为此,星融元依托开源、开放的网络架构与技术,为客户提供了Easy RoCE解决方案,包含从前期规划实施,到日常运维监控全流程的一系列实用小工具,为网络架构师们提供了一种高效、便捷的网络部署和管理方式。

    CX-N超低时延交换机真机展示

    CX-N系列交换机专为AI/ML智算中心以及云计算数据中心设计,超高带宽、超低时延,性能堪比IB。

    • 10G-800G的全场景互联:星融元CX-N数据中心交换机的单机转发时延(400ns)低至业界平均水平的1/4~1/5;采用BGP-EVPN、VXLAN、MC-LAG等技术构建可靠的大二层网络满足生产网络稳定性需求。
    • 搭载开放网络操作系统:星融元AsterNOS以SONiC为内核、依托容器化的系统架构,并提供RESTful API支持第三方应用快速集成,或对接上层管理调度平台,例如OpenStack,K8s等。
    • EasyRoCE极简运维支持无损网络一键部署,Prometheus + Grafana 可视化监控大屏配合专用命令行,问题快速定位解决。

    星融元产品

    EasyRoCE统一监控面板:一站式运维体验


    关注星融元


    随着AI和大模型的深入应用,网络流量监控的重要性愈发明显,对监控技术的精细化、监控面板的可视化要求也随之提高:

    UG概览1

    UG概览2
    * 监控的数据类型更多、颗粒度更细(如时延、抖动);
    * 故障定位速度更快(达到秒级甚至亚秒级);
    * 网络流量可视化,实况网络调优……
    而传统的网络监控手段(SNMP、CLI、日志)已无法满足上述需求。

    为此,星融元推出了EasyRoCE统一监控平台,主要面向CX-N系列超低时延交换机的实时监控与管理:基于星融元开放的软硬件架构,无缝集成Prometheus、Grafana等主流开源工具,为客户提供简洁易用的毫秒级可视化监控平台,同时支持内置多个可视化小工具,如光模块地图、链路流量分布地图、图形化设备面板等,助力用户快速精准定位故障。上述方案已经在客户生产网络中完成了部署与实际使用。

    √ 高精度毫秒级监控能力;
    √ 提供端口级和队列级颗粒度数据;
    √ 完善的RoCE流量监控指标,包括PFC,ECN等关键指标;
    √ 拓扑、流量、设备等信息大屏展示;
    √ 自定义告警规则,快速响应解决网络问题;
    ……

    星融元与焱融科技AI分布式存储软硬件完成兼容性互认证

    近期文章


    近日,星融元 CX-N 系列超低时延交换机(25G/100G/200G/400G/800G)与焱融科技的 AI 分布式存储软硬件产品完成兼容性测试。双方产品兼容性良好,运行稳定,性能优异,能够为用户提供值得信赖的高性能分布式存储解决方案,满足其在复杂计算场景中的高效需求。

    互认证
    科技发展日新月异,计算、网络、存储作为现代数据基础设施的三大支柱,日益成为企业业务和 IT 规划的核心考量。特别是在人工智能(AI)和高性能计算(HPC)场景中,AI/ML 应用对底层基础设施提出了更高要求,如高吞吐量、低时延和无损数据传输等。然而,在智算集群、超算集群等计算集群的部署中,先进芯片并不能直接等同于先进算力的实现。先进算力的发挥遵循着 “木桶效应”,即真正的先进算力是计算、存储和网络三个核心环节深度协同的结果。任何一个环节出现短板,都将导致整体系统性能的严重下滑。

    焱融科技和星融元,分别作为专业、领先的 AI 存储服务提供商和开放网络解决方案提供商,致力于提供高带宽、低延时、高可靠的数据存储与传输解决方案,为 AI 和 HPC 等高性能工作负载提供坚实支撑,保障先进算力的高效释放,加速企业创新成果落地。

    焱融科技自主研发的高性能分布式并行文件系统 YRCloudFile,不断贴近用户业务进行性能优化,满足用户业务中大文件、小文件全流程高带宽、低延迟需求。公司推出的软硬一体化全闪存储一体机已在 AI 大模型、智算中心、自动驾驶、金融量化、教育科研等领域头部企业的业务环境中得到了广泛应用。

    星融元 CX-N 系列超低时延交换机,面向 AI/ML 智算中心和云计算数据中心提供一站式全开放网络解决方案,以其构建的超低时延无损以太网,通过 RDMA 技术在以太网上的实现,帮助高性能计算方案突破网络瓶颈,为计算集群提供低时延、零丢包、高性能的网络环境。

    CX-N系列产品
    此次,星融元与焱融科技完成产品兼容性认证,通过各自在网络和存储领域技术实力的整合,为行业带来新的高性能存储与网络解决方案,消除数据访问与传输的性能瓶颈,充分释放计算潜能。同时,还为用户提供了更具灵活性的多元网络选择,助力企业在快速发展的 AI 时代占得先机。

    未来,随着 AI/ML 技术的不断发展及大模型 Scaling law 的继续演进,高性能分布式存储解决方案的需求将持续攀升。星融元将继续与焱融科技等合作伙伴深化技术协同,为用户提供具备更加卓越性能、更高效可靠的现代化 AI 智算基础设施,共同赋能 AI 时代前行发展。

    返回资源中心

    最新动态

    揭秘超以太网联盟(UEC)1.0 规范最新进展(2024Q4)


    关注星融元


    近期,由博通、思科、Arista、微软、Meta等国际顶级半导体、设备和云厂商牵头成立的超以太网联盟(UEC)在OCP Global Summit上对外公布其最新进展——UEC规范1.0的预览版本。让我们一睹为快吧!

    UEC 1

    UEC 旨在提出一种“升级版”的以太网通信协议栈用以应对AI智算、HPC等领域对RDMA网络的性能挑战——当前大规模计算节点互联场景下主要有InfiniBand和基于以太网协议的RoCE两大技术路线。有关IB和RoCE协议栈的详尽对比可参阅:

    高性能网络传输:RoCE与IB协议栈对比解析

    相比较为封闭的IB架构,以太网在互操作性和带宽成本上的优势已在市场层面得到了广泛认可,尤其是大规模的AI算力中心场景。当前全球TOP500的超级计算机中RoCE和IB的占比相当,以端口带宽总量计算,IB占比为39.2%,RoCE已达48.5%。

    尽管IB和RoCE在高性能传输的拥塞控制、QoS皆有应对设计,但也暴露出一些缺陷。例如乱序需要重传、不够完美的负载分担、Go-back-N问题,DCQCN 部署调优复杂等等。

    面向GPU Scale-out网络的UEC 1.0 规范从软件API、运输层到链路层以及网络安全和拥塞控制皆有涉及,较传统RDMA网络有了大量改进,我们将挑出重点介绍。UEC2

    什么是超级以太网系统

    一个超级以太网系统的组成如下。一个集群(Cluster)由节点(Node)和网络(Fabric)组成,节点通过网卡(Fabric Interface)连接到网卡,一个网卡中可以有多个逻辑的网络端点(Fabric End Point,FEP)。网络由若干平面(Plane)组成,每个平面是多个FEP的集合,通常通过交换机互联。

    UEC 3

    超以太网协议栈概览

    UEC4

    ▣ 物理层与传统以太网完全兼容,可选支持FEC(前向纠错)统计功能

    ▣ 链路层可选支持链路层重传(LLR),并支持包头压缩,为此扩展了LLDP的协商能力

    ▣ 网络层依然是IP协议,没有变化

    ▣ 传输层是全新的,作为UEC协议栈的核心数据包传输子层(Packet Delivery)和消息语义子层(Message Semantics)。包传输子层实现新一代拥塞控制、灵活的包顺序等功能,消息语义子层支持xCCL和MPI等消息。可选支持安全传输。另外,在网集合通信(In Network Collective,INC)也在这一层实现

     软件API层。提供UEC扩展的Libfabrics 2.0

    物理层

    UEC 1.0规范下的物理层与传统以太网(符合IEEE802.3标准)完全兼容,支持每通道100Gbps和200Gbps速率,在此基础上实现800Gbps和更高的端口速率。

    另外可选支持物理层性能指标统计功能(PHY metrics)。这些指标基于 FEC 码字进行计算,不受流量模式和链路利用率的影响。估计算法基于FEC错误计数器的数据,从而得出不可纠正错误率(UCR )和数据包错误平均间隔(MTBPE)。这些指标衡量了物理层的传输性能和可靠性,用于上层的遥测和拥塞控制等。为了支持新的 UEC 链路层功能,UEC规范中也对协调子层(RS)进行了相应的修改。

    链路层

    UEC链路层最大的变化是引入了LLR(Link Level Retry)协议。它可以让以太网不依赖PFC,实现无损传输。

    LLR 机制是基于帧的。每个帧都分配了一个序列号,接收端成功接收这一帧后,检查帧的序列号是否符合预期,如果正确,发送确认消息(ACK),如果发现帧乱序或者丢失,则发送否定确认消息 (NACK)。发送端具有超时机制,用于保证在 NACK 丢失时重传。

    传输层:UET,新一代协议栈的核心

    前文提过,传统的RDMA网络传输层(包括IB和RoCE)在多路径传输、负载分担、拥塞控制以及参数调优等方面存在着不足之处。随着AI/HPC集群规模增长,网络的确定性和可预测性越来越困难,需要全新的方法来解决。

    UEC传输层(UEC Transport Layer,简称UET)运行在IP和UDP协议之上, 支持实现以下几大技术目标:
    ▣ 支持高达 100 万个 GPU/TPU 的算力集群
    ▣ 往返时间低于 10μs
    ▣ 单接口带宽800Gbps及以上
     网络利用率超过85%
     

    选择性重传(Selective Retransmit)

    传统传输协议,如TCP需要严格的传输顺序,并采用了Go-Back-N机制。而一个RDMA消息通常包含多个数据包,只要有一个数据包错误,则从这个数据包起的所有数据包都要重传。这让偶尔的传输错误被放大,加剧了网络拥塞。UEC采用选择性重传机制,仅传输错误的数据包。
     

    乱序交付(Out-of-Order Delivery)

    UET不仅支持有序传输,也支持无序传输。这是因为现代网络中通常有多路径存在,同一个流的数据包经过不同路径传输,就可能造成乱序。如果还要求严格的顺序传输,就无法利用多路径来实现负载分担。此外,选择性重传也需要无序传输的支持。为了实现无序传输,需要接收方有更大的数据包缓冲区,从而将乱序的数据包组成一个完整的RDMA消息。

    UET支持四种传输方式:
    ▣ ROD (Reliable Ordered Delivery)
    – 需要拥塞控制、有序、可靠、无重传(依旧采用Go-Back-N)
    ▣ RUD (Reliable Unordered Delivery) 
    – 需要拥塞控制、无序、可靠、无重传
    ▣ RUDI (RUD for Idempotent Operations)
    – 可选拥塞控制、无序、可靠、重传
    ▣ UUD (Unreliable Unordered Delivery) 
    – 可选拥塞控制、无序、不可靠、重传

    包喷洒(Packet Spraying)

    包喷洒是一种基于包的多路径传输。由于传统传输协议不支持无序传输,同一个数据流必须按照同一个路径传输,否则就会造成乱序,引发重传。而在AI/HPC应用中,存在大量的“大象流”,它们数据量大、持续时间长,如果能使用多路径传输一个流,将显著提高整个网络的利用率。

    由于支持了RUD,UET就可以将同一个流的不同包分散到多个路径上同时传输,实现包喷洒功能。这让交换机可以充分发挥ECMP甚至WCMP(Weighted Cost Multi- Pathing)路由能力,将去往同一目的地的数据包通过多条路径发送,大幅度提高网络利用率。

    拥塞控制(Congestion Control)

    UET 拥塞控制包含以下重要特性,由端侧硬件和交换机配合完成,有效减小了尾部延迟。

    ▣  Incast管理。它用于解决集合通信(Collective)中下行链路上的扇入问题。AI和HPC应用经常采用集合通信在多个节点之间同步信息,当多个发送者同时向一个接收者发送流量,就会产生Incast拥塞

    ▣  速率调整加速。现有的拥塞控制算法,在发生网络拥塞后调整速率的过程较长,而 UET 可以快速上升到线速。方法是测量端到端延迟来调节发送速率,以及根据接收方的能力通知发送方调整速率。

    ▣  基于遥测。源自网络的拥塞信息可以通告拥塞的位置和原因,缩短拥塞信令路径并向终端节点提供更多信息,从而实现响应速度更快的拥塞控制。

    ▣  基于包喷洒的自适应路由当拥塞发生时,通过包喷洒技术将流量重新路由到其它路径上,绕过拥塞点。

    端到端的安全

    UEC在传输层内置安全。它是基于作业(Job)的,可以对整个作业的流量进行端到端的AES加密,充分利用 IPSec 和PSP(Packet Security Protocol)的能力,减小安全加密的开销,提供可扩展安全域,并且可以由硬件卸载。
     

    在网计算(In Network Collectives)

    在网计算最早应用在HPC集群,业界主要有两个思路,一是基于网卡的,二是基于交换机。

    UEC V1.0 的目标是后者,即将集合操作卸载到各级交换机上完成,避免过多的收发次数,降低节点交互频率和处理时延开销,减少约一半数据传输量,从而加速All-Reduce操作。

    在部署实现上,目前AI智算领域唯一大规模商用的案例仅有英伟达的SHARP(在ASIC层面实现的硬件加速),以太网设备厂家仍处在探索阶段,例如将算力内置于交换机或外接,甚至P4可编程都是可能的思路方向。

     

    软件层:Extended Libfabrics 2.0UEC 5

    硬件升级:支持UEC的交换机和网卡

    UEC在规范中定义了支持超级以太网交换机的架构,可以看到大体是继承了SONiC的架构。这部分的主要关注在于控制平面上支持INC和SDN控制器;数据平面升级了SAI(Switch Abstraction Interface)API调用硬件提供的INC等能力。

    UEC 6

    UEC同样定义了网络端点(Fabric End Point)的软硬件架构。在硬件层,网卡升级支持UEC功能。在操作系统内核态,实现网卡驱动。在用户态,基于libfabric扩展实现INC管理等功能,支持上层的xCCL/MPI/SHMEM等应用。

    UEC 7

    总的来说,UEC v1.0规范重构了数据中心以太网以完全替代传统的RDMA网络,用更高的性能、更低的成本实现稳定可靠、具有百万节点的AI/HPC集群。

     

    星融元RoCE交换机与UEC

    作为UEC成员单位,星融元提供的超低时延RoCE交换机(CX-N系列)全系采用高性能的标准白盒网络硬件,搭载为生产环境深度调优的企业级SONiC发行版——多项 Easy RoCE 特性,全面兼容现有规范并提供灵活、广大的升级空间,未来将平滑演进与新一代以太网标准保持同步。
    星融元产品

    对星融元产品感兴趣?

    立即联系!

    返回顶部

    © 星融元数据技术(苏州)有限公司 苏ICP备17070048号-2