Arm服务器CPU性能再度翻番！软件生态成熟记头功-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

V1和N2是Arm Neoverse平台家族的最新成员，主要面向7nm/5nm工艺设计，支持可伸缩矢量扩展(SVE)，相较于Neoverse N1，这两款新平台的性能分别高出50%和40% 。在为大型互联网公司/云计算、高性能计算、5G以及边缘计算应用带来全新选择的同时，也彰显了Arm在从云到边缘的基础设施领域取得的突破性进展。

2018年10月，Arm首次宣布推出面向云到边缘基础设施产品Neoverse及其初步路线图，并承诺平台效能30%的年增长率指标将持续到2022年及以后。日前，Neoverse再度进阶，新增两个全新的平台—Neoverse V1平台以及第二代的N系列平台Neoverse N2。

图1:Arm Neoverse平台路线图

显著增长的竞争力

简单回顾一下Neoverse平台的演进历史。

最早的“Cosmos”平台基于16nm工艺，采用A72、A75核心，在当时公布的路线图中，Arm就提出了每年每代产品30%的性能提升目标。2019年初，N1和E1平台被公布，相比“Cosmos”，N1单线程性能提升了60%，超出预期一倍，云端负载性能提升2.5倍；E1吞吐量性能提升超过2.7倍，吞吐效率提升超2.4倍，计算性能提升超2倍。

图2: 2019年推出的N1平台相比“Cosmos”单线程性能提升了60%

根据Arm基础设施事业部高级副总裁兼总经理Chris Bergey给出的信息，Arm近两年在服务器市场取得了一系列的重要进展：

在前7大互联网公司中，有4家企业公开宣布采用Arm技术，包括腾讯宣布TARS微服务开发框架已成功移植至Arm CPU架构；百度在其数据中心采用基于Arm架构的智能计算；亚马逊AWS云在自己的云服务器上进行基于Arm架构的自研项目开发等。

在高性能计算HPC领域，以Arm技术架构为基础的“富岳(Fugaku)” 超级计算机名列TOP500排行榜第一；

在整个5G生态系统厂商中，从L1到传输的整个堆栈及新兴OpenRAN和VRAN计划，Arm都获得了一系列重设计项目；

在基础架构和边缘应用领域，Arm已推出uCPE转Arm以及Project Cassini计划，并将在两周后的Arm DevSummit大会上更新Project Cassini第一年的进展。

图3为N1公开的测试数据，Chris Bergey认为无论是在存储、移动还是计算数据领域，N1都表现出了优良的性能。

图3：N1性能测试数据

图4则将基于传统架构的机架与基于Arm Neoverse的机架进行了对比。可以看出，在同为标准42U机架和12.5KW功率条件下，Arm Neoverse平台提供了更高的整数吞吐量和单线程性能，使得云服务商得以在单个机架上托管更多客户，从而带来更高收入和更多计算周期。

图4：基于传统架构的机架与基于Arm Neoverse的机架对比

之所以能取得这样的成绩，Chris Bergey认为一方面与Arm工程团队的努力和投入密不可分，另一方面，也与Arm自身软件生态系统的逐渐成熟有很大关系，例如越来越多的云原生软件现在均可以无缝运行在Arm架构服务器上。

异构计算的推动力也不容小觑。除了很多异构计算的产品与方案均基于Arm架构外，在数据中心里，无论是存储还是数据加速，整体趋势是分布式的，对性能和功耗都提出了严苛的要求，因此无论是基于何种硬件架构(FPGA、GPU、TPU)的加速器，数据的移动是必不可少的。对Arm来说，如何提供紧耦合或是定制化的能力，甚至是通过多核封装或多芯片组装技术，将来自生态系统、IP技术与云厂商的需求与技术整合在一起，是很大的机遇。

开启终极性能之路

根据Neoverse平台PPA设计原则，N系列强调性能、功率、面积得到同等考量，擅长可扩展；E系列主要关注效率，对于网络流量和数据应用程序非常有效，在功耗和面积的缩减上进行优化；V系列旨在提供最佳性能，需要添加更大的缓存、窗口和队列，相对来说会消耗更多面积和功耗。如果客户更看重线程需求，N系列就比较合适，假若客户需要高性能计算工作负载，V系列就能提供更大的价值，这完全取决于客户在功耗、性能、面积上的需求与配置。

图5：Neoverse平台PPA设计原则

V1作为V系列的第一个平台，主要面向7nm和5nm工艺而设计。与N1相比，其单线程性能提升超过50%，支持256位宽度的向量，适用于高性能计算、高性能云和机器学习处理等对CPU性能与带宽有更高要求的应用。值得一提的是，V1是Arm第一个支持可伸缩矢量扩展(Scalable Vector Extensions,SVE)的处理器平台。SVE可基于未知宽度向量单元的软件编程模型执行单指令流多数据流(SIMD)整数、bfloat16、浮点指令，从而确保软件编码的可移植性与使用寿命，并兼顾高效的执行。

图6：Neoverse V1性能详述

Chris Bergey表示对开发者而言，SVE架构的好处在于能够帮助他们在寄存器宽度之间无缝转换，也就是说，开发者们既可以合并新的宽向量SVE指令，也可以重新使用为较小的寄存器编写的辅助函数。“富士通A64FX CPU就是一个很好的例子，在执行SVE代码时，他们可以完全控制SVE电压和频率转换，确保其可以全天全频率运行。”他说。

N2被定位为可提供更高性能计算的解决方案，用来满足横向扩展的性能需求，其用例可横跨云、智能网卡(SmartNICs）、企业网络到功耗受限的边缘设备。N2面向5nm工艺而设计，支持PCIe 5.0和DDR5，通过支持用于高带宽存储器的HBM3以及用于结构的CCIX 2.0和CXL 2.0来进一步扩展。此外，相比于N1，N2在保持相同水平的功率和面积效率之余，单线程性能提升了40%。

图7：Neoverse N2性能详述

下图中，X轴代表芯片级性能，Y轴代表每线程性能。可以看出，在128核/128线程下，N1在芯片级吞吐量和单线程性能方面都达到领先，N2性能更强，代表着最高单芯片性能；V1在96核96线程下拥有最高单线程性能，意味着可以在核心数更少的情况下发挥更好的性能。

图8：Neoverse N1/N2/V1芯片级性能/单线程性能

软件，“装机即用”

除了处理器内核，Arm还为合作伙伴提供可扩展性的交换网，用以支持大量的处理器核。同时，针对加速器的缓存一致性互联(CCIX)与开放互联技术(CXL)的投资则可以确保其生态系统得以快速且高效地推出相关的技术。

图9：V1/N2均支持CCIX/CXL标准

软件生态方面，Arm通常将软件分为两种类型：一是云原生软件，二是传统企业级软件。Chris Bergey说云原生软件是Arm一直以来相当重视的领域，拥有最大的持续集成/持续交付(CI/CD)平台，并在大多数编程语言的生态环境中扮演着核心角色。而Project Cassini项目的推出，也是因为看到云原生技术在边缘计算和5G领域变得越来越重要，Arm希望能够为软件开发者提供流畅的体验,通过标准、平台安全性与参考实施，让行业伙伴对在Arm平台上部署“装机即用”的软件充满信心。

图10：构建软件生态

而在传统企业软件领域，“软件即服务”(SaaS)正成为显著趋势。由于在Arm架构之上能够创造非常有利的软件即服务产品，因此很多独立软件开发商(ISV)开始对Arm表现出浓厚的兴趣，在中国市场尤其显著。目前，包括Xen、KVM、Docker容器以及越来越多的Kubernetes在内的基础软件都已经陆续宣布支持Arm架构，许多初期由Arm推动的开源项目正在变得自主运转。

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

EDA/IP/IC设计处理器/DSP 数据中心/服务器

您可能感兴趣

三星DRAM工艺面临挑战：1c nm开发延迟，1b nm重新设计

三星上代 1b nm 内存于 2022 年 10 月完成开发、2023 年 5 月量产，若按新计划，1c DRAM 开发结束时间定于 2025 年中，量产则可能延后到 2025 年底……

CES 2025：对话西门子 EDA 首席执行官 Mike Ellow

“我不是说摩尔定律已死，因为它并没有”，西门子 EDA 首席执行官 Mike Ellow说道。“但有趣的是，我们将从这些大型单片SOC及它们的可制造性转向更具有特殊功能的离散硅片。”

英国CMA暂时接受补救措施，新思科技350亿美元收购Ansys有望推进

CMA机构已暂时接受了芯片设计软件制造商新思科技为解决其拟议的350亿美元收购Ansys交易可能引发的竞争问题而提出的补救措施。作为条件性批准的一部分，新思科技承诺将剥离Ansys的PowerArtist业务以及出售自身的光学解决方案集团，以回应CMA对合并后实体可能减少市场竞争的担忧。这一进展标志着此笔EDA领域“世纪大收购”迈向完成的重要一步，预计整个过程将在2025年上半年内完成......

四大合作揭秘新兴AI芯片设计模型

IP供应商、芯片设计服务提供商和AI专家在以AI为中心的设计价值链中的地位正变得更加突出。本文给出了四个设计用例，强调了服务于AI应用的芯片设计模型的重新调整。

2024南京十大科技成果发布，南京大学超导量子芯片相关技术入选

频率梳是一种能够发射多条等间隔频谱线的特殊激光源，广泛应用于光学钟、激光雷达、光谱学和光神经网络等高精度测量领域……

康佳筹划收购宏晶微电子，聚焦半导体领域发展

通过收购宏晶微电子，康佳集团将能够进一步拓展其在半导体领域的业务版图，提升公司在芯片设计、开发、生产和销售等方面的实力。

2025年中国PC显示器市场十大洞察

对于未来行业发展的增长趋势、行业特征和渠道特点等方面，IDC 总结并给出了2025年中国PC 显示器市场十大洞察……

中科院微电子所在SRAM存内计算领域取得新进展

该存内计算芯片采用全数字设计，能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效，团队提出了一种……

西门子获评IDC MarketScape制造执行系统领导厂商

西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商，该报告针对制造业的MES软件厂商进行了综合性评估。

Arm发布芯粒系统架构首个公开规范，加速芯片技术演进

Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范，进一步推动芯粒技术的标准化，并减少行业的碎片化。

TikTok和YouTube已成为美国18-35岁人群的主要视频平台

美通社消息，根据Omdia最新的消费者调查，TikTok和YouTube已成为美国18-35岁人群的领先视频平台。这些平台的发展速度已经超过了Instagram、Facebook和Netflix，巩固

使用TPS65219PMIC为Xilinx®Zynq®UltraScale+®MPSoC供电

本应用手册可用于指导将 TPS65219 电源管理集成电路 (PMIC) 集成到为 Xilinx® Zynq® UltraScale+® 系列 MPSoC 供电的系统中。本文档概述了 PMIC 的优势

Microchip、ADI、TI...有订货需求找老王！

2022年下半年以来，需求下降，芯片价格跳水，芯片行情趋向寒冷，拼价格、拼服务、拼账期成为常态，持续的低迷之下，芯片人都开始靠省钱过日子。同时，我们发现，行情冷淡的时候，订货、配单、PPV（Purch

北汽集团：今年陆续在所有车型上布局自动驾驶技术

据央视新闻报道，北京汽车集团有限公司党委书记、董事长张建勇 1 月 23 日介绍，2024 年中国新能源汽车产销量超过了 1000 万辆，连续 10 年保持了全球第一的位置。在自动驾驶方面，北汽集团今

重新思考计算存储：释放固态硬盘（SSD）的处理潜力

计算存储的通用概念已走入死胡同，但利用固态硬盘（SSD）上巨大的板载带宽的针对性加速器可能有益于高性能计算。几年前，计算存储的概念在业内人士之间引起了讨论。它被吹捧为如何解决如何最大化CPU处理能力的

比亚迪智驾总负责人杨冬生内部讲话曝光

据晚点 Auto消息，近日，比亚迪汽车新技术研究院院长、比亚迪智驾总负责人杨冬生在技术院内部，谈了他对于技术研发、管理、制度等话题的看法，并提出了新的工作要求或者方向。他表示：“一个产品的先进和成功是

视频教程|VisualStudioCode小技巧：如何将仿真器连接到使用安全ID锁定的RL78设备

本视频演示，如何将仿真器连接到使用安全ID锁定的RL78设备。 00:00：介绍 00:25：调试 00:40：设定安全ID 相关资源： • Visual Studio Code - 如何在安装

赛力斯扭亏为盈，造车新势力分化加剧

近日，赛力斯发布2024 年年度业绩预盈公告，预计 2024 年度实现营业收入1442亿元到1467亿元，同比增长302.32%到309.30%；归属于上市公司股东的净利润预计将达到55亿元至60亿元

三星2025年折叠屏手机阵容曝光，首款三折叠机型即将亮相

据外媒SAMMY FANS报道，三星电子计划在2025年推出四款创新的折叠屏手机，进一步拓展其折叠屏产品系列，包括首款三折叠机型。据悉，三星将继续更新其Flip和Fold两大折叠

TI发布最新财报：营收连续第九个季度下滑

我是芯片超人花姐，入行20年，有40W+芯片行业粉丝。有很多不方便公开发公众号的，关于芯片买卖、关于资源链接等，我会分享在朋友圈。扫码加我本人微信👇TI（德州仪器）于1月23日（当地时间）公布了 20

Arm服务器CPU性能再度翻番！软件生态成熟记头功

显著增长的竞争力

开启终极性能之路

软件，“装机即用”

杂志声明