V1和N2是Arm Neoverse平台家族的最新成员,主要面向7nm/5nm工艺设计,支持可伸缩矢量扩展(SVE),相较于Neoverse N1,这两款新平台的性能分别高出50%和40% 。在为大型互联网公司/云计算、高性能计算、5G以及边缘计算应用带来全新选择的同时,也彰显了Arm在从云到边缘的基础设施领域取得的突破性进展。

2018年10月,Arm首次宣布推出面向云到边缘基础设施产品Neoverse及其初步路线图,并承诺平台效能30%的年增长率指标将持续到2022年及以后。日前,Neoverse再度进阶,新增两个全新的平台—Neoverse V1平台以及第二代的N系列平台Neoverse N2。

图1:Arm Neoverse平台路线图

显著增长的竞争力

简单回顾一下Neoverse平台的演进历史。

最早的“Cosmos”平台基于16nm工艺,采用A72、A75核心,在当时公布的路线图中,Arm就提出了每年每代产品30%的性能提升目标。2019年初,N1和E1平台被公布,相比“Cosmos”,N1单线程性能提升了60%,超出预期一倍,云端负载性能提升2.5倍;E1吞吐量性能提升超过2.7倍,吞吐效率提升超2.4倍,计算性能提升超2倍。

图2: 2019年推出的N1平台相比“Cosmos”单线程性能提升了60%

根据Arm基础设施事业部高级副总裁兼总经理Chris Bergey给出的信息,Arm近两年在服务器市场取得了一系列的重要进展:

  • 在前7大互联网公司中,有4家企业公开宣布采用Arm技术,包括腾讯宣布TARS微服务开发框架已成功移植至Arm CPU架构;百度在其数据中心采用基于Arm架构的智能计算;亚马逊AWS云在自己的云服务器上进行基于Arm架构的自研项目开发等。
  • 在高性能计算HPC领域,以Arm技术架构为基础的“富岳(Fugaku)” 超级计算机名列TOP500排行榜第一;
  • 在整个5G生态系统厂商中,从L1到传输的整个堆栈及新兴OpenRAN和VRAN计划,Arm都获得了一系列重设计项目;
  • 在基础架构和边缘应用领域,Arm已推出uCPE转Arm以及Project Cassini计划,并将在两周后的Arm DevSummit大会上更新Project Cassini第一年的进展。

图3为N1公开的测试数据,Chris Bergey认为无论是在存储、移动还是计算数据领域,N1都表现出了优良的性能。

图3:N1性能测试数据

图4则将基于传统架构的机架与基于Arm Neoverse的机架进行了对比。可以看出,在同为标准42U机架和12.5KW功率条件下,Arm Neoverse平台提供了更高的整数吞吐量和单线程性能,使得云服务商得以在单个机架上托管更多客户,从而带来更高收入和更多计算周期。

图4:基于传统架构的机架与基于Arm Neoverse的机架对比

之所以能取得这样的成绩,Chris Bergey认为一方面与Arm工程团队的努力和投入密不可分,另一方面,也与Arm自身软件生态系统的逐渐成熟有很大关系,例如越来越多的云原生软件现在均可以无缝运行在Arm架构服务器上。

异构计算的推动力也不容小觑。除了很多异构计算的产品与方案均基于Arm架构外,在数据中心里,无论是存储还是数据加速,整体趋势是分布式的,对性能和功耗都提出了严苛的要求,因此无论是基于何种硬件架构(FPGA、GPU、TPU)的加速器,数据的移动是必不可少的。对Arm来说,如何提供紧耦合或是定制化的能力,甚至是通过多核封装或多芯片组装技术,将来自生态系统、IP技术与云厂商的需求与技术整合在一起,是很大的机遇。

开启终极性能之路

根据Neoverse平台PPA设计原则,N系列强调性能、功率、面积得到同等考量,擅长可扩展;E系列主要关注效率,对于网络流量和数据应用程序非常有效,在功耗和面积的缩减上进行优化;V系列旨在提供最佳性能,需要添加更大的缓存、窗口和队列,相对来说会消耗更多面积和功耗。如果客户更看重线程需求,N系列就比较合适,假若客户需要高性能计算工作负载,V系列就能提供更大的价值,这完全取决于客户在功耗、性能、面积上的需求与配置。

图5:Neoverse平台PPA设计原则

V1作为V系列的第一个平台,主要面向7nm和5nm工艺而设计。与N1相比,其单线程性能提升超过50%,支持256位宽度的向量,适用于高性能计算、高性能云和机器学习处理等对CPU性能与带宽有更高要求的应用。值得一提的是,V1是Arm第一个支持可伸缩矢量扩展(Scalable Vector Extensions,SVE)的处理器平台。SVE可基于未知宽度向量单元的软件编程模型执行单指令流多数据流(SIMD)整数、bfloat16、浮点指令,从而确保软件编码的可移植性与使用寿命,并兼顾高效的执行。

图6:Neoverse V1性能详述

Chris Bergey表示对开发者而言,SVE架构的好处在于能够帮助他们在寄存器宽度之间无缝转换,也就是说,开发者们既可以合并新的宽向量SVE指令,也可以重新使用为较小的寄存器编写的辅助函数。“富士通A64FX CPU就是一个很好的例子,在执行SVE代码时,他们可以完全控制SVE电压和频率转换,确保其可以全天全频率运行。”他说。

N2被定位为可提供更高性能计算的解决方案,用来满足横向扩展的性能需求,其用例可横跨云、智能网卡(SmartNICs)、企业网络到功耗受限的边缘设备。N2面向5nm工艺而设计,支持PCIe 5.0和DDR5,通过支持用于高带宽存储器的HBM3以及用于结构的CCIX 2.0和CXL 2.0来进一步扩展。此外,相比于N1,N2在保持相同水平的功率和面积效率之余,单线程性能提升了40%。

图7:Neoverse N2性能详述

下图中,X轴代表芯片级性能,Y轴代表每线程性能。可以看出,在128核/128线程下,N1在芯片级吞吐量和单线程性能方面都达到领先,N2性能更强,代表着最高单芯片性能;V1在96核96线程下拥有最高单线程性能,意味着可以在核心数更少的情况下发挥更好的性能。

图8:Neoverse N1/N2/V1芯片级性能/单线程性能

软件,“装机即用”

除了处理器内核,Arm还为合作伙伴提供可扩展性的交换网,用以支持大量的处理器核。同时,针对加速器的缓存一致性互联(CCIX)与开放互联技术(CXL)的投资则可以确保其生态系统得以快速且高效地推出相关的技术。

图9:V1/N2均支持CCIX/CXL标准

软件生态方面,Arm通常将软件分为两种类型:一是云原生软件,二是传统企业级软件。Chris Bergey说云原生软件是Arm一直以来相当重视的领域,拥有最大的持续集成/持续交付(CI/CD)平台,并在大多数编程语言的生态环境中扮演着核心角色。而Project Cassini项目的推出,也是因为看到云原生技术在边缘计算和5G领域变得越来越重要,Arm希望能够为软件开发者提供流畅的体验,通过标准、平台安全性与参考实施,让行业伙伴对在Arm平台上部署“装机即用”的软件充满信心。

图10:构建软件生态

而在传统企业软件领域,“软件即服务”(SaaS)正成为显著趋势。由于在Arm架构之上能够创造非常有利的软件即服务产品,因此很多独立软件开发商(ISV)开始对Arm表现出浓厚的兴趣,在中国市场尤其显著。目前,包括Xen、KVM、Docker容器以及越来越多的Kubernetes在内的基础软件都已经陆续宣布支持Arm架构,许多初期由Arm推动的开源项目正在变得自主运转。

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
三星上代 1b nm 内存于 2022 年 10 月完成开发、2023 年 5 月量产,若按新计划,1c DRAM 开发结束时间定于 2025 年中,量产则可能延后到 2025 年底……
“我不是说摩尔定律已死,因为它并没有”,西门子 EDA 首席执行官 Mike Ellow说道。“但有趣的是,我们将从这些大型单片SOC及它们的可制造性转向更具有特殊功能的离散硅片。”
CMA机构已暂时接受了芯片设计软件制造商新思科技为解决其拟议的350亿美元收购Ansys交易可能引发的竞争问题而提出的补救措施。作为条件性批准的一部分,新思科技承诺将剥离Ansys的PowerArtist业务以及出售自身的光学解决方案集团,以回应CMA对合并后实体可能减少市场竞争的担忧。这一进展标志着此笔EDA领域“世纪大收购”迈向完成的重要一步,预计整个过程将在2025年上半年内完成......
IP供应商、芯片设计服务提供商和AI专家在以AI为中心的设计价值链中的地位正变得更加突出。本文给出了四个设计用例,强调了服务于AI应用的芯片设计模型的重新调整。
频率梳是一种能够发射多条等间隔频谱线的特殊激光源,广泛应用于光学钟、激光雷达、光谱学和光神经网络等高精度测量领域……
通过收购宏晶微电子,康佳集团将能够进一步拓展其在半导体领域的业务版图,提升公司在芯片设计、开发、生产和销售等方面的实力。
对于未来行业发展的增长趋势、行业特征和渠道特点等方面,IDC 总结并给出了2025年中国PC 显示器市场十大洞察……
该存内计算芯片采用全数字设计,能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效,团队提出了一种……
西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商,该报告针对制造业的MES软件厂商进行了综合性评估。
Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范,进一步推动芯粒技术的标准化,并减少行业的碎片化。
美通社消息,根据Omdia最新的消费者调查,TikTok和YouTube已成为美国18-35岁人群的领先视频平台。这些平台的发展速度已经超过了Instagram、Facebook和Netflix,巩固
本应用手册可用于指导将 TPS65219 电源管理集成电路 (PMIC) 集成到为 Xilinx® Zynq® UltraScale+® 系列 MPSoC 供电的系统中。本文档概述了 PMIC 的优势
2022年下半年以来,需求下降,芯片价格跳水,芯片行情趋向寒冷,拼价格、拼服务、拼账期成为常态,持续的低迷之下,芯片人都开始靠省钱过日子。同时,我们发现,行情冷淡的时候,订货、配单、PPV(Purch
据央视新闻报道,北京汽车集团有限公司党委书记、董事长张建勇 1 月 23 日介绍,2024 年中国新能源汽车产销量超过了 1000 万辆,连续 10 年保持了全球第一的位置。在自动驾驶方面,北汽集团今
计算存储的通用概念已走入死胡同,但利用固态硬盘(SSD)上巨大的板载带宽的针对性加速器可能有益于高性能计算。几年前,计算存储的概念在业内人士之间引起了讨论。它被吹捧为如何解决如何最大化CPU处理能力的
据晚点 Auto消息,近日,比亚迪汽车新技术研究院院长、比亚迪智驾总负责人杨冬生在技术院内部,谈了他对于技术研发、管理、制度等话题的看法,并提出了新的工作要求或者方向。他表示:“一个产品的先进和成功是
本视频演示,如何将仿真器连接到使用安全ID锁定的RL78设备。  00:00:介绍 00:25:调试  00:40:设定安全ID  相关资源: • Visual Studio Code - 如何在安装
近日,赛力斯发布2024 年年度业绩预盈公告,预计 2024 年度实现营业收入1442亿元到1467亿元,同比增长302.32%到309.30%;归属于上市公司股东的净利润预计将达到55亿元至60亿元
据外媒SAMMY FANS报道,三星电子计划在2025年推出四款创新的折叠屏手机,进一步拓展其折叠屏产品系列,包括首款三折叠机型。           据悉,三星将继续更新其Flip和Fold两大折叠
我是芯片超人花姐,入行20年,有40W+芯片行业粉丝。有很多不方便公开发公众号的,关于芯片买卖、关于资源链接等,我会分享在朋友圈。扫码加我本人微信👇TI(德州仪器)于1月23日(当地时间)公布了 20