虽然去年到今年是Arm在各行各业大获全胜的两年,数据中心也频繁出现Arm的身影,但英伟达在数据中心的分量,几乎将Arm推到了最前线,多少有点儿很快就能把根植于该市场的x86拉下马的意思。前不久的GTC 2021之上,老黄宣布英伟达很快将推出应用于HPC AI的中央处理器Grace——基于Arm架构……

前不久的GTC 2021之上,老黄宣布英伟达很快将推出应用于HPC AI的中央处理器Grace——基于Arm架构。这在数据中心/服务器/基础设施行业是个大新闻。

虽然去年到今年是Arm在各行各业大获全胜的两年,数据中心也频繁出现Arm的身影——比如亚马逊自研的Graviton2处理器基于Arm,富士通面向HPC的A64FX处理器基于Arm——这些在《Arm的十年PC征程,和微软的“暧昧”》一文中就有所提及。

但英伟达在数据中心的分量,几乎将Arm推到了最前线,多少有点儿很快就能把根植于该市场的x86拉下马的意思。有关英伟达的Grace,很快我们会发表另一篇文章做单独评论,即便个人认为Grace着力的市场具有相当强的针对性。本文尝试呈现,抛开Grace不谈,Arm如今在服务器市场,究竟已经发展到了何种程度。

Arm第一次认真对待服务器市场

Arm一直以来就有突破移动与嵌入式市场的野心,只不过就像Arm在PC之上的10年征程那样,这个过程是需要不断试错的。英伟达探索高性能CPU/SoC也不是今天才开始的,在10多年前英伟达就曾宣布过一个叫做Project Denver的项目,旨在与Arm合作面向HPC(高性能计算)市场推CPU产品。

不止是英伟达,高通也曾推出基于Arm架构的Centriq处理器,面向企业和服务器市场;Cavium的ThunderX此前也算是知名的Arm服务器芯片;还有博通的Vulcan,AMD的Opteron A1100......虽然它们中的大部分都失败了。感觉从这些项目初期展示的PPT来看,Intel早就应该缩在墙角颤抖了。但事实上,Arm在这一领域始终没能真正走入主流视野(虽然Arm一直宣称自己是“基础设施(infrastructure)”设备中市场份额最高的,包含路由器、交换机、基站、服务器等)。

到近代鲲鹏920这类服务器芯片面世,以及如今相当活跃的Ampere Computing也在推基于Arm的服务器处理器,Arm才真正在这一领域逐渐像样起来。今年的GTC主题演讲上,黄仁勋也宣布,英伟达的GPU开始和Ampere Computing、亚马逊、联发科等合作伙伴的CPU/SoC搭配,从云到边缘到消费终端。虽然在接受采访时,黄仁勋说Grace并不会多大程度影响到现有客户,但这明摆着就有拆AMD/Intel墙角的意思。

Arm在服务器、基础设施,或者说数据中心产品的试错历史就不多做回顾了。事实上,Arm过去虽然也一直有试探服务器市场的意思,但他们始终都没有面向这些数据中心的基础设施,推过专门的IP——Arm在该市场的IP,基本与面向消费市场的IP共享。

这一点其实是无可厚非的,大部分芯片制造商的同代核心IP,面向不同市场都会做较大程度的共享。但这也表现出Arm此前针对基础设施设备并没有明晰、像样的市场规划,这对生态构建本来就是不利的。

转机出现在2018年,这一年10月份的TechCon上,Arm正式宣布推出Neoverse系列IP,面向服务器市场,从云到边缘。与此同时还公开了未来3年的产品路线图,如上图所示。Arm Neoverse可以理解为服务器版的Arm Cortex。

这张图列出了一年一迭代的Neoverse版本,比如2019年代号为Ares的处理器核心IP,也就是Neoverse N1。Arm最早的时候宣布,未来每年迭代都将实现30%的性能提升——听起来比旁边的Cortex系列平均增速要快些,也比竞争对手更快。后来的发布会上,Arm又宣布N1性能提升,实际相比2018年的Cosmos高出了60%(不过Cosmos据说并不指代一个专门的架构),是原目标的2倍提升——基于SPEC2017整形测试(SPECspeed2017_int_base)。到今年发布的N2,提升速度似乎又超预期了,后文还将探讨更具体的微架构变化。

2019年2月份,Arm正式宣布推出Neoverse N1与E1平台——这应该是Arm对服务器市场改朝换代的开始。

当然光换个名字肯定是没用的,此前多篇探讨Arm发展史的文章中,我们都谈到了近代Arm的核心IP,在保持低功耗特性的前提下,在高性能方面也有了突破。即便一般的芯片制造商无法做到苹果M1那种程度,高通骁龙8cx也已经有了应用于PC的可行性。起码如今这个时代,和10年前英伟达Project Denver时代(Cortex-A15时代)还是有根本差别的。

2018年这一年,Arm向市场推出Cortex A76核心IP,这应该是众所周知的了——高通面向PC所推的骁龙8cx就应用了Cortex A76微架构。次年问世的Neoverse N1实际上就属于Cortex A76微架构的变体,或者说基于Cortex A76。

Austin家族微架构(选读)

这两者都来自Arm奥斯汀设计中心,都属于Austin家族微架构,基于ARMv8指令集。事实上Cortex与Neoverse后续更新版本,包括Cortex A78、Neoverse V1应当都属于Austin家族,今年预计要推向市场的新一代Neoverse Poseidon才会采用全新的微架构。

Neoverse V1和Cortex A76一样都采用4-wide取指/解码,11级管线深度,可在需要时缩减至9级。前端、后端的区别都不大。

两者区别比较大的部分主要在存储、连接方面——作为服务器处理器,这也是必然的。L1-I cache做到硬件级别的完全一致性(coherency),这属于面向虚拟环境性能的改进。L2新增1MB可选大小(A76是512KB),针对存储敏感型应用。

存储层级结构发生了比较大的变化。N1 CPU是连接到mesh网络之上的,即CMN-600(CMN-600是Arm最早于2016年发布的SoC互联IP,全称叫coherent mesh network;如上图所示,连接中间经过了CAL以及mesh网络的XP交叉点;每个CAL层至多连接2个N1——即两核为一簇)。在Arm的参考设计中,后续再连接到系统级缓存——SLC(system level cache)slice,每簇2MB,参考设计64核N1总共64MB SLC。

 

这张图来自Wikichip,结构描绘上更为清晰

N1去掉了L3和DSU(DynamIQ Shared Unit)的监听过滤(snoop-filter)逻辑,CPU核心直接连接到CMN的CHI接口。这样一来内存控制器和CPU核心之间的通讯,只需要经过mesh网络。这好像也属于服务器CPU的标配。

7nm工艺也是与上述设计内容配套的,核心面积整体上还是很小。另外,Neoverse N1一个比较大的变化是最高频率往上提了,发布时是说达到3.1GHz,电压也需相应提高,提供更高的单线程性能——频率提高19%,实际上需要44%的功耗为代价,这也很能表现Arm在频率与功耗的关系上,并没有什么魔法。亚马逊Graviton2就是基于Neoverse N1的芯片,CPU核心频率只选择了2.5GHz。

基于消费级产品提升频率,和Intel、AMD这种传统服务器CPU供应商的思路就不同了:x86市场的这两名玩家,其服务器CPU微架构也与消费CPU共享,但服务器CPU却是拉低核心频率的。这与双方在消费市场的定位还是有很大关系的。

不过即便是这样,功耗还是有优势,Arm此前宣称64核的N1参考设计总功耗大约为105W;Arm公开其64核参考设计SPECint_rate2006吞吐测试得分1310分,整数延迟得分(SPECint2006)37分,还是能够表现Arm能效方面的优势的。

对于networking和存储服务器,Arm推荐8-32核N1设计,TDP 25-65W;类似5G基站边缘端侧设备,16-64核目标设计,TDP 35-105W;对于超大规模数据中心而言,N1目标设计64-128核,TDP >150W。

Arm的Neoverse N1平台参考设计64核心,外加前面提到的CMN-600 mesh网络和64MB SLC缓存。台积电7nm工艺制造64核N1参考设计的die size已经快要接近400mm²了,Arm也因此推荐chiplet那样的设计,chiplet die之间通过CCIX互联来通讯。

另外Neoverse N1平台设计中,可集成SmartNIC——加速网络连接还是如今实现数据中心高吞吐的重要因素(看看英伟达现在都在宣传些啥)。CMN-600可连一些固定功能加速IP。通过CCIX连接第三方IP,可实现存储一致性。更多特性不再列举,属于服务器RAS、安全等相关的。 

Arm服务器CPU效率现在怎么样?

早前的Arm服务器处理器IP核心不够主流,很大程度上在于性能和效率都不怎么样。硬件层面的性能和功耗表现,是争夺这块市场的基本要求。

能了解服务器CPU性能的渠道不多,像亚马逊Graviton2这种芯片都还是亚马逊自用的。不过随Arm这两年在服务器市场的活跃,像AnandTech这样的外媒也开始把性能测试触及到了服务器、基础设施处理器产品之上。

事实上,2018年Cavium的ThunderX2被AnandTech认为是这一领域,Arm平台首次可与Intel、AMD相提并论的处理器产品。此后亚马逊Graviton处理器的出现也表明,Arm处理器是可以成为服务器领域的主流的。

除了亚马逊Graviton2,在Neoverse N1实施方案中,比较具有代表性的应该是Ampere Computing最新的 Altra产品线。去年的Altra Q80-33就是用来对标Intel、AMD在服务器市场的高端产品的。

Altra Q80-33主频最高3.3GHz,80核心;CMN-600 mesh互联,每核心L2选配1MB,以及32MB SLC——每核心分配到的SLC可能少了点。I/O以及更高的系统层面就不做介绍了,Ampere打造的Mount Jade,2-socket 2U机架服务器,有兴趣的可以去查一查外围的配置。

值得一提的是,这颗处理器的TDP标250W,实际上它并不是指常规负载的平均功耗,而是峰值状态下的平均功耗。其实际功耗大部分情况下低于250W,AnandTech认为按照Intel、AMD的标法,Altra Q80-33的TDP应该在200W左右。

与之对应,Intel前不久刚刚发布的Ice Lake-SP至强处理器,高配型号的TDP 270W(最高配8380为40核心,十代酷睿的Sunny Cove架构);AMD上个月推代号Milan的EPYC处理器,TDP 280W(最高配64核心,Zen 3架构)。如果光从高配版处理器的售价来看,Ampere Altra的性价比还是高出了一大截的。

 

AnandTech最近刚刚测试了Ice Lake-SP,参测的还包括AMD Milan、Ampere Altra,以及亚马逊Graviton2。测试项分成多线程性能(SPECint2017/SPECfp2017 Base Rate-N)、单线程性能(SPEC2017 Rate-1)、每核心性能(针对per core licensing)、JAVA性能(SPECjbb MultiJVM)、LLVM编译、NAMD性能。有兴趣的可前往了解,这里就不列出具体的成绩了(因为篇幅原因,上图只列出了整数多线程性能/单线程性能)。

单看x86平台,自从AMD Zen 2问世以来,Intel至强处理器在性能上表现出了全方位的乏力。上一代AMD EPYC和Intel至强,在性能上拉开了比较大的差距。这一代Intel稍稍赶上了一些,但在旗舰产品上,整体仍然存在差距。Intel现在愈发强调系统性能,从自身包括存储、软件优化等方面的优势,弥补CPU本身的弱势,所以AnandTech的测试可能仍然是比较片面的。而且今年下半年规划中的Sapphire Rapids会很快上线。这是题外话了。

基于Arm Neoverse N1的Ampere Altra是能够和AMD上一代Rome架构64核的EPYC打得有来有回的。Neoverse在每核性能上还是与x86平台有差距;此外Altra在存储敏感型测试中的表现并不怎么样,与其cache配置相关(以及可能与mesh互联有关);另外Ampere在整体系统方案上,双socket扩展还是不能和Intel/AMD比。不过偏算力的负载场景下,Altra更多的核心则有优势;能效方面,如前所述相比x86平台有功耗方面的显著优势。 

特别值得一提的是,Arm平台的服务器处理器还存在价格上的显著优势。与此同时,Ampere今年还计划推一款Altra-Max,采用128个Neoverse-N1核心,属于Arm设计目标顶配。

虽说以Ampere Altra为代表的Arm处理器仍在性能表现的某些方面不及x86(主要是AMD),但已经真正意义上对x86的服务器市场构成相当严肃的威胁了。

需要指出的是,加强生态构建是Arm的当务之急,不管是与软硬件合作伙伴加强合作,还是制定规范。在前两年发布Neoverse之时,Arm还发布了ServerReady合规认证计划,帮助用户做Arm服务器系统的安全、合规部署。

Neoverse N2与V1的发布

GTC大会上,英伟达表示Grace CPU会采用新一代的Neoverse架构,但没说具体是什么架构。按照计划表,去年9月份,Arm发布了新一代的Neoverse架构。除了N1迭代N2,这次新加了一个V系列:代号Zeus的Neoverse V1。

Neoverse V1是基于Cortex X1的性能向微架构。和Cortex X1一样,在PPA三者的指针上,Neoverse V1也更偏向性能,部分牺牲了功耗和面积。所以其设计方向和N系列是存在差别的。因此V1有着更大的cache、核心结构。Arm的数据提到,V1相比N1有着50%的IPC提升,在这个时代下还是相当巨量的,实际产品提频过后要在每核性能上击败x86应该已经不是问题了。

另外V1会成为首个支持SVE(ScalableVectorExtension)的Arm核心。此前富士通的A64FX已经率先做出这方面的支持,V1的SIMD单元宽度是A64FX的一半。除此之外,V1也引入了Bfloat16格式支持。

而N1迭代款的N2则持续专注于PPA均衡发展,与Neoverse N2对应的Cortex家族微架构还未发布,N2代号为Perseus。据说去年年底Arm就开始做N2架构的授权了。N2的目标设计最高核心数已经达到了192个,且TDP增至350W。这应该是也是堆料的突破,英伟达的Grace CPU是极有可能应用N2这个方案的。

AnandTech猜测,Neoverse N2可能会应用ARMv9指令集+SVE2支持。另外,原本规划中今年要推出的代号为Poseidon的5nm芯片预计会延后至明年。如今Neoverse的规划已经在有序推进了。即便没有英伟达,Arm玩转数据中心市场似乎也是早有预谋的,而英伟达显然会成为这一行动的助推器。

责编:Luffy Liu

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
近年来,AWS还积极投资于人工智能(AI)、机器学习(ML)、大数据分析和边缘计算等前沿技术,以保持其在这些领域的竞争优势。
谷歌认为,这种独家协议可能会限制市场竞争,导致其他公司无法自由地使用OpenAI的技术,从而增加了用户面临额外成本的风险,比如数据迁移和员工培训等。
据悉,此次交易是通过马斯克亲自与英伟达CEO黄仁勋进行沟通促成的。这批GB200 AI芯片将被用于强化其旗舰级超级计算集群——Colossus(巨人)。Colossus作为xAI的技术基石,将借此机会实现计算能力的飞跃。
短期全球芯片市场数据的上调反映了 2024 年第 2 季度和第 3 季度业绩的改善,尤其是在计算领域,受AI 芯片支持的需求推动。
常情况下,英特尔的CEO在65岁时退休,而现年63岁的基辛格突然被退休,让市场感到意外。为了确保平稳过渡,英特尔董事会立即着手寻找新的CEO人选……
自1984年,意法半导体首次进入中国,成为首批在中国开展业务的半导体公司。意法半导体CEO Jean-Marc Chery日前表示,中国市场是不可或缺的,是电动汽车规模最大、最具创新性的市场,与中国本地的制造工厂达成合作,具有至关重要的作用。他还表示,意法半导体正在采用在中国市场学到的最佳实践和技术,并将其应用于西方市场,“传教士的故事结束了”。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
来源:苏州工业园区12月17日,江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来,专注于半导体掩膜版的研发与生产,掌握130nm至28n
来源:观察者网12月18日消息,自12月2日美国发布新一轮对华芯片出口禁令以来,不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称,根据知情人士以及该报查阅
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
阿里资产显示,随着深圳柔宇显示技术有限公司(下称:“柔宇显示”)旗下资产一拍以流拍告终,二拍将于12月24日开拍,起拍价为9.8亿元。拍卖标的包括位于深圳市龙岗区的12套不动产和一批设备类资产,其中不
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
在科技浪潮翻涌的硅谷,马克·扎克伯格不仅是“脸书”帝国的掌舵人,更是以其谦逊低调的形象,在公众心中树立了独特的领袖风范。然而,在镁光灯难以触及的私人领域,扎克伯格与39岁华裔妻子普莉希拉·陈的爱情故事
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益
极越汽车闪崩,留下一地鸡毛,苦的是供应商和车主。很多人都在关心,下一个倒下的新能源汽车品牌,会是谁?我们都没有未卜先知的超能力,但可以借助数据管中窥豹。近日,有媒体统计了15家造车新势力的销量、盈亏情