如果没有英伟达，Arm在数据中心市场能混出头吗？-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

虽然去年到今年是Arm在各行各业大获全胜的两年，数据中心也频繁出现Arm的身影，但英伟达在数据中心的分量，几乎将Arm推到了最前线，多少有点儿很快就能把根植于该市场的x86拉下马的意思。前不久的GTC 2021之上，老黄宣布英伟达很快将推出应用于HPC AI的中央处理器Grace——基于Arm架构……

前不久的GTC 2021之上，老黄宣布英伟达很快将推出应用于HPC AI的中央处理器Grace——基于Arm架构。这在数据中心/服务器/基础设施行业是个大新闻。

虽然去年到今年是Arm在各行各业大获全胜的两年，数据中心也频繁出现Arm的身影——比如亚马逊自研的Graviton2处理器基于Arm，富士通面向HPC的A64FX处理器基于Arm——这些在《Arm的十年PC征程，和微软的“暧昧”》一文中就有所提及。

但英伟达在数据中心的分量，几乎将Arm推到了最前线，多少有点儿很快就能把根植于该市场的x86拉下马的意思。有关英伟达的Grace，很快我们会发表另一篇文章做单独评论，即便个人认为Grace着力的市场具有相当强的针对性。本文尝试呈现，抛开Grace不谈，Arm如今在服务器市场，究竟已经发展到了何种程度。

Arm第一次认真对待服务器市场

Arm一直以来就有突破移动与嵌入式市场的野心，只不过就像Arm在PC之上的10年征程那样，这个过程是需要不断试错的。英伟达探索高性能CPU/SoC也不是今天才开始的，在10多年前英伟达就曾宣布过一个叫做Project Denver的项目，旨在与Arm合作面向HPC（高性能计算）市场推CPU产品。

不止是英伟达，高通也曾推出基于Arm架构的Centriq处理器，面向企业和服务器市场；Cavium的ThunderX此前也算是知名的Arm服务器芯片；还有博通的Vulcan，AMD的Opteron A1100......虽然它们中的大部分都失败了。感觉从这些项目初期展示的PPT来看，Intel早就应该缩在墙角颤抖了。但事实上，Arm在这一领域始终没能真正走入主流视野（虽然Arm一直宣称自己是“基础设施（infrastructure）”设备中市场份额最高的，包含路由器、交换机、基站、服务器等）。

到近代鲲鹏920这类服务器芯片面世，以及如今相当活跃的Ampere Computing也在推基于Arm的服务器处理器，Arm才真正在这一领域逐渐像样起来。今年的GTC主题演讲上，黄仁勋也宣布，英伟达的GPU开始和Ampere Computing、亚马逊、联发科等合作伙伴的CPU/SoC搭配，从云到边缘到消费终端。虽然在接受采访时，黄仁勋说Grace并不会多大程度影响到现有客户，但这明摆着就有拆AMD/Intel墙角的意思。

Arm在服务器、基础设施，或者说数据中心产品的试错历史就不多做回顾了。事实上，Arm过去虽然也一直有试探服务器市场的意思，但他们始终都没有面向这些数据中心的基础设施，推过专门的IP——Arm在该市场的IP，基本与面向消费市场的IP共享。

这一点其实是无可厚非的，大部分芯片制造商的同代核心IP，面向不同市场都会做较大程度的共享。但这也表现出Arm此前针对基础设施设备并没有明晰、像样的市场规划，这对生态构建本来就是不利的。

转机出现在2018年，这一年10月份的TechCon上，Arm正式宣布推出Neoverse系列IP，面向服务器市场，从云到边缘。与此同时还公开了未来3年的产品路线图，如上图所示。Arm Neoverse可以理解为服务器版的Arm Cortex。

这张图列出了一年一迭代的Neoverse版本，比如2019年代号为Ares的处理器核心IP，也就是Neoverse N1。Arm最早的时候宣布，未来每年迭代都将实现30%的性能提升——听起来比旁边的Cortex系列平均增速要快些，也比竞争对手更快。后来的发布会上，Arm又宣布N1性能提升，实际相比2018年的Cosmos高出了60%（不过Cosmos据说并不指代一个专门的架构），是原目标的2倍提升——基于SPEC2017整形测试（SPECspeed2017_int_base）。到今年发布的N2，提升速度似乎又超预期了，后文还将探讨更具体的微架构变化。

2019年2月份，Arm正式宣布推出Neoverse N1与E1平台——这应该是Arm对服务器市场改朝换代的开始。

当然光换个名字肯定是没用的，此前多篇探讨Arm发展史的文章中，我们都谈到了近代Arm的核心IP，在保持低功耗特性的前提下，在高性能方面也有了突破。即便一般的芯片制造商无法做到苹果M1那种程度，高通骁龙8cx也已经有了应用于PC的可行性。起码如今这个时代，和10年前英伟达Project Denver时代（Cortex-A15时代）还是有根本差别的。

2018年这一年，Arm向市场推出Cortex A76核心IP，这应该是众所周知的了——高通面向PC所推的骁龙8cx就应用了Cortex A76微架构。次年问世的Neoverse N1实际上就属于Cortex A76微架构的变体，或者说基于Cortex A76。

Austin家族微架构（选读）

这两者都来自Arm奥斯汀设计中心，都属于Austin家族微架构，基于ARMv8指令集。事实上Cortex与Neoverse后续更新版本，包括Cortex A78、Neoverse V1应当都属于Austin家族，今年预计要推向市场的新一代Neoverse Poseidon才会采用全新的微架构。

Neoverse V1和Cortex A76一样都采用4-wide取指/解码，11级管线深度，可在需要时缩减至9级。前端、后端的区别都不大。

两者区别比较大的部分主要在存储、连接方面——作为服务器处理器，这也是必然的。L1-I cache做到硬件级别的完全一致性（coherency），这属于面向虚拟环境性能的改进。L2新增1MB可选大小（A76是512KB），针对存储敏感型应用。

存储层级结构发生了比较大的变化。N1 CPU是连接到mesh网络之上的，即CMN-600（CMN-600是Arm最早于2016年发布的SoC互联IP，全称叫coherent mesh network；如上图所示，连接中间经过了CAL以及mesh网络的XP交叉点；每个CAL层至多连接2个N1——即两核为一簇）。在Arm的参考设计中，后续再连接到系统级缓存——SLC（system level cache）slice，每簇2MB，参考设计64核N1总共64MB SLC。

这张图来自W ikichip，结构描绘上更为清晰

N1去掉了L3和DSU（DynamIQ Shared Unit）的监听过滤（snoop-filter）逻辑，CPU核心直接连接到CMN的CHI接口。这样一来内存控制器和CPU核心之间的通讯，只需要经过mesh网络。这好像也属于服务器CPU的标配。

7nm工艺也是与上述设计内容配套的，核心面积整体上还是很小。另外，Neoverse N1一个比较大的变化是最高频率往上提了，发布时是说达到3.1GHz，电压也需相应提高，提供更高的单线程性能——频率提高19%，实际上需要44%的功耗为代价，这也很能表现Arm在频率与功耗的关系上，并没有什么魔法。亚马逊Graviton2就是基于Neoverse N1的芯片，CPU核心频率只选择了2.5GHz。

基于消费级产品提升频率，和Intel、AMD这种传统服务器CPU供应商的思路就不同了：x86市场的这两名玩家，其服务器CPU微架构也与消费CPU共享，但服务器CPU却是拉低核心频率的。这与双方在消费市场的定位还是有很大关系的。

不过即便是这样，功耗还是有优势，Arm此前宣称64核的N1参考设计总功耗大约为105W；Arm公开其64核参考设计SPECint_rate2006吞吐测试得分1310分，整数延迟得分（SPECint2006）37分，还是能够表现Arm能效方面的优势的。

对于networking和存储服务器，Arm推荐8-32核N1设计，TDP 25-65W；类似5G基站边缘端侧设备，16-64核目标设计，TDP 35-105W；对于超大规模数据中心而言，N1目标设计64-128核，TDP >150W。

Arm的Neoverse N1平台参考设计64核心，外加前面提到的CMN-600 mesh网络和64MB SLC缓存。台积电7nm工艺制造64核N1参考设计的die size已经快要接近400mm²了，Arm也因此推荐chiplet那样的设计，chiplet die之间通过CCIX互联来通讯。

另外Neoverse N1平台设计中，可集成SmartNIC——加速网络连接还是如今实现数据中心高吞吐的重要因素（看看英伟达现在都在宣传些啥）。CMN-600可连一些固定功能加速IP。通过CCIX连接第三方IP，可实现存储一致性。更多特性不再列举，属于服务器RAS、安全等相关的。

Arm服务器CPU的效率现在怎么样？

早前的Arm服务器处理器IP核心不够主流，很大程度上在于性能和效率都不怎么样。硬件层面的性能和功耗表现，是争夺这块市场的基本要求。

能了解服务器CPU性能的渠道不多，像亚马逊Graviton2这种芯片都还是亚马逊自用的。不过随Arm这两年在服务器市场的活跃，像AnandTech这样的外媒也开始把性能测试触及到了服务器、基础设施处理器产品之上。

事实上，2018年Cavium的ThunderX2被AnandTech认为是这一领域，Arm平台首次可与Intel、AMD相提并论的处理器产品。此后亚马逊Graviton处理器的出现也表明，Arm处理器是可以成为服务器领域的主流的。

除了亚马逊Graviton2，在Neoverse N1实施方案中，比较具有代表性的应该是Ampere Computing最新的 Altra产品线。去年的Altra Q80-33就是用来对标Intel、AMD在服务器市场的高端产品的。

Altra Q80-33主频最高3.3GHz，80核心；CMN-600 mesh互联，每核心L2选配1MB，以及32MB SLC——每核心分配到的SLC可能少了点。I/O以及更高的系统层面就不做介绍了，Ampere打造的Mount Jade，2-socket 2U机架服务器，有兴趣的可以去查一查外围的配置。

值得一提的是，这颗处理器的TDP标250W，实际上它并不是指常规负载的平均功耗，而是峰值状态下的平均功耗。其实际功耗大部分情况下低于250W，AnandTech认为按照Intel、AMD的标法，Altra Q80-33的TDP应该在200W左右。

与之对应，Intel前不久刚刚发布的Ice Lake-SP至强处理器，高配型号的TDP 270W（最高配8380为40核心，十代酷睿的Sunny Cove架构）；AMD上个月推代号Milan的EPYC处理器，TDP 280W（最高配64核心，Zen 3架构）。如果光从高配版处理器的售价来看，Ampere Altra的性价比还是高出了一大截的。

AnandTech最近刚刚测试了Ice Lake-SP，参测的还包括AMD Milan、Ampere Altra，以及亚马逊Graviton2。测试项分成多线程性能（SPECint2017/SPECfp2017 Base Rate-N）、单线程性能（SPEC2017 Rate-1）、每核心性能（针对per core licensing）、JAVA性能（SPECjbb MultiJVM）、LLVM编译、NAMD性能。有兴趣的可前往了解，这里就不列出具体的成绩了（因为篇幅原因，上图只列出了整数多线程性能/单线程性能）。

单看x86平台，自从AMD Zen 2问世以来，Intel至强处理器在性能上表现出了全方位的乏力。上一代AMD EPYC和Intel至强，在性能上拉开了比较大的差距。这一代Intel稍稍赶上了一些，但在旗舰产品上，整体仍然存在差距。Intel现在愈发强调系统性能，从自身包括存储、软件优化等方面的优势，弥补CPU本身的弱势，所以AnandTech的测试可能仍然是比较片面的。而且今年下半年规划中的Sapphire Rapids会很快上线。这是题外话了。

基于Arm Neoverse N1的Ampere Altra是能够和AMD上一代Rome架构64核的EPYC打得有来有回的。Neoverse在每核性能上还是与x86平台有差距；此外Altra在存储敏感型测试中的表现并不怎么样，与其cache配置相关（以及可能与mesh互联有关）；另外Ampere在整体系统方案上，双socket扩展还是不能和Intel/AMD比。不过偏算力的负载场景下，Altra更多的核心则有优势；能效方面，如前所述相比x86平台有功耗方面的显著优势。

特别值得一提的是，Arm平台的服务器处理器还存在价格上的显著优势。与此同时，Ampere今年还计划推一款Altra-Max，采用128个Neoverse-N1核心，属于Arm设计目标顶配。

虽说以Ampere Altra为代表的Arm处理器仍在性能表现的某些方面不及x86（主要是AMD），但已经真正意义上对x86的服务器市场构成相当严肃的威胁了。

需要指出的是，加强生态构建是Arm的当务之急，不管是与软硬件合作伙伴加强合作，还是制定规范。在前两年发布Neoverse之时，Arm还发布了ServerReady合规认证计划，帮助用户做Arm服务器系统的安全、合规部署。

Neoverse N2与V1的发布

GTC大会上，英伟达表示Grace CPU会采用新一代的Neoverse架构，但没说具体是什么架构。按照计划表，去年9月份，Arm发布了新一代的Neoverse架构。除了N1迭代N2，这次新加了一个V系列：代号Zeus的Neoverse V1。

Neoverse V1是基于Cortex X1的性能向微架构。和Cortex X1一样，在PPA三者的指针上，Neoverse V1也更偏向性能，部分牺牲了功耗和面积。所以其设计方向和N系列是存在差别的。因此V1有着更大的cache、核心结构。Arm的数据提到，V1相比N1有着50%的IPC提升，在这个时代下还是相当巨量的，实际产品提频过后要在每核性能上击败x86应该已经不是问题了。

另外V1会成为首个支持SVE（ScalableVectorExtension）的Arm核心。此前富士通的A64FX已经率先做出这方面的支持，V1的SIMD单元宽度是A64FX的一半。除此之外，V1也引入了Bfloat16格式支持。

而N1迭代款的N2则持续专注于PPA均衡发展，与Neoverse N2对应的Cortex家族微架构还未发布，N2代号为Perseus。据说去年年底Arm就开始做N2架构的授权了。N2的目标设计最高核心数已经达到了192个，且TDP增至350W。这应该是也是堆料的突破，英伟达的Grace CPU是极有可能应用N2这个方案的。

AnandTech猜测，Neoverse N2可能会应用ARMv9指令集+SVE2支持。另外，原本规划中今年要推出的代号为Poseidon的5nm芯片预计会延后至明年。如今Neoverse的规划已经在有序推进了。即便没有英伟达，Arm玩转数据中心市场似乎也是早有预谋的，而英伟达显然会成为这一行动的助推器。

责编：Luffy Liu

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

数据中心/服务器处理器/DSP EDA/IP/IC设计知识产权/专利接口/总线/驱动嵌入式设计业界新闻

如果没有英伟达，Arm在数据中心市场能混出头吗？

Arm第一次认真对待服务器市场

Austin家族微架构（选读）

Arm服务器CPU的效率现在怎么样？

Neoverse N2与V1的发布

杂志声明