英伟达DPU这种类型的硬件,几乎可以代表数据中心的某一个发展方向。这个议题甚至恰好能够解答,英伟达为何要收购Arm,以及AMD为何要收购赛灵思。在近期英伟达GTC China首日主题演讲之后的圆桌论坛上,英伟达全球业务运营执行副总裁Jay Puri谈到了有关英伟达收购Arm的问题……

在Aspencore全球分析师共同发布的《2021年全球半导体行业10大技术趋势》一文中,有一项提到了,HPC数据中心专用加速的趋势递进。其中特别提到英伟达的DPU,这种类型的硬件,几乎可以代表数据中心的某一个发展方向。

这个议题甚至恰好能够解答,英伟达为何要收购Arm,以及AMD为何要收购赛灵思。在近期英伟达GTC China首日主题演讲之后的圆桌论坛上,英伟达全球业务运营执行副总裁Jay Puri谈到了有关英伟达收购Arm的问题。

“Arm已经取得了巨大成功,但他们获得的成功大部分集中在移动端,更多的机会在等待他们探索。Arm应当发挥显著作用的地方,还包括数据中心与PC。但这个市场的涉足其实并不简单,数据中心、云和PC领域是另一回事。”Jay Puri提到,“从技术上来看,Arm在这一领域是完全没问题的。很多探索中的例子都表明,技术不是问题。”

“在市场方面,数据中心未来的重要工作是围绕人工智能、加速计算的。英伟达在这个平台很成熟,我们有可用的完整堆栈,有所有必要的合作伙伴,生态系统庞大,有超过200万开发者;很多初创企业、行业研究都在进行中。”“一旦Arm成为英伟达的一部分,我们将能够促进Arm在数据中心取得成功。”

“这样一来,市场就会有x86之外可行的替代方案,不仅限于移动领域,数据中心、PC等领域都如此。竞争能够促进进步、推动创新。”这番话实则已经非常明晰地交代了,Arm对于英伟达的主要价值在哪里:数据中心(和可能的PC)。本文尝试扩展HPC数据中心的专用加速趋势这一话题,亦可从中看看英伟达的野心有多大。

Arm对数据中心的作用有多大

2020年,HPC领域在相关芯片架构层面发生过一件大事:富士通(Fujitsu)发布名为富岳(Fugaku)的超算,其中的芯片为A64FX。这颗芯片在微架构层面其实是很有意思的。首先它整体上采用monolithic的设计,而不是现在流行的chiplet(比如AMD Epyc)。它既像CPU,又有点儿像GPU,而且片上还集成了HBM2存储——这样一来,A64FX的板卡就比较奇特:板卡上没有RAM,因为已经集成在了片上(chip level)。

我们来简单看看这颗芯片微架构的独特之处。从上面这张图来看,核心周围的4个die就是HBM2存储,连接到四个HBM2 Interface之上,算是与核心靠得很近了,所以主内存到L2 cache的带宽就会比一般的HPC系统要明显更大(1024GB/s),单芯片的容量也达到了32GiB。

核心部分,A64FX整体上是基于Arm v8.2A架构的,扩展了SVE(Scalable Vector Extensions)——这种扩展是专门针对HPC科学负载矢量化准备的,属于NEON扩展指令集的补充。A64FX具体采用的是512bit SVE。这一点其实并没有什么。

这颗芯片真正有意思的地方是,它并没有什么加速器,die上也没有集成专门的GPU之类的处理器。其行为方式很像GPU,但却是颗实实在在的通用CPU。A64FX内部总共分成4组,分别是4个CMG(core memory group),每组13个核心(所以总共是52个核心,其中48个是活跃核心,其余4个为OS以及冗余策略预留)。CMG内部每个核心依次连接,而不同CMG之间采用类似于Intel Skylake的那种Ring Bus环形总线连接。作为一颗通用处理器,A64FX就是可以跑常规操作系统的,虽然它内部看起来还挺像英伟达的GPU。

这颗芯片在设计上就是为HPC负载准备的,尤其是科学模拟、数据分析等。现在比较主流的方案,是用GPU来加速这些活儿,主要是因为GPU能够灌入大量数据,并做高度并行计算,然后同时输出大量结果。事实上,HPC的存储带宽需求一直很大,包括气象模拟、各种流体力学、量子力学等研究,以及计算机视觉、机器学习一类数据分析工作,都要求大量数据的迁移,在大量核心之间通讯、共享。

A64FX从设计思路上,也能干这样的工作:持续做SIMD计算,而且还有不小的片上存储资源和相当大的传输带宽。另外富士通开发了一种名为“Tofu”的互联方案,据说在能效、带宽和延迟方面表现都非常好,宣传上提到是显著优于AMD和Intel的方案的(据说是比Xeon/Epic,有10倍的能效优势)。此外,SVE矢量扩展,及其对FP16、FP32等数据类型计算的原生支持,都令其相当适用于HPC负载。

从已公开的数据来看,A64FX单芯片在性能上也远优于Intel Xeon Platnium 8168、NEC SX-Aurora这类方案,以及部分测试优于Nvidia上代的Tesla V100。其实相较传统通用CPU的性能优势还是意料之中的。因为A64FX从设计上来看,是明显更偏向专门针对HPC做了"domain-specific"的优化的,与此同时还保有了CPU的通用性。

用简单的话来概括A64FX的思路,它很像把HPC方案中CPU+GPU+RAM的传统组合凝聚到一起,另外也有比较全面的大规模扩展方案。这颗芯片预计2021年会出货给亚马逊、谷歌、微软这些云供应商。

当然不能就性能、效率,以及其设计就简单认定,A64FX就一定能够在HPC领域掀起多大的浪,生态构建也属于重要的工作。但很显然,Arm在HPC、数据中心之上发光发热,至少就技术、性能层面来看,是没有任何问题的;而且Arm具备了相当的弹性,是x86平台可能无法给予的;另一方面,Arm在端侧正在对x86发起新一轮猛攻,这可能也将有助于Arm在数据中心的生态构建。

GPU在数据中心的发展令人咂舌

富岳以及A64FX的发展思路未必就代表了数据中心的未来,电子科技及半导体领域从来不是效率、性能说了算的,而且我个人也觉得A64FX在微架构层面虽然有创新,但它作为一种通用芯片,在专用计算的"domain-specific"这一点上仍然可轻易被超过;比如几个月前,Graphcore二代IPU的发布会就特别提到了,算力相较A64FX的超越。

老祖宗构建起来的架构,其实很难在短期内被轻松推翻。只不过传统CPU+GPU+RAM的发展方向,本身就在不停发生变化。就好像多年前应该不会有太多人想到,GPU、FPGA加速卡这类硬件可以在数据中心活得这么滋润。

英伟达最伟大的发明,大概就是CUDA和GPGPU了。这将GPU扩展到了更多市场。2016年黄仁勋在GeForce 1080 Ti发布会上提到最多的词还是rendering和graphics;但在2020年GeForce 30系列GPU的发布会上,Graphics这个词被提及的次数却远远少于RT core、AI等。这表明英伟达的GPU市场,早就扩展到了游戏、图形计算之外。

即便AMD刚刚发布的Radeon GPU在性能上将近做到与Ampere架构GeForce的齐头并进,AMD Radeon的市场与英伟达依然是不可同日而语的。

我在去年GTC China的报道中提到,2015-2019年英伟达的营收增长速度之快,令这家公司不像是个已经步入成熟期的企业。这主要是源于GPU在数据中心业务上的风光正盛。而且这个趋势在2020年竟然还在持续,甚至可以用“飙车”来形容。

英伟达数据中心业务云霄飞车般的营收增长

英伟达最新一季(FY2021Q3)的财报显示,公司季度营收47.3亿美元,上涨57%。值得注意的是,其中数据中心业务的营收同比增长达到了162%——而且这还是在持续多年增长之后的持续增长。在谷歌云、微软Azure之后,AWS、Oracle Cloud、阿里云都相继宣布了Nvidia A100可用;选择英伟达平台针对AI相关服务做AI inference越来越多;当然英伟达数据中心业务的强势,也离不开Mellanox在InfiniBand等方面的增长。

相较之下,英伟达游戏业务37%的增速虽然也很亮眼,却在增长性上相形见绌了。专业视觉以及汽车业务的营收下滑,也就显得没那么重要了。去年的分析文章中,我曾大致估算数据中心业务占到英伟达整体营收的1/4,仅次于营收占比过半的游戏业务。今年的情况预计又会发生较大变化。以这种成长速度,数据中心很快就会成为可与其游戏业务相提并论、并驾齐驱的业务了。

这其实很大程度上代表了数据中心市场,GPU这类型的硬件已经占据了多重要的地位。可见市场对于性能和效率的渴求还是疯狂的,何况数据中心市场客观上还受到了新冠疫情的推动。

那么这和Arm又有什么关系呢?

DPU是英伟达野心的承载

英伟达也在GTC China期间宣布,多家中国顶级云服务提供商及系统制造商采用其A100 Tensor Core GPU。阿里云、百度智能云、滴滴云、腾讯云等云服务提供商都推出了搭载A100的云服务及GPU实例。A100是英伟达这一代Ampere架构,定位在数据中心平台的GPU产品,被英伟达称作“最强性能的端到端AI以及HPC数据中心平台”。

Ampere架构是英伟达在2020年年中正式官宣的。消费端的GeForce 30系列,以及上述A100都可以说是Ampere架构产品。实际上英伟达如今在热推的另一类产品,文首提到的DPU也有Ampere架构GPU的身影:BlueField-2X DPU板卡上就加入了一枚Ampere架构的GPU,用于AI加速。

这里的DPU是相当值得一谈的。抛开Ampere架构不谈,在前两个月的GTC大会上,英伟达正式宣布了BlueField-2/2X DPU(data processing units)的推出。DPU这个概念最早应该是Mellanox提出的。英伟达在新闻稿中提到,DPU采用data-center-infrastructure-on-a-chip架构,“突破性的网络、存储和安全性能”。直译过来,就是芯片上的数据中心基础设施。

本月GTC China期间,好几篇来自英伟达的新闻稿都提到了DPU或相关信息:包括公有云厂商Ucloud基于英伟达的BlueField DPU研发,“并于上半年推出的裸金属物理云1.0产品,通过DPU集成的多核Arm CPU快速将物理云基础架构软件从x86迁移到DPU中”。而且“Ucloud进一步于下半年研发并推出裸金属物理云2.0产品”,其中也包含了BlueField DPU本身的更多特性。

在Mellanox被英伟达收购之前,DPU实际上是Mellanox针对下一代SmartNIC的一个设想,将其networking的技术,和Arm做结合,分担主系统的更多工作,包括软件定义网络、软件定义存储、专用加速引擎等。2019年BlueField产品很低调地发布了。英伟达后续对BlueField-2,也就是DPU二代产品的定位有了进一步的延展。

所以今年发布的其实是二代DPU。BlueField 2芯片本身包含8个Arm Cortex-A72核心,以及两个VLIW加速引擎;然后再加上Mellanox最拿手的针对网络连接的ConnectX-6 DX NIC(网络适配器)。

简单来说,DPU是数据中心的另一个domain-specific加速器,从主CPU分担networking、存储和安全负载。这其实是英伟达在GPU产品于数据中心市场大获成功后的又一步扩张举措。与此同时进一步消除x86 CPU在数据中心的重要性。

用Mellanox的话来说,DPU是将计算功能,与数据靠得更近了(data-centric architecture),取代以前还要把数据专门移到计算所在位置的那种模式(compute-centric architecture)。

更具体地说,BlueField-2相对而言是达成了这个目标的;而BlueField-2X则是在板卡上给DPU再加上了Ampere架构的GPU(和EGX A100好像有点类似)——英伟达称其为AI-powered DPU。此处多加的GPU价值主要是实时的安全分析,包括识别异常流量,加密流量分析,识别恶意行为,以及动态安全组合、自动响应等。

至此,其实英伟达已经有能力将整个系统,包括CPU、NIC、加速器、安全都放到一个SoC上,再搭配自家GPU,基本上是可以无视x86的存在的。从英伟达公布的DPU产品路线图来看,后续还会有BlueField-3和4的问世。

BlueField-3其实是加强版的BlueField-2。而BlueField-4则计划在单芯片性能上就打败现有DPU+GPU的组合。英伟达计划BlueField-4应可提供400 TOPS的AI算力。如此一来,从GPU在数据中心做AI、数据分析及HPC,到如今DPU接管网络、存储、安全等关键任务,以及将来DPU可能把这些加速的活儿都干了。

DSP应用于网络安全的一个例子:当两名开发者使用Omnivers高吞吐流app进行实时的工作时,一台设备是Vmware Cloud Foundation + BlueField-2 DPU,另一台则是传统架构,在遭遇DdoS攻击时,两种架构的CPU占用率对比。右边这台服务器会因为数据包泛红,致工作被打断;而左侧服务器,DPU自己就能够识别并丢弃这些恶意数据包

与此同时,英伟达也推出了配套的DOCA软件栈,就类似于GPU世界的CUDA那样。英伟达这两年一直在宣称自己是家软件公司。那么当为开发者提供SDK,这片市场的空前增长,就像现如今的GPU那样,是为英伟达真正统领数据中心市场的野心所在。

而且英伟达现有的软件开发能力,还能持续为DOCA添砖加瓦,包括SDK扩展支持、各种库的增加:眼见CUDA如此的兴盛即知DPU将来的潜力了。与此相较,媒体渲染的什么黄氏定律(Huang’s Law)都不过是为此服务的营销宣传罢了。

Arm将在此间扮演什么样的角色?回想文首Jay Puri在GTC China首日的圆桌论坛上的发言,是否变得明朗许多?在DPU的版图上,Mellanox早已是英伟达麾下一员,就剩Arm了。想到此处,感觉英特尔在现如今的时代格局下,还真是有点儿“谁都在针对我”的处境。

这或许也能一定程度解释,为何AMD要收购赛灵思。另外,Jay Puri发言中还提到了,Arm理应在PC领域也发光发热,这是否是在暗示,英伟达或许还有在消费市场一搏的打算?

责编:Luffy Liu

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
Intel刚刚发布了新一代桌面显卡Arc B580和B570,关键是还支持AI帧生成和低延迟...
Arm预计,到2025年将会有1,000亿台基于Arm架构的设备可具备人工智能功能,包括由Cortex-A、Cortex-M驱动的设备。
人工智能(AI)功能已经在各种移动设备中变得至关重要。尤其是2024年,AI PC陆续推向市场,甚至可以称为“边缘设备AI元年”。 这次我们就来盘点一下2024年下半年发布的主要AI PC和处理器。
借着传说中Intel在中国举办的有史以来规模最大的生态大会,谈谈AI PC生态于2024收官之际大致发展到了哪儿...
台积电的1.6纳米芯片“A16”技术具有多项创新点,其中最显著的是其超级电源轨(SPR)背面供电网络。这一技术是台积电首创,专为高性能计算产品设计,旨在提高芯片的性能和降低功耗。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
点击蓝字 关注我们安森美(onsemi)在2024年先后推出两款超强功率半导体模块新贵,IGBT模块系列——SPM31 IPM,QDual 3。值得注意的是,背后都提到采用了最新的FS7技术,主要性能
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
投资界传奇人物沃伦·巴菲特,一位94岁的亿万富翁,最近公开了他的遗嘱。其中透露了一个惊人的决定:他计划将自己99.5%的巨额财富捐赠给慈善机构,而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭
来源:观察者网12月18日消息,自12月2日美国发布新一轮对华芯片出口禁令以来,不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称,根据知情人士以及该报查阅
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
2024年度PlayStation游戏奖今日公布,《宇宙机器人》获得年度最佳PS5游戏,《使命召唤:黑色行动6》获得年度最佳PS4游戏。在这次评选中,《宇宙机器人》获得多个奖项,包括最佳艺术指导奖、最
阿里资产显示,随着深圳柔宇显示技术有限公司(下称:“柔宇显示”)旗下资产一拍以流拍告终,二拍将于12月24日开拍,起拍价为9.8亿元。拍卖标的包括位于深圳市龙岗区的12套不动产和一批设备类资产,其中不
在上海嘉定叶城路1688号的极越办公楼里,最显眼的位置上,写着一句话:“中国智能汽车史上,必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景,未曾想这原来是命运的嘲弄。毕竟,极越用一种极其荒唐的
今天上午,联发科宣布新一代天玑芯片即将震撼登场,新品会在12月23日15点正式发布。据悉,这场发布会联发科将推出全新的天玑8400处理器,这颗芯片基于台积电4nm制程打造,采用Arm Cortex A
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益