苹果对芯片设计的态度,与大部分芯片公司需要仔细权衡PPA(性能、功耗、面积/成本)略有不同;苹果真的是可以在某种程度上无视其中的“A”的,竞争对手直呼坑爹。最新发布的M1 Ultra芯片用拼接的方式,把晶体管数字推升到了1140亿个,这颗芯片真的有苹果吹得那么神乎其神吗?本文就来谈谈苹果在发布会上没告诉你的那些事……

当年iPhone 6发布会,苹果说A8芯片上有20亿晶体管,尚且让我们为人类制造精密技术慨叹和惊讶于苹果舍得堆料;转眼iPhone 13的A15芯片就已经把数字推进到150亿。

好像这些数字在真正的“大芯片”面前还是不够看。比如PC设备上的知名大芯片,有283亿晶体管的英伟达GeForce RTX 3090,发烧友们梦寐以求能玩8K游戏的大芯片。

但或许单个民用芯片的晶体管数量级还是不够大:上周Graphcore发布用于大规模AI训练和推理的Bow IPU芯片则有晶体管600亿个…是不是也还好?去年Intel发布应用于数据中心、尺寸看起来超级巨大的GPU Ponte Vecchio在宣传中说晶体管数量“超过1000亿”……

然鹅,昨天的苹果春季发布会上,最新发布的M1 Ultra芯片在民用领域就把这个数字推升到了1140亿个。要知道M1 Ultra只是一颗应用于PC的芯片。有没有感觉到苹果在堆料上的压迫感?这大概跟其他芯片公司都不处在同一竞争量级吧?

前年我们分析M1芯片的时候就提到,苹果对芯片设计的态度,与大部分芯片公司需要仔细权衡PPA(性能、功耗、面积/成本)略有不同;苹果真的是可以在某种程度上无视其中的“A”的,竞争对手直呼坑爹。

不过M1 Ultra真的有苹果吹得那么神乎其神吗?动不动就比谁谁谁有几倍性能/功耗表现的优势…本文就来谈谈这颗最新发布的苹果M1 Ultra,尤其是苹果在发布会上没告诉你的那些事。

M1 Ultra核心已经用了2年

照例先罗列一下M1 Ultra的基本配置,虽然苹果在公开处理器数据和技术细节上一向都十分吝啬:

▪ CPU:16个Firestorm大核(192KB I-cache,128KB D-cache,48MB L2 cache),4个Icestorm小核(128KB I-cache,64KB D-cache,8MB L2 cache);

▪ GPU:64核(8192个执行单元,最多196608个并行线程);

▪ Neural Engine(AI单元):32核,22TOPS;

▪ 媒体引擎:硬件加速H.264, HEVC, ProRes, ProRes RAW;2个视频解码引擎;4个视频编码引擎;4个ProRes编解码引擎;

▪ 内存:UMA,统一内存架构,800GB/s带宽,最大容量128GB。

这颗芯片之所以叫做M1 Ultra,而不是叫M2 Big,是因为其CPU、GPU、NE单元的架构是不变的。M1、M1 Pro、M1 Max和M1 Ultra可认为是规模化扩展的关系。已经看过M1 Ultra前期报道的各位应该很清楚,两个M1 Max相加就得到了一枚M1 Ultra。感觉M1已经成为1个性能单位,随后逐层叠加堆料。

它们之间不存在迭代关系,尤其表现在M1 Ultra仍在用Firestorm/Icestorm处理器核心。核心层面,M1 Ultra与M1没什么区别(而且大概率他们的频率也不会有多大差别)。要知道这可是2020年的核心了,苹果一用就是两年。

CPU核心用2年带来的一个后果就是单核性能变得落后。M1 Ultra即便规模很大,单核性能却也就是M1相当的水平。或许2年前Firestorm大核在性能方面还堪称惊艳,但这两年Intel核心改进动作频繁,每年IPC都提10%-20%。

苹果在发布会上对单核/单线程性能只字未提,展示的数字全都是多核性能——这或许和Mac设备适配的用户人群也有关。不过类似Photoshop这样的应用,对单核性能仍然更加敏感。我们前不久针对12代酷睿的测试发现,12代酷睿大核的单核性能,比M1家族大核领先大约23%。

虽然苹果在发布会上并没有提M1 Ultra的CPU频率,不过以苹果的CPU核心超宽架构来看,他们的CPU更难以提升频率;以及在频率提升后功耗更容易崩。所以即便有提升,幅度也不会多大。则其单核性能基本就是原地踏步。

规模化扩展,带来的巨大性能收益

把M1 Max复制一份,得到一颗M1 Ultra,在PC CPU处理器及大型SoC芯片上似乎还没见过这么粗暴的方案(虽然规模化扩展对于GPU之类的处理器而言就很常见)。苹果在发布会上提到M1 Max有个秘密一直没公开,它藏了个特性,就是die-to-die interconnect技术,得以实现M1 Max两片 die相加变身M1 Ultra。

2.5D先进封装技术相关的部分后面再谈,这种方案虽然粗暴但很有效。而在“粗暴”之外,其实能看到苹果在M1芯片规划之初的长远设定,因为这种“粗暴”并不是真正的粗暴。这种规模化扩展并不是任何芯片都可以做的,存储一致性、数据同步之类的实际问题就一大堆。

于是我们就看到了苹果展示的一系列PPT。必须肯定苹果M1 Ultra在PC领域的CPU多核性能/效率、GPU性能/效率(尤其是效率上)出类拔萃的能力,毕竟堆了那么多的料。但苹果在发布会上呈现动不动几倍的数字,实在是半导体行业难以承受之重…

那就来看看性能与功耗,以及苹果在其中隐藏的一些猫腻:

这张图对比的是苹果M1 Ultra和Intel酷睿i9-12900K。苹果表示两者相比,前者在相同功耗下能够达成最多90%的性能领先。图中可见,应该是60W这个功耗段。(只不过苹果在脚注里也完全没有提到,对比的是什么项目,而只是说“Performance measured using select industry-standard benchmarks”;这就不厚道了)

与此同时,苹果表示M1 Ultra在达到酷睿i9-12900K相同的峰值性能时,功耗低了100W。从这张图来看,是i9-12900K在160W功耗下的性能,与M1 Ultra在40W功耗下的性能相等(这不都超过了100W?)……

12代酷睿桌面版发布的时候,我们拿到过这颗芯片,不过当时没有仔细去测i9-12900K。但我们后来测了面向笔记本的 i9-12900H几个功耗段下的性能表现。至少在35W-130W功耗段的性能表现,和苹果呈现的这根曲线是不大相符的;苹果画的曲线还真是放飞自我。

另外i9-12900K的峰值性能应该在最大睿频功耗的241W,而不是图中标的180W。即便按照苹果画的这条性能/功耗曲线延伸,酷睿i9-12900K最终达到241W时的峰值性能可能也高于M1 Ultra。

不过有一点可以确认,就是M1 Ultra的能耗/效率表现非常出色,可能相较i9-12900K遥遥领先。毕竟Firestorm是架构超宽的核心、频率又低很多。另外,台积电在制造工艺上目前相比Intel也有比较大的优势。

感觉比较有趣的是,日常我们说桌面级PC对于功耗其实是不敏感的,这和笔记本、移动平台很不一样。CPU功耗飙到200W+,GPU功耗飙到300W+,问题都不大,反正也是墙插供电;耗电也比不上电暖气、电磁炉吧。

对桌面PC平台来说,功耗低带来的直观体验提升也很小,因为这种平台天然的更少受制于噪音、发热(因为用户通常离主机会比较远,大体积也抑制了风扇噪音的传播),而且也没有续航问题。不过苹果在发布会上仍一再强调M1 Ultra效率很高,还特别提到搭载M1 Ultra的Mac Studio主机相较高端桌面级PC,每年能减少1000kWh的能耗。

这才叫向绿色生活看齐啊,符合时代碳达峰、碳中和的主旋律。从苹果在M1 Ultra之上强调效率与能耗,也更能看出苹果造芯片的基因的的确确是从移动/低功耗,向桌面/高性能转变的;Intel、AMD的发展历史则决定了,他们的发展方向和起源有着很大的不同。

GPU性能据说3090还牛?

GPU方面,苹果选择的对比对象主要是英伟达GeForce RTX 3090——个人用户GPU市场目前能买到最高端的显卡。苹果表示M1 Ultra的GPU性能不仅比3090还强,而且功耗还低200W。

我们认为在苹果发挥出最大生态能力时,这个数字可能是合理的。一方面在于GeForce RTX 3090用的是比较陈旧的三星8nm工艺(相当于10nm工艺的小改款);M1 Ultra已经在用台积电5nm工艺。另一方面,M1 Ultra给GPU的堆料相当充足,苹果给的示意图如下:

看看这个占die面积,虽然不清楚1140亿晶体管有多少分给了GPU;但GeForce RTX 3090的计算die也不过283亿晶体管;要说规模苹果也从来没怕过谁。

另外,M1 Ultra的统一内存架构UMA实现了800GB/s的存储带宽吞吐,虽说这个数字还是比不上RTX 3090显卡搭配GDDR6X显存的936GB/s,但后者是单纯的显存带宽。而且对于GPU而言,M1 Ultra还有128GB的容量优势。

但请注意,这是最理想的情况。M1 Ultra的GPU存在两个比较大的问题:

第一,M1 Ultra是由两片die组成的,GPU位于两片die之上。也就是说M1 Ultra的GPU分成了两半。这叫MCM GPU(Multi-chip module,或者叫chiplet-based GPU),去年我们介绍过GPU发展的这一趋势

这种GPU在民用市场上从未出现过,数据中心唯一用了这类方案的Intel Ponte Vecchio也才刚刚开始启用像这种需要die间通信,还得解决数据一致性问题,实现不同die计算单元充分利用,并且对开发者保持友好的设计,这时候大概也就苹果hold得住。

MCM GPU本身几乎无法实现堆料加倍,性能就加倍的目标。相信苹果宣传中提到的2.5TB/s的die间通讯带宽、800GB/s的内存带宽都是为此准备的;最终要看苹果的设计能否承载双die GPU可实现的极限性能扩展需求。所以是否如苹果所言,达到3090的性能水平,在这一点上还相当值得观察。

第二,我们不止一次撰文提过,苹果GPU的生态和英伟达有着云泥之别。或许摄影师、设计师们在某些特定软件上做做视频、3D设计,M1家族芯片的速度和性能都堪称一绝。但如果是做别的呢?且不说游戏这种苹果生态荒地:苹果在发布M1 Max的时候就说其GPU媲美移动版GeForce RTX 3080。

从实际测试来看,在Geekbench 5 GPU通用加速测试、Blender渲染测试这种用GPU去做加速的工作里,不要说3080,M1 Max GPU的实际表现可能连移动版3060都比不上。这是生态缺失造成的“空有一身肌肉却无处发挥”的尴尬。

另可做个极端对比:RTX 3090 GPU芯片内有专门的光线追踪硬件单元(RT core)。如果M1 Ultra的GPU真的有3090这样的硬件算力与生态支持,那么在跑那些光追应用时,它又将置身何地?说到底,双方的对比仍然不在一个水平线上。

“几倍”性能提升那些猫腻

相较于单纯的芯片性能比较,苹果还给了不少Mac Studio的系统性能对比。这些数字看起来就比上面的惊悚多了。比如苹果说Mac Studio(M1 Ultra)CPU性能,是27寸iMac(10核酷睿i9)的3.8倍,比Mac Pro(16核至强处理器)领先90%,比Mac Pro(28核至强处理器)领先60%。

这两年苹果一开发布会,Intel从来是风评被害最严重的(早知道2005年不跟你们合作了)。也怪Intel以前不求上进。不过这系列的对比有几处猫腻应当是很多人不了解的。

第一是对比对象。上一代27寸iMac(2020),所用的“10核酷睿i9”,具体乃是第10代酷睿(而且是更老的Comet Lake架构-同属Skylake家族),距今有2年代差。这2年对酷睿处理器意味着什么,应当是关注行业的很多读者都十分清楚的。而上一代Mac Pro(2029)所用的至强处理器具体为Cascade Lake,核心本质上也属于著名老架构Skylake。

这就让这些对比数字非常传奇:用苹果最新的芯片,去比较Intel新三年旧三年缝缝补补又三年的Skylake,真的好吗?或许这些对比对Mac老用户而言有价值,毕竟他们面临设备更新的问题;但对更广阔的PC市场而言,这些数字又非常容易造成误导——总让人觉得苹果芯片早就开始用天顶星科技了。

第二是对比项目。苹果官网的脚注小字部分有说明所谓的x.x倍提升具体比的是什么。苹果官网给的综合数字是,CPU性能3.8倍的提升。对比项目乃是Houdini FX 19.0.524软件中窄带FLIP模拟场景。Houdini是个3D动画软件工具,用其中的FLIP求解器性能表现,来代表CPU的性能提升。这么“精准”的制导和对比,真的说得过去吗?

当初M1发布的时候,苹果说CPU性能提升3.5倍,选的对比项目包括Final Cut Pro中的ProRes 4K视频转码这类操作;苹果说GPU性能提升5倍,所谓的5倍,其实是Final Cut Pro里某个3D字幕功能渲染速度。

系统性能GPU对比部分,这次受伤的总算轮到AMD了。我们认为,芯片层面的性能对比,尤其GPU部分以AMD做对比对象,其实是个更明智的选择。这部分就不展开了。Mac的GPU性能提升本质上更是其macOS、metal API等生态内部的问题。

对比对象、对比项目的双重不靠谱,造就了数字上非常有效的市场宣传效果:几倍提升让摩尔定律都甘拜下风。不过我们认为,一方面在于苹果芯片本身在性能上是足够彪悍的,稍作夸大也没什么大不了。况且这本身就是乔帮主留下的传统(当年乔布斯说PowerPC G3比奔腾2要快2倍…);

另一方面,则在于Mac及苹果芯片在面向用户时,具备了更高的针对性。比如苹果很喜欢选Final Cut Pro、Lightroom、Cinema 4D这类软件来作为其性能更好的依据,还是存在一定合理性的。因为其目标用户群很大一部分就在内容创作者和设计师群体。苹果总不可能自己去和Intel、英伟达比游戏吧?

在谈M1 Ultra配置时,苹果就特地把媒体引擎拿出来说了一番——ProRes成为苹果反复在提的重点,且其占die面积也同样十分可观。这表明苹果太清楚Mac要卖给谁,M1 Ultra要为谁服务了。这对面向大众的CPU、GPU芯片厂商而言是不可想象的。

做更宽的架构、无视面积,以及加入更多专用硬件单元适配目标用户群体,这两点本质上就是苹果芯片得以鏖战PC市场的根本。这是其封闭生态特性决定的独有优势。

“胶水粘”起来的M1 Max

“胶水”一词作为对处理器的戏谑,最早似乎源于2005年Intel奔腾D处理器的“胶水双核”。当年Intel为了应对AMD的Athlon64 x2双核处理器,很仓促地推出了奔腾D——尤其2006年代号为Presler的奔腾D,是真正的MCM:同一个基板封装上有2个die,一个die一个核心。有没有感觉格外新潮?

当年的奔腾D“胶水双核”

奔腾D的双核之间的通信需要依靠FSB前端总线和主板上的北桥,也就是去芯片外面绕了一大圈,通讯效率格外低下。感觉就像是把两颗奔腾4用胶水粘在一起一样,所以被人戏称为胶水双核。

时代在变,从“复制粘贴”这种方式来看,有没有感觉苹果M1 Ultra还挺像当年胶水双核风范的?只不过这次复制粘贴的是一整个SoC…当然如前文所述,称其为胶水只是开玩笑,苹果在设计M1 Max之初就留了一手, 即die-to-die interconnect。按照苹果标称的双倍性能提升,必然是要在两颗die协作方面做很多工作的;我们认为苹果对M1的早期定义和规划应该就已经做得比较出色。

苹果说将两颗die连起来,用的是“创新的、定制打造的封装架构”,并且将这种多die架构称作UltraFusion。苹果在发布会上明确提到了UltraFusion是用Silicon Interposer互联。那么猜测应该就是台积电的CoWoS技术了吧。

我们以前也介绍过CoWoS。如上图中间的这个方案,是将不同的die放在硅中介上,这个硅中介内部可实现die之间的互联(RDL,redistribution layers)。但从苹果的互联示意图来看,反倒更像是Silicon Bridge(硅桥)方案(下图),也就是上图中的第3个。Intel EMIB是Silicon Bridge技术中的代表。当然,或许苹果也只是形象地做个易于理解的表达罢了:

基于chiplet——也就是这种多die“拼”到一起的方案,在半导体行业并不罕见。尤其这么大的芯片,要是做成整片monolithic,良率会让苹果这种土豪都吃不消。所以把大die切成小die,再封装到一起才是行业趋势。

AMD的CPU处理器这两年也普遍基于chiplet来堆核——但AMD民用处理器的多die互联封装比较低端;而且AMD也不是像苹果这样直接做SoC的复制粘贴。硅中介、硅桥这类方案在大芯片上正在普及,但消费级处理器上还比较罕见。Intel好像到现在都没有做chiplet式酷睿处理器的打算。

苹果在发布会上还特别强调了UltraFusion相比于行业内任何其他同类方案都要领先,而且相比任何现有技术都有着2倍的互联密度:表现在连接超过10000个信号点,达成两颗die之间2.5TB/s的低延迟、互联带宽,而且功耗很低——“相比主流多chip互联技术提供超过4倍带宽”。

通过这样的复制粘贴,M1 Ultra达成了相比M1 Max各方面的两倍。晶体管数量是2倍,AI算力是2倍,同时支持的8K ProRes视频流数量是2倍,价格是2倍(Mac Studio),支持的内存带宽是2倍,CPU/GPU核心数量是2倍……

内存带宽的800GB/s算得一大亮点——很多同学可能对这个值没有量级概念。12代酷睿处理器L3 cache读写速度都还没有这么高(当然延迟应该不在一个量级);至于内存,至强平台把8通道的内存条全部插满,也就200GB/s的带宽;普通PC平台双通道内存带宽不到80GB/s。

其实M1 Max的400GB/s已经足够让人咋舌。感觉对CPU来说,已经消受不起这么高的带宽;800GB/s更像是为GPU准备的,前文已提到800GB/s与顶配GPU显存带宽接近。说到这儿,前文的GPU部分已经提到了M1 Ultra的MCM GPU方案在行业内是走在前列、十分大胆的。但把GPU切开去用的效果,仍然要看实际表现;毕竟我们也不知道苹果针对这部分具体是怎么做的。

MCM GPU,乃至其他相同模块的简单复制其实在性能上都很难做到1+1=2。而且苹果还特别谈到,M1 Ultra对开发者来说不需要改动代码,这对苹果更是考验。或许行业变革的开端也从这里被打开,即便苹果生态又有着巨大的特殊性。

最后稍做个总结。苹果在本次发布会上提到了板级的双芯方案,就像上图这样——通过主板来互联通信。苹果吐槽这种方案增加延迟、带宽受限,而且功耗很高,与此同时对开发者而言构成了更大的负担。不知道这是不是在吐槽服务器平台。

此前我们写iPhone芯片前传时提到,苹果早在1986年想要自己做处理器名为Scorpius。这颗芯片在设计上就有可扩展的多芯系统,包括互联通信,在当时十分新潮。只不过苹果那会儿没有能力把这样的芯片设计出来。

随着封装工艺的进步,先进封装成为摩尔定律延续的重要组成部分,连silicon interposer本身都在不断突破reticle limit,2.5D/3D封装还在进行着互联密度的军备竞赛。既然晶体管层面的制造工艺进步放缓,先进封装成为芯片设计和制造的未来也成为趋势。

现在的苹果有能力在民用芯片市场率先走出这一步——步子走得比AMD明显更大;与此同时还在AMD、英伟达这类企业研究了那么多年的MCM GPU议题上第一个做出迈进。虽然苹果对于M1 Ultra的市场宣传实在是很浮夸,但这也不妨碍它切实地给行业添了浓墨重彩的一笔。

责编:Luffy
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 膜拜下洋葱老师
阅读全文,请先
您可能感兴趣
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
Arm预计,到2025年将会有1,000亿台基于Arm架构的设备可具备人工智能功能,包括由Cortex-A、Cortex-M驱动的设备。
台积电的1.6纳米芯片“A16”技术具有多项创新点,其中最显著的是其超级电源轨(SPR)背面供电网络。这一技术是台积电首创,专为高性能计算产品设计,旨在提高芯片的性能和降低功耗。
使用旗下CUDA-Q平台,谷歌可以在英伟达Eos超算上动用1024块H100 Tensor核心GPU,以极低的成本执行全球最大、最快的量子设备动力学模拟,可以对容纳40个量子比特的设备进行全面、逼真的模拟。
为了应对这一挑战,英伟达正在与多家云服务提供商合作,共同优化散热方案,并强调工程迭代是正常且预期的一部分,但其交付时间或不得不再次推迟。
最近国产AI芯片市场遭遇一波有关7nm被禁的震荡,现状如何了?
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
点击蓝字 关注我们安森美(onsemi)在2024年先后推出两款超强功率半导体模块新贵,IGBT模块系列——SPM31 IPM,QDual 3。值得注意的是,背后都提到采用了最新的FS7技术,主要性能
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
有博主基于曝光的信息绘制了iPhone 17系列渲染图,对比iPhone 16系列,17系列最大变化是采用横置相机模组,背部DECO为条形跑道设计,神似谷歌Pixel 9系列,这是iPhone六年来的
2024年度PlayStation游戏奖今日公布,《宇宙机器人》获得年度最佳PS5游戏,《使命召唤:黑色行动6》获得年度最佳PS4游戏。在这次评选中,《宇宙机器人》获得多个奖项,包括最佳艺术指导奖、最
“ 洞悉AI,未来触手可及。”整理 | 美股研究社在这个快速变化的时代,人工智能技术正以前所未有的速度发展,带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的
阿里资产显示,随着深圳柔宇显示技术有限公司(下称:“柔宇显示”)旗下资产一拍以流拍告终,二拍将于12月24日开拍,起拍价为9.8亿元。拍卖标的包括位于深圳市龙岗区的12套不动产和一批设备类资产,其中不
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
点击蓝字 关注我们电网和可再生能源系统向着更智能、更高效的方向发展助力优化能源分配构建更加绿色和可靠的能源未来12 月 24 日 上午 9:30 - 11:302024 德州仪器新能源基础设施技术直播
极越汽车闪崩,留下一地鸡毛,苦的是供应商和车主。很多人都在关心,下一个倒下的新能源汽车品牌,会是谁?我们都没有未卜先知的超能力,但可以借助数据管中窥豹。近日,有媒体统计了15家造车新势力的销量、盈亏情
上个月,亿万富翁埃隆·马斯克谈到了年轻一代的生育问题。他强调生育的紧迫性,认为无论面临何种困难,生育后代都是必要的,否则人类可能会在无声中走向消亡。他认为人们对于生育的担忧有些过头,担心经济压力等问题