早年乃至现在,都一直有个传言:x86做不了低功耗,Arm做不了高性能。此间强调的是指令集差异。最老掉牙的依据是CISC复杂指令集和RISC精简指令集之争,或者延伸到Arm定长指令、x86变长指令导致后者有着更高的解码功耗,以及还有说x86的历史包袱更重的。
两年前,我们在《x86做不了低功耗CPU的传言,Arm笑而不语》一文中对此做了详细的解释。如果将“低功耗”和“高性能”窄化到PC和工作站平台,那么低功耗大约是指轻薄本上的低压/超低压处理器,高性能当然也就是台式机或工作站的处理器了。
苹果M系列芯片,乃至超过千亿晶体管的Mx Ultra工作站芯片发布,破除了Arm不能做高性能的偏见。不过x86这边,单纯就PC平台来看,Intel和AMD的处理器似乎的确总在设备续航上输苹果和高通一头。
前不久的IFA柏林电子展上,Intel正式发布Lunar Lake也就是酷睿Ultra 200V系列处理器,锚定9W-33W功耗区间内的轻薄本。我们在参观诸多OEM厂商的新品笔记本展示时,发现不少都将续航的数字标到了25小时以上。某些同系笔记本的酷睿Ultra版和骁龙版,前者比后者标称的续航数字还略多一点。
标称26小时续航的Acer Swift 14 AI
Intel在宣传中,更是把大量篇幅放在了Lunar Lake笔记本续航和能效上,而且直接拉来此前被大赞续航出色的骁龙X Elite直接比较。发布会上,Intel发言人更是数度提到Lunar Lake的问世,破除了此前很多人说x86不能做低功耗的错误言论。
那么我们就来谈谈,x86处理器究竟是怎么做低功耗的。
x86低功耗成果一览
再次重申,本文的“低功耗”限定在了PC处理器范围内,而非下探至手机与嵌入式应用的低功耗。Lunar Lake作为面向轻薄本的处理器,CPU部分延续了Intel过去几代性能核(P-core)+能效核(E-core)的异构方案。有所不同的是,这一代的P-core去掉了超线程设计。
加上统一4个性能核+4个能效核的设计,Lunar Lake大概是Intel近些年来面向笔记本的CPU中,核心数和线程数最少的产品了。只不过选配的Xe2核显,以及第四代NPU这两个关键加速器,在算力上倒是增加了不少。
纸面上CPU的核心与线程数配置,基本决定了Lunar Lake就是面向轻薄本的——目标对手是形如骁龙X Elite、苹果M3之类的处理器。而且严格意义上,高配骁龙X Elite的TDP功耗设定普遍还比Lunar Lake高一截。
Intel大概也是头一次这么认真地特别针对低功耗轻薄本做处理器宣传,应该也是看到了这个市场竞争的白热化。媒体会上,Intel格外强调“Lunar Lake的一切都是有关能效的”。
那么效果怎么样呢?目前只有Intel第一方公布的部分数据。首先是UL Procyon办公生产力测试,就是微软Office四件套的测试。酷睿Ultra 9 288V(Lunar Lake)性能比骁龙X1E-80-100(骁龙X Elite)略高7%左右,封装功耗相比上一代(酷睿Ultra 7 165H)低了50%+,也低于骁龙X Elite。
也就是说Lunar Lake用一半的功耗,在Office办公时就换来比Meteor Lake略高的性能。从每瓦性能的角度来看,Lunar Lake是Meteor Lake的2.29倍,比骁龙X1E-80-100也高出约20%。
另外就是直接比续航数据,同样是进行UL Procyon办公生产力测试,Lunar Lake比骁龙X Elite多出2小时续航(20.1小时 vs 18.4小时);如果是纯粹用于Teams会议,前者则比后者少2小时续航(10.7小时 vs 12.7小时)。这算是互有胜负。
Intel还特别强调,这是基于相同笔记本品牌和模具设计,极尽可能地让系统设计保持一致。值得一提的是,Intel官方宣传提到Lunar Lake能让笔记本续航达到20小时,数据出处应该就是这里。毕竟Lunar Lake轻薄本的一大受众就是用Office办公的白领。
综合与高通骁龙X Elite与AMD Ryzen AI笔记本做比,Intel得出的办公测试与Teams会议测试续航结果如上图。
据说这项比较中,Intel还略吃了点亏,因为对比选择的AMD Ryzen机型配了78Whr容量的电池,而酷睿Ultra 9 288V这边的笔记本电池容量仅有70Whr。我们认为,这组数据可能是更有参考价值的,即用户到手以后笔记本真正可能达成的续航时间。
总体数据是,在办公、网页浏览、视频会议、流媒体4K视频播放等应用场景下,Lunar Lake比上代Meteor Lake有着至多50%的整体功耗降低。而且这里的功耗是指Lunar Lake包含了片内DRAM的封装功耗,而上代的封装内是没有包含DRAM的。
另外还有一组数据是游戏功耗对比。这组对比主要考察的是iGPU核显功耗情况。Intel选择与上代Meteor Lake进行比较,在《刺客信条:英灵殿》《赛博朋克2077》《模拟农场22》三款游戏中,Lunar Lake达成的游戏帧率最多能够高出68%,而GPU功耗则至多降低了35%。
这项对比没有拉来高通骁龙的原因,应该是骁龙X的核显实际性能实在不值一提,而且一大半Windows生态下的游戏是跑不了的。我们在IFA活动现场,看到Lunar Lake基于1080p中画质跑《赛博朋克2077》和《古墓丽影:暗影》,加上AI超分以后,竟然也能跑60-70fps的帧率。
相比上代,为什么能做到低功耗?
如果说选择Windows on Arm的核心是续航,那么在骁龙X Elite作为Arm阵营的代表,笔记本续航已经不及x86阵营的新品,而且还要考虑Windows on Arm生态至今为止的贫瘠状态,普通用户选择Arm指令集处理器的Windows笔记本又为哪般呢?
本文还有一些数据没有给出,比如说Intel列举了在9-23W功耗段,CPU多线程性能测试中,Lunar Lake的每线程平均性能较上代Meteor Lake高出2-3倍(多线程性能÷总线程数),体现出CPU的能效大幅跃升;甚至提到这一代的8线程就干掉上一代的22线程。虽然我们认为这种比法有失偏颇,毕竟多线程发挥全力势必得在功耗给足的情况下。
据Intel自己所说,Lunar Lake相比骁龙X Elite少了4个核心,但后者达到50W封装功耗的SPEC2017性能,是前者在大约30W时就能达到的。所以Intel称Lunar Lake是“8核魔法”(8-Core Magic)。更详尽的数据,建议移步上周Lunar Lake发布报道文章。
那么Lunar Lake究竟是怎么做低功耗的呢?
首先我们还是要不厌其烦地重申一次,低功耗与高性能与否的关键绝对不在指令集本身。Jim Keller在公开场合不止一次说过,“指令集关系真的没那么大”。这10+年来,也陆续有不少研究paper得出相同的结论,表明Arm和x86处理器在功耗和性能方面的差异源自设计目标差异,指令集本身不是决定因素;“implementation”最终实施方案才是最重要的。
IFA期间的媒体采访中,从冯大为(英特尔客户端计算事业部副总裁兼客户端细分市场部总经理)那儿得到了一些有关Intel在Lunar Lake之上达成低功耗的总结性信息,我们认为是颇有价值的:
“在Meteor Lake跑起来之后,两个LP E-core加上cache可以解决很多问题。但在很多应用上,尤其生产力应用或非性能指标应用,我们发现有一部分可以跑在Meteor Lake的两个LP E-core上,但要全部塞进去还是有困难。”
上代Meteor Lake的CPU设计包含了3个核心集群,分别是P-core, E-core, LP E-core。最后一个低功耗能效核位于低功耗岛,原本是为实现低功耗准备的。
Chip and Cheese此前撰文分析过,Meteor Lake一定程度未能如愿让LP E-core达成低功耗目标,一方面在于LP E-core性能过于孱弱(频率低);另一方面则是LP E-core缺失L3 cache,以及L2 cache过小,也很大程度影响到了LP E-core的IPC;导致在很多时候,让负载跑在LP E-core上就会极大影响性能和体验。
Meteor Lake的LP Ecore(低功耗能效核)和另外两个核心集群不在同一片die上
Robert Hallock(英特尔客户端计算事业部副总裁兼AI技术营销总经理)在媒体会上也略提了几句,“生产力、电话会议、网页浏览等负载是很常见的,如果不注意管理,这些负载会浪费很多功耗。我们发现Meter Lake的LP E-core集群要达到足够的性能目标还是不够的。”
“比如说10个人的视频会议,我们发现塞进去好像有困难。”冯大为在采访中说,“但Lunar Lake有两倍的能效核,加上两倍的存储资源之后,就完全可以塞进去了。”“很多生产力应用,比如Outlook, 浏览器是背景性的应用,用的时候才会打开。那就可以塞进去。”
“日常应用过程中就会发现,功耗降低感受特别明显。”当然还有像是“Memory on package(片内DRAM)也有贡献,整个封装比以前单独的CPU降低了很多,CPU本身的功耗降低了更多。”“每个部分都有贡献。我自己的感受是,两倍的LP E-core加上增大的cache贡献是更大的。”
上面那两片die stack就是和处理器封装在一起的DRAM内存
Lunar Lake达成低功耗的几个原因
从高层级架构设计来看,我们认为冯大为所说的大概的确是Lunar Lake达成低功耗的最重要因素——即低功耗岛理念的延续与优化。不过这不是全部。我们自己总结Lunar Lake做到低功耗和高能效的原因有以下几点。
其一,Intel未曾言明的,Lunar Lake的Compute Tile是基于台积电3nm工艺。也就是CPU, GPU, NPU所在那片die的制造工艺为3nm。维基百科明确这片tile/die的具体工艺节点为TSMC N3B。而上述对比中,Intel选的竞品普遍还在用4nm工艺,差着代。
虽然苹果身体力行地证明了,似乎3nm也没比4nm好太多,但工艺节点更新对酷睿Ultra处理器而言应当还是至关重要的。前两年Lisa Su在发布会上总结过提升芯片性能与能效的几个关键因素,制造工艺是其中大头。设计方法技术在此,不及制造工艺影响大。这一说法可能还是要具体问题具体分析,但制造工艺无疑是重要因素。
其二,就在于冯大为提到的,基于低功耗岛的设计理念,Lunar Lake追求对于E-core更积极的调用,也因此中低负载能够少唤醒高能耗部件。基于Lunar Lake的E-core所在位置及其与P-core的关系,令其角色定位更像Meteor Lake的LP E-core。这一点,至少还绑定了3个小点:
(a)本代E-core(Skymont)性能跃升,不仅大幅超过上代的LP E-core(Crestmont,据说是2倍单核性能,多核4倍),而且比前代Raptor Cove大核的IPC还要高;L2 cache增加至4MB;更重要的是compute tile上新增了全局8MB的Memory Side Cache——我们认为,这一全局cache为低功耗岛设计增色不少。
当然Skymont本身的微架构设计,对于达成跑在其上的负载做到低功耗,也是密不可分的。
(b)更细致的供电与电源管理方案。这应该算是个常规思路。供电部分,Lunar Lake共4个PMIC电源管理控制器,为不同组件实现尽可能丰富的电源轨,让P-core集群、E-core集群、图形和内存控制相关组成部分能够“独立运行”。
今年年中的Lunar Lake架构解析会上,Intel提到,在实现“细粒度电压轨道拓扑结构”的同时,“实现增强的遥测,更好地分辨电的使用状态,进行好的控制。”
顺带一提,电源管理引入的重要变化包括ITD(Intel Thread Director)线程调度辅助机制效率优化,如加强sleep状态功耗与延迟表现,基于机器学习进行负载分配和频率控制等...ITD作为低功耗实现的重点,实则也是此前Intel强调的一环,我们在架构解析文章中已经谈过,此处不做赘述。
这次媒体会上,Intel总结新版ITD的4大特性是:动态的调度策略;只要合适,仅使用单一的E-core;扩展到其他E-core,实现多线程;根据需求调度到性能核。简单来看,就是“E-core优先”的总体策略。这还是要依托于(a)列出的改进。
(c)核间通信低延迟。不知道是不是为了特意嘲讽高通和AMD,IFA期间的媒体会上,Intel还特意公布了Lunar Lake CPU核间通信延迟,以及访存延迟数据,尤其E-core到P-core的延迟为55ns——关注Ryzen和骁龙的读者应该知道,竞品CPU不同集群的核间通信延迟达到了这个数字的3-4倍,也是后两者被吐槽最多的问题。
将这一点列出来作为E-core调用更积极实现低功耗的一部分,是因为集群间通信的高延迟同样会影响“E-core优先”的基本设计策略。
其三,其他因素。包括P-core去掉了超线程设计、片内DRAM减少访存延迟与功耗、Xe2核显能效显著提升,还有诸如P-core基于AI的self-tuning controller作为加强的电源管理技术,核心频率以16.67MHz为步进实现更细粒度的频率调节大概都能算作实现低功耗的技术。
其中,Intel对于将内存封装到片内,给出的数据是“PHY功耗降低至多40%”;Xe2核显能效提升,在上述三款游戏的实测对比中也能看得出来...
而P-core去掉超线程设计,是我们在了解到Lunar Lake的微架构设计时就颇为赞许的。超线程在我们看来是更有时代特性的技术产物。冯大为在采访中虽然没有透露Intel是否有全面抛弃超线程技术的打算,不过他提到:“在十几二十年前台式机为主的时代,我们最重要的目的是将性能推到极致。”
而“搭载Lunar Lake的笔记本电脑,看重的是性能、功耗和其他所有能力的平衡”。“我们在引入能效核与混合架构之后,逐渐意识到用混合架构时,更多能效核其实是多线程性能功耗比的最优解。”
Robert在媒体会上提到,去掉超线程设计总体相较超线程,也能带来perf/power/area综合提升15%,关键是考虑这种设计可能带来功耗效益、面积效益的部分牺牲,换得整体更好的单位面积内单位功耗内的性能综合收益。“换句话说,相比于超线程设计,在达成CPU核心更小、更低功耗的前提下,获得更多的性能。”
不过他在演讲中还提到了这样一句话:“We're not always going to make this same decision, but it makes a ton of sense when you're fanatical about power like we were in Lunar Lake.”即Lunar Lake考虑到功耗上的要求,做去除超线程的决定是很合理的。但“我们并不总是做这样的决定”,或许意味着超线程会在未来的核心中再见。
接下来的轻薄本市场又有的看了
Intel自己总结Lunar Lake在功耗方面的关键创新如下图:
本文基本涵盖了其中的所有组成部分。这些改进就系统层面会为笔记本带来明显更长的续航时间,降低续航焦虑。不过Intel这次并未将Lunar Lake直接和苹果M系列芯片对比,还是略感遗憾的。
所以诸多OEM厂商在IFA上发布的笔记本新品,标注的续航时间都达到了25小时以上——虽然这些数字实际上并不具备日常使用的参考价值,但它也比Meteor Lake笔记本标称的续航时间至少多了8小时。有长续航、且确保了兼容性的Windows笔记本总算是要来了。
抛开Intel近两个月面临的一堆负面新闻,以及用以补足Lunar Lake市场覆盖的Arrow Lake的不确定性不谈,我们认为Lunar Lake颇有点儿当年Intel从Pentium 4转向Pentium M架构以及后续酷睿平台的魄力。
只要Lunar Lake不出什么幺蛾子,今年后续要推向市场的酷睿Ultra二代轻薄本的确是相当值得期待的;也在这样的市场环境下,开了个好头。
预计要采用酷睿Ultra 200V系列处理器的微星游戏掌机展示
LG Gram似乎也在Lunar Lake的首发名单里
华硕灵耀系列也是这次发布的关键产品
- 全篇的E core其实都讲的是LPE core。LPE和E的区别在于和P有没有挂在一个ring上