一直听说x86指令集天生做不了低功耗,真的是这样吗?这篇文章着重谈谈酷睿Ultra二代是怎么考量低功耗的,有没有可能做到低功耗...

早年乃至现在,都一直有个传言:x86做不了低功耗,Arm做不了高性能。此间强调的是指令集差异。最老掉牙的依据是CISC复杂指令集和RISC精简指令集之争,或者延伸到Arm定长指令、x86变长指令导致后者有着更高的解码功耗,以及还有说x86的历史包袱更重的。

两年前,我们在《x86做不了低功耗CPU的传言,Arm笑而不语》一文中对此做了详细的解释。如果将“低功耗”和“高性能”窄化到PC和工作站平台,那么低功耗大约是指轻薄本上的低压/超低压处理器,高性能当然也就是台式机或工作站的处理器了。

苹果M系列芯片,乃至超过千亿晶体管的Mx Ultra工作站芯片发布,破除了Arm不能做高性能的偏见。不过x86这边,单纯就PC平台来看,Intel和AMD的处理器似乎的确总在设备续航上输苹果和高通一头。

前不久的IFA柏林电子展上,Intel正式发布Lunar Lake也就是酷睿Ultra 200V系列处理器,锚定9W-33W功耗区间内的轻薄本。我们在参观诸多OEM厂商的新品笔记本展示时,发现不少都将续航的数字标到了25小时以上。某些同系笔记本的酷睿Ultra版和骁龙版,前者比后者标称的续航数字还略多一点。

标称26小时续航的Acer Swift 14 AI

Intel在宣传中,更是把大量篇幅放在了Lunar Lake笔记本续航和能效上,而且直接拉来此前被大赞续航出色的骁龙X Elite直接比较。发布会上,Intel发言人更是数度提到Lunar Lake的问世,破除了此前很多人说x86不能做低功耗的错误言论。

那么我们就来谈谈,x86处理器究竟是怎么做低功耗的。

 

x86低功耗成果一览

再次重申,本文的“低功耗”限定在了PC处理器范围内,而非下探至手机与嵌入式应用的低功耗。Lunar Lake作为面向轻薄本的处理器,CPU部分延续了Intel过去几代性能核(P-core)+能效核(E-core)的异构方案。有所不同的是,这一代的P-core去掉了超线程设计。

加上统一4个性能核+4个能效核的设计,Lunar Lake大概是Intel近些年来面向笔记本的CPU中,核心数和线程数最少的产品了。只不过选配的Xe2核显,以及第四代NPU这两个关键加速器,在算力上倒是增加了不少。

纸面上CPU的核心与线程数配置,基本决定了Lunar Lake就是面向轻薄本的——目标对手是形如骁龙X Elite、苹果M3之类的处理器。而且严格意义上,高配骁龙X Elite的TDP功耗设定普遍还比Lunar Lake高一截。

Intel大概也是头一次这么认真地特别针对低功耗轻薄本做处理器宣传,应该也是看到了这个市场竞争的白热化。媒体会上,Intel格外强调“Lunar Lake的一切都是有关能效的”。

那么效果怎么样呢?目前只有Intel第一方公布的部分数据。首先是UL Procyon办公生产力测试,就是微软Office四件套的测试。酷睿Ultra 9 288V(Lunar Lake)性能比骁龙X1E-80-100(骁龙X Elite)略高7%左右,封装功耗相比上一代(酷睿Ultra 7 165H)低了50%+,也低于骁龙X Elite。

也就是说Lunar Lake用一半的功耗,在Office办公时就换来比Meteor Lake略高的性能。从每瓦性能的角度来看,Lunar Lake是Meteor Lake的2.29倍,比骁龙X1E-80-100也高出约20%。

另外就是直接比续航数据,同样是进行UL Procyon办公生产力测试,Lunar Lake比骁龙X Elite多出2小时续航(20.1小时 vs 18.4小时);如果是纯粹用于Teams会议,前者则比后者少2小时续航(10.7小时 vs 12.7小时)。这算是互有胜负。

Intel还特别强调,这是基于相同笔记本品牌和模具设计,极尽可能地让系统设计保持一致。值得一提的是,Intel官方宣传提到Lunar Lake能让笔记本续航达到20小时,数据出处应该就是这里。毕竟Lunar Lake轻薄本的一大受众就是用Office办公的白领。

综合与高通骁龙X Elite与AMD Ryzen AI笔记本做比,Intel得出的办公测试与Teams会议测试续航结果如上图。

据说这项比较中,Intel还略吃了点亏,因为对比选择的AMD Ryzen机型配了78Whr容量的电池,而酷睿Ultra 9 288V这边的笔记本电池容量仅有70Whr。我们认为,这组数据可能是更有参考价值的,即用户到手以后笔记本真正可能达成的续航时间。

总体数据是,在办公、网页浏览、视频会议、流媒体4K视频播放等应用场景下,Lunar Lake比上代Meteor Lake有着至多50%的整体功耗降低。而且这里的功耗是指Lunar Lake包含了片内DRAM的封装功耗,而上代的封装内是没有包含DRAM的。

另外还有一组数据是游戏功耗对比。这组对比主要考察的是iGPU核显功耗情况。Intel选择与上代Meteor Lake进行比较,在《刺客信条:英灵殿》《赛博朋克2077》《模拟农场22》三款游戏中,Lunar Lake达成的游戏帧率最多能够高出68%,而GPU功耗则至多降低了35%。

这项对比没有拉来高通骁龙的原因,应该是骁龙X的核显实际性能实在不值一提,而且一大半Windows生态下的游戏是跑不了的。我们在IFA活动现场,看到Lunar Lake基于1080p中画质跑《赛博朋克2077》和《古墓丽影:暗影》,加上AI超分以后,竟然也能跑60-70fps的帧率。

 

相比上代,为什么能做到低功耗?

如果说选择Windows on Arm的核心是续航,那么在骁龙X Elite作为Arm阵营的代表,笔记本续航已经不及x86阵营的新品,而且还要考虑Windows on Arm生态至今为止的贫瘠状态,普通用户选择Arm指令集处理器的Windows笔记本又为哪般呢?

本文还有一些数据没有给出,比如说Intel列举了在9-23W功耗段,CPU多线程性能测试中,Lunar Lake的每线程平均性能较上代Meteor Lake高出2-3倍(多线程性能÷总线程数),体现出CPU的能效大幅跃升;甚至提到这一代的8线程就干掉上一代的22线程。虽然我们认为这种比法有失偏颇,毕竟多线程发挥全力势必得在功耗给足的情况下。

据Intel自己所说,Lunar Lake相比骁龙X Elite少了4个核心,但后者达到50W封装功耗的SPEC2017性能,是前者在大约30W时就能达到的。所以Intel称Lunar Lake是“8核魔法”(8-Core Magic)。更详尽的数据,建议移步上周Lunar Lake发布报道文章

那么Lunar Lake究竟是怎么做低功耗的呢?

首先我们还是要不厌其烦地重申一次,低功耗与高性能与否的关键绝对不在指令集本身。Jim Keller在公开场合不止一次说过,“指令集关系真的没那么大”。这10+年来,也陆续有不少研究paper得出相同的结论,表明Arm和x86处理器在功耗和性能方面的差异源自设计目标差异,指令集本身不是决定因素;“implementation”最终实施方案才是最重要的。

IFA期间的媒体采访中,从冯大为(英特尔客户端计算事业部副总裁兼客户端细分市场部总经理)那儿得到了一些有关Intel在Lunar Lake之上达成低功耗的总结性信息,我们认为是颇有价值的:

“在Meteor Lake跑起来之后,两个LP E-core加上cache可以解决很多问题。但在很多应用上,尤其生产力应用或非性能指标应用,我们发现有一部分可以跑在Meteor Lake的两个LP E-core上,但要全部塞进去还是有困难。”

上代Meteor Lake的CPU设计包含了3个核心集群,分别是P-core, E-core, LP E-core。最后一个低功耗能效核位于低功耗岛,原本是为实现低功耗准备的。

Chip and Cheese此前撰文分析过,Meteor Lake一定程度未能如愿让LP E-core达成低功耗目标,一方面在于LP E-core性能过于孱弱(频率低);另一方面则是LP E-core缺失L3 cache,以及L2 cache过小,也很大程度影响到了LP E-core的IPC;导致在很多时候,让负载跑在LP E-core上就会极大影响性能和体验。

Meteor Lake的LP Ecore(低功耗能效核)和另外两个核心集群不在同一片die上

Robert Hallock(英特尔客户端计算事业部副总裁兼AI技术营销总经理)在媒体会上也略提了几句,“生产力、电话会议、网页浏览等负载是很常见的,如果不注意管理,这些负载会浪费很多功耗。我们发现Meter Lake的LP E-core集群要达到足够的性能目标还是不够的。”

“比如说10个人的视频会议,我们发现塞进去好像有困难。”冯大为在采访中说,“但Lunar Lake有两倍的能效核,加上两倍的存储资源之后,就完全可以塞进去了。”“很多生产力应用,比如Outlook, 浏览器是背景性的应用,用的时候才会打开。那就可以塞进去。”

“日常应用过程中就会发现,功耗降低感受特别明显。”当然还有像是“Memory on package(片内DRAM)也有贡献,整个封装比以前单独的CPU降低了很多,CPU本身的功耗降低了更多。”“每个部分都有贡献。我自己的感受是,两倍的LP E-core加上增大的cache贡献是更大的。”

上面那两片die stack就是和处理器封装在一起的DRAM内存

 

Lunar Lake达成低功耗的几个原因

从高层级架构设计来看,我们认为冯大为所说的大概的确是Lunar Lake达成低功耗的最重要因素——即低功耗岛理念的延续与优化。不过这不是全部。我们自己总结Lunar Lake做到低功耗和高能效的原因有以下几点。

其一,Intel未曾言明的,Lunar Lake的Compute Tile是基于台积电3nm工艺。也就是CPU, GPU, NPU所在那片die的制造工艺为3nm。维基百科明确这片tile/die的具体工艺节点为TSMC N3B。而上述对比中,Intel选的竞品普遍还在用4nm工艺,差着代。

虽然苹果身体力行地证明了,似乎3nm也没比4nm好太多,但工艺节点更新对酷睿Ultra处理器而言应当还是至关重要的。前两年Lisa Su在发布会上总结过提升芯片性能与能效的几个关键因素,制造工艺是其中大头。设计方法技术在此,不及制造工艺影响大。这一说法可能还是要具体问题具体分析,但制造工艺无疑是重要因素。

其二,就在于冯大为提到的,基于低功耗岛的设计理念,Lunar Lake追求对于E-core更积极的调用,也因此中低负载能够少唤醒高能耗部件。基于Lunar Lake的E-core所在位置及其与P-core的关系,令其角色定位更像Meteor Lake的LP E-core。这一点,至少还绑定了3个小点:

(a)本代E-core(Skymont)性能跃升,不仅大幅超过上代的LP E-core(Crestmont,据说是2倍单核性能,多核4倍),而且比前代Raptor Cove大核的IPC还要高;L2 cache增加至4MB;更重要的是compute tile上新增了全局8MB的Memory Side Cache——我们认为,这一全局cache为低功耗岛设计增色不少。

当然Skymont本身的微架构设计,对于达成跑在其上的负载做到低功耗,也是密不可分的。

(b)更细致的供电与电源管理方案。这应该算是个常规思路。供电部分,Lunar Lake共4个PMIC电源管理控制器,为不同组件实现尽可能丰富的电源轨,让P-core集群、E-core集群、图形和内存控制相关组成部分能够“独立运行”。

今年年中的Lunar Lake架构解析会上,Intel提到,在实现“细粒度电压轨道拓扑结构”的同时,“实现增强的遥测,更好地分辨电的使用状态,进行好的控制。”

顺带一提,电源管理引入的重要变化包括ITD(Intel Thread Director)线程调度辅助机制效率优化,如加强sleep状态功耗与延迟表现,基于机器学习进行负载分配和频率控制等...ITD作为低功耗实现的重点,实则也是此前Intel强调的一环,我们在架构解析文章中已经谈过,此处不做赘述。

这次媒体会上,Intel总结新版ITD的4大特性是:动态的调度策略;只要合适,仅使用单一的E-core;扩展到其他E-core,实现多线程;根据需求调度到性能核。简单来看,就是“E-core优先”的总体策略。这还是要依托于(a)列出的改进。

(c)核间通信低延迟。不知道是不是为了特意嘲讽高通和AMD,IFA期间的媒体会上,Intel还特意公布了Lunar Lake CPU核间通信延迟,以及访存延迟数据,尤其E-core到P-core的延迟为55ns——关注Ryzen和骁龙的读者应该知道,竞品CPU不同集群的核间通信延迟达到了这个数字的3-4倍,也是后两者被吐槽最多的问题。

将这一点列出来作为E-core调用更积极实现低功耗的一部分,是因为集群间通信的高延迟同样会影响“E-core优先”的基本设计策略。

其三,其他因素。包括P-core去掉了超线程设计、片内DRAM减少访存延迟与功耗、Xe2核显能效显著提升,还有诸如P-core基于AI的self-tuning controller作为加强的电源管理技术,核心频率以16.67MHz为步进实现更细粒度的频率调节大概都能算作实现低功耗的技术。

其中,Intel对于将内存封装到片内,给出的数据是“PHY功耗降低至多40%”;Xe2核显能效提升,在上述三款游戏的实测对比中也能看得出来...

而P-core去掉超线程设计,是我们在了解到Lunar Lake的微架构设计时就颇为赞许的。超线程在我们看来是更有时代特性的技术产物。冯大为在采访中虽然没有透露Intel是否有全面抛弃超线程技术的打算,不过他提到:“在十几二十年前台式机为主的时代,我们最重要的目的是将性能推到极致。”

而“搭载Lunar Lake的笔记本电脑,看重的是性能、功耗和其他所有能力的平衡”。“我们在引入能效核与混合架构之后,逐渐意识到用混合架构时,更多能效核其实是多线程性能功耗比的最优解。”

Robert在媒体会上提到,去掉超线程设计总体相较超线程,也能带来perf/power/area综合提升15%,关键是考虑这种设计可能带来功耗效益、面积效益的部分牺牲,换得整体更好的单位面积内单位功耗内的性能综合收益。“换句话说,相比于超线程设计,在达成CPU核心更小、更低功耗的前提下,获得更多的性能。”

不过他在演讲中还提到了这样一句话:“We're not always going to make this same decision, but it makes a ton of sense when you're fanatical about power like we were in Lunar Lake.”即Lunar Lake考虑到功耗上的要求,做去除超线程的决定是很合理的。但“我们并不总是做这样的决定”,或许意味着超线程会在未来的核心中再见。

 

接下来的轻薄本市场又有的看了

Intel自己总结Lunar Lake在功耗方面的关键创新如下图:

本文基本涵盖了其中的所有组成部分。这些改进就系统层面会为笔记本带来明显更长的续航时间,降低续航焦虑。不过Intel这次并未将Lunar Lake直接和苹果M系列芯片对比,还是略感遗憾的。

所以诸多OEM厂商在IFA上发布的笔记本新品,标注的续航时间都达到了25小时以上——虽然这些数字实际上并不具备日常使用的参考价值,但它也比Meteor Lake笔记本标称的续航时间至少多了8小时。有长续航、且确保了兼容性的Windows笔记本总算是要来了。

抛开Intel近两个月面临的一堆负面新闻,以及用以补足Lunar Lake市场覆盖的Arrow Lake的不确定性不谈,我们认为Lunar Lake颇有点儿当年Intel从Pentium 4转向Pentium M架构以及后续酷睿平台的魄力。

只要Lunar Lake不出什么幺蛾子,今年后续要推向市场的酷睿Ultra二代轻薄本的确是相当值得期待的;也在这样的市场环境下,开了个好头。

预计要采用酷睿Ultra 200V系列处理器的微星游戏掌机展示

LG Gram似乎也在Lunar Lake的首发名单里

华硕灵耀系列也是这次发布的关键产品

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 全篇的E core其实都讲的是LPE core。LPE和E的区别在于和P有没有挂在一个ring上
阅读全文,请先
您可能感兴趣
使用旗下CUDA-Q平台,谷歌可以在英伟达Eos超算上动用1024块H100 Tensor核心GPU,以极低的成本执行全球最大、最快的量子设备动力学模拟,可以对容纳40个量子比特的设备进行全面、逼真的模拟。
为了应对这一挑战,英伟达正在与多家云服务提供商合作,共同优化散热方案,并强调工程迭代是正常且预期的一部分,但其交付时间或不得不再次推迟。
晶华微的信披问题并非首次被监管机构关注。2022年以来,公司及其多名高管已多次因信息披露不准确、募集资金管理和财务章使用不规范等问题收到上海证券交易所的监管警示。
最近国产AI芯片市场遭遇一波有关7nm被禁的震荡,现状如何了?
摩尔线程的全功能GPU芯片采用自研MUSA架构,内置图形渲染、视频编解码、AI计算加速、物理仿真和科学计算四大引擎。这些芯片能够支持多种工作负载,包括AI训练与推理加速、超高清视频编解码、物理仿真与科学计算等。
“机器狼群”是一种高度智能化的无人作战系统,由多个不同功能的“机器狼”组成,每个“机器狼”在团队中扮演特定角色,形成高效的协同作战单元。
自托管加密钱包是一种数字工具,它让用户可以完全掌控加密货币的私钥,特别是像比特币这样的数字资产。对于初次接触加密货币的用户来说,了解如何购买比特币是使用自托管钱包的第一步......
12月11-12日,“上海集成电路2024年度产业发展论坛暨第三十届集成电路设计业展览会”(ICCAD-Expo 2024)将在上海世博展览馆隆重举行。
NS800RT系列实时控制MCU凭借更加高效、功能更强大的实时控制能力和丰富的外设,使工程师能够在光伏/储能逆变器、不间断电源、工业自动化、协作机器人、新能源汽车大/小三电、空调压缩机等系统中,实现皮秒级别的PWM控制,从而显著提升系统运行精度和效率。
对于点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,11月20日,小鹏汽车法务部官微发文称,近日,我们注意到在社交媒体及部分网络平台上流传着小鹏P7+采用了软包电池包的不实信息和谣言,且该
芯片超人现有1600平米芯片智能仓储基地,现货库存型号1000+,品牌高达100种,5000万颗现货库存芯片,总重量10吨,库存价值高达1亿+。同时,芯片超人在深圳设有独立实验室,每颗物料均安排QC质
蓝牙(Bluetooth)技术又迎来了里程碑式进步。2024年9月,蓝牙技术联盟(Bluetooth SIG)发布了蓝牙核心规范6.0及其中新功能信道探测(Channel Sounding)。相比过去
Google曾于2019年宣布退出平板市场,但在2023年藉由Pixel Tablet重返,然而,最新消息指出,Google可能再次退出这一领域!根据外媒Android Headlines的独家报导,
我是芯片超人花姐,入行20年,有40W+芯片行业粉丝。有很多不方便公开发公众号的,关于芯片买卖、关于资源链接等,我会分享在朋友圈。扫码加我本人微信👇近期电子人关注的焦点——德国慕尼黑电子展,在前两天结
对于点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,本月初,小鹏P7+正式上市,包含限定版在内一共有三款车型,售价区间为17.88-21.88万元,超高的性价比让鹏P7+成为小鹏汽车的又一
对于点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,在11月20日晚的电话财报会上,蔚来董事长、CEO李斌还立下了一个重大目标,公司2026年实现盈利。2025年蔚来目标实现100%的销量
11月18日,福建兆元光电有限公司(以下简称“兆元光电”)与厦门大学福建省半导体光电科技经济融合服务平台签署战略合作协议,双方将就Mini/Micro LED新型显示关键技术研发进行深入合作,推动Mi
尽管在2024年第三季度实现了盈利,AMS-Osram(艾迈斯欧司朗)近日宣布,公司将进一步扩大其“重建基地”的成本削减计划。这一决定预计将影响到超过500名非生产员工,标志着该公司在优化运营和提升财
11 月 21 日消息,努比亚 Z70 Ultra 旗舰手机今日正式发布,延续了屏下前摄“真全面屏”设计,定价 4599 元起,现已开启预售,11 月 25 日上午 10 点正式开售。12GB + 2