过去这几个月,Intel酷睿13/14代台式机处理器的“缩缸”事件可谓沸沸扬扬。借着Intel发布终极声明的机会,我们尝试对该事件做个盘点、总结和分析。

电子工程专辑虽然并没有全线追Intel酷睿13/14代台式机处理器所谓的“缩缸”事件,不过此事还是在PC行业造成了相当影响的,也算是此前大半年Intel负面新闻不断的佐料之一了。

此事件最早可以追溯到今年上半年。部分用户和企业机构反应,酷睿13/14代处理器存在不稳定的情况,可能在高频点或高负载下,出现死机、蓝屏等现象。部分媒体对“缩缸”的定义是,处理器“体质缩水”,表现为CPU需要更高的电压才能维持稳定运行。

因为最近Intel就此事件发布了应该算是终极声明和最终解决方法。趁此机会,本文总结性质地谈谈事件前因后果——如果你也恰巧在用受影响的处理器,那么也能了解该怎么应对这波问题;顺便聊聊我们对其中问题的看法。

 

“缩缸”事件前因后果

受到该事件影响的处理器,主要包括面向台式机的酷睿13/14代i9和i7(也有说i5受影响的,只不过可能i5及更低型号发生问题的概率较低)——典型型号带K(如酷睿i9-14900K, 酷睿i7-13700KF等),也就是核心数更多、频率更高、可承载更高功耗的那一波。

未有笔记本CPU产品受影响的记录。Intel也在声明中强调了,除酷睿13/14代台式机处理器外,没有发现其他处理器产品受到该问题的影响。

这个问题持续发酵,可能有两个关键点:一是前两个月,部分酷睿13/14代处理器的游戏玩家,在初次启动某些游戏,进行shader编译时,发生编译失败的情况——这是典型的CPU高负载场景;另一,则是部分游戏公司及媒体下场研究和谈论酷睿13/14代处理器可能存在的问题。

Intel在此期间给出了多轮回应,也相继发布了一些BIOS更新尝试解决问题——包括锁PL2、控制CPU的运行电压、修复eTVB问题等策略...6月份,Intel提到会在7月底公布调查结果和解决方案。7月末我们也收到了Intel的官方声明,提及经过调查分析发现,“确定是过高的运行电压导致部分酷睿13/14代处理器出现不稳定情况”。

“...过高的运行电压由微代码算法造成,而该算法向处理器发送了错误的电压请求。”声明中还提到Intel会提供微代码补丁修复过高电压导致的根本问题。

8月份,Intel发布了针对酷睿13/14代台式机处理器的0x129微码更新。这份更新声明中提到,分析发现跨多核的Vmin(最小运行电压)因为升高的电压而大幅提升。升高电压事件(elevated voltage events)随时间累积,就会致使Vmin提升。所以0x129微码更新限制了电压请求,缓解处理器的不稳定。

不过当时Intel仍然提到了还在做持续调查分析,主要是那些会发生Vmin偏移的场景。同期Intel针对受影响处理器提供了延保服务,后文也会进一步提到。

上面这些应该是绝大部分关注此事件的读者,对此的主流认知。不过这次发布的“终极声明”还是言简意赅地给出了事件全貌的,下面尝试仔细研读。

 

终极声明中导致不稳定“根因”

最近Intel发布有关此事件的终极声明将此问题称为“Vmin Shift Instability”(最低运行电压偏移),基于上述解释应该就很好理解了:即Vmin偏移所致的处理器及系统不稳定——这个名称也算得上是一种总结归因。

一般我们说Vmin是处理器能够运行在100%稳定状态的最小电压。“Vmin shift”应该是从6月份以来,所有问题的最终呈现;当然“Instability”不稳定,就是用户感受到的结果了。

在这份终极声明中,Intel认为,“Vmin Shift Instability”的根本原因是“IA内核内的时钟树电路”(a clock tree circuit within the IA core),“其在升高的电压和温度下容易受到可靠性老化的影响”。“这些情况会导致时钟的占空比偏移和系统不稳定(duty cycle shift of the clocks and observed system instability)”

所谓的时钟树电路,我们也问了一下Copilot,解释是系统或硬件设计中的时钟分布网络。而所谓的时钟分布网络(clock distribution network),本身是数字电路中的一个系统,提供从中央源到电路各部分的时钟信号。

要打比方的话,可以将clock distribution想象成一棵树,树根就是时钟源(如晶振),时钟信号通往电路的不同组成部分——这个路径也就是树枝;树叶就是最终目的地。时钟分布的目标是确保时钟信号能够同时抵达电路的各部分,最小化延迟和变量。此过程中有好几个关键部件合作,确保时钟信号的准确传递。

从Intel的声明来看,Vmin shift问题就与处理器核心内的某时钟树电路有关,该电路在升高的电压和温度下,会发生可靠性下降。随后Intel又说,上述情况会导致“时钟的占空比偏移和系统不稳定”。这里的“时钟的占空比偏移”(duty cycle shift of the clock)咋理解呢?

时钟信号的duty cycle,指的应该是时钟信号激活状态下的周期。而duty cycle shift也就是该周期的偏移和变化。比如说,如果duty cycle从50%偏移到60%,整体也就影响到了系统的时序和同步。最终导致了不稳定。(理解差不多就是这样,若Copilot存在模型幻觉或者我们理解有偏差,欢迎各位同学留言指正...

 

除了这,还原一下问题全貌

基于对这份声明的理解,上述根因应当是导致Vmin Shift的核心原因。不过实际上,在过去几个月间,基于先后发布的多个缓解方案,Intel对于酷睿13/14代台式机处理器不稳定问题有4个阶段的研究和结果公布。

故此,终极声明中,Intel也总结性地回顾了导致Vmin Shift的4个运行场景。前3个问题,在此之前已经修复;而最后一阶段,也是Intel在此次声明中提及、本文前述的“根因”,并着手解决了由此带来的另一个问题。下面就针对这4个阶段或场景,一一谈一谈。

其一是主板供电设置“超出Intel建议设置”——这也是最早Intel在回应该问题时给出的说法。主板厂商的BIOS设定中,可能出厂就解锁PL2、自动超频,或者有各种核心性能强化方案,而没有采用Intel的建议设置:比如之前测过的华硕主板,普遍自带“多核心增强”选项。这里面可能就有增压方案。

不过我们认为这也合理,尤其旗舰主板市场竞争,谁都希望自家主板能跑出更好看的成绩——在这种情况下,主板厂商都不得不卯足劲儿尝试榨干处理器的每一点性能余量。且这一点可能也佐证了,部分媒体对于Intel酷睿13/14代台式机CPU “出厂即灰烬”的说法。即Intel留给主板厂商的可操作余量其实不及以前那么多。

所以针对这一场景的缓解措施建议,就是在主板BIOS设置中采用Intel Default Settings默认设置

其二,“高温下,eTVB微代码算法”仍然允许酷睿13/14代i9台式机处理器运行在更高性能状态下。eTVB的全称是“Enhanced Thermal Velocity Boost”。

对Intel酷睿处理器比较熟悉的读者应该知道,TVB是香港的一家电视台...是Intel于2018年引入的一项技术,官方文档解释说是当散热和功耗预算仍有空间的情况下,释放CPU额外的性能。一般认为,TVB是一种官超方案,可基于某些负载,进一步提升睿频频率,对游戏之类的应用相当有价值。

Intel此前对该问题的描述是eTVB可能错误计算了频率限制,让处理器(高温下仍)可在高频状态下运行。简单来说,也就是相关于eTVB的某个微码算法出现错误数值。6月份,Intel发布了0x125微码更新,解决该问题。

其三,“频繁和持续请求高电压的微代码SVID算法可能导致最低运行电压偏移”(Microcode SVID algorithm requesting high voltages at a frequency and duration which can cause Vmin shift)...

首先所谓的“微代码SVID算法”(microcode SVID algorithm)当然就是处理器微码的一部分,对应算法用于管理和请求处理器的电压,确保针对不同性能状态给出正确的电压。在基于负载和运行状态调节电压的问题上,它对于维持处理器稳定和高效还是比较关键的。

这句话的英文表意,应该是指基于某种模式的高电压请求(不管这里的frequency指的是核心频率,还是请求高电压的操作频率),会导致Vmin shift。今年8月,Intel在发现该问题后发布了微码0x129更新,“解决了处理器请求更高电压的问题”。

其四,就是这次终极的微码0x12B更新,尝试解决“微代码和BIOS代码请求升高的核心电压可能会导致最低运行电压偏移,特别是在空闲和/或轻度活动期间”,应当也是伴随前文提到的“根因”分析,所做的终极更新,“解决处理器在空闲和/或轻度活动期间的电压升高需要”。值得一提的是,0x12B也包含前述0x125与0x129更新。

从声明来看,现阶段Intel“正与合作伙伴共同努力,以推出相关的BIOS更新”。主板厂商应该会在后续几周发布对应的BIOS更新。

 

解决方案,及一点想法和建议

另外,Intel也在声明中提到,实测微码补丁并不会对处理器性能产生多大程度的影响(performance impact is within run-to-run variation)。所以对于正在使用酷睿13/14代台式机处理器的用户而言,当前要做的首先就是去主板厂商的官网看看,是否有对应0x12B微码更新的BIOS版本发布,并做及时更新。

但也需要明确,即如果使用的这些受影响的处理器长期处在Vmin shift问题状态下,则过高的电压最终会让CPU及早走向老化。长期高温高压对芯片寿命会产生影响,算是个常识。

说具体些,如高压会提升金属互联层的电流密度,长期致电迁移问题;还有所谓的Hot Carrier Injection热载流子注入会降低晶体管性能;高温随时间持续,导致PMOS晶体管的阈值电压偏移;以及TDDB电介质随时间变化击穿等等...

所以在保修政策方面,Intel也宣布“为受不稳定问题影响的英特尔酷睿第13/14代盒装/散装台式机处理器延长2年保修期”。已经出现不稳定问题(典型如碰到游戏shader编译过程崩溃问题)的用户,应当考虑申请售后。

最后谈一点我们自己的想法。前两个月正值缩缸问题影响最盛之时,我们就猜测,应当是处理器过高的默认电压致不稳定问题发生。主板厂商则在该问题的基础上,基于对极限性能的渴求,又“助推”了一把。所以前期某些仅锁定最高功率的做法,并不能解决问题。

部分使用undervolting方法来降压超频的用户也反应,他们并没有遭遇处理器不稳定问题。感觉这也应当佐证了高温高压是关键。

虽然不清楚,这次公布的根因(核心内的时钟树电路在升高的电压和温度下,发生时钟duty cycle偏移),作为Vmin shift的根本原因,与此前包括eTVB, SVID微码算法错误在内的问题,具体是什么样的逻辑关系(猜测可能是微码bug导致根因所致的Vmin shift问题进一步恶化,放大了问题),但长期跑在高温高压状态,无疑就是不稳定的问题关键所在。

这段故事落下帷幕,大概也能表现当代芯片设计的变量之多、复杂性提升的现状。EDA厂商过去这段时间的理念宣导,及他们所说的新市场机会,看起来还的确是那么回事…

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
使用旗下CUDA-Q平台,谷歌可以在英伟达Eos超算上动用1024块H100 Tensor核心GPU,以极低的成本执行全球最大、最快的量子设备动力学模拟,可以对容纳40个量子比特的设备进行全面、逼真的模拟。
为了应对这一挑战,英伟达正在与多家云服务提供商合作,共同优化散热方案,并强调工程迭代是正常且预期的一部分,但其交付时间或不得不再次推迟。
晶华微的信披问题并非首次被监管机构关注。2022年以来,公司及其多名高管已多次因信息披露不准确、募集资金管理和财务章使用不规范等问题收到上海证券交易所的监管警示。
最近国产AI芯片市场遭遇一波有关7nm被禁的震荡,现状如何了?
摩尔线程的全功能GPU芯片采用自研MUSA架构,内置图形渲染、视频编解码、AI计算加速、物理仿真和科学计算四大引擎。这些芯片能够支持多种工作负载,包括AI训练与推理加速、超高清视频编解码、物理仿真与科学计算等。
“机器狼群”是一种高度智能化的无人作战系统,由多个不同功能的“机器狼”组成,每个“机器狼”在团队中扮演特定角色,形成高效的协同作战单元。
自托管加密钱包是一种数字工具,它让用户可以完全掌控加密货币的私钥,特别是像比特币这样的数字资产。对于初次接触加密货币的用户来说,了解如何购买比特币是使用自托管钱包的第一步......
12月11-12日,“上海集成电路2024年度产业发展论坛暨第三十届集成电路设计业展览会”(ICCAD-Expo 2024)将在上海世博展览馆隆重举行。
NS800RT系列实时控制MCU凭借更加高效、功能更强大的实时控制能力和丰富的外设,使工程师能够在光伏/储能逆变器、不间断电源、工业自动化、协作机器人、新能源汽车大/小三电、空调压缩机等系统中,实现皮秒级别的PWM控制,从而显著提升系统运行精度和效率。
对于点击上面↑“电动知家”关注,记得加☆“星标”!电动知家消息,11月20日,小鹏汽车法务部官微发文称,近日,我们注意到在社交媒体及部分网络平台上流传着小鹏P7+采用了软包电池包的不实信息和谣言,且该
蓝牙(Bluetooth)技术又迎来了里程碑式进步。2024年9月,蓝牙技术联盟(Bluetooth SIG)发布了蓝牙核心规范6.0及其中新功能信道探测(Channel Sounding)。相比过去
5V2A高效节能电源管理方案:U9513B+U7710SM多年来,消费电子产品的电源设计人员一直致力于研发在额定功率输出及待机状态下均能最大限度地减少功耗的电源方案。从功率的角度来讲,无论是毫瓦级可穿
Google曾于2019年宣布退出平板市场,但在2023年藉由Pixel Tablet重返,然而,最新消息指出,Google可能再次退出这一领域!根据外媒Android Headlines的独家报导,
11 月 21 日消息,努比亚 Z70 Ultra 旗舰手机今日正式发布,延续了屏下前摄“真全面屏”设计,定价 4599 元起,现已开启预售,11 月 25 日上午 10 点正式开售。12GB + 2
三星的翻盖式摺叠手机 Galaxy Z Flip 系列近年频繁出现在韩剧中,凭借小巧可爱的外型掳获不少女性消费者喜爱!如今市场传出好消息,三星可能会在明年的Galaxy Z Flip 7 加码平价款机
蔚来小鹏奔向盈利”作者|刘雅杰编辑|秦章勇丢掉包袱,丢掉幻想,眼下新势力必须赚钱活下去,才是唯一出路。第三季度财报都已经发布,官方的说法大多是润色过的,比如理想是连续8个季度盈利,小鹏则效仿小米汽车,
文|萝吉所谓“哪里有流量,哪里就有生意”,这句不知出自哪个圈子的话,已经在各行各业被奉为圭臬,并在过去半年里,彻底席卷了整个汽车圈。从开抖音账号搞网红路线的基层销售,到时不时来场直播介绍产品的高层大佬
11 月 21 日消息,努比亚 Z70 Ultra 旗舰手机今日正式发布,延续了屏下前摄“真全面屏”设计,定价 4599 元起,现已开启预售,11 月 25 日上午 10 点正式开售。12GB + 2
印尼准备评估苹果公司提出的1亿美元投资提案,此时苹果公司试图说服政府解除对iPhone 16设下的销售禁令。印尼工业部在22日晚间发出的声明说,印尼确认已经收到苹果最新的投资提案,内容包含要在西爪哇省