Arm微架构分析系列3——Arm的X计划

Linux阅码场 2023-06-16 08:02

1. 引言


前文介绍了Arm公司近几年在移动处理器市场推出的Cortex-A系列处理器。Cortex-A系列处理器每年迭代,性能和能效不断提升,是一款非常成功的产品。但是,Arm并不满足于Cortex-A系列每年的架构小幅度升级,又推出了X计划,也就是Cortex-X产品线。Cortex-X系列处理器采用了激进的架构设计,大幅度提升移动处理器的性能(俗称超级大核),本文将重点介绍Arm的Cortex-X系列产品。


2. X计划起源


Cortex-X计划起源可以追溯到2016年,当时Arm推出了一个新的客户Licence叫做“Build on Cortex”,允许用户请Arm基于Cortex核心做一些定制优化,如可以增加或者减少Cache数量等,客户如高通公司一直是该计划的使用方,用于开发和迭代每年的Kyro系列处理器。到了2020年,Arm公司正式宣布推出Cortex-X这一全新的高性能处理器设计计划。Cortex-X计划的目标是为高端移动平台、云服务场景、边缘计算和高性能计算设备提供更快、更强大的处理器核心。


Cortex-X系列定制处理器计划,相比2016年的定制方案要更加深入,Cortex-X系列处理器的目标是给用户提供足够强大性能的核心,在此计划下芯片厂商可以早期参与Arm的Cortex处理器架构设计,并基于 Cortex-X 核心进行定制优化,以适应自己的产品需求。但是从产品的表现看,由于Arm每年都在迭代Cortex-X系列处理器(2023,第四年,预计会更新Cortex-X4),迭代速度和周期都非常快,芯片厂商并没有针对X系列处理器特殊定制微架构,而是通过搭配不同尺寸的缓存,设计出面向不同价位段的产品。


Cortex-X系列的出现,和市场竞争日益激烈,芯片厂商有较强需求相关。市场上,苹果公司坚持自己研发A系列处理器, 苹果的A系列处理器是专为iPhone和iPad设备设计的自研处理器,基于Arm指令集,苹果自己设计并优化了微架构。从2010年推出的A4处理器开始推出第一款量产产品,当前苹果A系列处理器已发展到A16(2022年)。A系列处理器一直采用较为激进的微架构设计,通过强大的计算能力领先行业。最新A16还是保持Armv8指令集,没有升级到Armv9指令集,最后我们会简单对比下Cortex-X系列和苹果的A系列处理器的差异。


2017年至2022年的Arm系列处理器

 

3. Cortex-X1:第一代Cortex-X处理器


2020年5月,Arm发布了基于Armv8.2架构的最后一款处理器Cortex-A78,同时还发布了一颗性能更强大的Cortex-X1处理器。Cortex-X1 处理器比之前的 Cortex-A77 提升了 30% 的性能,由于采用大缓存的设计架构,还提升了 23% 的芯片能效。简单总结下,X1提供了更强的性能,整体更优秀的能效,但是极限功耗高于Cortex-A78。



Cortex-X1性能强大,能效有明显改善,但是由于增大了缓存和处理单元,使得芯片的整体面积增大不少,厂商往往出于成本考虑,一般在处理器中只会放置一颗Cortex-X系列处理器来提升单线程的峰值性能。从Cortex-X1出现后,市场上的旗舰处理器架构发生了变化,逐步从4+4架构,演变成有一个超级大核心的1+3+4架构。


下图是一个典型示意图,在5nm工艺下如果仅升级到A78,性能提升20%,面积可以减少15%;在5nm工艺下升级到1个X1+3个A78,L3增大,峰值性能可以提升30%,但是面积要增加15%,一来一回差异30%芯片面积,这样看来,旗舰芯片要涨价也情有可原了。






我们看一下Cortex-X1的微架构细节,相比A78,Cortex-X1具体有以下提升:

1、BPU分枝预测单元的L0 BTB从64提升到96,增加50%;

2、前端Decode从4路提升到5路;

3、MOP通路从6路提升到8路;

4、MOP Cache从1.5K提升到3K,增大一倍;

5、ROB缓冲从160(推测)提升到224(参考,AMD的Zen2处理器的ROB是224);

6、L1\L2\L3都较大,分别是64KB起、256KB起、最多8MB;

7、执行单元整数和存储部分变化不大,浮点单元相比A78提供了2倍的NEON单元,可以同时提供4个128bit运算能力;

8、存储单元通路虽然没有变化,但是其Load\Store的缓冲数量增加了33%。


下面用一张表格列举了一些微架构的核心变化:



第一代的Cortex-X1还是使用的Armv8.2的指令集,并没有升级到Armv9,似乎Arm觉得要在2021年同时发布Armv9和全新的Cortex-A、Cortex-X系列压力有点大,所以提前将Cortex-X1的发布放在了2020年。


可惜,Cortex-X1的命运可谓生不逢时,2020年采用Cortex-X1的典型旗舰处理器有三星的Exynos 2100和高通的Snapdragon 888,这两款处理器都搭载了三星的5nm工艺(5LPE),这一次三星工艺翻车了,架构的提升得不到工艺的补偿,导致这两款处理器的性能和功耗的表现都不是很好。目前(2023年)市面上还活跃着不少采用A78处理器架构的芯片,如MTK的天玑8100、8200等处理器,但是已经鲜少看到搭载Cortex-X1处理器的芯片了。



4. Cortex-X2:第二代Cortex-X处理器


2021年5月,Arm的Cortex-X2系列处理器如期而至。这一次,Cortex-X2正式升级到了Armv9新架构,搭载了SVE2指令集,并且只支持运行64bit软件。还记得A710的产品代号叫做Matterhorn么?这一代Arm为了更好的记忆产品代号,将Cortex-X2处理器的产品代号命名为Matterhorn-ELP,后续Cortex-X系列应该也是基于同期Cortex-A系列的产品代号,增加ELP后缀,ELP的全称是Enhanced Lead Partner的意思。


第一代的Cortex-X1由于搭配工艺的原因导致整体不佳的表现并没有掩埋Cortex-X系列微架构的成功,Arm计划将Cortex-X系列发扬光大,后续我们看到的也是每年一更新的快速迭代节奏。如此快速的更新节奏,芯片厂商也很难深度定制,后续各大厂商发布的几款采用Cortex-X系列处理器的产品,还是采用了Arm的公版架构,基于产品的价位段,在Cache容量上做一些差异化的配置。



从上图中可见,Arm对于两个系列的策略有所不同,Cortex-A系列主打均衡能效并小幅度改善性能 ,Cortex-X2相比Cortex-X1在性能上有更明显的提升,进一步拉开了A系列和X系列的性能差距,由此可见Cortex-X系列的目标是推进Arm核心架构的算力提升和突破。





从互联网上可以找到Cortex-X2的微架构框图,我们可以此对比Cortex-X2和Cortex-X1的微架构差异,并分析影响性能提升的因素。Cortex-X2相比Cortex-X1,在微架构上有以下变化:

1、将分支预测和Fetch解耦,提升并行度;

2、指令流水线从11级减少到10级,dispatch从2个时钟周期减少到1个时钟周期;

3、ROB缓冲从224提升到288,提升了30%;

4、支持SVE2 SIMD指令集;

5、ML能力支持Bfloat16;

6、取消了Aarch32支持;

7、Load\Store结构体缓冲提升33%;

8、d-TLB从40提升到48,提升了20%;




再来看看具体性能数据,Arm宣称Cortex-X2相比Cortex-X1在整数性能上提升了16%,在ML能力上提升了2倍。回顾一下A710,Arm宣称的数据是相比A78提升了10%的整数性能。从能效曲线上看,Cortex-X2的最大性能和功耗都有增加,能效在低频率区间和Cortex-X1差异不大,在中高频率区间相比Cortex-X1有改善。由于极限功耗持续增加,对于散热能力和发热策略改善提出了更大的诉求和压力。


2021年,第一代搭载了Cortex-X2的处理器高通8Gen1,由于采用了三星4nm LPX工艺,性能功耗的表现不是很理想,后续高通将工艺切换到台积电4nm工艺,在2022年推出了同样设计的8+Gen1处理器,宣称CPU功耗降低了30%,这才发挥出了Cortex-X2的实力,目前有多部热门手机搭载,当前也是Cortex-X系列产品中卖的最好一代。


5. Cortex-X3:第三代Cortex-X处理器


2022年6月,市场上还在关注升级新工艺的Cortex-X2系列处理器产品时,Arm发布了当年的新品Cortex-X3,Cortex-X3的代号是Makalu-ELP,和同期Coretex-A715的代号Makalu保持一致。2021年的Cortex-X2肩负着升级Armv9指令集的任务,在微架构上的修改上相比第一代并不是很多。新一代的Cortex-X3在微架构上的升级和变化要更多一些,后续我们会详细分析。性能上,Arm宣称Cortex-X3在性能相比上一代IPC提升11%,综合性能有22%的提升(包含工艺的提升)。


从Cortex-X2开始,X系列处理器就不再支持32bit应用,这一代Arm继续针对64bit进行微架构的优化,通过剔除和优化一些陈旧的32bit兼容设计,进一步提升64bit应用程序的执行效率。


下面我们具体看一下Cortex-X3微架构相比上一代的变化:


1、MOP Cache尺寸变化。随着半导体工艺的持续演进,接下来的3nm新工艺将继续缩小半导体器件的尺寸,但是,在半导体中SRAM的尺寸并没有随器件尺寸缩小而同步缩小。如何减少SRAM的占用,是对先进工艺设计提出的一个考验。在Cortex-X3的前端设计中,Arm将L0的MOP Cacha的SRAM从上一代的3K减少到1.5K,推测也是为了减少未来在先进工艺中SRAM的占比。同时,Arm提出通过优化Cache的填充算法,来做到尽量不影响性能。记得MOP Cache在A77引入时就有讨论过,1.5K的容量就可以达到85%的命中率,增加容量带来的边际效益也增加,所以增大Cache带来的效果提升会越来越小,所以这次Arm将Cortex-X3的MOP Cache降低到1.5K(同期的A715则是取消了MOP Cache)。


2、Fetch-decode通路从5路提升到6路,Fetch能力提升了20%;


3、在ROB重排序缓冲区上,上一代Cortex-X2是228个,Cortex-X3继续提升11%,达到了320 entries;



4、Arm继续提升Cortex-X3的分支预测能力,L1 BTB从64提升到96,L2 BTB从16384提升到24576。分支预测单元通过解耦合设计,和Fetch形成两条核心指令通路,大幅提升同步执行效率,一旦发生了分支错误,可以快速从BTB缓冲中拿到需要的指令,进行快速切换。通过这些优化,Arm宣称平均分支预测延迟周期数减少了12.2%,整体执行流程中Stall占比降低了3%;



5、在分支预测模块上持续优化,Cortex-x3中为indirect branches新增了一个独立预测单元,并提升了conditional branches的准确率,Arm宣称平均的分支预测错误率可以降低6.1%;



6、流水线的优化,Cortex-X3继续优化了流水线,从10级优化到9级,主要是优化了MOP Cache的读取周期;



7、执行单元上,这次Cortex-X3大幅度提升了整型ALU的数量,从4个提升到6个,是一个比较大的变化,整体从2个branch+2个ALU变化为2个branch+4个ALU,主要是提升了整型性能;



8、访存单元上,因为提升了ALU的数量,相应的整型读取带宽也从24提升到了32,并且增加了两个额外的数据预取模块。


上面是Cortex-X3的微架构框图,我们把X1至X3放在同一张表中对比:


6、Cortex-X3和苹果处理器的对比


Cortex-X系列处理器通过三代的迭代,不断升级微架构提升性能,其单核心有明显提升,已经在拉近苹果A系列处理器和Intel台式机处理器的差距。图中对比了不同处理器的单核心的性能,可以看到Cortex-X3相比Cortex-X2有进一步的提升,距苹果的A15处理器还有一些差距。目前我还没有找到苹果A15处理器的微架构,但是有找到2020年A14处理器大核心(Firestorm)的微架构,下面通过表格做了一个对比。




从Cortex-X系列和苹果A14的对比可以看出,苹果在设计A系列处理器时对于微架构的调整更加激进,采用了更大的L1、L2缓存,Decoder数量更多,而ROB缓冲的尺寸几乎是Cortex-X系列的一倍,这也对于指令重排序的效率和算法优化能力提出了更高的要求。


虽然Cortex-X系列每年迭代,相比苹果的A系列激进的设计,目前还存在一定的差距。但是随着Cortex-X系列处理器的每年迭代更新,我们也希望看到在微架构能力上打平甚至超过竞品的那一天。


由于苹果在A系列处理器采用大缓存大尺寸设计,在智能手机产品中一般是放置两颗大核心,采用2+4的架构。采用Cortex-X系列处理器的安卓手机,一般采用八核心的架构,例如最新的高通8Gen2处理器,采用1个Cortex-X3+2个A715+2个A710+3个A510的组合架构,提供了5个大核心的算力,在多核心算力上相比6核心有多2个核心的优势,一定程度上弥补了多核心的差距。

 

7、总结和对Cortex-X4处理器的期望


距2023年中Arm发布Cortex-X4处理器的时间不远了,下一代的Cortex-X4处理器的代号叫做Hunter-ELP,期望这一代的“猎人”能给我们带来更多的惊喜,新的架构改了什么地方,有多少性能提升,我也会第一时间关注和分享。


Arm公司通过三年时间迭代Cortex-X系列处理器,每年的性能上都有两位数的提升,切实让消费者使用上了更快更强的处理器和产品,这半年来,采用Cortex-X2和Cortex-X3系列架构的高通8+Gen1、8Gen2、MTK的天玑9200等处理器的市场口碑都很不错。


此外,高通的8Gen2处理器还第一次打破了传统4颗大核心的架构,提供了1+4+3的5颗大核心配置组合。期望未来的产品不但可以看到Arm的最新架构,而且可以看到更多有意思的CPU核心架构组合,如果可以在一个处理器中放置多颗Cortex-X核心,相信基于Cortex-X系列的Arm处理器也可以挑战苹果 A系列处理器综合性能。



参考链接

1、https://www.anandtech.com/show/15813/arm-cortex-a78-cortex-x1-cpu-ip-diverging

2、https://fuse.wikichip.org/news/3543/arm-cortex-x1-the-first-from-the-cortex-x-custom-program/

3、https://en.wikipedia.org/wiki/ARM_Cortex-X1

4、https://en.wikipedia.org/wiki/ARM_Cortex-X2

5、https://fuse.wikichip.org/news/6855/arm-unveils-next-gen-flagship-core-cortex-x3/

6、https://www.techinsights.com/blog/cortex-x3-powers

7、https://www.hwcooling.net/en/cortex-x3-the-new-fastest-arm-core-architecture-analysis/

8、https://twitter.com/Cardyak


点击链接可查看往期系列文章:
从A76到A78——在变化中学习ARM微架构

Arm微架构学习系列2——开启Armv9时代


长按关注内核工匠微信

Linux内核黑科技| 技术文章 | 精选教程

Linux阅码场 专业的Linux技术社区和Linux操作系统学习平台,内容涉及Linux内核,Linux内存管理,Linux进程管理,Linux文件系统和IO,Linux性能调优,Linux设备驱动以及Linux虚拟化和云计算等各方各面.
评论 (0)
  • 曾经听过一个“隐形经理”的故事:有家公司,新人进来后,会惊讶地发现老板几乎从不在办公室。可大家依旧各司其职,还能在关键时刻自发协作,把项目完成得滴水不漏。新员工起初以为老板是“放羊式”管理,结果去茶水间和老员工聊过才发现,这位看似“隐形”的管理者其实“无处不在”,他提前铺好了企业文化、制度和激励机制,让一切运行自如。我的观点很简单:管理者的最高境界就是——“无为而治”。也就是说,你的存在感不需要每天都凸显,但你的思路、愿景、机制早已渗透到组织血液里。为什么呢?因为真正高明的管理,不在于事必躬亲,
    优思学院 2025-03-12 18:24 120浏览
  • 前言在快速迭代的科技浪潮中,汽车电子技术的飞速发展不仅重塑了行业的面貌,也对测试工具提出了更高的挑战与要求。作为汽车电子测试领域的先锋,TPT软件始终致力于为用户提供高效、精准、可靠的测试解决方案。新思科技出品的TPT软件迎来了又一次重大更新,最新版本TPT 2024.12将进一步满足汽车行业日益增长的测试需求,推动汽车电子技术的持续革新。基于当前汽车客户的实际需求与痛点,结合最新的技术趋势,对TPT软件进行了全面的优化与升级。从模型故障注入测试到服务器函数替代C代码函数,从更准确的需求链接到P
    北汇信息 2025-03-13 14:43 171浏览
  • 一、行业背景与需求痛点智能电子指纹锁作为智能家居的核心入口,近年来市场规模持续增长,用户对产品的功能性、安全性和设计紧凑性提出更高要求:极致空间利用率:锁体内部PCB空间有限,需高度集成化设计。语音交互需求:操作引导(如指纹识别状态、低电量提醒)、安全告警(防撬、试错报警)等语音反馈。智能化扩展能力:集成传感器以增强安全性(如温度监测、防撬检测)和用户体验。成本与可靠性平衡:在复杂环境下确保低功耗、高稳定性,同时控制硬件成本。WTV380-P(QFN32)语音芯片凭借4mm×4mm超小封装、多传
    广州唯创电子 2025-03-13 09:24 150浏览
  • 一、行业背景与用户需求随着健康消费升级,智能眼部按摩仪逐渐成为缓解眼疲劳、改善睡眠的热门产品。用户对这类设备的需求不再局限于基础按摩功能,而是追求更智能化、人性化的体验,例如:语音交互:实时反馈按摩模式、操作提示、安全提醒。环境感知:通过传感器检测佩戴状态、温度、压力等,提升安全性与舒适度。低功耗长续航:适应便携场景,延长设备使用时间。高性价比方案:在控制成本的同时实现功能多样化。针对这些需求,WTV380-8S语音芯片凭借其高性能、多传感器扩展能力及超高性价比,成为眼部按摩仪智能化升级的理想选
    广州唯创电子 2025-03-13 09:26 130浏览
  • 各大Logo更新汇报 | NEW百佳泰为ISO/IEC17025实验室,特为您整理2025年3月各大Logo的最新规格信息。USB™▶ USB Type-C/PD 互操作性MacBook Pro 16英寸(Apple M4 Max 芯片,36GB 内存–1TB SSD–140W USB-C电源适配器)或 MacBook Pro 16英寸(M4 Pro芯片,24GB内存–512 TB SSD–140W USB-C电源适配器),这些型号支持USB4 80Gbps传输速度和 140W EPR功率。需尽
    百佳泰测试实验室 2025-03-13 18:20 204浏览
  • 现代旅游风气盛行,无论国内或国外旅游,导航装置无疑就是最佳的行动导游;在工作使用上也有部分职业(如:外送服务业)需要依靠导航系统的精准,才能将餐点准确无误的送至客户手上。因此手机导航已开始成为现代生活上不可或缺的手机应用之一。「它」是造成产品潜在风险的原因之一外送服务业利用手机导航,通常是使用手机支架固定在机车上,但行进间的机车其环境并不一定适用于安装手机,因行进间所产生的振动可能会影响部分的功能,进而导致受损。您是否曾在新闻报导中看过:有使用者回报在机车上使用手机架导航会造成相机无法开启?苹果
    百佳泰测试实验室 2025-03-13 18:17 234浏览
  • 在海洋监测领域,基于无人艇能够实现高效、实时、自动化的海洋数据采集,从而为海洋环境保护、资源开发等提供有力支持。其中,无人艇的控制算法训练往往需要大量高质量的数据支持。然而,海洋数据采集也面临数据噪声和误差、数据融合与协同和复杂海洋环境适应等诸多挑战,制约着无人艇技术的发展。针对这些挑战,我们探索并推出一套基于多传感器融合的海洋数据采集系统,能够高效地采集和处理海洋环境中的多维度数据,为无人艇的自主航行和控制算法训练提供高质量的数据支持。一、方案架构无人艇要在复杂海上环境中实现自主导航,尤其是完
    康谋 2025-03-13 09:53 188浏览
  • DeepSeek自成立之初就散发着大胆创新的气息。明明核心开发团队只有一百多人,却能以惊人的效率实现许多大厂望尘莫及的技术成果,原因不仅在于资金或硬件,而是在于扁平架构携手塑造的蜂窝创新生态。创办人梁文锋多次强调,与其与大厂竞争一时的人才风潮,不如全力培养自家的优质员工,形成不可替代的内部生态。正因这样,他对DeepSeek内部人才体系有着一套别具一格的见解。他十分重视中式教育价值,因而DeepSeek团队几乎清一色都是中国式学霸。许多人来自北大清华,或者在各种数据比赛中多次获奖,可谓百里挑一。
    优思学院 2025-03-13 12:15 196浏览
  • 文/杜杰编辑/cc孙聪颖‍主打影像功能的小米15 Ultra手机,成为2025开年的第一款旗舰机型。从发布节奏上来看,小米历代Ultra机型,几乎都选择在开年发布,远远早于其他厂商秋季主力机型的发布时间。这毫无疑问会掀起“Ultra旗舰大战”,今年影像手机将再次被卷上新高度。无意臆断小米是否有意“领跑”一场“军备竞赛”,但各种复杂的情绪难以掩盖。岁岁年年机不同,但将2-3年内记忆中那些关于旗舰机的发布会拼凑起来,会发现,包括小米在内,旗舰机的革新点,除了摄影参数的不同,似乎没什么明显变化。贵为旗
    华尔街科技眼 2025-03-13 12:30 201浏览
  • 引言汽车行业正经历一场巨变。随着电动汽车、高级驾驶辅助系统(ADAS)和自动驾驶技术的普及,电子元件面临的要求从未如此严格。在这些复杂系统的核心,存在着一个看似简单却至关重要的元件——精密电阻。贞光科技代理品牌光颉科技的电阻选型过程,特别是在精度要求高达 0.01% 的薄膜和厚膜技术之间的选择,已成为全球汽车工程师的关键决策点。当几毫欧姆的差异可能影响传感器的灵敏度或控制系统的精确性时,选择正确的电阻不仅仅是满足规格的问题——它关系到车辆在极端条件下的安全性、可靠性和性能。在这份全面指南中,我们
    贞光科技 2025-03-12 17:25 156浏览
  • 文/Leon编辑/cc孙聪颖作为全球AI领域的黑马,DeepSeek成功搅乱了中国AI大模型市场的格局。科技大厂们选择合作,接入其模型疯抢用户;而AI独角兽们则陷入两难境地,上演了“Do Or Die”的抉择。其中,有着“大模型六小虎”之称的六家AI独角兽公司(智谱AI、百川智能、月之暗面、MiniMax、阶跃星辰及零一万物),纷纷开始转型:2025年伊始,李开复的零一万物宣布转型,不再追逐超大模型,而是聚焦AI商业化应用;紧接着,消息称百川智能放弃B端金融市场,聚焦AI医疗;月之暗面开始削减K
    华尔街科技眼 2025-03-12 17:37 260浏览
  • 北京时间3月11日,国内领先的二手消费电子产品交易和服务平台万物新生(爱回收)集团(纽交所股票代码:RERE)发布2024财年第四季度和全年业绩报告。财报显示,2024年第四季度万物新生集团总收入48.5亿元,超出业绩指引,同比增长25.2%。单季non-GAAP经营利润1.3亿元(non-GAAP口径,即经调整口径,均不含员工股权激励费用、无形资产摊销及因收购产生的递延成本,下同),并汇报创历史新高的GAAP净利润7742万元,同比增长近27倍。总览全年,万物新生总收入同比增长25.9%达到1
    华尔街科技眼 2025-03-13 12:23 157浏览
  • 在追求更快、更稳的无线通信路上,传统射频架构深陷带宽-功耗-成本的“不可能三角”:带宽每翻倍,系统复杂度与功耗增幅远超线性增长。传统方案通过“分立式功放+多级变频链路+JESD204B 接口”的组合试图平衡性能与成本,却难以满足实时性严苛的超大规模 MIMO 通信等场景需求。在此背景下,AXW49 射频开发板以“直采+异构”重构射频范式:基于 AMD Zynq UltraScale+™ RFSoC Gen3XCZU49DR 芯片的 16 通道 14 位 2.5GSPS ADC 与 16
    ALINX 2025-03-13 09:27 151浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦