运用可扩展多核处理器满足嵌入式应用日益增长的性能需求-电子工程专辑

 下一代嵌入式应用需要对大型CPU集群和专用硬件加速器提供可扩展的支持，以实现所需的性能。大型多核处理器需要新的架构方法来提供更高的性能，并且不会给嵌入式设计者带来其他实现和时序收敛问题。

引言

由于工艺节点从云端拓展到互联网边缘与端点，高端嵌入式应用也随之发生转变。性能需求迅速演进，并改变了处理器架构及其在设计中的实现方式。这是增加多核处理器的应用以提供更高性能的背后原因。目前大多数高端处理器都支持双核和四核配置。有些处理器最多支持8个CPU核心，但即便如此无法满足存储、汽车、网络和5G等新兴应用的性能需求。下一代嵌入式应用需要对大型CPU集群和专用硬件加速器提供可扩展的支持，以实现所需的性能。大型多核处理器需要新的架构方法来提供更高的性能，并且不会给嵌入式设计者带来其他实现和时序收敛问题。

嵌入式性能面临的挑战

毋庸讳言，先进工艺节点已无法像从前那样提供更高时钟频率和更低功耗。各代工艺节点的逻辑速度在持续增长，但内存访问时间却没有变化(图1)。处理器中的限速路径几乎总是经过内存。由于半导体物理学的真正局限性，这类情况在未来工艺节点上也不太可能发生转变。

图1:嵌入式存储器性能差距

同时，嵌入式应用的最高时钟频率已达到1GHz–2GHz范围（图2）。诚然，有些时钟频率高于2GHz，但这是例外。对于多数应用而言，这是无法实现的。功耗和面积都是有限的，这两者都会随着时钟频率迅速增加。大多数嵌入式设计的时钟频率都低于1GHz。未来这一趋势不会改变。就多数嵌入式设计而言，通过增加时钟频率来提高性能是不现实的。

问题在于针对嵌入式应用的性能需求在不断增多。这是由竞争、新特性的添加和应用空间需求的变化所造成的。例如，更大容量和更高访问速度的需求使得SSD驱动器的尺寸迅速增大。此外，计算机储存和AI功能也被添加至嵌入式应用中，以延长驱动器寿命和提升数据访问性能。因此上述综合因素都对SSD控制器以及用于实现新功能的处理器提出了更高的性能需求。

图2:嵌入式处理器的最高速度为2GHz

提高处理器性能

许多方法已经用于提高处理器性能。多年来，增加流水线级数一直被用于解决内存限速问题。例如，DesignWare® ARC® HS处理器具有10级流水线，两个周期的内存访问，能够在16FFC工艺中提供1.8GHz的时钟频率（最差情况下）。嵌入式设计的时钟频率是有限制的，因此在处理器的流水线上增加更多的处理级别并不会带来什么改善。今后这一情况可能会改变，但现如今10级流水线是嵌入式设计的最佳选择。

就性能增益与增加的面积和功耗对比而言，超标量实现是一个很好的折衷方案。从单一发射架构转变至双发射架构能够在面积和功耗有限增加的情况下将RISC性能提升40%。对于嵌入式处理器来说，这是一个很好的折衷方案。采用三发射或四发射架构将会进一步增加CPU面积与功耗，且性能提升幅度较小。以任何代价提高性能从来都不是嵌入式处理器的目标。

添加乱序（OoO）执行可以提高嵌入式应用的性能，且不会增加时钟频率。通常，支持完整乱序的CPU会给嵌入式应用带来适得其反的效果。而采用有限乱序的方法可以在不增加处理器面积的情况下获得最佳性能提升。有限乱序通常用于高端嵌入式处理器。

缓存的目的是为了让内存更加靠近处理器，从而提高性能。缓存支持处理器的单周期数据存取。将处理器所需信息存放于缓存中能够提升性能。经常使用的代码和数据保存在一级缓存中。使用较少的代码和数据保存在访问速度较慢的二级缓存或外部内存中，并在需要时进行读取。对于多核处理器来说，保持一级数据缓存之间的一致性也可以提高性能。一级缓存和一致性在嵌入式处理器中很常见，而二级缓存（和三级缓存）仅用于高端应用。

在嵌入式设计中采用多个处理器的趋势正不断演进。几年前，一个典型的片上系统（SoC）只包含一到两个处理器。如今，即便是低端设计，处理器数量也超过5个，而且还在不断增加。为了支撑这一转变，中高端嵌入式应用的处理器提供了多核实现方式。支持两个、四个和八个CPU核心的处理器已经推出。程序员可以使用Linux或其他操作系统在CPU内核之间顺畅地进行操作，同时平衡执行以提高性能。

硬件加速器正越来越多地应用于嵌入式设计。它们以最小的功耗和面积提供高性能，同时减轻处理器的负担。硬件加速器的主要缺点是它们的不可编程性。添加加速器使之与处理器并行工作可以缓解这种情况。然而，现有处理器只能有限度地支持硬件加速器，有的甚至无法提供支持。有些处理器（如ARC处理器）支持自定义指令，允许用户向处理器流水线添加硬件。尽管自定义指令很诱人，但硬件加速器也带来了其他好处，与处理器并行使用时，可以显著提高性能。

嵌入式应用的处理器性能提升存在许多挑战。处理器已经支持更深层次的流水线技术，超标量实现和乱序功能能够有所帮助，但也只能到此为止。缓存技术已经非常丰富，一致性也是如此，因此不太可能取得进一步的进展。在设计中采用更多的CPU核心数与硬件加速器是嵌入式设计人员正采取的更高性能实现途径。

下一代嵌入式处理器架构

下一代处理器将支持大型多核实现和硬件加速（图3）。处理器供应商要做的不仅仅是向现有处理器添加接口。支持4个或8个CPU内核的处理器已经达到了最大频率限制，并且在时序收敛方面可能会出现重大问题。增加更多的内核只会让这一问题变得更糟糕。下一代处理器必须从内部处理器互连的完全重构开始，改进时序收敛，解决速度限制，并增加内部带宽。外部接口的带宽也必须增加，以支持数据进出处理器。

图3：下一代嵌入式处理器架构

服务质量（QoS）技术在片上网络（NOC）中得到了广泛的应用，但在多核处理器中的应用却很有限。这种情况将在下一代处理器中发生改变，让程序员能够管理每个CPU核心和加速器的内部带宽，从而最大限度地提高性能。这取决于应用，虽然并非每个设计都需要服务质量技术，但在其他设计中，它对于确保可预测性能至关重要。

大型处理器集群的优势

大型多核处理器比小型多核处理器具有优势。采用一个具有12个CPU核心的处理器，而不是使用具有4个CPU核心的三个处理器集群，将减少CPU核心之间的延迟，并支持对内核的直接窥探。大型处理器集群的另一个优势是能提供更优越的软件扩展性。具有12个CPU核心的处理器为程序员提供了更大的软件分区灵活性，用于处理任务的核心数量可以根据需要的性能动态进行分配。在多个处理器集群中，由于缺乏CPU内核之间的统一访问，因此很难获得这种级别的软件性能控制。

大型多核处理器也将从与硬件加速器的紧密耦合中获得优势。将硬件加速器接口移动到处理器内部，而不是通过SoC总线连接它们，将减少SoC总线上的延迟和流量，同时提高数据共享和系统性能。采用共享用户寄存器也可以提高加速器上可编程控制的效率。

ARC HS5x/HS6x

新思科技公司（Synopsys）下一代DesignWare ARC HS5x和ARC HS6x处理器IP利用前面描述的许多方法来提高处理器性能。这些处理器具有高速10级、双发射流水线，在功耗和面积有限的情况下提高了功能单元的利用率。ARC 64位 HS6x处理器具有完整的64位流水线和寄存器文件，支持64位虚拟地址空间和52位物理地址空间，可以直接寻址当前和未来的大内存，并支持128位加载和存储，以实现高效的数据移动。

图4：DesignWare ARC HS5x/HS6x处理器IP框图

32位ARC HS5x和64位HS6x处理器的多核版本都包含一个先进的高带宽内部处理器互连结构，其设计旨在通过异步时钟和高达800 GB/s的内部聚合带宽来简化时序收敛。新款ARC HS处理器的多核版本包括一个创新的互连结构，可连接多达12个核心，支持多达16个硬件加速器的接口。为了进一步简化时序收敛，每个核位于自己的功率域中，并且与其他核具有异步时钟关系。跟所有ARC处理器一样，HS5x和HS6x处理器都高度可配置，并采用ARC Processor Extension（APEX）技术，支持自定义指令，可满足每个嵌入式应用的独特性能、功耗和面积要求。

为了加速软件开发，ARC HS5x和HS6x处理器由ARC MetaWare开发工具套件提供支持，可生成高效代码。处理器的开源软件支持包括Zephyr实时操作系统、优化的Linux内核、GNU编译器集合（GCC）、GNU调试器（GDB）和相关的GNU编程实用程序（二进制工具）。

总结

由于嵌入式应用的性能需求将日益增多，嵌入式应用中所采用的处理器也必须随之提高性能。鉴于面积与功耗的有限性，以及处理器性能简易提升已取得进展，这将面临挑战。先进工艺节点不再像以前那样带来性能提升，嵌入式处理器的速度也受到了限制。超标量和乱序功能在高端处理器中很常见，但64位(尽管必要)提供的性能提升有限。新一代多核处理器需要支持8个以上的CPU核心数，并需要采用硬件加速器内部互连结构。新处理器如DesignWare ARC HS5x和HS6x处理器IP将提供可扩展的性能和功能，并让设计师能够解决其嵌入式应用的功耗和面积需求。新款处理器采用先进的架构与高速内部互连结构，不仅满足了当今高端嵌入式应用的性能需求，同时也为未来设计留下了足够空间。

责编：Amy Guan

EDA/IP/IC设计无人驾驶/ADAS 汽车电子网络安全

返回列表

上一篇： 赛灵思AI引擎及其应用 下一篇： 恩智浦半导体在美设厂生产 5G 氮化镓芯片

美国大学报告：中国芯片研究论文占全球34%，远超其他国家或地区全球前十大高产机构中，9家为中国机构（如中国科学院、清华大学等）。其中，中国科学院以 2018-2023 年期间发布的 14,387 篇文章位居榜首。
国家八部门联合起草指导政策，鼓励全国使用开源RISC-V芯片这一新指导政策不仅反映了中国在芯片产业中减少对外依赖的战略意图，也体现了RISC-V架构在中国芯片产业中的重要地位和发展潜力。
我国成功研制世界首款光子时钟芯片这一成果不仅将芯片上的时间调控速度提升了 100 倍，时钟频率突破100GHz，还为未来智能计算、6G 通信、空天遥感等一系列现实应用的性能提升提供了强大支持。
拆解苹果iPhone 16e，入门机王者还是智商税？在外观和部分组件方面，iPhone 16e 延续了 iPhone 14 的设计。它的外壳与 iPhone 14 相似，就连 Face ID 模组也完全一样……
经营正常！中芯聚源严正辟谣“北京办公室关门”传言此次风波始于2月28日，部分自媒体在小红书、微信公众号等平台发布《芯片界最大投资机构之一北京办公室关门》等文章，声称中芯聚源“北京办公室已关闭”、“上海团队人心涣散”、“仅剩最后一期基金”等……
芯华章管理层重大调整：新联席CEO上任，创始人转向战略整合此次调整被视为芯华章迈向规模化发展的关键一步，旨在应对半导体EDA市场日益激烈的竞争与技术挑战。
赤池昌二先生升任TEL集团副总裁兼 TEL宣布自2025年3月1日起，现任TEL中国区地区总部——东电电子（上海）有限公司高级执行副总经理赤池昌二正式升任为集团副总裁，同时兼任东电电子（上海）有限公司总裁和东电光电半导体设备（昆山）有限公司总裁。
2025年无线连接的七大趋势预计在2025年，以下七大关键趋势将塑造物联网的格局。
4月必逛电子展！六大热门新赛道，来NEP 领域新成果领域新成果4月必逛电子展！AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道，来NEPCON China 2025一展全看，速登记！
ASML公布2025年度股东大会议程，并提本次股东大会将采取线上和线下相结合的混合形式召开，股东们可选择现场出席或线上参会。

PI不断创新，为您提升效率和可靠性作为功率半导体领域的创新领导者，Power Integrations（以下简称：PI）始终专注于前沿技术研发，持续为全球客户提供突破性解决方案。PI 在功率变换架构、电力电子驱动系统及汽车电子领域构建
小米又一预研技术全球首发小米宣布全球首发光学预研技术——小米模块光学系统，同时发布官方宣传视频。简单来说，该系统是一个磁吸式可拆卸镜头，采用定制M4/3传感器+全非球面镜组，带来完整一亿像素，等效35mm焦段，配备f/1.4
深创投出手！这家高精度定位厂商完成数千万元A轮融资本文来源：智能通信定位圈最新消息显示，全球领先的厘米级定位导航企业苏州天硕导航科技有限公司（简称“天硕导航”）近期宣布获得数千万元级的A轮融资。本轮融资目的是扩展业务、产品开发和团队建设，深创投作为本
研报|台积电扩大对美投资至1650亿美元，预计最快2030年实现量产 Mar. 5, 2025 产业洞察根据TrendForce集邦咨询最新研究，TSMC（台积电）近日宣布提高在美国的先进半导体制造投资，总金额达1650亿美元，若新增的三座厂区扩产进度顺利，预计最快20
解析差分电路原理，输出电压为什么要偏移？差分运算放大电路，对共模信号得到有效抑制，而只对差分信号进行放大，因而得到广泛的应用。差分电路的电路构型上图是差分电路。目标处理电压：是采集处理电压，比如在系统中像母线电压的采集处理，
10万人才缺口！新思科技携手全球行业合作伙伴，加快全梯队人才培养新思科技与国际半导体产业协会基金会（SEMI 基金会）近日在新思科技总部宣布签署一份谅解备忘录（MoU），携手推动半导体芯片设计领域的人才发展。据预测，到 2030 年，全球半导体行业将需要新增 10
高通5G创新：绝技齐发，比强更强，手机体验大提升！高通又放大招了！3月3日，也就是MWC世界移动通信大会的第一天，高通正式宣布，推出自家的最新5G调制解调器及射频解决方案——高通X85。高通X85对于高通X85的发布，行业早有关注。因为高通的手机So
新品|EVAL-2ED3146MC12L–带辅助电源的6.5A双通道隔离栅极驱动器评估板新品EVAL-2ED3146MC12L–带辅助电源的6.5A双通道隔离栅极驱动器评估板EVAL-2ED3146MC12L评估板用于评估功率半桥电路中的2ED3146MC12L 6.5A隔离栅极驱动器I
2024年中国洁净室工程行业产业链图谱、发展现状及未来趋势分析内容概要：目前，全球半导体、光电等电子信息产业在世界范围内转移，东亚、东南亚等地区已成为世界电子信息行业的主要市场和发展重心;同时由于我国医药卫生、半导
中国智造让动力永不停歇为进一步推进商业信用体系建设，促进企业诚实守信经营，面向企业普及诚信与品牌建设的意义，指导企业加强诚信品牌建设，提升其整体竞争力，“崛起的民族品牌”专题系列节目以诚信为内涵，在全国范围内遴选出有行业代

热门评论
最新评论

换一换

杂志声明

运用可扩展多核处理器满足嵌入式应用日益增长的性能需求

引言

嵌入式性能面临的挑战

提高处理器性能

下一代嵌入式处理器架构

大型处理器集群的优势

ARC HS5x/HS6x

总结