如何加速SoC设计的CPU性能-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

SoC的创建者通常希望从他们的系统中榨取最大的性能。为了达到这一目的，使用高性能的IP内核，包括CPU内核，是一个常见的策略。但是，使用最新的高端CPU内核会带来较高的成本，这可能比中档内核高出5到10倍。

片上系统(SoC)的创建者通常希望从他们的系统中榨取最大的性能，这是很自然的事情。为了达到这一目的，使用高性能的知识产权(IP)内核，包括中央处理器(CPU)内核，是一个常见的策略。但是，使用最新的高端CPU内核会带来较高的成本，这可能比中档内核高出5到10倍。

SoC架构师在设计时需要根据目标市场和应用做出多种权衡考虑。虽然有些设计不惜一切代价追求性能，但更多的嵌入式系统项目则更倾向于在尽可能低的成本下实现最佳性能。

对于那些使用低成本、低性能处理器内核的设计团队来说，提高效率变得尤为重要。通常，他们可能不知道有一种相对简单的方案能够为其SoC的CPU性能提升多达32%。

性能、性能、性能

SoC中常用的大多数CPU内核基本上都是基于精简指令集计算机(RISC)架构的，比如RISC-V联盟成员开发的RISC-V处理器内核，以及Arm公司的Cortex-A(应用处理器)、Cortex-R(实时处理器)和Cortex-M(微控制器处理器)等内核。

经典的标量RISC处理器旨在每个时钟周期获取并执行一条指令。实现这一目标的第一步是采用经典的RISC处理器流水线，其中包括五种状态：指令获取(IF)、指令解码(ID)、执行(EX)、内存访问(MA)和写回(WB)。如图1所示。

图1：经典RISC流水线。(来源：Arteris)

当应用程序开始运行时，需要几个周期来加载流水线。一旦流水线装满，处理器就可以实现其最大性能目标，即每个时钟周期执行一条指令，尽管在实践中这种情况并不多见。

中档处理器的两种常见场景

CPU性能取决于两个因素：计算能力和数据的可用性。如果处理器在需要指令和数据时无法获取它们，就会导致流水线中的气泡。

考虑两种常见的中档处理器配置：单处理器内核(图2a)和处理器集群(图2b)。假设单个处理器只有一个一级(L1)缓存，而集群中的每个内核(通常是2、4或8个内核)都有自己专用的L1缓存，这些内核共享一个公共的二级(L2)缓存。

图2：两种常见的中档处理器配置。(来源：Arteris)

在这些场景中，所有的IP(包括处理器和加速器)都通过片上网络(NoC)连接。此外，DDR控制器IP用于与外部DRAM内存通信。访问外部DRAM可能需要100到200个处理器时钟周期，我们假设在这个讨论中为150个时钟周期。

现在，假设运行1,000,000条指令，我们来看看图2a中所示的单核场景。我们来简单做个思维实验，看看如果没有L1缓存会发生什么。在这种情况下，CPU每次需要访问主内存来获取每条指令和数据。因为每次内存访问需要150个处理器时钟周期，所以顺序执行的CPU效率非常低，仅为1,000,000条指令/(1,000,000×150)个时钟周期=1/150或0.67%。

这也就是CPU配备缓存的原因。我们再来做第二个思维实验，假设L1缓存与CPU同频运行，并且访问L1缓存只需一个时钟周期。如果L1缓存无限大，能够将DRAM中的所有内容复制进去，那么1,000,000条指令就能在1,000,000个时钟周期内完成执行，从而使CPU效率达到100%。因此，CPU的理想效率就从没有缓存时的0.67%扩展到了缓存无限大时的100%。

实际缓存计算和CPU效率

实际上，缓存的大小是有限的。在我们的中档处理器示例中，典型的缓存值为16KB到64KB L1缓存，或32kB L1缓存和512KB L2缓存。在这两种情况下，只有一小部分应用程序及其数据可以从DRAM复制到缓存中。

即便如此，即使很小的缓存也非常有效，有两个原因。首先，当程序访问某个位置的指令或数据时，它通常也需要访问附近的位置。其次，程序通常包含多个嵌套循环，在程序执行下一个任务之前，会对同一数据执行多次操作。

因此，当CPU请求数据时，通常可以在缓存中找到。这时称为“缓存命中”，指令只需要一个处理器时钟周期。如果数据不在缓存中，则称为“缓存未命中”。此时，访问DRAM需要150个处理器时钟周期。

在我们的单处理器场景中(图2a)，假设典型的缓存命中率为95%，那么1,000,000条指令中的950,000条指令只需要一个处理器时钟周期。剩余的50,000条指令每条需要150个时钟周期。这样，L1专用的CPU效率可以计算为1,000,000/((950,000×1)+(50,000×150))≈12%。

假设我们增加一个L2缓存。L2缓存通常以处理器时钟频率的一半运行，每次访问需要20个处理器时钟周期。假设L2缓存同样有95%的命中率，那么它就能以此速率解决50,000次L1缓存未命中的47,500次。剩下的2,500次未命中则需要访问主内存。这样，基于L1+L2的CPU效率可以计算为1,000,000/((950,000×1)+(47,500×20)+(2,500×150))≈44%。

为了便于讨论，我们再假设增加一个缓存层级。这时，新的缓存通常以与L2相同的时钟频率运行，每次访问需要40个时钟周期。假设这个新层级也有95%的命中率，则CPU效率将为1,000,000/((950,000×1)+(47,500×20)+(2,375×40)+(125×150))≈50%。

CodaCache作为性能增强方案

如图3所示，添加额外的缓存层级来服务CPU或CPU集群是Arteris的CodaCache IP的一种可能部署方式。在上述示例中，这种部署称为专用缓存(DC)，因为它专门服务于一个IP——CPU或CPU集群。

图3：使用CodaCache为CPU提供额外的缓存层级。(来源：Arteris)

每个CodaCache实例的大小可以是64KB到8MB。例如，当与只有L1缓存的CPU结合使用时(图3a)，CodaCache可以将性能从12%提高到44%，效率提升了32%，性能提升了267%。

值得注意的是，这只是CodaCache的一种可能部署方式。其他CodaCache IP也可以分配为其他IP的专用缓存，以加速它们的性能。此外，CodaCache还可以部署在NoC和DDR控制器之间，作为最后一级缓存(LLC)，以加速整个SoC。

总结

CodaCache是一种可配置的独立非相干缓存IP，通过其先进的架构提供了独特的商业价值，提高了系统性能、数据局部性、可扩展性、能效、应用程序响应能力、成本优化和市场竞争力。

就像一氧化二氮可用于提升一级方程式赛车的性能一样，CodaCache可用于显著提升SoC和SoC CPU的性能。

（原文刊登于EE Times美国版，参考链接：How to Turbo Charge Your SoC's CPU(s) ，由Franklin Zhao编译。）

责编：Franklin

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

阅读全文，请先

EDA/IP/IC设计处理器/DSP 技术文章

您可能感兴趣

【ICCAD2024】EDA新势力：芯行纪以AI重塑数字实现新未来

通过机器学习技术，EDA工具可以获取更精确的模型来预测设计中存在的问题，如布线拥塞、信号干扰、热效应等，从而为用户提供更准确快速的指导，避免后期返工。

功能安全重要性日益凸显，中国也有了自己的FuSa小组

该小组汇集了国内外领先的芯片及IP、嵌入式开发工具、操作系统等厂商，形成强有力的组织，使命是通过一站式功能安全认证服务，帮助企业提升认证价值，满足IEC 61508、ISO 26262等国际功能安全认证标准，从而更高效地达成功能安全要求。

魏少军ICCAD2024演讲：中国芯片设计业要自强不息

在ICCAD 2024主峰会上，中国半导体行业协会集成电路设计分会理事长魏少军教授带来“中国芯片设计业要自强不息”主题报告演讲，深入解读了过去一年中国IC设计业的发展机遇与挑战，权威分析中国IC设计业各环节的主要数据及其背后的意义。

美国对中国半导体产业祭出新一轮出口限制，140家公司被列入实体清单

美国商务部工业与安全局（BIS）宣布了对华半导体出口管制措施的新规，140家中国公司被新增到“实体清单”中，这些公司涉及半导体生产设备制造商、晶圆厂和投资机构。

国产射频芯片大厂慧智微电子被曝裁员，波及40%研发人员

近期，国内射频芯片上市公司慧智微电子被曝出大规模裁员的消息，其中研发人员裁员比例高达40%，赔偿方案为N+1。此次裁员行动迅速且果断，涉及上海和广州分公司……

美国计划对200家中国芯片公司实施出口限制，外交部回应

美国商会透露，拜登政府计划在感恩节前公布新的对华出口管制措施，可能将约200家中国芯片公司纳入贸易限制名单。此举旨在限制这些公司获取美国产品，进一步打击中国半导体产业的发展。中国外交部对此表示坚决反对，并称将采取坚决措施维护中国企业的合法权益。

“一碰交互，共触未来”ITMA峰会盛大开启近场交互新生态

目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。

中科院微电子所在忆阻神经-模糊硬件及应用探索方面取得新进展

中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……

直角照明轻触开关为复杂电子应用提供定制性和多功能性

C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置，为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。

投身国产浪潮向上而行，英韧科技再获“中国芯”认可

18亿元！2大储能项目新动态

近期，多个储能电站项目上新。■ 乐山电力：募资2亿建200MWh储能电站12月17日晚，乐山电力（600644.SH）公告，以简易程序向特定对象发行A股股票申请已获上交所受理，募集资金总额为2亿元。发

京东方晶芯MLED项目，已完成设备搬入

12月18日，珠海京东方晶芯科技举行设备搬入仪式。插播：加入LED显示行业群，请加VX：hangjia188在10月31日，珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品

iPhone17系列迎六年来首次设计大换代：回归铝合金背板

有博主基于曝光的信息绘制了iPhone 17系列渲染图，对比iPhone 16系列，17系列最大变化是采用横置相机模组，背部DECO为条形跑道设计，神似谷歌Pixel 9系列，这是iPhone六年来的

LGDisplay引入AI处理OLED质量异常效率提升90%，每年节约超2000亿韩元

来源：IT之家12 月 18 日消息，LG Display 韩国当地时间今日宣布，已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中，该系统可提升 LG Display 的 OLE

华为Pura80细节曝光：麒麟9020跑分能上130万分

对于华为来说，今年的重磅机型都已经发完了，而明年的机型已经在研发中，Pura 80就是期待很高的一款。有博主爆料称，华为Pura 80将会用上了豪威OV50K传感器，同时电池容量达到5600毫安时。至

撒贝宁走进维信诺，探寻“非凡中国屏”诞生背后的科技传奇之旅

万物互联的时代浪潮中，以OLED为代表的新型显示技术，已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者，凭借自主创新，实现了我国OLED技术的自立自强，成为中国新型显示产

AI日报丨超级AI独角兽来了！拿下100亿美元融资，估值升至620亿美元

“ 洞悉AI，未来触手可及。”整理 | 美股研究社在这个快速变化的时代，人工智能技术正以前所未有的速度发展，带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势，为您提供深度的

自动驾驶业务增长6倍，Uber被市场明显错杀，即将迎来50%上涨空间！

“ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务，Uber ( NYSE: UBER ) 的股价在短短几周内从 202

高科视像、新视通等持续扩大COB产能

近期，高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播：加入LED显示行业群，请加VX：hangjia188■ 高科视像：MLED新型显示面板生产项目（二期）招标12月18日，山西高科

开讲在即|TI模拟+嵌入式处理器产品技术方案助力新能源系统设计，提升系统稳定性与可靠性

点击蓝字关注我们电网和可再生能源系统向着更智能、更高效的方向发展助力优化能源分配构建更加绿色和可靠的能源未来12 月 24 日上午 9:30 - 11:302024 德州仪器新能源基础设施技术直播

文章评论

最新
热门

换一换

EE直播

更多>

如何加速SoC设计的CPU性能

性能、性能、性能

中档处理器的两种常见场景

实际缓存计算和CPU效率

CodaCache作为性能增强方案

总结

杂志声明