有关处理器性能之“最”的一些讨论

FPGA开发圈 2022-03-15 08:30

本文转载自:半导体行业观察,内容编译自semiengineering


每个新处理器都声称是最快,最便宜或最省电的,但是如何衡量这些声明和支持信息呢?


芯片行业在提供信息指标方面比过去更加努力。20年前,测量处理器性能相对容易。它是指令执行速率,每条指令执行的有用工作以及从内存读取和写入信息的速率的组合。这是根据其消耗的功率和成本来权衡的,这当然没有那么重要。


当Dennard Scaling下降时,许多市场的时钟速度不再增加,MIPS评级停滞不前。在体系结构的其他位置、内存连接中以及通过添加更多处理器进行了改进。但是没有创建新的性能指标。


"在过去20年的大部分时间里,人们一直保持着令人毛骨悚然的沉默,"西门子EDA高级副总裁兼总经理Ravi Subramanian说。"这种沉默是由英特尔和微软创造的,它们控制着计算机架构和在其上运行的工作负载(应用程序)之间存在的契约。这推动了很大一部分计算,尤其是企业。我们现在有一些非常具体的计算类型,它们更特定于领域或利基,它们与传统的冯·诺依曼架构不同。每秒每兆瓦每秒数百万次操作已经趋于平缓,为了获得更高的计算效率,必须在工作负载所有者和计算机架构师之间建立新的合同。


在尝试测量处理器的质量时,考虑应用程序变得非常重要。该处理器执行特定任务的效果如何,在什么条件下执行?


GPU和DSP使该行业走上了特定领域计算的道路,但今天它正在上升到一个新的水平。"随着经典的摩尔定律放缓,创新已经转向特定领域的架构,"SynopsysPrimeTime产品营销经理James Chuang说。"这些新架构可以在相同的工艺技术上实现每瓦性能数量级的提高。它们为设计探索打开了一个巨大的未知空间,无论是在架构层面还是在物理设计层面。


有人试图定义模仿前一代的新指标。"人工智能应用需要处理器中的一些特定功能,最值得注意的是大量的乘法/累加运算,"AMD自适应和嵌入式计算集团人工智能、软件和解决方案产品营销总监Nick Ni说。"处理器定义了它们可以执行的每秒数万亿次操作(TOPS),并且这些评级一直在迅速增加(如图1所示)。但是,就每瓦性能或每美元性能而言,真正的性能是多少?


图1:AI TOPS评级的增长。资料来源:AMD/Xilinx


随着芯片尺寸达到光罩极限,即使在工艺调整的情况下,在芯片上包含额外的晶体管也变得更加昂贵和困难,因此性能提升只能来自架构变化或新的封装技术。


多个较小的处理器通常比单个较大的处理器更好。将多个芯片组合在一个包中还可以允许与内存和其他计算内核的连接进行架构改进。"您可能将多个处理单元连接在一个包中,以提供更好的性能,"Synopsys产品营销经理 Priyank Shukla 说。"这个软件包将具有多个芯片,将作为更大或更强大的计算基础架构工作。这个系统提供了一种摩尔定律的扩展,这个行业已经习惯了。我们正在达到单个骰子无法提供性能改进的极限。但现在,这些系统在 18 个月内将性能提高了 2 倍,这是我们所习惯的。


工作负载正在推动计算机体系结构的新需求。"这些超越了传统的冯·诺依曼架构,"西门子的Subramanian说。"许多新型工作负载需要分析,他们需要创建模型。AI和ML本质上已经成为推动模型开发的劳动力。如何基于训练数据进行建模,以便可以使用模型进行预测?这是一种非常新型的工作负载。这推动了一种关于计算机架构的全新观点。计算机体系结构如何与这些工作负载配合使用?您可以在传统的 x86 CPU 上实现神经网络或 DNN。但是,如果你看看每毫瓦,每兆赫兹可以获得多少数百万次操作,并考虑这些的字长,权重,深度,它们可以通过将工作负载与计算机架构匹配,以更节能的方式更好地交付。


工作负荷和性能指标因位置而异。"超大规模企业提出了不同的指标来衡量不同类型的计算能力,"Synopsys的Shukla说。"最初,他们会谈论每秒Petaflops,即他们可以执行浮点运算的速率。但随着工作负载变得越来越复杂,他们正在定义新的指标来同时评估硬件和软件。这不仅仅是原始硬件。这是两者的结合。我们看到他们专注于一个名为PUE的指标,即电力使用效率。他们一直在努力减少维护该数据中心所需的电力。


丢失的是比较任何两个处理器的方法,除非在最佳条件下运行特定应用程序。即便如此,也存在问题。处理器及其使用系统能否长时间保持其性能?还是因为高温而节流?当多个应用程序同时在处理器上运行,导致不同的内存访问模式时,该怎么办?数据中心之外的处理器最重要的功能是其性能,还是电池寿命和功耗,或者两者之间的某种平衡?


"如果你退后一步,从非常高的层次来看这个问题,它仍然是关于以最低的功耗实现最大的计算能力,"瑞萨电子物联网和基础设施业务部执行副总裁兼总经理SaileshChittipeddi说。"因此,您可以考虑需要哪种计算功能,以及它是否针对工作负载进行了优化。但最终的因素是,它仍然必须处于最低的功耗。然后问题就变成了,'你是把连接放在船上,还是把它放在外面。或者,在优化功耗方面,您如何做到这一点。这是必须在系统层面解决的问题。


衡量这一点是很困难的。基准测试结果不仅仅是硬件的反映,而是相关的软件和编译器,它们比过去复杂得多。这意味着特定任务的性能可能会随时间而变化,而基础硬件不会发生任何变化。


架构方面的考虑不会止步于封装的引脚。"考虑在先进的智能手机上拍照,"Shukla说。"在捕获图像的CMOS传感器中正在执行AI推理。其次,手机有四个核心用于额外的AI处理。第三级发生在数据中心边缘。超大规模分析器在距离数据捕获的不同距离上推出了不同级别的推理。最后,您将拥有真正的大数据中心。AI推理发生四个级别,当我们考虑功率时,我们应该计算所有这些。它从物联网开始,你手中的手机,一直到最终的数据中心。


随着如此多的初创公司创建新处理器,许多公司可能会因为软件堆栈的质量而不是硬件本身而成功或失败。雪上加霜的是,硬件的设计必须提前知道它可能正在运行的应用程序。在这些情况下,甚至没有什么可以对处理器进行基准测试。


基准测试旨在提供一个公平的竞争环境,以便可以直接比较两件事,但它们仍然容易受到操纵。


当一个特定的应用变得足够重要时,市场需要基准,以便对它们进行评级。"不同类型的AI训练都有基准,"Shukla说。"ResNet是图像识别的基准,但这是性能基准,而不是功耗基准。超大规模企业将根据硬件和软件展示其计算效率。有些人甚至构建了定制硬件,一个加速器,可以比普通的GPU或基于普通FPGA的实现更好地执行任务。TensorFlow是与Google TPU相结合的一个例子。他们基于此对AI性能进行基准测试,但到目前为止,功率还不是等式的一部分。主要是性能。


忽视权力是一种操纵形式。"2012年的旗舰手机的峰值时钟频率为1.4GHz,"Arm技术副总裁兼研究员Peter Greenhalgh说。"与当今达到3GHz的旗舰手机形成鲜明对比。对于桌面 CPU,情况更加微妙。虽然Turbo的频率仅比20年前高一点,但CPU能够在更高的频率下停留更长时间。


但是,并非所有基准测试的规模或运行时复杂性都达到了这一点。"随着电力消耗的升高,温度会升高,"Ansys的PowerArtist产品管理主管Preeti Gupta说。"一旦它超过某个阈值,那么你必须降低性能(如图2所示)。电源、散热和性能紧密地联系在一起。不考虑其电源效率的设计将不得不付出运行较慢的代价。在开发过程中,您必须采用实际的用例,运行数十亿个循环,并分析它们的热效应。查看热图后,您可能需要移动部分逻辑以分配热量。至少,您需要将传感器放在不同的位置,以便知道何时降低性能。


图 2:性能限制会影响所有处理器


随着时间的推移,架构会针对特定的基准进行优化。"基准测试不断发展并反映现实世界的使用情况,在系统软件级别或硅测试阶段使用完善的方法创建和部署可以相对容易,"Synopsys的Chuang说。"然而,分析总是在事后进行。芯片设计中更大的挑战是如何针对这些基准进行优化。在硅设计阶段,常见的功率基准通常仅由统计切换曲线(SAIF)或非常短的样本窗口(实际活动(FSDB)的1至2纳秒)表示。更大的趋势不是"衡量什么",而是"在哪里衡量"。我们看到客户在整个流程中推动端到端功耗分析,以准确推动优化,这需要从仿真、仿真、优化和签核中获得一致的功耗分析骨干。


基准测试可以识别应用程序与运行它的硬件体系结构之间何时存在根本性的不匹配。"当您在某些架构上运行逼真的工作负载时,可能会出现主要的暗芯片,"AMD/Xilinx 的 Ni 说道。"问题实际上在于数据移动。你正在使引擎挨饿,这导致计算效率低下。


即使这样也不能说明全部情况。"越来越多的标准基准是一群人同意的,"Ni补充道。"这些是人们认为最先进的模型。但是,它们在运行您可能关心的模型方面的效率如何?绝对性能是多少,或者您的每瓦性能或每美元性能是多少?这就是决定机柜实际运营支出的原因,尤其是在数据中心。最佳性能或电源效率以及成本效益通常是两个最大的关注点。


其他人也同意。"从我们的角度来看,有两个指标的重要性与日俱增,"Fraunhofer IIS自适应系统工程部高级系统集成组组长兼高效电子部门负责人Andy Heinig说。"其中之一是功耗或每瓦特的运行。随着能源成本的增加,我们预计这将变得越来越重要。第二个不断增长的指标是由芯片短缺造成的。我们希望销售设备数量最少但性能要求最高的产品。这意味着需要越来越灵活的架构。我们需要一个性能指标来描述解决方案在不同应用程序更改方面的灵活性。


芯片设计的一个关键挑战是,你不知道未来的工作负载会是什么。"如果您不知道未来的工作负载,那么您如何实际设计与这些应用程序完美匹配的架构?"Subramanian问道。"这就是我们看到计算机架构真正出现的地方,从了解工作负载,分析和理解最佳类型的数据流,控制流和内存访问开始,这将大大降低功耗并提高计算的电源效率。这实际上取决于您花费了多少精力来进行有用的计算,以及您花费了多少精力来移动数据?对于应用程序类型,整体配置文件是什么样的?

关注我们


FPGA开发圈 这里介绍、交流、有关FPGA开发资料(文档下载,技术解答等),提升FPGA应用能力。
评论
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 35浏览
  • 物联网(IoT)的快速发展彻底改变了从智能家居到工业自动化等各个行业。由于物联网系统需要高效、可靠且紧凑的组件来处理众多传感器、执行器和通信设备,国产固态继电器(SSR)已成为满足中国这些需求的关键解决方案。本文探讨了国产SSR如何满足物联网应用的需求,重点介绍了它们的优势、技术能力以及在现实场景中的应用。了解物联网中的固态继电器固态继电器是一种电子开关设备,它使用半导体而不是机械触点来控制负载。与传统的机械继电器不同,固态继电器具有以下优势:快速切换:确保精确快速的响应,这对于实时物联网系统至
    克里雅半导体科技 2025-01-03 16:11 165浏览
  • 光耦合器,也称为光隔离器,是一种利用光在两个隔离电路之间传输电信号的组件。在医疗领域,确保患者安全和设备可靠性至关重要。在众多有助于医疗设备安全性和效率的组件中,光耦合器起着至关重要的作用。这些紧凑型设备经常被忽视,但对于隔离高压和防止敏感医疗设备中的电气危害却是必不可少的。本文深入探讨了光耦合器的功能、其在医疗应用中的重要性以及其实际使用示例。什么是光耦合器?它通常由以下部分组成:LED(发光二极管):将电信号转换为光。光电探测器(例如光电晶体管):检测光并将其转换回电信号。这种布置确保输入和
    腾恩科技-彭工 2025-01-03 16:27 162浏览
  • 影像质量应用于多个不同领域,无论是在娱乐、医疗或工业应用中,高质量的影像都是决策的关键基础。清晰的影像不仅能提升观看体验,还能保证关键细节的准确传达,例如:在医学影像中,它对诊断结果有着直接的影响!不仅如此,影像质量还影响了:▶ 压缩技术▶ 存储需求▶ 传输效率随着技术进步,影像质量的标准不断提高,对于研究与开发领域,理解并提升影像质量已成为不可忽视的重要课题。在图像处理的过程中,硬件与软件除了各自扮演着不可或缺的基础角色,有效地协作能够确保图像处理过程既高效又具有优异的质量。软硬件各扮演了什么
    百佳泰测试实验室 2025-01-03 10:39 143浏览
  • 在快速发展的能源领域,发电厂是发电的支柱,效率和安全性至关重要。在这种背景下,国产数字隔离器已成为现代化和优化发电厂运营的重要组成部分。本文探讨了这些设备在提高性能方面的重要性,同时展示了中国在生产可靠且具有成本效益的数字隔离器方面的进步。什么是数字隔离器?数字隔离器充当屏障,在电气上将系统的不同部分隔离开来,同时允许无缝数据传输。在发电厂中,它们保护敏感的控制电路免受高压尖峰的影响,确保准确的信号处理,并在恶劣条件下保持系统完整性。中国国产数字隔离器经历了重大创新,在许多方面达到甚至超过了全球
    克里雅半导体科技 2025-01-03 16:10 121浏览
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 164浏览
  • Matter加持:新世代串流装置如何改变智能家居体验?随着现在智能家庭快速成长,串流装置(Streaming Device,以下简称Streaming Device)除了提供更卓越的影音体验,越来越多厂商开始推出支持Matter标准的串流产品,使其能作为智能家庭中枢,连结多种智能家电。消费者可以透过Matter的功能执行多样化功能,例如:开关灯、控制窗帘、对讲机开门,以及操作所有支持Matter的智能家电。此外,再搭配语音遥控器与语音助理,打造出一个更加智能、便捷的居家生活。支持Matter协议
    百佳泰测试实验室 2025-01-03 10:29 143浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 32浏览
  • 在测试XTS时会遇到修改产品属性、SElinux权限、等一些内容,修改源码再编译很费时。今天为大家介绍一个便捷的方法,让OpenHarmony通过挂载镜像来修改镜像内容!触觉智能Purple Pi OH鸿蒙开发板演示。搭载了瑞芯微RK3566四核处理器,树莓派卡片电脑设计,支持开源鸿蒙OpenHarmony3.2-5.0系统,适合鸿蒙开发入门学习。挂载镜像首先,将要修改内容的镜像传入虚拟机当中,并创建一个要挂载镜像的文件夹,如下图:之后通过挂载命令将system.img镜像挂载到sys
    Industio_触觉智能 2025-01-03 11:39 113浏览
  • 车身域是指负责管理和控制汽车车身相关功能的一个功能域,在汽车域控系统中起着至关重要的作用。它涵盖了车门、车窗、车灯、雨刮器等各种与车身相关的功能模块。与汽车电子电气架构升级相一致,车身域发展亦可以划分为三个阶段,功能集成愈加丰富:第一阶段为分布式架构:对应BCM车身控制模块,包含灯光、雨刮、门窗等传统车身控制功能。第二阶段为域集中架构:对应BDC/CEM域控制器,在BCM基础上集成网关、PEPS等。第三阶段为SOA理念下的中央集中架构:VIU/ZCU区域控制器,在BDC/CEM基础上集成VCU、
    北汇信息 2025-01-03 16:01 173浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 30浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 37浏览
  • 本文继续介绍Linux系统查看硬件配置及常用调试命令,方便开发者快速了解开发板硬件信息及进行相关调试。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。查看系统版本信息查看操作系统版本信息root@ido:/# cat /etc/*releaseDISTRIB_ID=UbuntuDISTRIB_RELEASE=20.04DISTRIB_CODENAME=focalDIS
    Industio_触觉智能 2025-01-03 11:37 138浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 22浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦