一文了解NPU

电子工程世界 2024-08-13 07:01

▲ 点击上方蓝字关注我们,不错过任何一篇干货文章!


2024年上半年,PC市场迎来了难得的回暖。根据IDC的数据,包括台式机、笔记本电脑和工作站在内的设备,第二季度总出货量达到了6490万台,同比增长3%,增速为第一季度的两倍,实现回暖的其中一个关键因素就是AI PC的大热。
何为AI PC?英特尔CEO帕特 基辛格给出的答案是:能够玩转AI功能的PC,可通过云与PC的紧密协作,或在电脑端独立运行大语言模型,进而从根本上改变、重塑PC的用户体验,释放人们的生产力和创造力。
在当前AI PC浪潮下,NPU成为重要关键字,NPU与CPU、GPU有哪些不同?各科技大厂目前在NPU领域发展如何?
在挑选电脑时,一些消费者会比较各机种的CPU拥有多少个核心,对于电玩游戏较讲究的,则偏好搭载GPU的机型,以追求更精致的视觉效果、更流畅的操作体验。

随着今年迈入“AI PC元年”,各笔记本电脑厂相继推出自家的AI PC,而厂商在介绍产品效能时,不时会提到“NPU”一词。究竟NPU是什么,和CPU、GPU有哪些不同?各科技厂目前在NPU发展又是如何?

 都是处理器,到底差在哪?


用比喻来解释CPU、GPU、NPU的差别,可以想像CPU是能力高强的“博士生”,可解决复杂且多样的任务,但只能照顺序一次解决一个问题;GPU是一群“数学系大学生” ,擅长加减乘除,可以同时处理大量的运算工作(平行运算);NPU则是专攻AI运算一技之长的“技职生”,遍布在AI PC、AI手机、智能穿戴等各种装置中。

以下针对CPU、GPU、NPU分别来介绍:

CPU 中央处理器(Central Processing Unit)

CPU被视为是电脑的“大脑”,负责执行作业系统、应用程序运作所需的命令与程序,也是决定程序执行速度的关键,不论是浏览网页或处理文书作业,都会受到CPU效能的影响。

英特尔(Intel)及AMD是生产CPU的领导厂商,根据市调机构Jon Peddie Research报告指出,2024年第一季内建显卡的PC CPU市场,英特尔维持领先地位拿下82%市占率,AMD则是18%。

GPU 图形处理器(Graphics Processing Unit)

自1990年代电玩游戏兴起,由于游戏画面同时要显示成千上万个像素,每个像素又都有自己的色彩、光线强度及移动变化,原为通用运算设计的CPU在运算上变得难以负荷。于是,专长于绘图运算的GPU应运而生。

在硬件架构上,GPU具有数百至数千个算数逻辑单元(Arithmetic Logic Unit,ALU),得以处理众多平行执行的数学运算,加快绘图渲染、影片编码解码等处理,也格外适合执行AI的深度学习演算法,GPU因而在AI浪潮下大放异彩。

NVIDIA是GPU领域的开创者及龙头,1999年发售的“GeForce 256”被誉为“世界上第一款GPU”。2007年,英伟达推出便于GPU加速运算的CUDA软件架构。据研调公司TechInsights分析,英伟达2023年的资料中心GPU出货量市占率高达98%,远超英特尔、AMD等对手。

NPU 神经网络处理器(Neural-network Processing Unit)

GPU扮演资料中心、AI服务器不可或缺的要角,不过边缘运算浪潮下日趋火红的NPU,则是专门为加速服务器的AI运算所打造。

NPU具有两大技术特点:第一个是模拟人类神经网络的运作方式,同样擅长平行运算处理,并适当地分配芯片内的“任务流”,减少闲置的运算资源。

第二个是经由“近存储器运算”(将处理器尽量靠近DRAM,以减少资料的传输延迟以及功率消耗)或“存内运算”(将简单的逻辑运算移至存储器阵列中),实现储存及运算的一体化,降低运算过程的能耗、加快存取速度,从而提升AI运算的执行速度和效率。

相较于CPU及GPU,低功耗、高效能的NPU格外适合处理AI推论任务,包括影像辨识、自然语言处理、物件侦测等应用。

近年,各大PC及手机芯片厂为提升AI运算能力,纷纷在芯片设计中纳入NPU。
 NPU是如何优化神经网络计算的? 

硬件定制化

  • 专用核心:NPU设计有专门为神经网络计算定制的核心,这些核心可以直接执行神经网络中的常见操作,如卷积、矩阵乘法和激活函数。

  • 数据流架构:NPU采用数据流架构,允许数据在网络中流动而不需要CPU介入,减少了数据移动和处理的开销。


并行处理

  • 多核并行:NPU通常具有多个核心,可以同时处理多个数据点或操作,显著提高了计算效率。

  • 向量化和SIMD:NPU利用单指令多数据(SIMD)技术,可以在一个指令周期内处理多个数据,加速了向量和矩阵操作。


存储和带宽优化

  • 高带宽内存:NPU使用高带宽内存来减少数据传输的延迟。

  • 层次化存储:NPU采用层次化存储结构,包括片上缓存和外部存储,以优化数据访问速度。


精度调整

  • 低精度计算:NPU使用低精度(如16位、8位甚至二值)计算,减少数据大小和存储需求,同时加快计算速度。

  • 量化:通过量化技术,将浮点数转换为固定点数,减少计算复杂度和功耗。


算法优化

  • 算法硬化:将神经网络算法的关键部分硬化到硬件中,减少软件层面的计算需求。

  • 剪枝和稀疏性:利用神经网络中的稀疏性,通过剪枝移除不重要的连接,减少计算量。


能效优化

  • 能效比:NPU设计注重能效比,减少能耗,特别适合移动和嵌入式设备。

  • 动态电源管理:NPU可以根据计算需求动态调整电源,进一步降低能耗。


编程和软件支持

  • 专用编译器:NPU通常配备有专用编译器,能够将高级神经网络模型转换为高效的硬件指令。

  • 软件堆栈:提供易于使用的软件堆栈,支持多种神经网络框架和模型。

通过这些优化,NPU能够显著提高神经网络模型的运算速度和效率,降低能耗,尤其适合在资源受限的设备上运行复杂的深度学习算法。

 如何决定要使用CPU、GPU或NPU? 


CPU、GPU、NPU各有所长,并且相辅相成,对于AI PC、AI手机芯片,通常藉由将三者整合为系统单芯片(SoC)的方式,提高能源效率及效能。

英特尔去年发表Core Ultra芯片(代号“Meteor Lake”)时,便直言“这是40年来PC处理器架构上最大的跃进”,因为这是该公司首次将NPU整合到系统单芯片设计中。NPU专门处理特定的AI工作负载,便可将CPU及GPU用于执行其他任务。

芯片大厂高通一篇针对NPU的专文介绍则提到,CPU适合用于低延迟、顺序性的小型模型运算,GPU擅长高精准度的图像处理平行运算,NPU则可透过低功耗达到稳定的高性能AI运算,持续运行LLM(大型语言模型)、LVM(大型视觉模型)等模型。

 主要PC、手机芯片厂NPU发展最新动态 


如果说NPU是AI的专用引擎,TOPS便是衡量这个引擎马力的单位,根据微软对“Copilot+PC”的规格要求,需符合NPU算力不少于40TOPS的规格,掀起了新一波PC处理器效能大战,这也将成为消费者选购AI PC的一大指标。

英特尔

英特尔即将在今年9月上市的Lunar Lake,NPU算力达到48 TOPS,相较前一代Meteor Lake处理器的11.5TOPS提升3倍。

AMD

AMD执行长苏姿丰在2024中国台湾国际电脑展上,展示第3代Ryzen AI处理器,NPU算力高达50 TOPS,在目前的NPU算力竞争暂居领先。根据AMD秀出的数据,其性能表现超越高通Snapdragon X Elite、英特尔Lunar Lake以及苹果的M4芯片。

高通

至于在Copilot+PC最早鸣枪起跑、推出首波产品的高通,Snapdragon X Elite的NPU算力则是45 TOPS。

高通资深副总裁暨营销长麦奎尔(Don McGuire)先前接受《数位时代》专访指出,即使竞争对手未来推出TOPS更强的NPU,高通仍有产品领先的优势,将会持续跟微软合作,提升定制化程度。

联发科

联发科于2023年底推出的天玑9300,其NPU效能已达到48 TOPS,而今年10月即将发布的新一代天玑9400,预期将会更进一步推升NPU算力。

苹果

苹果于今年5月的发布会中,出乎外界预料地将新一代M4芯片,首发于最新的iPad Pro,NPU算力为38 TOPS,尚未达微软Copilot+PC的40 TOPS门槛。

在MacBook笔记本电脑方面,业界预期,苹果将在2024年内将MacBook Pro更新到M4系列芯片,至于MacBook Air则因为刚升级至M3芯片不久,预计需留待明年春季才会更新。
来源:数位时代等网络内容综合

· END ·


欢迎将我们设为“星标”,这样才能第一时间收到推送消息。
扫码关注:汽车开发圈,回复“驾驶

领取自动驾驶、辅助驾驶等方面免费资料包!



扫码添加小助手回复“进群”

和电子工程师们面对面交流经验

电子工程世界 关注EEWORLD电子工程世界,即时参与讨论电子工程世界最火话题,抢先知晓电子工程业界资讯。
评论
  • 流量传感器是实现对燃气、废气、生活用水、污水、冷却液、石油等各种流体流量精准计量的关键手段。但随着工业自动化、数字化、智能化与低碳化进程的不断加速,采用传统机械式检测方式的流量传感器已不能满足当代流体计量行业对于测量精度、测量范围、使用寿命与维护成本等方面的精细需求。流量传感器的应用场景(部分)超声波流量传感器,是一种利用超声波技术测量流体流量的新型传感器,其主要通过发射超声波信号并接收反射回来的信号,根据超声波在流体中传播的时间、幅度或相位变化等参数,间接计算流体的流量,具有非侵入式测量、高精
    华普微HOPERF 2025-01-13 14:18 482浏览
  • 食物浪费已成为全球亟待解决的严峻挑战,并对环境和经济造成了重大影响。最新统计数据显示,全球高达三分之一的粮食在生产过程中损失或被无谓浪费,这不仅导致了资源消耗,还加剧了温室气体排放,并带来了巨大经济损失。全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,艾迈斯欧司朗基于AS7341多光谱传感器开发的创新应用来解决食物浪费这一全球性难题。其多光谱传感解决方案为农业与食品行业带来深远变革,该技术通过精确判定最佳收获时机,提升质量控制水平,并在整个供应链中有效减少浪费。 在2024
    艾迈斯欧司朗 2025-01-14 18:45 59浏览
  • 01. 什么是过程能力分析?过程能力研究利用生产过程中初始一批产品的数据,预测制造过程是否能够稳定地生产符合规格的产品。可以把它想象成一种预测。通过历史数据的分析,推断未来是否可以依赖该工艺持续生产高质量产品。客户可能会要求将过程能力研究作为生产件批准程序 (PPAP) 的一部分。这是为了确保制造过程能够持续稳定地生产合格的产品。02. 基本概念在定义制造过程时,目标是确保生产的零件符合上下规格限 (USL 和 LSL)。过程能力衡量制造过程能多大程度上稳定地生产符合规格的产品。核心概念很简单:
    优思学院 2025-01-12 15:43 522浏览
  • 随着数字化的不断推进,LED显示屏行业对4K、8K等超高清画质的需求日益提升。与此同时,Mini及Micro LED技术的日益成熟,推动了间距小于1.2 Pitch的Mini、Micro LED显示屏的快速发展。这类显示屏不仅画质卓越,而且尺寸适中,通常在110至1000英寸之间,非常适合应用于电影院、监控中心、大型会议、以及电影拍摄等多种室内场景。鉴于室内LED显示屏与用户距离较近,因此对于噪音控制、体积小型化、冗余备份能力及电气安全性的要求尤为严格。为满足这一市场需求,开关电源技术推出了专为
    晶台光耦 2025-01-13 10:42 498浏览
  • 根据Global Info Research(环洋市场咨询)项目团队最新调研,预计2030年全球无人机电池和电源产值达到2834百万美元,2024-2030年期间年复合增长率CAGR为10.1%。 无人机电池是为无人机提供动力并使其飞行的关键。无人机使用的电池类型因无人机的大小和型号而异。一些常见的无人机电池类型包括锂聚合物(LiPo)电池、锂离子电池和镍氢(NiMH)电池。锂聚合物电池是最常用的无人机电池类型,因为其能量密度高、设计轻巧。这些电池以输出功率大、飞行时间长而著称。不过,它们需要
    GIRtina 2025-01-13 10:49 182浏览
  • ARMv8-A是ARM公司为满足新需求而重新设计的一个架构,是近20年来ARM架构变动最大的一次。以下是对ARMv8-A的详细介绍: 1. 背景介绍    ARM公司最初并未涉足PC市场,其产品主要针对功耗敏感的移动设备。     随着技术的发展和市场需求的变化,ARM开始扩展到企业设备、服务器等领域,这要求其架构能够支持更大的内存和更复杂的计算任务。 2. 架构特点    ARMv8-A引入了Execution State(执行状
    丙丁先生 2025-01-12 10:30 466浏览
  • 数字隔离芯片是现代电气工程师在进行电路设计时所必须考虑的一种电子元件,主要用于保护低压控制电路中敏感电子设备的稳定运行与操作人员的人身安全。其不仅能隔离两个或多个高低压回路之间的电气联系,还能防止漏电流、共模噪声与浪涌等干扰信号的传播,有效增强电路间信号传输的抗干扰能力,同时提升电子系统的电磁兼容性与通信稳定性。容耦隔离芯片的典型应用原理图值得一提的是,在电子电路中引入隔离措施会带来传输延迟、功耗增加、成本增加与尺寸增加等问题,而数字隔离芯片的目标就是尽可能消除这些不利影响,同时满足安全法规的要
    华普微HOPERF 2025-01-15 09:48 78浏览
  • PNT、GNSS、GPS均是卫星定位和导航相关领域中的常见缩写词,他们经常会被用到,且在很多情况下会被等同使用或替换使用。我们会把定位导航功能测试叫做PNT性能测试,也会叫做GNSS性能测试。我们会把定位导航终端叫做GNSS模块,也会叫做GPS模块。但是实际上他们之间是有一些重要的区别。伴随着技术发展与越发深入,我们有必要对这三个词汇做以清晰的区分。一、什么是GPS?GPS是Global Positioning System(全球定位系统)的缩写,它是美国建立的全球卫星定位导航系统,是GNSS概
    德思特测试测量 2025-01-13 15:42 491浏览
  •   在信号处理过程中,由于信号的时域截断会导致频谱扩展泄露现象。那么导致频谱泄露发生的根本原因是什么?又该采取什么样的改善方法。本文以ADC性能指标的测试场景为例,探讨了对ADC的输出结果进行非周期截断所带来的影响及问题总结。 两个点   为了更好的分析或处理信号,实际应用时需要从频域而非时域的角度观察原信号。但物理意义上只能直接获取信号的时域信息,为了得到信号的频域信息需要利用傅里叶变换这个工具计算出原信号的频谱函数。但对于计算机来说实现这种计算需要面对两个问题: 1.
    TIAN301 2025-01-14 14:15 108浏览
  • 新年伊始,又到了对去年做总结,对今年做展望的时刻 不知道你在2024年初立的Flag都实现了吗? 2025年对自己又有什么新的期待呢? 2024年注定是不平凡的一年, 一年里我测评了50余块开发板, 写出了很多科普文章, 从一个小小的工作室成长为科工公司。 展望2025年, 中国香河英茂科工, 会继续深耕于,具身机器人、飞行器、物联网等方面的研发, 我觉得,要向未来学习未来, 未来是什么? 是掌握在孩子们生活中的发现,和精历, 把最好的技术带给孩子,
    丙丁先生 2025-01-11 11:35 457浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦