一文了解NPU

电子工程世界 2024-08-13 07:01

如何提升高压系统的实时性能? 如何增强电动汽车的实时控制能力？

▲ 点击上方蓝字关注我们，不错过任何一篇干货文章！

2024年上半年，PC市场迎来了难得的回暖。根据IDC的数据，包括台式机、笔记本电脑和工作站在内的设备，第二季度总出货量达到了6490万台，同比增长3%，增速为第一季度的两倍，实现回暖的其中一个关键因素就是AI PC的大热。

何为AI PC？英特尔CEO帕特基辛格给出的答案是：能够玩转AI功能的PC，可通过云与PC的紧密协作，或在电脑端独立运行大语言模型，进而从根本上改变、重塑PC的用户体验，释放人们的生产力和创造力。

在当前AI PC浪潮下，NPU成为重要关键字，NPU与CPU、GPU有哪些不同？各科技大厂目前在NPU领域发展如何？

在挑选电脑时，一些消费者会比较各机种的CPU拥有多少个核心，对于电玩游戏较讲究的，则偏好搭载GPU的机型，以追求更精致的视觉效果、更流畅的操作体验。

随着今年迈入“AI PC元年”，各笔记本电脑厂相继推出自家的AI PC，而厂商在介绍产品效能时，不时会提到“NPU”一词。究竟NPU是什么，和CPU、GPU有哪些不同？各科技厂目前在NPU发展又是如何？

都是处理器，到底差在哪？

用比喻来解释CPU、GPU、NPU的差别，可以想像CPU是能力高强的“博士生”，可解决复杂且多样的任务，但只能照顺序一次解决一个问题；GPU是一群“数学系大学生” ，擅长加减乘除，可以同时处理大量的运算工作（平行运算）；NPU则是专攻AI运算一技之长的“技职生”，遍布在AI PC、AI手机、智能穿戴等各种装置中。

以下针对CPU、GPU、NPU分别来介绍：

CPU 中央处理器（Central Processing Unit）

CPU被视为是电脑的“大脑”，负责执行作业系统、应用程序运作所需的命令与程序，也是决定程序执行速度的关键，不论是浏览网页或处理文书作业，都会受到CPU效能的影响。

英特尔（Intel）及AMD是生产CPU的领导厂商，根据市调机构Jon Peddie Research报告指出，2024年第一季内建显卡的PC CPU市场，英特尔维持领先地位拿下82%市占率，AMD则是18%。

GPU 图形处理器（Graphics Processing Unit）

自1990年代电玩游戏兴起，由于游戏画面同时要显示成千上万个像素，每个像素又都有自己的色彩、光线强度及移动变化，原为通用运算设计的CPU在运算上变得难以负荷。于是，专长于绘图运算的GPU应运而生。

在硬件架构上，GPU具有数百至数千个算数逻辑单元（Arithmetic Logic Unit，ALU），得以处理众多平行执行的数学运算，加快绘图渲染、影片编码解码等处理，也格外适合执行AI的深度学习演算法，GPU因而在AI浪潮下大放异彩。

NVIDIA是GPU领域的开创者及龙头，1999年发售的“GeForce 256”被誉为“世界上第一款GPU”。2007年，英伟达推出便于GPU加速运算的CUDA软件架构。据研调公司TechInsights分析，英伟达2023年的资料中心GPU出货量市占率高达98%，远超英特尔、AMD等对手。

NPU 神经网络处理器（Neural-network Processing Unit）

GPU扮演资料中心、AI服务器不可或缺的要角，不过边缘运算浪潮下日趋火红的NPU，则是专门为加速服务器的AI运算所打造。

NPU具有两大技术特点：第一个是模拟人类神经网络的运作方式，同样擅长平行运算处理，并适当地分配芯片内的“任务流”，减少闲置的运算资源。

第二个是经由“近存储器运算”（将处理器尽量靠近DRAM，以减少资料的传输延迟以及功率消耗）或“存内运算”（将简单的逻辑运算移至存储器阵列中），实现储存及运算的一体化，降低运算过程的能耗、加快存取速度，从而提升AI运算的执行速度和效率。

相较于CPU及GPU，低功耗、高效能的NPU格外适合处理AI推论任务，包括影像辨识、自然语言处理、物件侦测等应用。

近年，各大PC及手机芯片厂为提升AI运算能力，纷纷在芯片设计中纳入NPU。

NPU是如何优化神经网络计算的？

硬件定制化

专用核心：NPU设计有专门为神经网络计算定制的核心，这些核心可以直接执行神经网络中的常见操作，如卷积、矩阵乘法和激活函数。
数据流架构：NPU采用数据流架构，允许数据在网络中流动而不需要CPU介入，减少了数据移动和处理的开销。

并行处理

多核并行：NPU通常具有多个核心，可以同时处理多个数据点或操作，显著提高了计算效率。
向量化和SIMD：NPU利用单指令多数据（SIMD）技术，可以在一个指令周期内处理多个数据，加速了向量和矩阵操作。

存储和带宽优化

高带宽内存：NPU使用高带宽内存来减少数据传输的延迟。
层次化存储：NPU采用层次化存储结构，包括片上缓存和外部存储，以优化数据访问速度。

精度调整

低精度计算：NPU使用低精度（如16位、8位甚至二值）计算，减少数据大小和存储需求，同时加快计算速度。
量化：通过量化技术，将浮点数转换为固定点数，减少计算复杂度和功耗。

算法优化

算法硬化：将神经网络算法的关键部分硬化到硬件中，减少软件层面的计算需求。
剪枝和稀疏性：利用神经网络中的稀疏性，通过剪枝移除不重要的连接，减少计算量。

能效优化

能效比：NPU设计注重能效比，减少能耗，特别适合移动和嵌入式设备。
动态电源管理：NPU可以根据计算需求动态调整电源，进一步降低能耗。

编程和软件支持

专用编译器：NPU通常配备有专用编译器，能够将高级神经网络模型转换为高效的硬件指令。
软件堆栈：提供易于使用的软件堆栈，支持多种神经网络框架和模型。

通过这些优化，NPU能够显著提高神经网络模型的运算速度和效率，降低能耗，尤其适合在资源受限的设备上运行复杂的深度学习算法。

如何决定要使用CPU、GPU或NPU？

CPU、GPU、NPU各有所长，并且相辅相成，对于AI PC、AI手机芯片，通常藉由将三者整合为系统单芯片（SoC）的方式，提高能源效率及效能。

英特尔去年发表Core Ultra芯片（代号“Meteor Lake”）时，便直言“这是40年来PC处理器架构上最大的跃进”，因为这是该公司首次将NPU整合到系统单芯片设计中。NPU专门处理特定的AI工作负载，便可将CPU及GPU用于执行其他任务。

芯片大厂高通一篇针对NPU的专文介绍则提到，CPU适合用于低延迟、顺序性的小型模型运算，GPU擅长高精准度的图像处理平行运算，NPU则可透过低功耗达到稳定的高性能AI运算，持续运行LLM（大型语言模型）、LVM（大型视觉模型）等模型。

主要PC、手机芯片厂NPU发展最新动态

如果说NPU是AI的专用引擎，TOPS便是衡量这个引擎马力的单位，根据微软对“Copilot+PC”的规格要求，需符合NPU算力不少于40TOPS的规格，掀起了新一波PC处理器效能大战，这也将成为消费者选购AI PC的一大指标。

英特尔

英特尔即将在今年9月上市的Lunar Lake，NPU算力达到48 TOPS，相较前一代Meteor Lake处理器的11.5TOPS提升3倍。

AMD

AMD执行长苏姿丰在2024中国台湾国际电脑展上，展示第3代Ryzen AI处理器，NPU算力高达50 TOPS，在目前的NPU算力竞争暂居领先。根据AMD秀出的数据，其性能表现超越高通Snapdragon X Elite、英特尔Lunar Lake以及苹果的M4芯片。

高通

至于在Copilot+PC最早鸣枪起跑、推出首波产品的高通，Snapdragon X Elite的NPU算力则是45 TOPS。

高通资深副总裁暨营销长麦奎尔（Don McGuire）先前接受《数位时代》专访指出，即使竞争对手未来推出TOPS更强的NPU，高通仍有产品领先的优势，将会持续跟微软合作，提升定制化程度。

联发科

联发科于2023年底推出的天玑9300，其NPU效能已达到48 TOPS，而今年10月即将发布的新一代天玑9400，预期将会更进一步推升NPU算力。

苹果

苹果于今年5月的发布会中，出乎外界预料地将新一代M4芯片，首发于最新的iPad Pro，NPU算力为38 TOPS，尚未达微软Copilot+PC的40 TOPS门槛。

在MacBook笔记本电脑方面，业界预期，苹果将在2024年内将MacBook Pro更新到M4系列芯片，至于MacBook Air则因为刚升级至M3芯片不久，预计需留待明年春季才会更新。

来源：数位时代等网络内容综合

· END ·

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

电子工程世界关注EEWORLD电子工程世界，即时参与讨论电子工程世界最火话题，抢先知晓电子工程业界资讯。

进入专栏

电子工程世界关注EEWORLD电子工程世界，即时参与讨论电子工程世界最火话题，抢先知晓电子工程业界资讯。

文章：5493篇粉丝：91人

 私信