嵌入式应用神经处理的演变

FPGA开发圈 2022-08-10 12:03

作者:Synopsys ARC 处理器产品营销经理 Gordon Cooper

十年前,运行在 GPU 上的深度学习卷积神经网络 (CNN) 模型 AlexNet 取代了更传统的视觉处理算法,赢得了 ImageNet 大规模视觉识别挑战赛 (ILSVRC)。AlexNet 及其后继者以高度计算复杂性和大型数据集为代价,显著提高了对象分类的准确性。换言之,要达到这一破纪录的准确性,需要大量的数据移动和大量的乘法和累加运算。在学术界,人们急于改进神经网络优化技术,以提高准确性和性能,同时最大限度地降低实际应用的功耗和面积。

神经网络在现实世界已得到广泛应用,例如自动驾驶汽车的行人检测、智能个人助理的语音识别以及手机和笔记本电脑访问控制的面部识别(图 1)。神经网络的优势在于,它们能够识别数据集内的模式(即使在数据噪音很大或不完整时),在某些情况下甚至超过人类的能力。

图 1:嵌入式神经网络应用示例

在 GPU 上实施,例如 AlexNet 的 ILSVRC 提交,为模型训练和早期原型设计提供了很好的起点。对于性能和功耗至关重要的高容量、成本敏感型应用,设计人员已转向神经处理单元 (NPU),它是具有可编程,并针对神经网络优化了的硬件加速器。NPU 的挑战是除了提供针对数学密集型神经网络优化的加速,提高面积效率,还要提供足够可编程性,以便在将来发布新的神经网络技术或算法时不会过时。

从 VGG16 到 Transformers

第一批神经网络加速器于 2014 年开始出现,当时在 AlexNet 上改进的神经网络模型 VGG16 是广泛用于视觉分类任务的 CNN 架构。VGG16 的架构相当简单。它使用 3x3 卷积,并使用简单的激活函数 ReLU(图 2)。激活函数通过将节点的输出驱动到一或零(从而激活或不激活输出)来帮助在有用数据与不那么有用的数据之间进行排序。VGG16 在 AlexNet 上的准确度通过增加层数来提高,这使得对复杂性和数据移动的要求变的更高。


卷积是神经网络处理的核心,在过去十年中变得越来越复杂。例如,MobileNet 引入了深度可分离卷积。VGG16 的 3x3 卷积被多种替代方案所取代,尤其是增加对 1x1 卷积的依赖。激活函数更加多样化和复杂。虽然 ReLU 不是 2014 年使用的唯一激活函数,但 sigmoid 和 tanh 通常与神经网络 (RNN) 一起使用。ReLU 是 CNN 最常用的函数。不断发展的研究引入了多种新的激活函数。NPU 仍需高效地支持 ReLU,但还须支持十几种或更多的替代配置。图 2 显示了当今神经网络架构必须支持和优化的一些复杂性。

图 2:左图显示了 ReLU,这是一种在许多早期 CNN 中使用的计算高效、非饱和、非线性激活函数。右图显示了一些需要被最新 NPU 支持的激活函数。

在过去八年中,CNN 架构的多项改进提高了性能、效率、准确性和带宽,但代价是增加了硬件复杂性。旨在最大化 AlexNet、VGG16 或其他早期 ImageNet 获奖模型的硬件目前不足以高效地运行最新的神经网络模型(例如 Yolo v5、EfficientNet),或无法支持新兴深度学习模型,如 Transformers 和 Recommender 网络。


Transformers 神经网络是一种新型深度学习架构,最初凭借其实现自然语言处理 (NLP) 的能力而备受关注。与 RNN 一样,Transformers 也设计用于处理音频或语音等顺序输入数据。与连续处理数据并因此在硬件中受到带宽限制的 RNN 不同,Transformers 允许更多的并行性,从而提高效率和准确性,并允许训练此前无法训练的更大数据集。除 NLP 外,Transformers 现在也正在应用于视觉应用。

复杂的神经网络需要 NPU 改进

NPU 的神经网络加速必须不断发展,以更好地支持最新的神经网络模型。它们必须从 CNN 引擎发展为更广泛的 AI 引擎。


这不仅仅是由于神经网络模型的复杂性推动了对 NPU 改进的需求。现实应用对越来越高水平的神经网络性能的需求日益增长。在过去的几年里,手机在 AI 处理方面的表现提升了 30 倍。在过去几年中,由于使用的摄像头数量越来越多、图像分辨率越来越高以及算法越来越复杂,自动驾驶汽车对神经网络处理的需求已实现从 10 增长到 100 再增长到 1000 万亿次运算/秒 (TOPS) 的性能提升。L3 自动驾驶可能需要 10 次 TOPS,L4 自动驾驶预计需要 100 次 TOPS,而 L5 自动驾驶预计需要 1000 次 TOPS。

图 3:自动驾驶等级对应的驾驶环境自动监控系统和所需神经网络性能

提高神经网络加速器性能的最简单方法是增加乘积累加器 (MAC) 的数量,即构建模块矩阵乘法。然而,虽然计算单元呈指数级增长,但将数据输送到这些大型加速器所需的存储器带宽并非如此。神经网络设计师面临着很大的压力,他们需要想出尽可能减少带宽的方法,以利用系统中的所有这些 MAC。


支持 AI 的 SoC 的设计师需要神经网络 IP,该 IP 与神经网络算法的最新进化同步发展,能够对越来越高水平神经网络性能日益增长的需求进行扩展,并且能够通过一套成熟的开发工具轻松编程。对于汽车和航空用例,满足日益严苛的功能安全标准也很重要。

全新 新思科技ARC NPX6 NPU IP

为了跟上神经网络的不断发展以及满足对更高性能的日益旺盛的需求,新思科技 最近推出了 新思科技 ARC® NPX6(图 4)NPU IP。NPX6 NPU IP 以超低功耗满足深度学习应用的实时计算需求。NPX6 NPU IP 是 新思科技 的第六代神经网络加速器 IP。

图 4:DesignWare ARC NPX6 NPU IP

NPX6 NPU IP 有多种尺寸可供选择,以满足特定的应用性能要求。NPX6 NPU 的可扩展架构基于单个内核,可从 4K MAC 扩展到 96K MAC。单个 NPX6 处理器可在最坏情况下以 1.3 GHz 的频率在 5nm 工艺上提供高达 250 TOPS 的性能,或者通过使用新的稀疏功能提供高达 440 TOPS 的性能,这可以提高神经网络的性能并降低其能源需求。


每个 NPX6 内核包括最多三个针对最新神经网络优化的计算单元。卷积加速器支持每个时钟周期 4096 个 MAC,用于包括卷积运算在内的矩阵乘法。Tensor 加速器支持多种张量运算,适用于 CNN、RNN 以及 Transformers 等更新的网络。Tensor 加速器还提供可编程查表 (LUT),支持任何当前或未来的激活函数,包括 ReLU、PReLU、ReLU6、tanh 和 sigmoid、MISH、SWISH 等。Tensor 浮点单元 (TFPU) 可在神经处理硬件内部提供可选的 16 位浮点(FP16 和 BF16 格式)支持,最大限度地提高层性能,并简化从用于 AI 原型的 GPU 到大容量功耗和面积优化 SoC 的过渡。


先进带宽技术和内存层次结构支持计算模块的这种可扩展性,该层次结构支持每个内核中的 L1 内存以及内核与外部 DRAM 之间的 L2 内存。高性能、低延迟互连可提供扩展至多达 24 个内核的能力。NPX 系列中设计了许多硬件和软件功能,可帮助提高 TOPS,同时将外部内存带宽保持在可控范围内。其中包括 DMA 的动态压缩、利用图形稀疏性、高级缓冲区管理和多级平铺,以及层融合等。


为了利用所有这些集成的硬件功能并加速 NPX 处理器系列的应用软件开发,全新的新思科技 ARC MetaWare MX 开发工具包提供了一个全面的编译环境,具有自动神经网络算法分区,以最大限度地提高资源利用率。NPX IP 和高效率编程工具共同优化了高性能 SoC 的性能、功耗和面积,适用于广泛的嵌入式 AI 应用,包括高级驾驶辅助系统 (ADAS)、监控、数字电视和摄像头以及数据中心和边缘服务器推理。


FPGA开发圈 这里介绍、交流、有关FPGA开发资料(文档下载,技术解答等),提升FPGA应用能力。
评论
  •   在信号处理过程中,由于信号的时域截断会导致频谱扩展泄露现象。那么导致频谱泄露发生的根本原因是什么?又该采取什么样的改善方法。本文以ADC性能指标的测试场景为例,探讨了对ADC的输出结果进行非周期截断所带来的影响及问题总结。 两个点   为了更好的分析或处理信号,实际应用时需要从频域而非时域的角度观察原信号。但物理意义上只能直接获取信号的时域信息,为了得到信号的频域信息需要利用傅里叶变换这个工具计算出原信号的频谱函数。但对于计算机来说实现这种计算需要面对两个问题: 1.
    TIAN301 2025-01-14 14:15 110浏览
  • 随着数字化的不断推进,LED显示屏行业对4K、8K等超高清画质的需求日益提升。与此同时,Mini及Micro LED技术的日益成熟,推动了间距小于1.2 Pitch的Mini、Micro LED显示屏的快速发展。这类显示屏不仅画质卓越,而且尺寸适中,通常在110至1000英寸之间,非常适合应用于电影院、监控中心、大型会议、以及电影拍摄等多种室内场景。鉴于室内LED显示屏与用户距离较近,因此对于噪音控制、体积小型化、冗余备份能力及电气安全性的要求尤为严格。为满足这一市场需求,开关电源技术推出了专为
    晶台光耦 2025-01-13 10:42 507浏览
  • 01. 什么是过程能力分析?过程能力研究利用生产过程中初始一批产品的数据,预测制造过程是否能够稳定地生产符合规格的产品。可以把它想象成一种预测。通过历史数据的分析,推断未来是否可以依赖该工艺持续生产高质量产品。客户可能会要求将过程能力研究作为生产件批准程序 (PPAP) 的一部分。这是为了确保制造过程能够持续稳定地生产合格的产品。02. 基本概念在定义制造过程时,目标是确保生产的零件符合上下规格限 (USL 和 LSL)。过程能力衡量制造过程能多大程度上稳定地生产符合规格的产品。核心概念很简单:
    优思学院 2025-01-12 15:43 529浏览
  • 根据Global Info Research(环洋市场咨询)项目团队最新调研,预计2030年全球无人机电池和电源产值达到2834百万美元,2024-2030年期间年复合增长率CAGR为10.1%。 无人机电池是为无人机提供动力并使其飞行的关键。无人机使用的电池类型因无人机的大小和型号而异。一些常见的无人机电池类型包括锂聚合物(LiPo)电池、锂离子电池和镍氢(NiMH)电池。锂聚合物电池是最常用的无人机电池类型,因为其能量密度高、设计轻巧。这些电池以输出功率大、飞行时间长而著称。不过,它们需要
    GIRtina 2025-01-13 10:49 198浏览
  • PNT、GNSS、GPS均是卫星定位和导航相关领域中的常见缩写词,他们经常会被用到,且在很多情况下会被等同使用或替换使用。我们会把定位导航功能测试叫做PNT性能测试,也会叫做GNSS性能测试。我们会把定位导航终端叫做GNSS模块,也会叫做GPS模块。但是实际上他们之间是有一些重要的区别。伴随着技术发展与越发深入,我们有必要对这三个词汇做以清晰的区分。一、什么是GPS?GPS是Global Positioning System(全球定位系统)的缩写,它是美国建立的全球卫星定位导航系统,是GNSS概
    德思特测试测量 2025-01-13 15:42 498浏览
  • 随着通信技术的迅速发展,现代通信设备需要更高效、可靠且紧凑的解决方案来应对日益复杂的系统。中国自主研发和制造的国产接口芯片,正逐渐成为通信设备(从5G基站到工业通信模块)中的重要基石。这些芯片凭借卓越性能、成本效益及灵活性,满足了现代通信基础设施的多样化需求。 1. 接口芯片在通信设备中的关键作用接口芯片作为数据交互的桥梁,是通信设备中不可或缺的核心组件。它们在设备内的各种子系统之间实现无缝数据传输,支持高速数据交换、协议转换和信号调节等功能。无论是5G基站中的数据处理,还是物联网网关
    克里雅半导体科技 2025-01-10 16:20 448浏览
  • 电动汽车(EV)正在改变交通运输,为传统内燃机提供更清洁、更高效的替代方案。这种转变的核心是电力电子和能源管理方面的创新,而光耦合器在其中发挥着关键作用。这些不起眼的组件可实现可靠的通信、增强安全性并优化电动汽车系统的性能,使其成为正在进行的革命中不可或缺的一部分。光耦合器,也称为光隔离器,是一种使用光传输电信号的设备。通过隔离高压和低压电路,光耦合器可确保安全性、减少干扰并保持信号完整性。这些特性对于电动汽车至关重要,因为精确控制和安全性至关重要。 光耦合器在电动汽车中的作用1.电池
    腾恩科技-彭工 2025-01-10 16:14 82浏览
  • 随着全球向绿色能源转型的加速,对高效、可靠和环保元件的需求从未如此强烈。在这种背景下,国产固态继电器(SSR)在实现太阳能逆变器、风力涡轮机和储能系统等关键技术方面发挥着关键作用。本文探讨了绿色能源系统背景下中国固态继电器行业的前景,并强调了2025年的前景。 1.对绿色能源解决方案日益增长的需求绿色能源系统依靠先进的电源管理技术来最大限度地提高效率并最大限度地减少损失。固态继电器以其耐用性、快速开关速度和抗机械磨损而闻名,正日益成为传统机电继电器的首选。可再生能源(尤其是太阳能和风能
    克里雅半导体科技 2025-01-10 16:18 328浏览
  • 食物浪费已成为全球亟待解决的严峻挑战,并对环境和经济造成了重大影响。最新统计数据显示,全球高达三分之一的粮食在生产过程中损失或被无谓浪费,这不仅导致了资源消耗,还加剧了温室气体排放,并带来了巨大经济损失。全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,艾迈斯欧司朗基于AS7341多光谱传感器开发的创新应用来解决食物浪费这一全球性难题。其多光谱传感解决方案为农业与食品行业带来深远变革,该技术通过精确判定最佳收获时机,提升质量控制水平,并在整个供应链中有效减少浪费。 在2024
    艾迈斯欧司朗 2025-01-14 18:45 68浏览
  • Snyk 是一家为开发人员提供安全平台的公司,致力于协助他们构建安全的应用程序,并为安全团队提供应对数字世界挑战的工具。以下为 Snyk 如何通过 CircleCI 实现其“交付”使命的案例分析。一、Snyk 的挑战随着客户对安全工具需求的不断增长,Snyk 的开发团队面临多重挑战:加速交付的需求:Snyk 的核心目标是为开发者提供更快、更可靠的安全解决方案,但他们的现有 CI/CD 工具(TravisCI)运行缓慢,无法满足快速开发和部署的要求。扩展能力不足:随着团队规模和代码库的不断扩大,S
    艾体宝IT 2025-01-10 15:52 164浏览
  • 新年伊始,又到了对去年做总结,对今年做展望的时刻 不知道你在2024年初立的Flag都实现了吗? 2025年对自己又有什么新的期待呢? 2024年注定是不平凡的一年, 一年里我测评了50余块开发板, 写出了很多科普文章, 从一个小小的工作室成长为科工公司。 展望2025年, 中国香河英茂科工, 会继续深耕于,具身机器人、飞行器、物联网等方面的研发, 我觉得,要向未来学习未来, 未来是什么? 是掌握在孩子们生活中的发现,和精历, 把最好的技术带给孩子,
    丙丁先生 2025-01-11 11:35 463浏览
  • 流量传感器是实现对燃气、废气、生活用水、污水、冷却液、石油等各种流体流量精准计量的关键手段。但随着工业自动化、数字化、智能化与低碳化进程的不断加速,采用传统机械式检测方式的流量传感器已不能满足当代流体计量行业对于测量精度、测量范围、使用寿命与维护成本等方面的精细需求。流量传感器的应用场景(部分)超声波流量传感器,是一种利用超声波技术测量流体流量的新型传感器,其主要通过发射超声波信号并接收反射回来的信号,根据超声波在流体中传播的时间、幅度或相位变化等参数,间接计算流体的流量,具有非侵入式测量、高精
    华普微HOPERF 2025-01-13 14:18 489浏览
  • ARMv8-A是ARM公司为满足新需求而重新设计的一个架构,是近20年来ARM架构变动最大的一次。以下是对ARMv8-A的详细介绍: 1. 背景介绍    ARM公司最初并未涉足PC市场,其产品主要针对功耗敏感的移动设备。     随着技术的发展和市场需求的变化,ARM开始扩展到企业设备、服务器等领域,这要求其架构能够支持更大的内存和更复杂的计算任务。 2. 架构特点    ARMv8-A引入了Execution State(执行状
    丙丁先生 2025-01-12 10:30 471浏览
  • 在不断发展的电子元件领域,继电器——作为切换电路的关键设备,正在经历前所未有的技术变革。固态继电器(SSR)和机械继电器之间的争论由来已久。然而,从未来发展的角度来看,固态继电器正逐渐占据上风。本文将从耐用性、速度和能效三个方面,全面剖析固态继电器为何更具优势,并探讨其在行业中的应用与发展趋势。1. 耐用性:经久耐用的设计机械继电器:机械继电器依靠物理触点完成电路切换。然而,随着时间的推移,这些触点因电弧、氧化和材料老化而逐渐磨损,导致其使用寿命有限。因此,它们更适合低频或对切换耐久性要求不高的
    腾恩科技-彭工 2025-01-10 16:15 102浏览
  • 数字隔离芯片是现代电气工程师在进行电路设计时所必须考虑的一种电子元件,主要用于保护低压控制电路中敏感电子设备的稳定运行与操作人员的人身安全。其不仅能隔离两个或多个高低压回路之间的电气联系,还能防止漏电流、共模噪声与浪涌等干扰信号的传播,有效增强电路间信号传输的抗干扰能力,同时提升电子系统的电磁兼容性与通信稳定性。容耦隔离芯片的典型应用原理图值得一提的是,在电子电路中引入隔离措施会带来传输延迟、功耗增加、成本增加与尺寸增加等问题,而数字隔离芯片的目标就是尽可能消除这些不利影响,同时满足安全法规的要
    华普微HOPERF 2025-01-15 09:48 83浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦