ADSNPU的稀疏计算

高工智能汽车 2022-08-15 17:03

Nathan J:复睿微电子英国研发中心首席架构师,常驻英国剑桥。曾在ARM总部从事十多年的高性能CPU架构研究以及人工智能架构研究。

现如今,人工智能在诸多领域都取得了突破性进展,比如自动驾驶、计算机视觉、语音识别及翻译等。为了要解决越来越复杂的应用场景,模型的复杂度也伴随着提高,并伴随着模型参数海量提升。从下图中可以很容易看出,模型的参数最近几年呈现指数级增长。

大型 DNN 模型虽然非常强大,但会消耗大量的能量,因为模型必须存储在外部 DRAM,导致每次对模型中数据的存取都要访问DRAM。

神经网络巨大的计算量和访存量,对NPU的性能提出了更高的要求(能耗、延时、访存等)。一种可行的解决方案就是充分利用机器学习模型中的稀疏性。

所谓的稀疏性是指在计算中不必要,没用的计算。通过减少计算量,就可以保证降低不必要的存储和计算,提升机器学习模型部署时的性能。

下面通过一个简单的例子来简单介绍什么是稀疏性。卷积神经网络中由于模型的裁剪或者激活函数的操作导致weight和输入activation中通常包含大量的0值,如下图所示。这里的激活函数我们选择Relu,由于输出的特征图像的值有可能是正数,也可能是负数,负数经过Relu激活函数计算后会变为0,这就是网络稀疏性的来源之一。

这些0值其实是一些无效的数据,本不需要在网络中对其进行计算。如果我们不对这些无效数据做任何优化,NPU的硬件资源就会被浪费在处理一些无用的数据上,从而降低了NPU资源的利用率,而且会产生额外的功耗。如何对这些稀疏网络进行优化将是我们面临的一大挑战。

目前对网络的优化大概可以分为以下几类:

  • 结构设计上的优化比如采用depthwise或者pointwise,相比于普通卷积节省了很多运算量,这种优化方式没有利用到网络的稀疏性。
  • 量化是指通过降低数据精度将大的值映射为更小值集的过程。通常DNN的量化是通过将浮点数转化为较低精度的定点数(比如INT8, INT4, INT2),甚至极端情况下的二进制值。这种优化策略也没有利用网络的稀疏性。
  • 裁剪,是指在训练过程中将权值归0引入稀疏性的过程,而不会显著影响网络的准确性。网络裁剪主要有两种类型:结构化裁剪和非结构化裁剪。
    结构化裁剪是指可以有规则的裁剪掉网络更大的部分,比如按照channel裁剪,或者裁剪掉某些层,这种裁剪方式对硬件更加友好。相对应的,非结构化裁剪则是删除网络中不太显著的关联,不管他们在哪里,这导致裁剪掉的部分分布没有规律,对硬件不够友好。
  • 压缩,则是weight和activations中稀疏性的另一个产物。比如零值压缩(ZVC)、运行长度编码(RLE)等压缩技术,常被NPU使用来减少内存存储和内存访问的能量消耗。

除了前面提到的结构性裁剪和非结构性裁剪稀疏性之外,还有一种细粒度的稀疏性:平衡性稀疏

这种稀疏性在保持较高模型精度的同时,有效地实现了GPU加速。对于一个权值矩阵来说,每个矩阵的行平均分成多个大小相等的块,并且每个块具有相同数量的非零权值。如下图所示:

Nvidia的A100 GPU采用了类似于平衡性稀疏的方法,支持每个行上2:4的结构化稀疏性,即允许每4个输入向量中有两个非0值,它可以被有效地压缩并将内存存储和带宽减少近 2 倍。

另外一种稀疏算法是列组合稀疏,即将权重矩阵的列进行组合,在一组组合列中,只选择赋值最大的权重,其他都会被裁剪掉,如下图所示。这种稀疏算法可以使能效提升2倍,硬件使用率效率提升4倍。

稀疏算法的研究还在持续进行,但是不管采用何种稀疏算法,都需要有相应的NPU硬件架构与之配合,还需要结合软件编译器的优化才能使稀疏性的呈现完美的效果。

网络的稀疏性给NPU的设计带来了新的机遇和挑战:

  • 首先稀疏性的过程中必需要考虑到网络准确性的丢失。
  • 其次稀疏性的不规则,会直接影响NPU中运算单元的拓扑结构(MAC阵列或者PE阵列)。因此需要在利用稀疏性与有效数据分布之间进行共同优化设计。
  • 另外稀疏性有可能降低NPU的利用率,因为在其过程中NPU不需要计算0值并且由于工作负载分配不均匀而导致某些部分变的空闲。
  • 最后NPU对稀疏性的支持也会带来额外的硬件成本,需要在硬件成本和性能提升方面找到平衡。

参考文献: 

【1】Liane B.  Alexander S. and etc.“Freely scalable and reconfigurable optical hardware for deep learning”.

【2】Chuang-Bin W. Chung-Hsuan C. and etc.“Reconfigurable Deep Learning Accelerator Hardware Architecture Design for Sparse CNN”.

【3】Zhuliang Y. Shijie C. and etc.“ Balanced Sparsity for Efficient DNN Inference on GP”.

【4】H. T. Kung, Bradley M. and etc.“ Packing Sparse Convolutional Neural Networks for Efficient Systolic Array Implementations: Column Combining Under Joint Optimization”.

复睿微电子简介:复睿微电子是世界500强企业复星集团出资设立的先进技术型企业。复睿微电子根植于创新驱动的文化,通过技术创新改变人们的生活、工作、学习和娱乐方式。公司目标成为世界领先的智能出行时代的大算力方案提供商,致力于为汽车电子、人工智能、通用计算等领域提供以高性能芯片为基础的解决方案。

目前主要从事汽车智能座舱、ADS/ADAS芯片研发,以领先的芯片设计能力和人工智能算法,通过底层技术赋能,推动汽车产业的创新发展,提升人们的出行体验。在智能出⾏的时代,芯⽚是汽⻋的⼤脑。

复星智能出⾏集团已经构建了完善的智能出行生态,复睿微是整个⽣态的通⽤⼤算⼒和⼈⼯智能⼤算⼒的基础平台。复睿微电子以提升客户体验为使命,在后摩尔定律时代持续通过先进封装、先进制程和解决⽅案提升算⼒,与合作伙伴共同⾯对汽⻋智能化的新时代。

评论
  • 多人同时共享相同无线网络,以下场景是否是您熟悉的日常?姐姐:「妈~我在房间在线上课,影音一直断断续续的怎么上课啊!」奶奶:「媳妇啊~我在在线追剧,影片一直卡卡的,实在让人生气!」除此之外,同时间有老公在跟客户开在线会议,还有弟弟在玩在线游戏,而妈妈自己其实也在客厅追剧,同时间加总起来,共有五个人同时使用这个网络!我们不论是在家里、咖啡厅、餐厅、商场或是公司,都会面临到周遭充斥着非常多的无线路由器(AP),若同时间每位使用者透过手机、平板或是笔电连接到相同的一个网络,可想而知网络上的壅塞及相互干扰
    百佳泰测试实验室 2025-03-06 16:50 35浏览
  • ASL6328芯片支持高达 6.0 Gbps 运行速率的交流和直流耦合输入T-MDS 信号,具备可编程均衡和抖动清理功能。ASL6328 是一款单端口 HDMI/DVI 电平转换 / 中继器,具有重新定时功能。它包含 TypeC双模式 DP 线缆适配器寄存器,可用于识别线缆适配器的性能。抖动清理 PLL(锁相环)能够消除输入抖动,并完全重置系统抖动容限,因此能更好地满足更高数据速率下 HDMI 抖动合规性要求。设备的运行和配置可通过引脚设置或 I2C 总线实现。自动断电和静噪功能提供了灵活的电
    QQ1540182856 2025-03-06 14:26 84浏览
  • 产品质量合格率偏低会引起质量成本(也称“劣质成本”)的大幅增加。质量成本通常分为内部损失成本和外部损失成本两部分。内部损失成本是指产品交付前因质量不合格造成的损失,包括返工、报废等;外部损失成本是指产品交付后因质量问题导致的损失,如退货、召回等。此外,质量问题还会影响生产效率,带来额外人工和停工损失。下面分别介绍各类损失的具体计算方法和公式。直接成本损失(内部故障成本)直接成本是由于产品在出厂前质量不合格所造成的看得见的损失。常见的直接损失包括返工、报废以及由此产生的额外原材料消耗等。返工成本:
    优思学院 2025-03-05 15:25 77浏览
  • 1. 背景在汽车电子系统测试中,CANoe作为主流的仿真测试工具,常需与云端服务器、第三方软件或物联网设备进行交互。随着CANoe与外部软件、服务器或设备交互越来越多,直接使用Socket进行通信往往不能满足使用需求,依托于CANoe 的连接功能集(Connectivity Feature Set),以及Distributed Object(DO)功能,可以仿真HTTP节点,实现设备与服务器等之间的通信,保证数据处理的可靠性和便捷性。本文详细解析如何利用CANoe搭建HTTP测试环境,并提供典型
    北汇信息 2025-03-05 11:56 86浏览
  • 文/Leon编辑/cc孙聪颖2025年全国两会进行时,作为“十四五”规划收官之年,本届两会释放出坚定目标、稳中求进、以进促稳等信号。其中,企业家们的建议备受关注,关系到民营经济在2025年的走向。作为国内科技制造业的“老兵”,全国人大代表、TCL集团创始人及董事长李东生在本届两会中提出三份代表建议,包括《关于优化中国科技制造业融资环境的建议》、《关于加强AI深度伪造欺诈管理的建议》和《关于降低灵活就业人员社会保险参保门槛的建议》,表现出对科技制造、AI发展和劳动者保障方面的关注。会后,李东生接受
    华尔街科技眼 2025-03-06 19:41 32浏览
  • 随着自动驾驶技术的迅猛发展,构建高保真、动态的仿真场景成为了行业的迫切需求。传统的三维重建方法在处理复杂场景时常常面临效率和精度的挑战。在此背景下,3D高斯点阵渲染(3DGS)技术应运而生,成为自动驾驶仿真场景重建的关键突破。一、3DGS技术概述与原理1、3DGS的技术概述3DGS是一种基于3D高斯分布的三维场景表示方法。通过将场景中的对象转化为多个3D高斯点,每个点包含位置、协方差矩阵和不透明度等信息,3DGS能够精确地表达复杂场景的几何形状和光照特性。与传统的神经辐射场(NeRF)方法相比,
    康谋 2025-03-06 13:17 119浏览
  • 概述随着工业4.0的深入推进,制造业对自动化和智能化的需求日益增长。传统生产线面临空间不足、效率低下、灵活性差等问题,尤其在现有工厂改造项目中,如何在有限空间内实现高效自动化成为一大挑战。此次项目的客户需要在现有工厂基础上进行改造,空间有限。为此,客户选择了SCARA型线性轴机器人作为执行设备。然而,SCARA机器人的高效运行离不开强大的控制系统支持。宏集凭借其先进的智能控制系统,为客户提供了高效、灵活的自动化解决方案,确保SCARA机器人在有限空间内发挥最大效能。一、客户需求在此次改造项目中,
    宏集科技 2025-03-06 11:27 120浏览
  • 服务器应用环境与客户需求PCIe 5.0高速接口技术的成熟驱动着生成式AI与高效能运算等相关应用蓬勃发展。在随着企业对服务器性能的要求日益严苛,服务器更新换代的周期也持续加快。在此背景下,白牌与DIY(Do It Yourself)服务器市场迎来了新的发展契机,但同时也面临着更趋复杂的技术挑战。传统上,白牌与DIY服务器以其高度客制化与成本效益优势受到市场青睐。然而,随着PCIe 5.0等高速技术的导入,服务器系统的复杂度大幅提升,对组装技术与组件兼容性也就提出更高的要求。举个简单的例子来说,P
    百佳泰测试实验室 2025-03-06 17:00 39浏览
  • 案例1 2008款保时捷卡宴车行驶中发动机偶发熄火故障现象 一辆2008款保时捷卡宴车,搭载4.8 L 自然吸气发动机,累计行驶里程约为21万km。车主反映,该车行驶中发动机偶发熄火;重新起动,发动机能够起动着机,只是起动时间延长,且组合仪表上的发动机故障灯异常点亮。 故障诊断接车后试车,发动机起动及怠速运转正常。用故障检测仪检测,发动机控制单元(DME)中存储有故障代码“P0335 曲轴位置传感器A电路”,由此怀疑曲轴位置传感器信号偶尔异常,导致发动机熄火。用虹科Pico汽车示波器测
    虹科Pico汽车示波器 2025-03-05 11:00 62浏览
  • 文/Leon编辑/侯煜‍2008至2021年间,创维以高举高打的凌厉之势,果断进行投资,一度成为中国市场大屏OLED产业的旗手,引领着显示技术的发展方向。但近年来,创维在 OLED 领域的发展轨迹却逐渐模糊,态度陷入暧昧不明的混沌状态。究其根源,一方面,创维对过往的押注难以割舍,在技术革新与市场变化的浪潮中,不愿轻易推翻曾经的战略布局;另一方面,早期在大屏OLED 技术研发、市场推广等环节投入的巨额资金,已然形成沉没成本,极大地限制了创维在显示技术路线上的重新抉择。但市场瞬息万变,为适应激烈的行
    华尔街科技眼 2025-03-05 20:03 144浏览
  • 配电自动化终端DTU(数据终端单元)在智能电网的建设中扮演着至关重要的角色,它通过信息采集与控制,实现配电线路的遥测、故障检测及远程操作,极大提升了供电可靠性和效率。在国网新规的推动下,采用多核异构处理器设计的DTU方案日益成为主流,其中实时核与控制核的协同工作,为配电系统的实时监控与高效管理提供了有力保障。在此背景下,飞凌嵌入式基于FET536-C核心板的RISC-V核DTU解决方案应运而生,凭借卓越的性能和灵活的多核架构,引领配电自动化进入全新时代。1. T536核心板的优势飞凌嵌入式FET
    飞凌嵌入式 2025-03-05 10:42 78浏览
  • 以全志T536工业级处理器为引擎,驱动国产化创新,为千行百业提供降本增效新选择——飞凌嵌入式FET536-C核心板重磅发布!FET536-C全国产核心板FET536-C核心板基于全志发布的T536工业级处理器开发设计。主频1.6GHz,集成四核Cortex-A55、64位玄铁E907 RISC-V MCU,提供高效的计算能力;支持2TOPSNPU、安全启动、国密算法IP、全通路ECC、AMP、Linux-RT等,还具备广泛的连接接口:USB、SDIO、UART、SPI、CAN-FD、Ethern
    飞凌嵌入式 2025-03-05 10:38 58浏览
  • 引言嘿,各位电动汽车的爱好者们!咱们今儿个就来聊聊电动汽车里那些“看不见,摸不着”,但又至关重要的零部件。要说电动汽车这玩意儿,那可真是科技含量满满,各种高精尖的技术都往里堆。但要让这些高科技玩意儿协同工作,稳定可靠地运转,那就得靠一些幕后英雄,比如说——电容器。你可能会想,电容器?这不就是电子电路里常见的元件嘛,能有多重要? 哎,你可别小瞧了这小小的电容器。在电动汽车的心脏地带——高压直流转换器(DC-DC转换器)里,车规级的电容器那可是扮演着举足轻重的角色。 今天,咱们就聚焦分析三星电机车规
    贞光科技 2025-03-05 17:02 90浏览
  • 在当今竞争激烈的市场环境中,企业不仅需要优化成本,还需积极响应国家的能源政策,减少对环境的影响。提升工业能源效率正是实现这一双重目标的关键。中国近年来大力推进“双碳”目标(碳达峰、碳中和),并出台了一系列政策鼓励企业节能减排。通过宏集CODRA的Panorama解决方案,企业可以获得专为这一目标设计的SCADA工具,实时监控和调整所有工业设备的能耗。特别是其中的能源管理模块,能够有效分析数据,预防故障,避免能源浪费。Panorama的优化技术宏集CODRA提供的解决方案,尤其是Panorama
    宏集科技 2025-03-06 11:25 115浏览
  • 在六西格玛项目中,团队的选择往往决定了最终的成败。合适的团队成员不仅能推动项目顺利进行,更能确保最终成果符合预期。因此,组建六西格玛团队时,必须挑选最合适的人才,确保他们具备必要的能力和特质。团队主管的关键特质每个精益六西格玛项目都需要一位主管来带领团队。他们不仅需要具备领导力,还要能够分析数据、制定策略,并与管理层和团队成员高效沟通。团队主管的核心职责包括:领导团队行动:能够激励成员,确保团队朝着既定目标前进。数据分析能力:精通数据处理和分析,能基于数据做出决策。沟通协调:能够在管理层和团队之
    优思学院 2025-03-06 12:51 92浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦