ADSNPU的稀疏计算

高工智能汽车 2022-08-15 17:03

Nathan J:复睿微电子英国研发中心首席架构师,常驻英国剑桥。曾在ARM总部从事十多年的高性能CPU架构研究以及人工智能架构研究。

现如今,人工智能在诸多领域都取得了突破性进展,比如自动驾驶、计算机视觉、语音识别及翻译等。为了要解决越来越复杂的应用场景,模型的复杂度也伴随着提高,并伴随着模型参数海量提升。从下图中可以很容易看出,模型的参数最近几年呈现指数级增长。

大型 DNN 模型虽然非常强大,但会消耗大量的能量,因为模型必须存储在外部 DRAM,导致每次对模型中数据的存取都要访问DRAM。

神经网络巨大的计算量和访存量,对NPU的性能提出了更高的要求(能耗、延时、访存等)。一种可行的解决方案就是充分利用机器学习模型中的稀疏性。

所谓的稀疏性是指在计算中不必要,没用的计算。通过减少计算量,就可以保证降低不必要的存储和计算,提升机器学习模型部署时的性能。

下面通过一个简单的例子来简单介绍什么是稀疏性。卷积神经网络中由于模型的裁剪或者激活函数的操作导致weight和输入activation中通常包含大量的0值,如下图所示。这里的激活函数我们选择Relu,由于输出的特征图像的值有可能是正数,也可能是负数,负数经过Relu激活函数计算后会变为0,这就是网络稀疏性的来源之一。

这些0值其实是一些无效的数据,本不需要在网络中对其进行计算。如果我们不对这些无效数据做任何优化,NPU的硬件资源就会被浪费在处理一些无用的数据上,从而降低了NPU资源的利用率,而且会产生额外的功耗。如何对这些稀疏网络进行优化将是我们面临的一大挑战。

目前对网络的优化大概可以分为以下几类:

  • 结构设计上的优化比如采用depthwise或者pointwise,相比于普通卷积节省了很多运算量,这种优化方式没有利用到网络的稀疏性。
  • 量化是指通过降低数据精度将大的值映射为更小值集的过程。通常DNN的量化是通过将浮点数转化为较低精度的定点数(比如INT8, INT4, INT2),甚至极端情况下的二进制值。这种优化策略也没有利用网络的稀疏性。
  • 裁剪,是指在训练过程中将权值归0引入稀疏性的过程,而不会显著影响网络的准确性。网络裁剪主要有两种类型:结构化裁剪和非结构化裁剪。
    结构化裁剪是指可以有规则的裁剪掉网络更大的部分,比如按照channel裁剪,或者裁剪掉某些层,这种裁剪方式对硬件更加友好。相对应的,非结构化裁剪则是删除网络中不太显著的关联,不管他们在哪里,这导致裁剪掉的部分分布没有规律,对硬件不够友好。
  • 压缩,则是weight和activations中稀疏性的另一个产物。比如零值压缩(ZVC)、运行长度编码(RLE)等压缩技术,常被NPU使用来减少内存存储和内存访问的能量消耗。

除了前面提到的结构性裁剪和非结构性裁剪稀疏性之外,还有一种细粒度的稀疏性:平衡性稀疏

这种稀疏性在保持较高模型精度的同时,有效地实现了GPU加速。对于一个权值矩阵来说,每个矩阵的行平均分成多个大小相等的块,并且每个块具有相同数量的非零权值。如下图所示:

Nvidia的A100 GPU采用了类似于平衡性稀疏的方法,支持每个行上2:4的结构化稀疏性,即允许每4个输入向量中有两个非0值,它可以被有效地压缩并将内存存储和带宽减少近 2 倍。

另外一种稀疏算法是列组合稀疏,即将权重矩阵的列进行组合,在一组组合列中,只选择赋值最大的权重,其他都会被裁剪掉,如下图所示。这种稀疏算法可以使能效提升2倍,硬件使用率效率提升4倍。

稀疏算法的研究还在持续进行,但是不管采用何种稀疏算法,都需要有相应的NPU硬件架构与之配合,还需要结合软件编译器的优化才能使稀疏性的呈现完美的效果。

网络的稀疏性给NPU的设计带来了新的机遇和挑战:

  • 首先稀疏性的过程中必需要考虑到网络准确性的丢失。
  • 其次稀疏性的不规则,会直接影响NPU中运算单元的拓扑结构(MAC阵列或者PE阵列)。因此需要在利用稀疏性与有效数据分布之间进行共同优化设计。
  • 另外稀疏性有可能降低NPU的利用率,因为在其过程中NPU不需要计算0值并且由于工作负载分配不均匀而导致某些部分变的空闲。
  • 最后NPU对稀疏性的支持也会带来额外的硬件成本,需要在硬件成本和性能提升方面找到平衡。

参考文献: 

【1】Liane B.  Alexander S. and etc.“Freely scalable and reconfigurable optical hardware for deep learning”.

【2】Chuang-Bin W. Chung-Hsuan C. and etc.“Reconfigurable Deep Learning Accelerator Hardware Architecture Design for Sparse CNN”.

【3】Zhuliang Y. Shijie C. and etc.“ Balanced Sparsity for Efficient DNN Inference on GP”.

【4】H. T. Kung, Bradley M. and etc.“ Packing Sparse Convolutional Neural Networks for Efficient Systolic Array Implementations: Column Combining Under Joint Optimization”.

复睿微电子简介:复睿微电子是世界500强企业复星集团出资设立的先进技术型企业。复睿微电子根植于创新驱动的文化,通过技术创新改变人们的生活、工作、学习和娱乐方式。公司目标成为世界领先的智能出行时代的大算力方案提供商,致力于为汽车电子、人工智能、通用计算等领域提供以高性能芯片为基础的解决方案。

目前主要从事汽车智能座舱、ADS/ADAS芯片研发,以领先的芯片设计能力和人工智能算法,通过底层技术赋能,推动汽车产业的创新发展,提升人们的出行体验。在智能出⾏的时代,芯⽚是汽⻋的⼤脑。

复星智能出⾏集团已经构建了完善的智能出行生态,复睿微是整个⽣态的通⽤⼤算⼒和⼈⼯智能⼤算⼒的基础平台。复睿微电子以提升客户体验为使命,在后摩尔定律时代持续通过先进封装、先进制程和解决⽅案提升算⼒,与合作伙伴共同⾯对汽⻋智能化的新时代。

评论
  • 前篇文章中『服务器散热效能不佳有解吗?』提到气冷式的服务器其散热效能对于系统稳定度是非常重要的关键因素,同时也说明了百佳泰对于散热效能能提供的协助与服务。本篇将为您延伸说明我们如何进行评估,同时也会举例在测试过程中发现的问题及改善后的数据。AI服务器的散热架构三大重点:GPU导风罩:尝试不同的GPU导风罩架构,用以集中服务器进风量,加强对GPU的降温效果。GPU托盘:改动GPU托盘架构,验证出风面积大小对GPU散热的影想程度。CPU导风罩:尝试封闭CPU导风罩间隙,集中风流,验证CPU降温效果。
    百佳泰测试实验室 2025-01-24 16:58 67浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 197浏览
  • 随着AI大模型训练和推理对计算能力的需求呈指数级增长,AI数据中心的网络带宽需求大幅提升,推动了高速光模块的发展。光模块作为数据中心和高性能计算系统中的关键器件,主要用于提供高速和大容量的数据传输服务。 光模块提升带宽的方法有两种:1)提高每个通道的比特速率,如直接提升波特率,或者保持波特率不变,使用复杂的调制解调方式(如PAM4);2)增加通道数,如提升并行光纤数量,或采用波分复用(CWDM、LWDM)。按照传输模式,光模块可分为并行和波分两种类型,其中并行方案主要应用在中短距传输场景中成本
    hycsystembella 2025-01-25 17:24 119浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 485浏览
  • 书接上回:【2022年终总结】阳光总在风雨后,启航2023-面包板社区  https://mbb.eet-china.com/blog/468701-438244.html 总结2019,松山湖有个欧洲小镇-面包板社区  https://mbb.eet-china.com/blog/468701-413397.html        2025年该是总结下2024年的喜怒哀乐,有个好的开始,才能更好的面对2025年即将
    liweicheng 2025-01-24 23:18 140浏览
  • 不让汽车专美于前,近年来哈雷(Harley-Davidson)和本田(Honda)等大型重型机车大厂的旗下车款皆已陆续配备车载娱乐系统与语音助理,在路上也有越来越多的普通机车车主开始使用安全帽麦克风,在骑车时透过蓝牙连线执行语音搜寻地点导航、音乐播放控制或免持拨打接听电话等各种「机车语音助理」功能。客户背景与面临的挑战以本次分享的客户个案为例,该客户是一个跨国车用语音软件供货商,过往是与车厂合作开发前装车机为主,且有着多年的「汽车语音助理」产品经验。由于客户这次是首度跨足「机车语音助理」产品,因
    百佳泰测试实验室 2025-01-24 17:00 85浏览
  • 飞凌嵌入式基于瑞芯微RK3562系列处理器打造的FET3562J-C全国产核心板,是一款专为工业自动化及消费类电子设备设计的产品,凭借其强大的功能和灵活性,自上市以来得到了各行业客户的广泛关注。本文将详细介绍如何启动并测试RK3562J处理器的MCU,通过实际操作步骤,帮助各位工程师朋友更好地了解这款芯片。1、RK3562J处理器概述RK3562J处理器采用了4*Cortex-A53@1.8GHz+Cortex-M0@200MHz架构。其中,4个Cortex-A53核心作为主要核心,负责处理复杂
    飞凌嵌入式 2025-01-24 11:21 168浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 1031浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 827浏览
  • 项目展示①正面、反面②左侧、右侧项目源码:https://mbb.eet-china.com/download/316656.html前言为什么想到要做这个小玩意呢,作为一个死宅,懒得看手机,但又想要抬头就能看见时间和天气信息,于是就做个这么个小东西,放在示波器上面正好(示波器外壳有个小槽,刚好可以卡住)功能主要有,获取国家气象局的天气信息,还有实时的温湿度,主控采用ESP32,所以后续还可以开放更多奇奇怪怪的功能,比如油价信息、股票信息之类的,反正能联网可操作性就大多了原理图、PCB、面板设计
    小恶魔owo 2025-01-25 22:09 169浏览
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 300浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 227浏览
  • 故障现象 一辆2007款日产天籁车,搭载VQ23发动机(气缸编号如图1所示,点火顺序为1-2-3-4-5-6),累计行驶里程约为21万km。车主反映,该车起步加速时偶尔抖动,且行驶中加速无力。 图1 VQ23发动机的气缸编号 故障诊断接车后试车,发动机怠速运转平稳,但只要换挡起步,稍微踩下一点加速踏板,就能感觉到车身明显抖动。用故障检测仪检测,发动机控制模块(ECM)无故障代码存储,且无失火数据流。用虹科Pico汽车示波器测量气缸1点火信号(COP点火信号)和曲轴位置传感器信
    虹科Pico汽车示波器 2025-01-23 10:46 165浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦