广告

将深度学习引入物联网前端设备

2018-06-10 15:48:32 Liran Bar,CEVA成像与视觉DSP核心产品线市场总 阅读:
机器学习正快速成为物联网(IoT)设备不可分割的特征。家用电器开始装备可以智能地回应自然语音的语音驱动接口。机器人开始通过智能手机相机上的演示视频学习如何在工厂车间移动材料并为其他机器编程……
广告

如何优化功率、性能和面积

机器学习正快速成为物联网(IoT)设备不可分割的特征。家用电器开始装备可以智能地回应自然语音的语音驱动接口。机器人开始通过智能手机相机上的演示视频学习如何在工厂车间移动材料并为其他机器编程。同时,智能手机变得更加智能。这些应用都充分利用了迄今为止最为成功的复杂多维数据人工智能体系结构——深度神经网络(DNN)。

智能进入前端设备

到目前为止,嵌入式系统DNN技术应用的一个难题一直是它对计算性能的高要求。在输入数据被传递到经过训练的DNN进行识别和分析的推理阶段,需要的运算量虽然比训练阶段少,但语音、视频等流数据仍然需要每秒数十亿次计算。因此,在很多情况下,处理被转移到有足够运算能力的云端。但对于前端设备,这并非理想的解决方案。

自动驾驶车辆和工业机器人等关键任务,需要利用DNN实时识别物体的能力来提高态势感知。但云计算存在延迟、带宽和网络可用性等问题。在此情况下,得不到云端实时响应的风险是用户无力承担的。

隐私是另一个问题。尽管消费者认为智能扬声器等设备提供的语音帮助服务很方便,但他们也越来越担心,如果他们的语音录音被定期转移到云端,可能导致个人信息的意外泄漏。随着配备摄像头的智能扬声器和可视机器人助手的出现,这类担忧将变得更加严重。为了安抚客户,制造商正在研究如何将更多的DNN处理功能迁移到前端设备。他们所面临的主要问题是DNN处理不适合传统嵌入式系统的架构。

常规嵌入式处理器不足以应对DNN处理

对于低功耗设备,基于CPU和GPU的传统嵌入式处理器无法有效地承担DNN工作负载。物联网和移动设备对功率和面积有非常严格的限制,而高性能对于实时DNN处理是必要的。电源、性能和面积三要素(简称PPA)必须实现最优化,才能应对当前的任务。

解决这些问题的一种方法是为可以访问芯片内置存储器阵列的DNN处理提供硬件电路引擎。这种方法的问题是开发人员需要高度的灵活性。每个DNN设计的结构都需要根据目标应用进行调整。为语音识别设计和训练的DNN的卷积、合并和完全连接层的组合将不同于视频用途的DNN。由于机器学习仍然是一项不断发展的新兴技术,面向未来的解决方案必须具有灵活性。

另一种常用的方法是给标准处理单元添加矢量处理单元(VPU),这可以确保更高效的计算以及处理不同类型网络的灵活性。但这仍然不够。对于DNN处理而言,从外部DDR存储器读取数据是相当耗电的任务。因此,为了确保整体解决方案,还必须考虑数据效率和内存访问。为了最大限度地提高效率、可扩展性和灵活性,VPU只是AI处理器所需的关键模块之一。

实现最佳带宽和吞吐量

为了满足这些要求,CEVA创造了一种架构,它既可以满足DNN的性能挑战,又能保证处理各种嵌入式深度学习应用所需的灵活性。 NeuPro AI处理器包括经过优化的专用深度神经网络推理硬件引擎,用于处理卷积、完全连接、激活和合并层。此外,它还利用功能强大的可编程VPU来处理未支持层类型和推理软件执行。该架构与CEVA深度神经网络(CDNN)软件框架配套,该框架可以以图形化界面即时生成执行。
20180610-ceva-1
图1:NeuPro灵活的可扩展架构适用于各种AI应用(来源:CEVA)

为了确保数据效率,CEVA-NeuPro架构采用特别技术最小化存储器访问量并优化数据在不同层之间的流动。它完全支持即时传播,并将所有中间网络层保留在本地内存中,从而实现最少的DDR访问。它使用的另一种技术是通过尽量重复使用已加载数据来减少从本地内存读取数据。这些组件的结合创造了具有最佳PPA(高性能、低功耗和高面积效率)的完整DNN解决方案。

20180610-ceva-2
*图2:结合NeuPro引擎和NeuPro VPU的NeuPro AI处理器的结构图
(来源:CEVA)*

更多的性能优化通过对8位和16位运算的兼容实现。某些计算需要16位运算的准确性。在其他情况下,使用8位计算可以获得几乎相同的结果,而且可以大幅减少工作量,从而降低功耗。 NeuPro引擎可以在这些操作之间实现均衡,从而使每个层都得到最佳执行,实现兼具高精度和高性能的两全其美的结果。
20180610-ceva-3
图3:每层选择8位或16位计算可确保最佳精度和性能(来源:CEVA)

经过优化的硬件模块、VPU和高效内存系统相结合,共同创造出灵活高效的可扩展解决方案。此外,CDNN通过一键式网络转换和随时可用的库模块实现简化的开发。所有一切造就了一款性能全面的AI处理器,它赋予物联网设备设计人员将本地化机器学习充分应用到下一代产品中的能力。

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 开启更绿色的未来:氮化镓技术引领能源效率革命 过去几十年来,全球能源消耗稳步增长,预计还会进一步增长。
  • 下一代半导体氧化镓基光电探测器的应用与测试研究 光电探测器的性能因材料不同、结构不同、制备工艺及应用场景的不同而存在较大的差异。性能指标之间往往存在制约,如暗电流与输出电流、灵敏度与响应度、可靠性与灵敏度等需要权衡。对于性能表征也是如此,例如高响应度与高精度电流表征无法同时进行。
  • 通过优化栅极驱动器充分提高SiC MOSFET性能 SiC的特定特性要求对MOSFET器件和栅极驱动电路进行仔细选择,以确保安全地满足应用需求,并尽可能提高效率。在本文中,我们将讨论为SiC MOSFET选择栅极驱动器时应考虑的标准。
  • 将电流感应集成到宽禁带电源转换器的挑战 由于在满足所有要求方面存在不同的权衡,因此很难采用一种适用于所有情况的电流检测方法。
  • 宽禁带半导体技术综述 宽禁带半导体(例如SiC和GaN)在可靠性、能效、功率密度和降低成本方面具有重要优势。
  • 提高功率器件性能的封装技术 提升功率密度的需求给功率器件及其封装与冷却技术带来了特定的挑战。
  • 为什么翻新机的价格在上涨? • 目前,iPhone在翻新市场中是最热门的商品,并将长期主导着翻新机的平均销售价格。 • 全球翻新机市场持续向高端化发展,其平均销售价格(ASP)现已超过新手机。 • 新兴市场是增长的最大驱动力,消费者对高端旗舰产品有着迫切需求。 • 由于市场固化和供应链的一些问题限制推高中国、东南亚和非洲等大市场的价格。 • 2024年,这些翻新机平均销售价格将首次超过新手机。
  • 2024三季度全球扫地机器人市场出货 从全球厂商竞争来看,三季度凭借多个新品发布,石头科技市场份额提升至16.4%,连续两季度排名全球第一……
  •  摩尔斯微电子推出MM8108:全球体积 最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准,配套USB网关,可轻松实现Wi-Fi HaLow在新建及现有Wi-Fi基础设施中的快速稳健集成
  • 移远通信再扩短距离通信模组版图:Wi 其中包含Wi-Fi 7和蓝牙5.4 模组FME170Q-865、Wi-Fi 6和蓝牙5.4 模组FCS962N-LP、Wi-Fi 6和蓝牙5.3模组FCU865R 、独立Wi-Fi和蓝牙模组FGM840R、高功率Wi-Fi HaLow模组FGH100M-H……
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了