迎接边缘 AI 挑战-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

虽然众多不同边缘设备的要求都各不相同，但它们基本上都是为了最大程度地提高性能，降低功耗，并尽量减少所需的物理空间。设计工程师如何作出合适的权衡才能应对这些挑战？现有 AI 处理器的性能往往受到带宽限制，并且在将数据移入和移出外部内存时也会遇到瓶颈，导致系统利用率低，这也就意味着性能/功率数值（以 TOPS/Watt 为单位）受到限制。

AI 技术愈来愈受欢迎，在汽车、视觉处理和电信等领域的应用也越来越多。目前，AI 正在通过实现众多新功能来取代许多传统算法，例如为智能手机摄像头提供去噪和图像稳定功能。

在众多实施 AI 的产品都将数据发送到云数据中心的同时，也凸显出一些主要缺点：延迟增加、隐私风险以及需要互联网连接。

设计人员希望创建一些 AI 系统，使其在通常采用电池供电的边缘设备上运行，但这也带来了新的挑战，既实现需求的性能和功能与功耗之间的平衡，尤其是在持续快速且越来越多的需要更多计算能力的情况下。

AI 处理挑战

虽然众多不同边缘设备的要求都各不相同，但它们基本上都是为了最大程度地提高性能，降低功耗，并尽量减少所需的物理空间。设计工程师如何作出合适的权衡才能应对这些挑战？

现有 AI 处理器的性能往往受到带宽限制，并且在将数据移入和移出外部内存时也会遇到瓶颈，导致系统利用率低，这也就意味着性能/功率数值（以 TOPS/Watt 为单位）受到限制。

另一个重要问题是如何提前计划满足未来需求。由于 AI 处理器芯片的部署周期通常较长，因此 AI 解决方案必须能够适应未来的新要求，包括支持尚未定义的新神经网络。这意味着所有解决方案都必须足够灵活、可扩展，才能随着性能需求的增加而提升。

AI 系统还必须安全，并且必须符合最高的质量和安全标准，尤其是对于汽车应用和其他人工智能系统可能涉及生命攸关的决策的应用。例如，如果一位行人走到自动驾驶汽车前面，留给司机的反应时间是非常短的。

为了帮助克服这些挑战，就需要一个全面的软件工具链，简化客户实施，减少开发时间。

AI 处理器逐步提升

让我们以视觉机器学习为例，看看 AI 解决方案提供商如何应对这些挑战。

图 1：NeuPro-M AI 处理器框图，显示内存架构

首先，如果我们考虑带宽限制性能和内存访问权限问题，可以通过动态配置的两级内存体系架构来加以解决（参见图 1）。这样可以最大限度地降低与外部 SDRAM 进行数据传输产生的功耗。通过以分层方式使用本地内存资源，实现 90% 以上的利用率，防止协处理器和加速器出现“数据匮乏”情形，同时还可使每个引擎独立处理。

优化 AI 处理的另一种方法是通过使处理器架构支持混合精度的神经引擎。这种方法可以处理 2 到 16 位的数据，减少系统带宽消耗，除此之外，还能按每个用例灵活运行混合精度网络。此外，当数据从外部内存写入或读取时，数据压缩之类的带宽减少机制还能实时压缩数据和权重。这种方法减少了所需的内存带宽，进一步提高了性能，显著降低了总功耗。

图2：四引擎内核细分

这是 CEVA 的 NeuPro-M AI 处理器采用的方法，是一种用于 AI/ML 推理工作负载的独立异构处理器架构。以此解决方案为例，图 2 显示了如何在四 AI 引擎之间分割机器视觉应用，在本案例中是对前方道路进行车道检测。图像数据从外部内存或外部接口加载，然后分成四个拼图，每个拼图由不同的引擎处理。换句话说，每个引擎可以各自承担一个子图或不同的任务，例如物体检测和车道识别，以便优化特定应用的性能。

每个引擎都有自己的片上 L1 内存，以便最大程度地减少瓶颈或延迟。这也意味着，一旦配置好，AI 处理器就几乎可以完全独立地运行了，并且在大多数情况下，可以运行“从头到尾”的“融合”操作流水线，完全无需访问内部内存且几乎很少访问外部内存。如此一来，AI 处理器将变得更加灵活，并有助于提高能效。

我们在本文开始时讨论的要求还包括提供面向未来的灵活解决方案。完全可编程的矢量处理单元 (VPU) 可以在同一引擎 L1 数据上与协处理器并行工作，确保新的神经网络拓扑以软件方式提供支持

机器视觉优化

有许多优化可以提升特定 AI 应用的性能。在视觉处理过程中，Winograd 转换就属于这种优化之一。这是执行卷积（例如傅里叶变换）的另一种高效方法，只需使用以前所需的 MAC（乘累加运算）数量的一半。

对于 3x3 卷积层而言，Winograd 转换可以将性能提高一倍，同时保持与原始卷积方法相同的精度。

另一个基本的优化是使用稀疏化，即能够忽略数据或权重中的零。通过避免乘以零，性能得到了改善，同时保持了准确性。虽然某些处理器需要结构化数据才能享受稀疏化带来的好处，但使用完全支持非结构化稀疏化的处理器可以获得更好的结果。

通常，AI 系统需要将某些优化功能或网络固有操作（如 Winograd 转换、稀疏机制、自关注操作和缩放）交给专门的引擎。这意味着需要先卸载数据，然后在处理后再重新加载数据，这样一来就会增加延迟并降低性能。对比之下，更好的选择就是将加速器直接连接到引擎本地共享 L1 内存，或者在大多数情况下，进行融合操作，即从一个协处理器到另一个协处理器的即时端到端处理，而不需要在执行过程中访问任何内存。

这些优化有多重要？图 3 显示，与 CEVA 的上一代 AI 处理器相比，单引擎 NPM11 内核在典型的 ResNet50 实施中实现了性能提升。您可以看到，基本的、原生的操作实现了近五倍的性能提升。

添加 Winograd 转换，然后添加稀疏引擎可以进一步提高性能，最高可达上一代处理器的 9.3 倍。最后，对一些网络层使用混合精度（8x8 和低分辨率 4x4）权重和激活，在可以忽略不计的精度损失的情况下，进一步提高了性能--实现了比上一代处理器近15倍的性能提升，比原生处理快 2.9 倍。

图 3：NPM11（单引擎内核）性能改进

结论

我们已经看到了新内存架构和本地“负载平衡”控制实现（流水线处理对比连续处理相同数据），最大限度地减少外部访问的情形，并充分利用了硬件，可以在不需要更多功耗的情况下提高性能，以及 Winograd 转换和稀疏性等优化进一步提升性能的方法。

总而言之，现代 AI 处理器可以提供完全可编程的硬件/软件开发环境，具有要求苛刻的边缘 AI 应用所需的性能、能效和灵活性，这使设计工程师能够从其系统内的有效AI实现中受益，而不会增加超出其便携式边缘设备预算的功耗。

作者： Gil Abraham, Business Development Director and Product Marketing, CEVA,

责编：Amy.wu

阅读全文，请先

人工智能软件技术文章

您可能感兴趣

英伟达推出AI超级电脑Jetson Orin Nano Super，价格仅249美元

新款开发板售价仅为249美元，而上一代40 TOPS开发板售价为499美元，价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”，特别适合商业AI开发者、爱好者和学生使用。

【ICCAD2024】AI时代，先进数字芯片设计下的国产EDA新路径

面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战，国产EDA仍需不断探索和创新。

AWS计划追加100亿美元投资，在美国俄亥俄州扩建数据中心

近年来，AWS还积极投资于人工智能（AI）、机器学习（ML）、大数据分析和边缘计算等前沿技术，以保持其在这些领域的竞争优势。

美国计划推出“守门人”新规：简化AI芯片出口审批的同时，管制AI芯片出口

这一新规则可能会引起美国在世界各地的合作伙伴和盟友的重大担忧，以及一些国家的不满，担心美国会充当单方面仲裁者，决定谁可以获得对AI至关重要的先进芯片。

美国最高法院驳回英伟达上诉请求，被控诉涉嫌误导投资者

股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动，而非游戏销售，导致投资者对公司的盈利来源和风险敞口产生错误认知。

谷歌指控微软与OpenAI涉嫌垄断，要求FTC终止独家云服务协议

谷歌认为，这种独家协议可能会限制市场竞争，导致其他公司无法自由地使用OpenAI的技术，从而增加了用户面临额外成本的风险，比如数据迁移和员工培训等。

“一碰交互，共触未来”ITMA峰会盛大开启近场交互新生态

目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。

中科院微电子所在忆阻神经-模糊硬件及应用探索方面取得新进展

中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……

直角照明轻触开关为复杂电子应用提供定制性和多功能性

C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置，为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。

投身国产浪潮向上而行，英韧科技再获“中国芯”认可

项目动态|长飞先进武汉基地首批设备搬入

今日，长飞先进武汉基地建设再次迎来新进展——项目首批设备搬入仪式于光谷科学岛成功举办，长飞先进总裁陈重国及公司主要领导、嘉宾共同出席见证。对于半导体行业而言，厂房建设一般主要分为四个阶段：设备选型、设

被神秘的FS7“附体”，解读两大最新功率模块系列的“超能力”

点击蓝字关注我们安森美（onsemi）在2024年先后推出两款超强功率半导体模块新贵，IGBT模块系列——SPM31 IPM，QDual 3。值得注意的是，背后都提到采用了最新的FS7技术，主要性能

投资20亿！路芯半导体掩膜版生产项目首批工艺设备机台入厂

来源：苏州工业园区12月17日，江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来，专注于半导体掩膜版的研发与生产，掌握130nm至28n

18亿元！2大储能项目新动态

近期，多个储能电站项目上新。■ 乐山电力：募资2亿建200MWh储能电站12月17日晚，乐山电力（600644.SH）公告，以简易程序向特定对象发行A股股票申请已获上交所受理，募集资金总额为2亿元。发

94岁巴菲特公布后事安排！1500亿美元遗产，只留0.5%给子女？

投资界传奇人物沃伦·巴菲特，一位94岁的亿万富翁，最近公开了他的遗嘱。其中透露了一个惊人的决定：他计划将自己99.5%的巨额财富捐赠给慈善机构，而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭

雷曼光电与辰显光电签约，推进MicroLED商业化

‍‍12月18日，深圳雷曼光电科技股份有限公司（下称“雷曼光电”）与成都辰显光电有限公司（下称“辰显光电”）在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势，共同推进Mi

拜登拟对成熟制程芯片启动301调查

来源：观察者网12月18日消息，自12月2日美国发布新一轮对华芯片出口禁令以来，不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称，根据知情人士以及该报查阅

面板大厂引入AI，每年节省10亿！

LG Display 12月18日表示，为加强OLED制造竞争力，自主开发并引进了“AI（人工智能）生产体系”。“AI生产体系”是AI实时收集并分析OLED工艺制造数据的系统。LG Display表

扎克伯格39岁华裔爱妻罕见炫舞，丰韵身姿尽显“女王”气场，宠溺深情令人动容

在科技浪潮翻涌的硅谷，马克·扎克伯格不仅是“脸书”帝国的掌舵人，更是以其谦逊低调的形象，在公众心中树立了独特的领袖风范。然而，在镁光灯难以触及的私人领域，扎克伯格与39岁华裔妻子普莉希拉·陈的爱情故事

还有38%的上涨空间！亚马逊AI战略大爆发

“ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ：AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益

文章评论

最新
热门

换一换

EE直播

更多>

迎接边缘 AI 挑战

AI 处理挑战

AI 处理器逐步提升

机器视觉优化

结论

杂志声明