随着人工智能的快速发展,对于相对较低的需求,嵌入式AI解决方案已可实现。但对于需要能够处理高达4kp60的视频帧和图像分辨率而言,依赖于固定平台的传统解决方案已无能为力。本文介绍的将Kinara的加速器和NXP处理器结合在一起,来提供边缘AI性能,能够实现多路智能相机并行处理所需的完美高速性能。

随着人工智能(AI)在嵌入式计算中的到来,导致了潜在解决方案的激增,这些解决方案旨在提供高速流视频上执行神经网络推理所需的高性能。尽管许多参考需求(如ImageNet)的分辨率都相对较低,从而通过多种嵌入式AI解决方案均可实现,但零售、医疗、安全和工业控制领域的许多真实应用,则需要能够处理的视频帧和图像分辨率会高达4kp60,甚至更高。

可扩展性是至关重要的,但对于仅提供主机处理器和神经加速器固定组合的片上系统(SoC)平台来说,这并非总是任意可选。尽管通常在原型建模期间,也提供了一种评估不同形式神经网络性能的方法,但这种一体化的实现方案缺乏真实系统通常所需的粒度和可扩展性。在这种情况下,工业级AI应用受益于一种更平衡的架构,其中将多个异构处理器(如CPU、GPU)和加速器结合起来,在一个集成的管道中共同协作,不仅能对原始视频帧执行推理,而且还能利用预处理和后处理对整体结果或处理格式转换进行优化,从而能够处理多种类型的摄像头和传感器。

经典的部署场景在于智能相机和边缘AI设备。对于前者,需要将视觉处理和神经网络推理支持功能集成到主相机电路板中。相机可能还需要执行一些其他任务,例如计算房间中的人数,并且能够避免在被拍摄对象进出视野时对其进行两次重复计数。智能相机不仅必须能够识别人,而且还必须能够根据相机已经处理的数据重新识别人,从而不会重复计数。这就需要一个灵活的图像处理和推理管道,其中应用程序可以处理基本的对象识别以及复杂的基于推理的任务,如重新识别。

构建智能相机和边缘AI设备

通常,在智能相机设计中,主机处理器将传感器输入转换成适合推理的形式,包括:对数据帧进行调整、裁剪、以及标准化,使其适合于进行高吞吐率推理。一个类似但更高集成度的用例是边缘AI设备。该设备需要处理来自多个联网传感器和相机的输入,故需要具备同时处理多个压缩(或编码)视频流的能力。在这种多相机场景中,处理能力必须能够扩展,以处理执行推理所需的格式、颜色空间和其他转换,并且能够处理多个并行推理。

图1:智能相机应用业务流示意图。(本文图片来源:Kinara)

图2:边缘AI应用业务流示意图。

尽管固定的SoC实现方案能够处理特定用例,但基于可扩展性方面的需求,目光还是转向了具备扩展能力的平台,由于这些平台能够满足不同需求、并随着因客户需求变化所导致的可扩展性和升级提供内在支持。因此,重要的是要关注那些能够轻松扩展硬件功能的平台,这样,当利用不同架构的特定设备需求产生变化时,就无需对代码进行太大更改。因为很少有人能负担得起这其中所暗含着的移植开销。

由于NXP和高通公司等供应商在性能、功能和价格方面所提供的众多选择,许多开发人员都采用了他们的嵌入式处理平台。例如,NXP i.MX应用处理器就满足了广泛的性能需求。与固定SoC平台不同,NXP的处理器系列得益于许多嵌入式计算市场所必需的供应商长期支持和供货保证。i.MX 8M等器件为边缘AI设备需求提供了良好的基础。其内置的视频解码加速功能,使其能够在一个处理器上支持4个压缩的1080p视频流。通过i.MX应用处理器与Kinara的Ara-1加速器的配合,可以实现对多个视频流进行推理或具备处理复杂模型的能力。

运行多个建模

主处理器中,每个加速器可以在每个无切换时间和零负载的帧上运行多个AI模型,从而提供实时执行复杂任务的能力。与一些为最大吞吐量而依赖于多帧批处理的推理管道不同,Ara-1针对1个批处理以及最大响应性,进行了专门优化。

这意味着,如果加速器正在对另一帧或一帧的一部分执行推理,则智能相机设计不需要依赖主处理器来执行重新识别算法。两者都可以卸载到Ara-1上,以利用其更高的速度。在需要更多性能的地方,例如在边缘AI设备中,不同的多种应用可能都需要执行推理任务,此时可以并行使用多个加速器。

不仅通过支持智能相机或设备PCB上的芯片向下集成,而且还支持插件升级,从而可以实现更高的可扩展性。对于芯片向下集成,Ara-1支持行业标准和高带宽PCIe接口,以便轻松连接到包含PCIe Gen 3接口的主处理器。第二个集成路径是利用可以直接插入可升级主板的模块,利用PCIe接口并提供处理多达16台相机输入的能力。对于一些使用现成硬件的系统和原型,还有另外一种选择,就是内在支持USB 3.2。利用简单的电缆连接,可以在笔记本电脑上测试AI算法,利用硬件评估包启动生产,或对现有系统进行简单升级。

用于无缝过渡的软件基础架构

开发人员可以选择多种方法来简化加速器与处理器及其相关软件堆栈的集成。对于模型的部署和管理,在运行时利用C++或越来越流行的Python应用程序编程接口(API),运行环境为Arm的Linux环境或x86的Windows环境。Kinara的运行时API支持多种命令,包括加载和卸载模型、传递模型输入、接收推理数据以及推理和硬件设备的所有控制。

图3:示例开发业务流。

GStreamer环境提供了访问加速器性能的另一种方式。作为一个为构建媒体处理组件的计算图形而设计的库,GStreamer可以很容易地实现过滤管线,这些过滤器可以植入能够对导入视频和传感器馈送状态的变化做出反应的一些更复杂应用中。

对于AI推理,Kinara等SDK可以采用多种不同形式的训练模型,包括TensorFlow、PyTorch、ONNX、Caffe2和MXNet,并直接支持YOLO、TFPose、EfficientNet等数百种模型以及变压器网络。从而提供了一个完整的环境来优化性能,手段包括利用量化、利用自动调整确保模型精度的保持、并在运行时调度执行。有了这样的平台,就有可能深入理解模型的执行,以促进性能优化和参数调整。工程师可以利用精确的仿真器,在硅片实施之前对性能进行评估。

总之,随着人工智能成为越来越多的嵌入式系统的组成部分,能够将推理功能集成到广泛的平台中来满足不断变化的需求是非常重要的。这意味着能够部署具有相关SDK的灵活加速器,从而允许客户将高级AI加速与已有或新的嵌入式系统结合起来。

(参考原文:Using edge AI processors to boost embedded AI performance

本文为《电子工程专辑》2023年3月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅

责编:Jimmy.zhang
阅读全文,请先
您可能感兴趣
谷歌宣布向人工智能初创公司Anthropic追加投资超过10亿美元,进一步巩固其在人工智能领域的竞争力。Anthropic的估值因谷歌的持续投资而水涨船高。该公司估值已达到约600亿美元......
特朗普提出的“星际之门”项目,旨在通过OpenAI、软银集团和甲骨文公司三方合作,推动美国人工智能技术的发展,并计划在未来四年内投入至少5000亿美元用于建设相关基础设施......
这一举措不仅体现了国家对人工智能领域的高度重视和支持力度,还预示着中国将在全球AI竞赛中迈出关键一步。
台积电计划在 3 月前投资超过 2000 亿新台币(约合 61.2 亿美元),扩建其位于台湾南部科学园区三期的CoWoS生产设施。知情人士透露,台积电之所以做出这一决定,是因为人工智能(AI)驱动的先进封装需求比预期更为强劲......
该榜单显示,美国以413家公司位居榜首,总价值达到348万亿元人民币,占榜单总价值的56%。中国则以134家公司位列第二,总价值为65万亿元人民币,占榜单总价值的13%。
索尼新专利利用人工智能(AI)技术来预测玩家的操作输入,从而显著减少在线游戏中常见的延迟问题。这项创新技术被称为“定时输入/动作释放”,通过智能AI模型提前判断玩家的意图,并在实际操作完成之前执行相应的指令,从而提升游戏的流畅度和响应速度......
对于未来行业发展的增长趋势、行业特征和渠道特点等方面,IDC 总结并给出了2025年中国PC 显示器市场十大洞察……
该存内计算芯片采用全数字设计,能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效,团队提出了一种……
西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商,该报告针对制造业的MES软件厂商进行了综合性评估。
Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范,进一步推动芯粒技术的标准化,并减少行业的碎片化。
美通社消息,根据Omdia最新的消费者调查,TikTok和YouTube已成为美国18-35岁人群的领先视频平台。这些平台的发展速度已经超过了Instagram、Facebook和Netflix,巩固
随着人工智能与机器学习的发展,EDA云平台越来越受到IC设计业者的认可和使用,因为越来越多的EDA云平台将人工智能和机器学习技术纳入其中,使企业能够从大型数据集中获得可行的见解,从而增强数据分析能力,
1月23日,HTC宣布与谷歌(Google LLC)签署协议,谷歌将斥资2.5亿美元与HTC达成一项重要交易,部分HTC的XR研发团队成员将加入谷歌。根据协议条款,谷歌将获得HTC非专属的XR知识产权
等效电阻ESR是晶体在等效电路中的总电阻。谐振电阻RR是晶振本身的电阻值。大小取决于晶体的内部摩擦、电极、支架等机械振动时的损失,以及周围环境条件等的影响损失。谐振电阻较大或者较小对电路有不同的影响。
上周SemiAccurate 曾报道称,一家神秘公司正在探索全面收购英特尔的可能性。表示有 90% 的把握认为有关英特尔被收购的消息是“真实的”,已从另一位“地位很高的消息人士”处获得了证实。虽然没有
本视频演示,如何将仿真器连接到使用安全ID锁定的RL78设备。  00:00:介绍 00:25:调试  00:40:设定安全ID  相关资源: • Visual Studio Code - 如何在安装
寒假到来,你是否已经计划好带着孩子来一场说走就走的旅行?无论是山川湖海,还是古城小镇,每一次旅行都充满了未知和惊喜。在这场旅行中,相机或手机将成为你记录美好瞬间的得力助手。当旅行结束,面对着一堆照片,
近日,赛力斯发布2024 年年度业绩预盈公告,预计 2024 年度实现营业收入1442亿元到1467亿元,同比增长302.32%到309.30%;归属于上市公司股东的净利润预计将达到55亿元至60亿元
据外媒SAMMY FANS报道,三星电子计划在2025年推出四款创新的折叠屏手机,进一步拓展其折叠屏产品系列,包括首款三折叠机型。           据悉,三星将继续更新其Flip和Fold两大折叠
我是芯片超人花姐,入行20年,有40W+芯片行业粉丝。有很多不方便公开发公众号的,关于芯片买卖、关于资源链接等,我会分享在朋友圈。扫码加我本人微信👇TI(德州仪器)于1月23日(当地时间)公布了 20