在边缘提供识别复杂模式和快速决策能力的人工智能和机器学习已是大趋势。作为新参与者,MemryX提供了与众不同的解决方案。其处理能力可随着添加芯片而线性扩展,并与基于任何架构的微处理器或微控制器兼容,还独立于操作系统。故作者认为,对于各种需要通过AI/ML模型来传递实时数据的嵌入式边缘设备来说,这是最合适的模型。

人工智能和机器学习(AI/ML)提供了无与伦比的识别复杂模式和快速做出决策的能力。因此,许多公司正在迅速将AI/ML推理功能添加到各种产品中。

所提供的AI/ML功能,可以将其集成到系统级芯片(SoC)中,也可以作为独立的硬件AI/ML加速器。这些芯片市场越来越拥挤,尤其是嵌入式产品。

在选择AI/ML实现技术时,工程师会面临看上去可能令人应接不暇的一系列广泛选择。其中,可以在未增强的微处理器或微控制器上运行AI/ML模型。采用这种方案时,性能较差,且效率也比较低,不过,大多数处理器供应商都支持在其处理器上利用软件库来运行AI/ML模型的方法,而这些软件库都接受一些标准AI/ML开发工具中自带的模型。

另外,工程师还可以获得专门为非增强处理器ISAs开发的AI/ML工具。例如,为微控制器开发的Tensorflow Lite,是专门为集成Arm Cortex-M处理器内核的微控制器和SoC开发的。该工具用C++编写,已经成功移植到了其他处理器架构中。

然而,如果处理器没有专门用于AI/ML任务的硬件,其速度会很慢,且效率也比较低,因为运行AI/ML模型需要大量的乘法和加法运算。因此,通常应该使用向量或张量硬件来获得良好的性能。包括意法半导体、瑞萨、恩智浦和XMOS在内的许多微控制器中,都添加了支持AI/ML模型执行的硬件,以提高处理器的AI/ML性能。

另一种可利用的方法是在处理器SoC中添加一个DSP,用作AI/ML协处理器。这类解决方案方案的确可以提高AI/ML性能,不过,由于乘法器/累加器(MAC)的数量有限,性能的提高仍然会受到限制。

如果增强型处理器仍然不足以达到所需性能和功率要求,那么还有其他选择。GPU和FPGA也已用于AI/ML任务,不过由于其功耗相对较高,通常这些方案只适用于数据中心的训练和推理,而不适合边缘推理。

还可以利用专用神经处理器(NPU)和NPU IP。这类处理器利用MAC阵列和微调网络在MAC之间传递数据,如今已有30多家公司能够提供。这些器件提供不同级别的性能和功率效率,比带有AI/ML指令的微处理器和微控制器更好。然而,采用NPU这类的新架构,需要学习曲线。

MemryX解决方案

MemryX作为一个新的市场参与者,利用一种不同的AI/ML加速器来解决噪声问题。该公司的MX3 Edge AI Accelerator芯片,可以执行AI/ML模型,并且由于采用的是“at-memory”架构,从而无需访问外部DRAM。MemryX的设计方法,特别适合需要通过训练好的AI/ML模型来传递实时数据的嵌入式边缘设备。

MemryX认为,MX3的数据流架构最适合于对连续流数据进行AI/ML推理,这类连续流数据是由视频、安全摄像头和其他类型的传感器生成的连续数据。由于MX3的片上存储器存储了AI/ML模型所需的所有权重,并且不与主处理器共享运算,因此只有数据需要流入MemryX芯片,而输出的只有结果。故对于各种需要传递实时数据通过已训练的AI/ML模型的嵌入式边缘设备来说,这是最合适的正确工作模型。

图1:MemoryX MX3应用程序示意图。(来源:MemoryX)

AI/ML芯片制造商喜欢讨论的事情之一是他们的model zoo。一个典型的zoo是许多已经适用于支持供应商独特的人工智能架构的AI/ML模型的集合。芯片供应商的model zoo规模,通常可根据公司的软件资源规模进行扩展,每个模型都必须进行修改和再训练。

MemryX有一个非典型的AI Model Zoo,经过一键编译后,MX3就可以执行经过训练的AI模型。由于已经验证了数百个直接从互联网上各种存储库中提取的经过训练的AI/ML模型,以及数百个直接来自客户和合作伙伴的私有模型,从而可以断言,该一键编译能自动生成50~80%的利用率。

MemryX MX3并不是一款独立的AI/ML器件。它旨在用作主CPU的配套芯片,通过PCIe或USB接口连接。这种方案相对容易,可方便地将该器件集成到新的或已有的硬件设计中。

如今,通常都会在某个地方留有备用端口。由于MX3加速器是独立的,不需要外部存储器,因此在设备的硬件设计中添加AI/ML模型处理能力,并不比在现有CPU和MX3加速器之间提供端口连接更复杂。

每颗MemryX MX3加速器芯片增加了大约5 TFLOPS(每秒万亿次浮点运算)的AI/ML处理性能。该器件内部使用bfloat16格式数据进行激活,并逐层选择4位、8位或16位整数作为权重。MX3器件设计为菊花链状,并且采用的是“at memory”以及数据流架构,故其处理能力可随着添加的芯片数量而线性扩展。

因此,2器件阵列的MX3加速器可提供10 TFLOPS,4器件阵列则可提供20 TFLOPS。通常每颗MX3器件的功耗约为1瓦,如果配上MX3的片上权重存储器,则可以同时实现多个AI/ML模型。此外,在进出MX3加速器时,可以实现模型交换,这一过程所需的时间还不到10毫秒。

MX3开发流程使用一键编译方案,接受来自所有流行的AI/ML开发框架的训练模型,包括PyTorch、ONNX、Tensorflow、Tensorflow Lite和Keras等。当然,像MX3这样具有数据流定向功能的加速器,可以与基于任何架构(Arm、x86、RISC-V等)的任何微处理器或微控制器兼容,并且也独立于操作系统,故处理器也很方便地为MX3提供配置文件和数据。上述所有这些特性,使MX3加速器非常适合那些希望在设计中添加AI/ML、而又不至于引起太大麻烦的设计团队。

(参考原文:Adding Low-Power AI/ML Inference to Edge Devices

本文为《电子工程专辑》2023年7月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅

责编:Jimmy.zhang
阅读全文,请先
您可能感兴趣
Rambus的HBM4控制器IP还具备多种先进的特性集,旨在帮助设计人员应对下一代AI加速器及图形处理单元(GPU)等应用中的复杂需求。这些特性使得Rambus在HBMIP领域继续保持市场领导地位,并进一步扩展其生态系统支持。
2016-2023年中国独角兽企业总估值由近5000亿美元持续攀升至超1.2万亿美元,其中在2020年首破万亿美元。
HBM4作为第六代HBM芯片,不仅在能效上较现有型号提升40%,延迟也降低了10%,成为各大芯片厂商竞相追逐的焦点。
对于股价波动的原因,寒武纪表示,除了公司经营层面的因素外,还可能受到其他因素的影响。寒武纪还提醒投资者,应甄别信息来源,具体情况以公司公告为准。
此次财报也从侧面反应了半导体行业在AI业务上的强劲增长势头,但同时也暴露出非AI业务增长乏力的困境。
尽管CMA批准了交易,但业内专家指出,微软通过此次交易获得了Inflection AI的核心技术和团队,这相当于以较低的成本实现了对Inflection AI的变相收购,进一步加强了微软在AI领域的实力。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
在全球智能手机竞争日益激烈的情况下,谁能在高端市场站稳脚跟,谁就占据了主动权。一直以来全球智能手机市场格局都是,苹果专吃高端,其他各大厂商分食全球中低端市场。但现在市场正在其变化。根据Canalys最
文|萝吉今年下半年开始,国内新能源市场正式跨过50%历史性节点,且份额依然在快速增长——7月渗透率破50%,8月份破55%……在这一片勃勃生机万物竞发的景象下,新能源市场占比最高的纯电车型,却在下半年
文|德福很多去成都旅游的朋友都有个疑惑——为什么在成都官方的城市标志上看不到熊猫,而是一个圆环?其实这个“圆环”大有来头,它被唤作太阳神鸟,2001年出土于大名鼎鼎的金沙遗址,距今已有三千余年历史。0
在当今人工智能飞速发展的时代,AI Agent正以其独特的方式重塑着企业的生产运营方式。澜码科技作为AI Agent领域的先行者,其创始人兼CEO周健先生分享了对大模型与AI Agent发展现状的深刻
[关注“行家说动力总成”,快速掌握产业最新动态]9月6日,据“内江新区”消息,晶益通(四川)半导体科技有限公司旗下IGBT模块材料和封测模组产业园项目已完成建设总进度的40%,预计在明年5月建成。据了
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了长飞先进等众多企业,深入了解
展位信息深圳跨境电商展览会(CCBEC)时间:2024年9月11-13日 9:30-17:30地点:深圳国际会展中心(宝安)展馆:16号馆 16D73/16D75 展位报名注册准备好“观众注册”入场二
9月6日,“智进AI•网易数智创新企业大会”在秦皇岛正式举行,300+企业高管及代表、数字化技术专家齐聚一堂,探讨当AI从技术探索迈入实际应用,如何成为推动组织无限进化的新引擎。爱分析创始人兼CEO金
在苹果和华为的新品发布会前夕,Counterpoint公布了2024年第一季度的操作系统详细数据,数据显示, 鸿蒙操作系统在2024年第一季度继续保持强劲增长态势,全球市场份额成功突破4%。在中国市场
近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆