产业联盟MLCommons近日发表了专为TinyML系统设计的新性能指针,同时也公布了第一次使用该MLPerf Tiny指针进行的推论系统跑分结果。

机器学习(ML)系统性能测试基准MLPerf的幕后推手、产业联盟MLCommons近日发表了专为TinyML系统设计的新性能指针,同时也公布了第一次使用该MLPerf Tiny指针进行的推论系统跑分结果。

MLPerf已经为高性能运算(HPC)系统、数据中心以及行动装置等级的系统提供性能测试基准,新的TinyML系统性能基准,则是专为那些在资源极度受限环境中执行机器学习工作负载的设备所设计。MLCommons执行总监David Kanter表示,现在MLPerf基准可涵盖微瓦(microwatts)到千瓩(megawatts)等级的机器学习系统。

他指出:“如果你检视一些我们的训练以及HPC性能测试基准,HPC基准可在全球最大超级计算机上的1万6,000个节点上执行;在Tiny基准方面,则是关于我们如何量测那些最小、最低功耗的设备(参考下图)。”

MLPerf性能测试基准的涵盖范围从TinyML装置到大型数据中心设备。

(图片来源:MLCommons)

通常TinyML系统意味着以嵌入式微控制器/处理器在传感器节点执行传感器数据推论的系统,可能是来自麦克风、摄影机等感测装置的数据。一个这种等级的典型神经网络装置可能数据量只有100kB或更少,而且受限于电池电量。

尽管TinyML并没有明确的定义,该名词通常是指以微控制器为基础的系统;MLPerf已经将之延伸了一点点,因此也涵盖包括Raspberry Pi在内的系统。MLPerf Tiny推论性能测试基准工作小组主席、美国哈佛大学(Harvard University)教授Vijay Janapa Reddi则表示,开发这个领域的性能测试基准是一项挑战。

“任何推论系统都有复杂的堆栈,但在TinyML,所有的东西都是与传感器数据──音频、视觉、惯性量测单元(IMU)──有关,生态系统特别复杂;”Janapa Reddi表示:“在嵌入式领域特别具挑战性,是因为大多数的硬件有其客制化工具链…这使得性能基准检验极具挑战。我们必须从头特制很多基础架构,那不是能轻易从MLPerf推论性能基准借用的。”

他补充指出,有鉴于该堆栈的所有部分都有广泛的创新,要定义一个固定的性能测试基准以有效展现那些硬件、软件、工具以及算法的创新,在TinyML领域是特别大的挑战。

工作负载选择

MLPerf工作小组是与嵌入式微处理器性能测试基准联盟(Embedded Microprocessor Benchmark Consortium,EEMBC)合作开发TinyML的性能测试基准,利用了EEMBC的测试工具(EnergyRunner框架),MLPerf工作小组则是定义工作负载、规则以及性能测试基准。

与其他的MLPerf性能测试基准一样,各组织能提交执行一个或多个不同工作负载的硬件与软件系统跑分结果,但TinyML性能基准要支持多样性的应用案例,让系统可选择工作负载来呈现常见的应用会特别困难。为此,MLPerf Tiny推论工作小组将之缩小为四种工作负载:

  • 关键词识别(Keyword spotting)──利用Google的语音指令数据集(Speech Commands Dataset),以DS-CNN模型进行有限词汇的语音识别。
  • 异常侦测(Anomaly detection)──利用机器以Deep Autoencoder模型运作ToyADMOS声音数据集,进行音频时间序列异常侦测。
  • 视觉唤醒词(Visual wake words)──这是一个两类别影像分类的工作负载,影像被区分为“人”或“非人”,利用MobileNetV1 0.25X模型执行视觉唤醒词数据集(Visual Wake Words Dataset )。
  • 影像分类(Image classification)──以ResNet-8模型进行CIFAR10数据集的多类别(10类)影像分类。

如同其他MLPerf性能测试基准,MLPerf Tiny推论基准也有“封闭”与“开放”两种赛程(division),以尝试提供相似系统的可比性,还有展示创新方法的灵活性;此外,也让提交者展示其附加价值,无论他们要聚焦在堆栈的哪一个部份。由MLPerf工作小组定案的性能指针是既定预测准确度下的延迟性,以及既定预测准确度下的功耗。

该基准的延迟性分数是必选项,功耗量测则是可选的。但因为TinyML系统通常会在功耗与性能之间有谨慎的平衡折衷,我们是否真的能在不同时看到两种指标的情况下,得到一个清晰的系统性能评分结果?

对此,MLCommons的Kanter表示:“我们把这个版本的测试基准叫做0.5版,有部份原因是因为这是我们第一次的MLPerf Tiny推论跑分结果。取得结果、订定规则以及打造性能测试基准套件实际上是非常重要的任务,而在其上产生功耗/能耗结果又添加了一层复杂性…”

“我坚信要先学爬、再学会走路,然后才能跑,要让事情开始、动起来,然后再优化、或者添加一些额外的能耗/功耗量测复杂性;”他接着指出:“我想,在我们下一轮的跑分结果中,应该会看到更多能耗量测。”

Janapa Reddi也同意以上观点,补充指出该TinyML测试基准将会随着产业进展更进一步提供清晰度;“这是一个还在萌芽的领域,正尝试找到立足点。我们可以等个三年让它成熟,因为在不同地方都会有大量的TOPS以及每瓦TOPS数字;然后我们可以尝试进行某种程度的标准化,或者从一开始就与产业界合作,协助他们设定一个合理的方向…”

他表示:“对我来说,这与确切的数字或系统无关,更多是关于为这个社群提供清晰度与能见度,让他们能加速进展。”

TinyML系统的技术堆栈相当复杂。

(图片来源:MLCommons)

 TinyML领域厂商情况与数据中心系统业者迥异,有更多新创公司以及中小型企业。MLPerf的TinyML工作小组共同主席Colby Banbury表示,他们也将这个特性纳入了考虑;“我们在设计测试基准的一开始就想到这个,因此特别着重参考实例并尝试构建出来。我认为其重要性程度在先前几代的MLPerf推论基准中不一定存在,因为没有那么多需求。”

由工作小组提供的参考实例是一组所有工作负载都是在意法半导体(ST) Nucleo-L4R5ZI开发板上执行的延迟性与功耗跑分;选择该开发板是因为其开放平台、广泛可取得性以及成本可负担性。该开发板采用STM32 Arm Cortex-M4微控制器,如果有需要,完整的实例能提供未来提交者使用,作为他们自己的系统的起跑点。

Banbury举例指出,理论上,一家软件供货商能采用该参考实例堆栈,更换为他们自己特定的零组件并相当容易地执行。

第一轮跑分结果

MLPerf Tiny推论性能测试基准的第一轮跑分结果,在封闭赛程中有4套系统提交分数(包括参考系统),开放赛程则是有一套系统提交份数。在封闭赛程中,美国软件开发商Latent AI提供了执行在Raspberry Pi的两套纯软件解决方案,该公司不挑硬件的Latent AI Efficient Inference Platform (LEIP)软件开发工具包能用以优化运算、能耗与内存效率。

Latent AI提交的4种工作负载延迟性分数都分别以FP32与INT8精度模型来跑分,执行关键词识别工作负载的延迟性结果为0.39 ms (FP32模型)或0.42 ms (INT8模型),而参考系统的结果是181.92 ms。中国的一家研究机构鹏城实验室(Peng Cheng Laboratory)所提交的系统,是将4种工作负载的跑分作为其TinyML应用自制RISC-V微控制器组件的概念验证,该系统的关键词识别执行结果为325.63 ms,参考实例则为181.92 ms。

另一家美国业者Syntiant所提交的系统是唯一使用了硬件加速器的,在执行关键词识别任务的延迟为5.95 ms (参考实例系统的延迟为181.92 ms)。该公司的NDP120系统单芯片就是为了关键词识别所设计,采用Arm Cortex-M0处理器CPU核心,加上Syntiant的Core 2加速器。

在开放赛程只有hls4ml一个提交系统;hls4ml实际上是一个神经网络最佳化工作流程,是为了欧洲核子研究组织(CERN)的大型强子对撞机(Large Hadron Collider)所开发,现在则是由一个科研社群Fast Machine Learning for Science负责开发。hls4ml优化模型以双核心的Arm Cortex-A9处理器以及Xilinx FPGA加速器执行,在影像分类工作负载的延迟为7.9 ms,准确度77%;同样的系统执行异常侦测工作负载的延迟为0.096 ms,准确度82%。

除了参考实例,MLCommons公布的第一轮TinyML系统性能测试不包含能耗表现,完整的跑分结果请参考此连结

(参考原文:MLPerf Launches TinyML Benchmark for Smallest AI Systems,by Sally Ward-Foxton)

 编译:Judith Cheng

责编:Luffy Liu

阅读全文,请先
您可能感兴趣
台积电计划在 3 月前投资超过 2000 亿新台币(约合 61.2 亿美元),扩建其位于台湾南部科学园区三期的CoWoS生产设施。知情人士透露,台积电之所以做出这一决定,是因为人工智能(AI)驱动的先进封装需求比预期更为强劲......
尽管市场上有传言称英伟达大幅削减了对台积电CoWoS-S封装的需求,甚至有报告指出砍单幅度高达80%,但台积电和英伟达均对此进行了否认......
OpenAI认为,芯片、数据、能源和人才是赢得人工智能的关键,且建议美国政府大幅增加对这些领域的投资。
索尼新专利利用人工智能(AI)技术来预测玩家的操作输入,从而显著减少在线游戏中常见的延迟问题。这项创新技术被称为“定时输入/动作释放”,通过智能AI模型提前判断玩家的意图,并在实际操作完成之前执行相应的指令,从而提升游戏的流畅度和响应速度......
目前,这些故障主要影响了首批搭载Blackwell芯片的机架,从而引发了客户的担忧。其中,微软、亚马逊网络服务公司(AWS)、谷歌和Meta这四大主要客户已经削减了对Blackwell GB200机架的订单。
最近华硕在景德镇召开了一场新品发布会,而这次发布的AI PC大概能代表2025一整年的AI PC走向...
对于未来行业发展的增长趋势、行业特征和渠道特点等方面,IDC 总结并给出了2025年中国PC 显示器市场十大洞察……
该存内计算芯片采用全数字设计,能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效,团队提出了一种……
西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商,该报告针对制造业的MES软件厂商进行了综合性评估。
Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范,进一步推动芯粒技术的标准化,并减少行业的碎片化。
近日,据36氪报道,进入2025年,丰田汽车针对中国区业务进行了一系列重要的人事调整。丰田中国已正式任命李晖为首位中国籍总经理。同时,广汽丰田现任总经理藤原宽行将被调任至一汽丰田,担任总经理一职。这一
本应用手册可用于指导将 TPS65219 电源管理集成电路 (PMIC) 集成到为 Xilinx® Zynq® UltraScale+® 系列 MPSoC 供电的系统中。本文档概述了 PMIC 的优势
互联网与科技企业每日重点资讯文 | 苏丁巨头动向字节跳动调整员工福利字节跳动发布内部邮件,对员工福利政策进行微调。包括:2026年将停止发放春节红包(今年发放);2025年度不再发放端午、中秋节礼品;
电影《金陵十三钗》剧照上周,一向低调的轻舟智航举办了一场媒体交流会,联合创始人、总裁侯聪和 CTO 李栋等轻舟智航核心成员亲临现场,讲述轻舟智航过去一年的成绩及未来展望。轻舟智航的 2024,成绩斐然
据央视新闻报道,北京汽车集团有限公司党委书记、董事长张建勇 1 月 23 日介绍,2024 年中国新能源汽车产销量超过了 1000 万辆,连续 10 年保持了全球第一的位置。在自动驾驶方面,北汽集团今
1月23日,HTC宣布与谷歌(Google LLC)签署协议,谷歌将斥资2.5亿美元与HTC达成一项重要交易,部分HTC的XR研发团队成员将加入谷歌。根据协议条款,谷歌将获得HTC非专属的XR知识产权
有猜测称,三星显示器将很快开始采用红、绿、蓝 (RGB) OLEDoS(硅基 OLED)方法商业化下一代显示器。据专利信息搜索服务Kipris 1月24日报道,三星显示器近期申请了一个名为Arcpix
1月23日,总部位于福州的昊盛科技集团旗下新美材料收购韩国LGC光学功能膜业务交割仪式,在福州长乐数字中国会展中心顺利举行,标志着我国新型显示产业正在摆脱偏光片上游材料受制于人的局面。交割仪式现场仪式
随着深度学习和复杂模型的不断涌现,对算力的需求持续上涨。企业正加大对高性能计算资源的投入,特别是GPU和TPU等专用硬件的使用。而如何降低模型部署成本是各家公司一直考虑的关键点。今天特邀AI基础设施领
昨天的时钟音箱的拆解文章:拆解时钟蓝牙插卡音箱-用单个LED直接代替数码管是个非常不错的降本设计思路我给电路板提了个建议,就是说上面2个2P排座,一个插电池,一个插喇叭的排座没必要区分红白色,就一种颜