MLPerf公布了AI芯片推理性能测试基准跑分结果,但可能有很多读者就算看了那些表格仍然一头雾水...

在先前的“AI芯片推理性能比拼,Nvidia称第一”一文中,我们提到MLPerf公布了AI芯片推理性能测试基准跑分结果,但可能有很多读者就算看了那些表格仍然一头雾水,因为有些系统看来相似但是分数却大不相同,而且也搞不清楚数字高低究竟是代表什么…

为此笔者请教了以色列AI芯片新创公司Habana Labs的研究科学家Itay Hubara,他非常好心地解释了MLPerf表格中不同的分组(categories)、赛程(divisions)、模型(models)以及情境(scenarios)所代表的意义;以下与大家分享我的学习心得。

20191202-100.jpg

MLPerf的AI芯片性能跑分列表并不是那么简单明了容易懂。

(来源:MLPerf)

分组

其中“现货”(available)意味着该系统目前在市场上已经买得到,其软件堆栈必须已经完全准备就绪,而且提供跑分结果的公司得让社群能重现其结果。这意味着不在该公司SDK中的所有程序代码必须要上传到MLPerf的Github平台。

在“预览”(preview)分组中的系统,意味着提交分数的公司需要让该产品在MLPerf下一次(预计是明年夏天)公布AI芯片推理性能分数时上市,而在这个分组中的公司不需要提供所有的软件。此外还有“研发与其他”(Research, Development, Other)组别,这意味着此分类中的系统仍在原型阶段,还没有量产计划,提交分数的单位也不需要分享任何软件。

赛程

封闭赛程(Closed Division)是要让各系统能够直接比较,参与的公司必须要遵守严格的规范,包括使用一套标准的预先训练模型参数(model weights)。开放赛程(Open Division)则被Hubara形容为像是“牛仔世界”(wild west),参与者不需要遵循什么规则,不过必须透露它们做了那些变更,诸如重新训练了模型,或者是进行了微调。

参与开放赛程的业者透过让自家算法工程师大显身手来展现优势,举例来说,Habana Labs在开放赛程中的分数,其延迟性降低到只有封闭赛程中的四分之一,充分发挥了Goya芯片的性能。不过基于封闭与开放赛程的本质,并不适合将封闭赛程与开放赛程中的分数拿来比较,或是将开放赛程中的分数各自比较。

模型

MobileNet-v1与ResNet-50 v1.5都是以ImageNet数据集进行推理的影像分类模型,MobileNet是手机用的轻量化网络,ResNet-50相较之下属于较重量级、适合较大的加速器使用。

MobileNet-v1与ResNet-34的SSD算法都是用来进行物体侦测,SSD的全名为单次多框侦测器(Single Shot MultiBox Detector),是一种用来侦测个别物体以进行某个图片中的物体分类之算法,必须搭配MobileNet或ResNet的分类算法使用。

MobileNet是较轻量化的模型,适用于较低分辨率的图片(300 x 300或0.09 Mpix);ResNet-34模型则能支持较高分辨率的影像(1,200 x 1,200或1.44 Mpix)。这些模型都是使用COCO (Common Objects in Context)数据集进行推理。

GNMT则是唯一并非以卷积神经网络或是图像处理为基础的测试基准,它是用于语言翻译(在这里的案例是德文翻英文)的递归神经网络(recurrent neural network)。

情境

总共有4种不同的情境,两种是边缘的推理,另外两种是数据中心的推理。其中单数据流(Single Stream)只是测量推理单一影像──样本总数(batch size)为1──所需时间,单位是毫秒(milliseconds.);在这个项目中,分数越低越好,而这种情境可能是相对应于一次执行单一影像推理的手机。

多数据流(Multi-Stream)则是量测某系统一次能处理多少影像数据流(样本总数大于1),依据不同模型,延迟在50~100毫秒之间。在这个项目中,分数越高越好;表现优良的系统最后可能是出现在配备很多个对着不同方向摄影镜头的自动驾驶车辆,或者是保全摄影机系统。

在服务器(Server)情境中,多个使用者会在随机时间内发送请求给系统,量测指针是该系统能在特定的延迟时间内支持多少请求;这里的数据流不像是多数据流情境那样持续,困难度会更高,因为样本数可能是动态的。数字越高代表成绩越好。

脱机(Offline)情境可能是对一本相簿中的影像之批处理,其中的数据能以任何顺序进行处理。这个情境没有延迟的限制,以每秒多少影像(images per second)为单位量测其处理量,数字越高代表成绩越好。

加速器数量(Number of accelerators)

这个量测基准是比较系统而非芯片;有些系统可能有一个主芯片一个加速器芯片,而最大规模的系统拥有128颗Google的张量处理器(TPU)加速器芯片。这里的分数并未针对每个加速器正规化(normalised),因为主芯片也扮演要角,它们与加速器的数量大致呈现线性关系。

为何有些分数是空白的?

MLPerf并未要求参与者提供每一种情境或模型的测试结果,用于终端平台的组件可能只会选择提交单一数据流与多数据流情境的分数;数据中心平台就可能会选择只提供服务器与脱机情境的测试分数。而显然每一家公司都选择提交它们认为最能表现其系统优点的分数。

还有另一个可能因素是,如Hubara举例解释,Habana的分数字段空白,是因为该公司来不及在这一次成绩公布的截稿收件时间内提交测试分数。此外在GNMT翻译模型项目提交分数的公司也比较少,因为这个模型现在被广泛认为已经过时,很多公司偏好花时间布署较新的算法,例如BERT。

仅供参考

而整体说来,MLPerf的分数是量测纯粹性能,但为某个实际应用选择一套系统当然还需要考虑许多其他因素。例如在这一系列成绩单中,并没有关于功耗的量测(据说下一个版本的测试基准会将这个项目囊括其中)。

成本也是一个未包括的指标;而显然如果一套系统只有一颗加速器芯片,另外一套则有128颗加速器芯片,两者在价格上一定也会不同。MLPerf的表格也列出了每一套系统使用的主处理器,这可能会带来额外的成本,而且也可能会需要昂贵的水冷系统。

至于系统主机的外观(Form Factor)──例如行动/手持式(mobile/handheld)、桌上型/工作站(desktop/workstation)、服务器(server)、边缘/嵌入式(edge/embedded)则是由系统制造商自行提供的指针,并非每一个分组中严格限制的基准参数。

在MLPerf表格右侧,点击每一个系统的“细节”(details)连结,则能看到该系统更详细的软硬件规格,值得参考。在其详细规格中的某些部份是必填信息,有些不是;但从中可以得知像是散热等系统要求。

编译:Judith Cheng   责编:Yvonne Geng

(参考原文: Understanding MLPerf Benchmark Scores,by Sally Ward-Foxton)

 

您可能感兴趣
2024 年,中国人工智能专业在校生约 4 万多人,而整个领域的人才缺口却高达 500 万……
从品牌战略的角度来看,华为本次选择古代神话中的人物作为商标,可能是为了借助这些神话角色的知名度和文化内涵,打造具有中国特色的品牌形象……
随着全球数字化转型市场蓬勃发展,云计算、人工智能、大数据、5G等技术的应用范围不断扩大,全球企业的数字化转型已经来到了持续发展阶段,这也促使了企业不断加大其在数字化转型的投入。其中 AI、机器视觉和 RFID 等先进技术在实现高效生产物流方面发挥着关键作用。
荣耀新任CEO李健首次公开亮相即宣布投入100亿美元布局AI终端生态,并推动Magic系列提供7年系统更新......
假设 GPU 租赁成本为 2 美元 / 小时,经计算,DeepSeek 每日总成本约为 87072 美元。若按照 DeepSeek R1 的定价计算所有 tokens 的收入,理论上一天的总收入可达……
“物理智能(Physical AI)”,黄仁勋在CES 2025上发表主题演讲时提出的新概念。他指出,即将全面到来的“Physical AI”时代,将是在1000万工厂、20万仓库、15亿汽车和卡车及海量人形机器人之上应用的下一波万亿规模市场驱动力。
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
本文来源:智能通信定位圈最新消息显示,全球领先的厘米级定位导航企业苏州天硕导航科技有限公司(简称“天硕导航”)近期宣布获得数千万元级的A轮融资。本轮融资目的是扩展业务、产品开发和团队建设,深创投作为本
Mar. 5, 2025 产业洞察根据TrendForce集邦咨询最新研究,TSMC(台积电)近日宣布提高在美国的先进半导体制造投资,总金额达1650亿美元,若新增的三座厂区扩产进度顺利,预计最快20
差分运算放大电路,对共模信号得到有效抑制,而只对差分信号进行放大,因而得到广泛的应用。差分电路的电路构型    上图是差分电路。    目标处理电压:是采集处理电压,比如在系统中像母线电压的采集处理,
Silicon Labs(芯科科技)宣布其MG26系列无线片上系统(SoC)现已通过芯科科技及其分销合作伙伴全面供货。作为业界迄今为止最先进、高性能的Matter和并发多协议解决方案,MG26 SoC
本文来源:智能通信定位圈自动跟随类的产品属于比较酷炫功能的“黑科技”产品。要实现自动跟随的技术可以有很多,但是最常用的就是UWB,因为UWB定位精度高,现在的成本也在下降,手机中也开始逐渐普及UWB等
先问大家一个问题:你有多久没看电视了?对老局来说,最近这几年除了春晚和国庆阅兵,其他情况下,基本已经不会看电视了。当然了,连着PS5打游戏那是另外一回事。不过,虽然我们不怎么看电视了,但电视的市场却并
在储能行业蓬勃发展的浪潮中,安富利凭借卓越的技术实力与广泛的市场影响力,荣获2025“北极星杯”储能影响力BMS/EMS供应商奖。这一荣誉不仅是对安富利过往成就的高度认可,更是对其在储能领域持续创新与
点击蓝字 关注我们SUBSCRIBE to USImage: SwitchBotSwitchBot价格实惠、可调节的智能窗帘终于问世了。SwitchBot窗帘(SwitchBot Roller Sha
                                                                                                
Mar. 5, 2025 产业洞察根据TrendForce集邦咨询最新《5G时代下的突破机会:论全球电信商FWA布局》报告指出,随着美国电信商T-Mobile、Verizon转移营运重心至拓展建置成本