MLPerf的AI训练性能测试基准有来自5家公司的63个“参赛者”提供了跑分结果,而参与推理性能测试基准跑分并提供成绩的公司数量更多,共有来自14个组织的500组成绩,包括来自多家新创公司的数字,不过有几家知名的市场新秀显然缺席。
在经过严格条件限制以实现系统之间直接比较性能的封闭性赛程中,比分结果显示各个系统的性能分数达到5个量级(magnitude)的差异,而在预估功耗方面则横跨了3个量级。在开放性的赛程中,参赛者则能利用一系列的模型,包括较低精确度的实作。
Nvidia的商用装置在封闭赛程中的所有分组都获得了第一名,其他领先者包括数据中心分组的Habana Labs、Google与Intel;而在边缘装置的分组中,Nvidia则与Intel以及Qualcomm相互较劲。市场研究机构Moor Insights and Strategy分析师Karl Freund表示:“Nvidia是唯一拥有能在MLPerf所有项目进行性能测试之量产芯片、软件、可编程性以及人才的公司,而且他们几乎在所有项目都胜出。”
Freund接着指出:“GPU的可编程性让它们在未来的MLPerf测试结果中拥有独特定位…我认为这证明了Nvidia实力的广度,以及这些挑战者的利基性质。但众家挑战者会随着时间推移逐渐成熟,因此Nvidia会需要继续在软硬件技术上创新。”
Nvidia公布的图表展示了该公司对测试结果的诠释,他们在商用装置封闭赛程的所有4个情境中,将自己置于第一名位置。那些情境就是代表不同的使用案例,脱机(offline)与服务器情境则是针对数据中心推理的测试项目。其中脱机情境可能代表大量图片的脱机标记,并量测纯粹的处理量,服务器情境则代表来自不同使用者、在无法预料的时间内送出的多个要求,量测在一个固定时间内的处理量。
边缘推理情境则包括单一数据流(stream),例如针对手机应用程序中单一影像进行推理的时间;以及多数据流,也就是量测来自多个摄影机系统的多少个影像数据流能同时被推理。参与测试的公司能提供在上述四种情境中,针对选定机器学习模型执行影像分类、物体侦测以及语言翻译的测试结果。
商用装置在封闭赛程中的数据中心推理测试结果,以每个加速器为单位与Nvidia的分数进行比较。其中X代表未提交结果。
“看数据中心推理的测试结果,Nvidia在包括服务器与脱机项目中的所有5个测试中都排名第一;”Nvidia加速运算产品管理总监Paresh Kharya表示:“我们的Turing GPU表现超越所有商用解决方案的产品。”他强调,Nvidia是唯一在数据中心与服务器(这个情境的困难度更高)分组中提供所有5项基准检验模型跑分结果的公司,其性能表现优于竞争对手。
在数据中心分组中与Nvidia成绩最接近的对手是以色列新创公司Habana Labs的Goya推理芯片;Moor Insights and Strategy的Freund表示:“Habana是唯一完全量产高性能芯片的挑战者,在下一轮可望包含功耗表现数据的MLPerf测试中应该会表现优良。”
Habana Labs在接受EE Times访问时指出,该测试成绩完全以性能为基础,功耗并不是一个量测标准,也非实用性(例如考虑采用被动冷却或水冷解决方案)与成本。Habana在开放性赛程中也展现了低延迟优势,比起封闭性赛程能更进一步降低延迟;此外该公司也提交了多数据流情境中的测试结果。
配备Goya推理芯片的Habana Labs PCIe卡。
(来源:Habana Labs)
在边缘推理测试中,Nvidia则在商用方案的封闭式赛程所有4个项目中胜出。Qualcomm的Snapdragon 855 SoC以及Intel的Xeon CPU在单数据流情境中紧随Nvidia,不过Qualcomm与Intel都没有提交较困难的多数据流情境测试结果。
商用装置在封闭赛程中的边缘推理测试结果,以每个加速器为单位与Nvidia的分数进行比较。其中X代表未提交结果。
(来源:Nvidia)
至于“预览版”(也就是还未正式上市的产品)系统分组的测试结果,则是让阿里巴巴旗下平头哥(T-Head)的含光(Hanguang)芯片与Intel的Nervana NNP-I、以色列业者Hailo的Hailo-8,以及美国业者Centaur Technologies的一款参考设计同台竞争。还有研发团队分组的测试结果,则有一家仍在隐身模式的韩国新创公司Furiosa AI名列其中。
编译:Judith Cheng 责编:Yvonne Geng
(参考原文:Benchmark Scores Reveal Who’s Winning the AI Inference Race,by Sally Ward-Foxton)