Geekbench 5相较于之前的版本做了一些重大改进,但新版本比以前少了一些系统级性能基准测试,甚至还额外产生了以前版本中没有的偏差。
处理器设计社区离不开基准测试,但两者的关系可谓是爱恨交织。作为一种跨平台的基准测试,Geekbench在众多可用产品中最受欢迎,它使用类似于常见应用程序的模拟工作负载来测试单核和多核CPU性能。Primate Labs最近发布了其最新版本:Geekbench 5。
与旧版Geekbench 4相比,新版本所做的重大变革导致平台性能跑分发生翻天覆地的变化。一般新版本的改动都是为了解决了上一代版本的缺陷,并通常可以使之成为更完善的系统级基准测试。然而,Tirias Research分析提到的一些变化让我们摸不着头脑,令人质疑其中一些改动的价值所在。
我们一致坚持认为,没有一个基准测试结果可以完美体现每个应用程序或工作负载的性能,所以,一般建议用多个基准测试来评估一个计算平台,无论是智能手机、PC还是服务器。要开发出一个完美的基准测试平台非常困难,因为每家公司都想得最高分,这导致他们在测试规则上玩弄花招。一些公司从中寻找可以被利用的规则,或想法优化平台来获取更高的分数。每隔一段时间,就会发现有公司因为操纵测试平台作弊。当然,我们希望随着时间的推移,基准测试会变得越来越完善。
Geekbench 5的一些增强功能包括:对新Vulkan图形API的支持、对单个任务进行多线程处理(而不是处理多个单独的任务)、机器学习测试、增强现实、计算摄影学等,以及其他一些新兴的测试负载,用于更好地衡量现代CPU和GPU的功能特性。另外还增加了一些针对Apple的更改,例如支持macOS中的Dark Mode,以及对iOS未来版本的支持等。
内存和电池测试被取消?
但是,新版本取消了一些系统级测试,包括内存和电池测试。内存性能对整体系统性能至关重要,而电池寿命对移动应用性能也是十分重要。对于具有较大缓存的处理器来说,内存测试的确存在问题,因为整个测试可以在不访问外部DRAM存储的情况下进行,但这似乎并不该成为将整个内存测试全部取消的理由,用更大的测试负载是可以解决这个问题的。Primate Labs指出新的应用可以更好地衡量内存和整体系统性能,但我们对于这种说法,表示怀疑。
除了上述变化之外,新版本采用了非常精确的64位(双精度)浮点值来进行机器学习测试,而不是更常见的精度级别,例如用于推理的8位或16位整数、16或32位浮点数、或者较新的用于训练的bfloat16。实际上,这种改变与保持高度准确率的同时降低精度的趋势背向而驰,还会对移动平台的机器学习解决方案产生不利影响。
不幸的是,从一个版本到另一个版本,性能测试数据之间并没有相关性,而且由于基线处理器的变化,所有平台上的测试得分都将明显降低。例如,通过Geekbench 4对英特尔酷睿i7-6600U双核/四线程Skylake处理器进行基线测试,得分为4,000。而通过Geekbench 5测试英特尔酷睿i3-8100四核/四线程Coffee Lake处理器,得分仅为1,000。
分别通过Geekbench 4和Geekbench 5对相同的平台进行测试,可以发现Android OS和AMD处理器的性能数据变化,大于Apple操作系统或Intel处理器的变化(参看下表中的数据)。可以想见,新版本基准测试规则的变化似乎对Apple操作系统和英特尔处理器益处更大,而其中的主要原因可能是因为取消了有利于AMD处理器和Android操作系统的内存与电池测试。
PC Perspective也做了一个类似的比较,用两个版本分别对英特尔处理器PC和AMD处理器PC进行基准测试,其差异也相当大 - 基于英特尔处理器的平台性能远高于基于AMD处理器的平台。
尽管Geekbench 5确实有一些明显的改进,但似乎比之前的版本少了些系统级基准测试,甚至还产生了一些之前没有的偏差。Tirias Research仍然建议将其作为一整套基准测试中的一部分,但我们对新基准测试的整体有效性心存疑虑,如果有人仅仅引用Geekbench 5评分来说事儿,这是很令人质疑的。
除了CPU性能,Geekbench一般还涵盖图形、内存、电池寿命和其它系统功能的测试。虽然其设计适用于任何计算平台,但通常被用作移动设备的关键基准测试之一,包括智能手机、平板电脑和移动PC。
本文为《电子工程专辑》11月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅
责编:Yvonne Geng