AI加速器性能只用TOPS是比不出来的！-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

TOPS数字越高并不一定就有更高的处理量，尤其是在样本大小为1的边缘应用中...

在AI加速器世界，芯片的性能通常是以既定算法的TOPS (tera operations per second)来表示，但有很多理由显示，这或许并不是最好的参考数字。如美国的AI加速器开发商Flex Logix执行长Geoff Tate所言：“客户真正要的是每1美元的高处理量(throughput)。”

Tate解释，TOPS数字越高并不一定就有更高的处理量，尤其是在样本大小(batch size)为1的边缘应用中；而诸如数据中心等应用，可透过以较大的样本平行处理多个输入来提高处理量(因为就会有多余的TOPS)，但这通常并不适合边缘设备。

举例来说，Tate比较了Flex Logix的InferX X1组件以及市场上的某款领导级GPU，虽然后者的处理量是3~4倍，TOPS是10倍，但需要用到8倍的DRAM；相较之下Flex Logix的组件架构能节省很多资源。

Flex Logix的InfereX X1预计2019年底投片，将提供8.5TOPS左右的算力。

（来源：Flex Logix）

但Tate提出的每1美元处理量指标听起来很合理，实际上也不是都能很容易找到可靠的组件产品价格，以直接进行比较。而像是需要多少DRAM或是某款特定芯片有多大的占位面积能显示成本，但并不精确。

另一个把TOPS当作指标会遇到的问题，是通常会以执行ResNet-50模型来进行测量。“ResNet-50并不是客户关心的测量基准，只是人们最常用的；”Tate解释：“这个模型不是非常重要的原因是，它使用非常小的影像。”

ResNet-50被使用了一段时间而且成为比较TOPS数据的既定标准，但现在被认为已经过时。虽然有很多继续使用这个标准的好理由，包括至少需要让所有接下来的分数能继续进行比较，还有这是所有类型设备(甚至是微小设备)都能使用的标准，但它不足以挑战现今为数据中心推理打造的巨大芯片，也不能充分显示它们的性能。

除了既定标准，当然也有不同的产业组织为AI加速器芯片开发出测量基准，例如MLPerf、DawnBench、EEMBC…等等。而尽管其中MLPerf已经公布了一批推理芯片的跑分结果，但Tate认为这个测量基准太“数据中心导向”。

他举例指出，在单数据流(single-stream)情境中，考虑边缘设备一次处理一个影像(样本数为1)，性能指针为90百分位数(90th percentile)延迟；“在边缘，我不认为客户会想知道90百分位数，他们要知道百分之百：你能给我什么保证？”例如自动驾驶就是一个非常重视延迟表现的边缘应用。

像是对象侦测等复杂图像处理任务的表现性能，会更适合用来比较现在的高端AI加速器。

（来源：Flex Logix）

对于那些在信息于处理器核心与内存之间传递时会遭遇总线竞争(bus contention)的系统，长尾延迟(long tail latencies)是一个典型的问题。虽然目前有很多设备都使用了高带宽内存接口，但因为竞争可能发生，仍然会有一个理论上的尾延迟。

Flex Logix以FPGA为基础的推理处理器设计，号称每一次都有差不多的延迟时间(另一家AI加速器业者Groq也声称他们有同样的性能，但坚称其组件并非FPGA)。

Tate指出：“因为我们在核心中使用共同创办人发明的FPGA互连，有一个内存到乘法累加器(multiply accumulators)、再到触发逻辑并回到内存的专属路径，因此没有竞争问题；”信息流通顺畅，利用率没有到100%，但超越其他所有架构。

而尽管市场竞争激烈，AI加速器新秀如雨后春笋，Tate对于Flex Logix的前景信心十足；“当真正的芯片问世、开始执行软件并且展示，你也看到价格与性能…很快，市场上没办法跑到前四分之一的公司就消失不见。”

Tate预测，未来AI加速器领域只会有10~15家芯片公司的生存空间，以不同的市场(包括训练、推理、数据中心、边缘与超低功耗…等等)为基础；那些在市场上的解决方案在运算性能上跨越很大的数量级，因此不会全部都是直接彼此竞争。

他认为，未来一到两年就会有大量的公司被淘汰，套用一句投资之神巴菲特(Warren Buffett)的名言：“当潮水退去，你就会看到是谁在裸泳。”

编译：Judith Cheng 责编：Yvonne Geng

(参考原文： AI Accelerators: TOPS is Not the Whole Story，by Sally Ward-Foxton)

AI加速器性能只用TOPS是比不出来的！

杂志声明