AI公司通常都以更高的TOPS(每秒一万亿次操作)作为评判算力的标准。但芯片制造商在推销他们的TOPS指标时,都不会真正提供准确的引导。本文将论述业界因错误标记性能指标而导致的问题,并阐述用户该如何独立评估真实环境中的TOPS。

AI公司通常都以更高的TOPS(每秒一万亿次操作)作为评判算力的标准。但芯片制造商在推销他们的TOPS指标时,都不会真正提供准确的引导。在大多数情况下,他们大肆宣传的数字并不是实际的 TOPS,而是峰值TOPS。换句话说,您认为能在板卡中获得的TOPS 算力,实际上是芯片在不可能存在的理想世界中的最佳表现。

本文将论述业界因错误标记性能指标而导致的问题,并阐述用户该如何独立评估真实环境中的TOPS。

真假TOPS

AI应用开发人员通常以衡量芯片制造商发布的TOPS性能数据是否足以支持他们的项目来开始进行审查。

假设要在U-Net神经网络上以10 fps(每秒帧数)的速度重新制作全高清图像。由于U-Net处理每个图像需要3 TOPS算力,简单的数学计算表明,共需要30 TOPS才能按所需的FPS完成项目。在购买芯片时,您可能认为,那些声称运行50、40 甚至 32 TOPS 的板卡对您的项目来说应该足够了。在理想世界中,的确是这样的;但您很快就会发现,这些板卡很少能达到所宣称的算力。而且我们谈论的不仅仅是几个TOPS的下降,其计算效率可低至所宣扬的10%。

当然,调整神经网络可以从板卡中“榨出”更多的性能,但永远不可能接近供应商给出的峰值TOPS。即使试图获得60%或70%的计算效率,也将耗费巨大的时间成本。如果神经网络发生任何变化,您将不得不返回原点以再次优化所有内容——而且,它甚至可能根本不适用于您的应用。这个问题在小规模样本处理中尤为明显;幸运的话,您也许能够获得峰值TOPS 15%的算力。

计算效率

现在,您也许很想知道该如何计算真实的TOPS?这其实很简单!

要了解一个板卡的实际TOPS是多少,首先需要确定板卡的计算效率。理想情况下,这在目标板卡上运行您需要的神经网络就可以完成。不过有可能此时您还没有板卡。但通过查看更多来自供应商的营销数字细节,您仍然可以进行估算。通常,ResNet50或类似神经网络的性能数据是可以得到的。假设这是一个典型的ResNet50实现,则可以通过GOPS(每秒十亿次操作),而不是TOPS,来计算单个图像的算力。然后,只需将其乘以供应商宣传的每秒图像数量 (IPS),瞧!这样获得的TOPS将更实际,或者说更真实。

而效率也只是真实值除以峰值TOPS所得的比率,即:

峰值TOPS x 计算效率= 真实TOPS

该公式使用户能够在购买芯片之前,对板卡运行神经网络时的真实效率进行比较。您可以重复使用该效率计算需要的TOPS,看看它是否符合需求。虽然功率和样本大小等因素也会影响结果,但如果知道板卡的效率,利用该公式将可以很好地估计其在实际用例中的真实性能。当然,供应商发布的神经网络IPS也令人存疑,但相对于在实际需要的TOPS和板卡峰值TOPS之间进行比较,这种估算方法已经非常有效。

还有一点也值得注意,这不仅仅是GPU的问题。大多数专用ASIC的实际效率也非常低,其宣传效率明显夸大其词。但我们用IPS、已知的网络GOPS和一个简单的乘法,就可以得到一个较实际的数字。

高效替代品

GPU和ASIC在效率和性能方面都存在问题,但有一种替代方案不涉及这两种芯片中的任何一种。

2020年10月的MLPerf结果表明,结合了推理加速的FPGA比其他方案更高效,可以更接近其他芯片制造商宣传的峰值TOPS数据。

根据已发布的每个TOPS数据,比较不同架构下的FPS(来源:Mipsology)

FPGA的高效不仅体现在计算上,还体现在其用于计算时的硅片利用率上。从本质上讲,这些板卡可以实现“事半功倍”,以极低的成本获得更佳的神经网络性能。

再提醒一次:不要落入TOPS的营销陷阱。这是大多数神经网络在现实条件下永远达不到的夸大的性能数据。相反,请利用这个公式:

峰值TOPS x计算效率=真实TOPS

这将帮助您快速、轻松、准确地比较性能需求和实际芯片性能,而不会被任何夸大的供应商声明所误导。

(参考原文:TOPS: The Truth Behind a Deep Learning Lie)

责编:Amy Guan

本文为《电子工程专辑》2021年9月刊杂志文章, 版权所有,禁止转载。点击申请 免费杂志订阅 

阅读全文,请先
您可能感兴趣
9月10日,苹果发布了一系列新品,包括iPhone 16系列手机、Apple Watch Series 10智能手表和AirPods 4耳机。发布会后网上响起了一片吐嘈声,带着这些吐槽,我们来看看这次苹果到底有没有新玩意……
Rambus的HBM4控制器IP还具备多种先进的特性集,旨在帮助设计人员应对下一代AI加速器及图形处理单元(GPU)等应用中的复杂需求。这些特性使得Rambus在HBMIP领域继续保持市场领导地位,并进一步扩展其生态系统支持。
2016-2023年中国独角兽企业总估值由近5000亿美元持续攀升至超1.2万亿美元,其中在2020年首破万亿美元。
HBM4作为第六代HBM芯片,不仅在能效上较现有型号提升40%,延迟也降低了10%,成为各大芯片厂商竞相追逐的焦点。
此次财报也从侧面反应了半导体行业在AI业务上的强劲增长势头,但同时也暴露出非AI业务增长乏力的困境。
尽管CMA批准了交易,但业内专家指出,微软通过此次交易获得了Inflection AI的核心技术和团队,这相当于以较低的成本实现了对Inflection AI的变相收购,进一步加强了微软在AI领域的实力。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
‍‍Mobileye 将终止内部激光雷达开发Mobileye 宣布终止用于自动驾驶的激光雷达的开发,并裁员 100 人。Mobileye 认为,下一代 FMCW 激光雷达对可脱眼的自动驾驶来说必要性没
文|德福很多去成都旅游的朋友都有个疑惑——为什么在成都官方的城市标志上看不到熊猫,而是一个圆环?其实这个“圆环”大有来头,它被唤作太阳神鸟,2001年出土于大名鼎鼎的金沙遗址,距今已有三千余年历史。0
周二,捷普科技(Jabil)官员与印度泰米尔纳德邦代表团在泰米尔纳德邦首席部长MK Stalin的见证下,签署了一份备忘录。MK Stalin正在美国进行为期17天的访问,旨在吸引新的投资。MK St
在德国柏林举行的IFA 2024上,AMD计算和图形业务集团高级副总裁兼总经理Jack Huynh宣布,公司将把以消费者为中心的RDNA和以数据中心为中心CDNA架构统一为UDNA架构,这将为公司更有
‍‍‍‍上市PCB厂商竞国(6108)日前出售泰国厂给予陆资厂胜宏科技后,近日惊传台湾厂惊传12月前关厂,并对客户发布通知预告客户转移生產,最后出货日期2024年12月25日。至於后续台湾厂400名员
疫情后的劳动力囤积和强有力的员工保护规则掩盖了德国高薪制造业工作市场令人担忧的变化。根据联邦劳工办公室的数据,欧元区最大经济体德国的失业率在2019年春季曾达到历史最低点4.9%,现已上升至6%。虽然
[关注“行家说动力总成”,快速掌握产业最新动态]9月6日,据“内江新区”消息,晶益通(四川)半导体科技有限公司旗下IGBT模块材料和封测模组产业园项目已完成建设总进度的40%,预计在明年5月建成。据了
在苹果和华为的新品发布会前夕,Counterpoint公布了2024年第一季度的操作系统详细数据,数据显示, 鸿蒙操作系统在2024年第一季度继续保持强劲增长态势,全球市场份额成功突破4%。在中国市场