TOPS数字越高并不一定就有更高的处理量,尤其是在样本大小为1的边缘应用中...

在AI加速器世界,芯片的性能通常是以既定算法的TOPS (tera operations per second)来表示,但有很多理由显示,这或许并不是最好的参考数字。如美国的AI加速器开发商Flex Logix执行长Geoff Tate所言:“客户真正要的是每1美元的高处理量(throughput)。”

Tate解释,TOPS数字越高并不一定就有更高的处理量,尤其是在样本大小(batch size)为1的边缘应用中;而诸如数据中心等应用,可透过以较大的样本平行处理多个输入来提高处理量(因为就会有多余的TOPS),但这通常并不适合边缘设备。

举例来说,Tate比较了Flex Logix的InferX X1组件以及市场上的某款领导级GPU,虽然后者的处理量是3~4倍,TOPS是10倍,但需要用到8倍的DRAM;相较之下Flex Logix的组件架构能节省很多资源。

Flex Logix的InfereX X1预计2019年底投片,将提供8.5TOPS左右的算力。

(来源:Flex Logix)

但Tate提出的每1美元处理量指标听起来很合理,实际上也不是都能很容易找到可靠的组件产品价格,以直接进行比较。而像是需要多少DRAM或是某款特定芯片有多大的占位面积能显示成本,但并不精确。

另一个把TOPS当作指标会遇到的问题,是通常会以执行ResNet-50模型来进行测量。“ResNet-50并不是客户关心的测量基准,只是人们最常用的;”Tate解释:“这个模型不是非常重要的原因是,它使用非常小的影像。”

ResNet-50被使用了一段时间而且成为比较TOPS数据的既定标准,但现在被认为已经过时。虽然有很多继续使用这个标准的好理由,包括至少需要让所有接下来的分数能继续进行比较,还有这是所有类型设备(甚至是微小设备)都能使用的标准,但它不足以挑战现今为数据中心推理打造的巨大芯片,也不能充分显示它们的性能。

除了既定标准,当然也有不同的产业组织为AI加速器芯片开发出测量基准,例如MLPerf、DawnBench、EEMBC…等等。而尽管其中MLPerf已经公布了一批推理芯片的跑分结果,但Tate认为这个测量基准太“数据中心导向”。

他举例指出,在单数据流(single-stream)情境中,考虑边缘设备一次处理一个影像(样本数为1),性能指针为90百分位数(90th percentile)延迟;“在边缘,我不认为客户会想知道90百分位数,他们要知道百分之百:你能给我什么保证?”例如自动驾驶就是一个非常重视延迟表现的边缘应用。

像是对象侦测等复杂图像处理任务的表现性能,会更适合用来比较现在的高端AI加速器。

20191217-002.jpg
(来源:Flex Logix)

对于那些在信息于处理器核心与内存之间传递时会遭遇总线竞争(bus contention)的系统,长尾延迟(long tail latencies)是一个典型的问题。虽然目前有很多设备都使用了高带宽内存接口,但因为竞争可能发生,仍然会有一个理论上的尾延迟。

Flex Logix以FPGA为基础的推理处理器设计,号称每一次都有差不多的延迟时间(另一家AI加速器业者Groq也声称他们有同样的性能,但坚称其组件并非FPGA)。

Tate指出:“因为我们在核心中使用共同创办人发明的FPGA互连,有一个内存到乘法累加器(multiply accumulators)、再到触发逻辑并回到内存的专属路径,因此没有竞争问题;”信息流通顺畅,利用率没有到100%,但超越其他所有架构。

而尽管市场竞争激烈,AI加速器新秀如雨后春笋,Tate对于Flex Logix的前景信心十足;“当真正的芯片问世、开始执行软件并且展示,你也看到价格与性能…很快,市场上没办法跑到前四分之一的公司就消失不见。”

Tate预测,未来AI加速器领域只会有10~15家芯片公司的生存空间,以不同的市场(包括训练、推理、数据中心、边缘与超低功耗…等等)为基础;那些在市场上的解决方案在运算性能上跨越很大的数量级,因此不会全部都是直接彼此竞争。

他认为,未来一到两年就会有大量的公司被淘汰,套用一句投资之神巴菲特(Warren Buffett)的名言:“当潮水退去,你就会看到是谁在裸泳。”

编译:Judith Cheng   责编:Yvonne Geng

(参考原文: AI Accelerators: TOPS is Not the Whole Story,by Sally Ward-Foxton)

 

阅读全文,请先
您可能感兴趣
9月10日,苹果发布了一系列新品,包括iPhone 16系列手机、Apple Watch Series 10智能手表和AirPods 4耳机。发布会后网上响起了一片吐嘈声,带着这些吐槽,我们来看看这次苹果到底有没有新玩意……
不管怎么样,英特尔仍在努力推进18A芯片工艺,以期未来在最先进的芯片工艺上能与台积电、三星有一定的领先优势,毕竟其已经率先拿到ASML两台最先进的High NA(高数值孔径)EUV光刻机。未来,英特尔没有选择,只有抓住任何的可能性,硬着头皮上。
一直听说x86指令集天生做不了低功耗,真的是这样吗?这篇文章着重谈谈酷睿Ultra二代是怎么考量低功耗的,有没有可能做到低功耗...
Xockets认为,英伟达凭借侵犯该企业专利的DPU产品垄断了AI GPU服务器市场,而微软则垄断了支持GPU的AI平台领域。此外,Xockets还称这两家科技公司就授权费建立了垄断同盟。
经营业绩下滑,以及在代工业务上的巨额亏损以及市场需求疲软,也或是英特尔出售Mobileye股份的重要原因之一。
英伟达的CUDA生态系统和高性能AI GPU仍将作为核心竞争力,但要支撑其像以往那样的飞速的发展态势,必然要面临更大的挑战,或者已到增长的天花板。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
在全球智能手机竞争日益激烈的情况下,谁能在高端市场站稳脚跟,谁就占据了主动权。一直以来全球智能手机市场格局都是,苹果专吃高端,其他各大厂商分食全球中低端市场。但现在市场正在其变化。根据Canalys最
文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
‍‍Mobileye 将终止内部激光雷达开发Mobileye 宣布终止用于自动驾驶的激光雷达的开发,并裁员 100 人。Mobileye 认为,下一代 FMCW 激光雷达对可脱眼的自动驾驶来说必要性没
天眼查信息显示,天津三星电子有限公司经营状态9月6日由存续变更为注销,注销原因是经营期限届满。该公司成立于1993年4月,法定代表人为YUN JONGCHUL(尹钟撤),注册资本约1.93亿美元,
近日,又一国产SiC企业宣布实现了主驱突破,并将出口海外。据“行家说三代半”的追踪统计,自2022年起,国内主驱级SiC器件/模块开始在多款车型中得到应用,尤其是2024年,本土供应商的市场份额显著上
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了骄成超声等十余家企业,深入了
[关注“行家说动力总成”,快速掌握产业最新动态]9月6日,据“内江新区”消息,晶益通(四川)半导体科技有限公司旗下IGBT模块材料和封测模组产业园项目已完成建设总进度的40%,预计在明年5月建成。据了
往期精选2023年度中国移动机器人产业发展研究报告发布!超200个——2024年上半年AGV/AMR行业中标项目盘点市场保有量超10000台的8大中国AGV/AMR厂商总额超190亿-盘点全球移动机器
9月6日,“智进AI•网易数智创新企业大会”在秦皇岛正式举行,300+企业高管及代表、数字化技术专家齐聚一堂,探讨当AI从技术探索迈入实际应用,如何成为推动组织无限进化的新引擎。爱分析创始人兼CEO金
近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆