TOPS数字越高并不一定就有更高的处理量,尤其是在样本大小为1的边缘应用中...

在AI加速器世界,芯片的性能通常是以既定算法的TOPS (tera operations per second)来表示,但有很多理由显示,这或许并不是最好的参考数字。如美国的AI加速器开发商Flex Logix执行长Geoff Tate所言:“客户真正要的是每1美元的高处理量(throughput)。”

Tate解释,TOPS数字越高并不一定就有更高的处理量,尤其是在样本大小(batch size)为1的边缘应用中;而诸如数据中心等应用,可透过以较大的样本平行处理多个输入来提高处理量(因为就会有多余的TOPS),但这通常并不适合边缘设备。

举例来说,Tate比较了Flex Logix的InferX X1组件以及市场上的某款领导级GPU,虽然后者的处理量是3~4倍,TOPS是10倍,但需要用到8倍的DRAM;相较之下Flex Logix的组件架构能节省很多资源。

Flex Logix的InfereX X1预计2019年底投片,将提供8.5TOPS左右的算力。

(来源:Flex Logix)

但Tate提出的每1美元处理量指标听起来很合理,实际上也不是都能很容易找到可靠的组件产品价格,以直接进行比较。而像是需要多少DRAM或是某款特定芯片有多大的占位面积能显示成本,但并不精确。

另一个把TOPS当作指标会遇到的问题,是通常会以执行ResNet-50模型来进行测量。“ResNet-50并不是客户关心的测量基准,只是人们最常用的;”Tate解释:“这个模型不是非常重要的原因是,它使用非常小的影像。”

ResNet-50被使用了一段时间而且成为比较TOPS数据的既定标准,但现在被认为已经过时。虽然有很多继续使用这个标准的好理由,包括至少需要让所有接下来的分数能继续进行比较,还有这是所有类型设备(甚至是微小设备)都能使用的标准,但它不足以挑战现今为数据中心推理打造的巨大芯片,也不能充分显示它们的性能。

除了既定标准,当然也有不同的产业组织为AI加速器芯片开发出测量基准,例如MLPerf、DawnBench、EEMBC…等等。而尽管其中MLPerf已经公布了一批推理芯片的跑分结果,但Tate认为这个测量基准太“数据中心导向”。

他举例指出,在单数据流(single-stream)情境中,考虑边缘设备一次处理一个影像(样本数为1),性能指针为90百分位数(90th percentile)延迟;“在边缘,我不认为客户会想知道90百分位数,他们要知道百分之百:你能给我什么保证?”例如自动驾驶就是一个非常重视延迟表现的边缘应用。

像是对象侦测等复杂图像处理任务的表现性能,会更适合用来比较现在的高端AI加速器。

20191217-002.jpg
(来源:Flex Logix)

对于那些在信息于处理器核心与内存之间传递时会遭遇总线竞争(bus contention)的系统,长尾延迟(long tail latencies)是一个典型的问题。虽然目前有很多设备都使用了高带宽内存接口,但因为竞争可能发生,仍然会有一个理论上的尾延迟。

Flex Logix以FPGA为基础的推理处理器设计,号称每一次都有差不多的延迟时间(另一家AI加速器业者Groq也声称他们有同样的性能,但坚称其组件并非FPGA)。

Tate指出:“因为我们在核心中使用共同创办人发明的FPGA互连,有一个内存到乘法累加器(multiply accumulators)、再到触发逻辑并回到内存的专属路径,因此没有竞争问题;”信息流通顺畅,利用率没有到100%,但超越其他所有架构。

而尽管市场竞争激烈,AI加速器新秀如雨后春笋,Tate对于Flex Logix的前景信心十足;“当真正的芯片问世、开始执行软件并且展示,你也看到价格与性能…很快,市场上没办法跑到前四分之一的公司就消失不见。”

Tate预测,未来AI加速器领域只会有10~15家芯片公司的生存空间,以不同的市场(包括训练、推理、数据中心、边缘与超低功耗…等等)为基础;那些在市场上的解决方案在运算性能上跨越很大的数量级,因此不会全部都是直接彼此竞争。

他认为,未来一到两年就会有大量的公司被淘汰,套用一句投资之神巴菲特(Warren Buffett)的名言:“当潮水退去,你就会看到是谁在裸泳。”

编译:Judith Cheng   责编:Yvonne Geng

(参考原文: AI Accelerators: TOPS is Not the Whole Story,by Sally Ward-Foxton)

 

阅读全文,请先
您可能感兴趣
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
近日,华为终端BG CEO何刚在和紫牛基金创始合伙人张泉灵的对话中表示,华为Mate 70系列每一颗芯片都有国产的能力。此外,日前在深圳宝安中学的一场讲座中,华为终端BG 董事长余承东也自豪地宣布Mate70实现了芯片的100%国产化。
华为Mate 70系列中的Mate 70搭载了麒麟9010芯片,而Mate 70 Pro/Pro+/RS则首发了麒麟9020芯片。近日,百万粉丝的网红博主@杨长顺维修家 对华为Mate 70 RS进行了拆解……
常情况下,英特尔的CEO在65岁时退休,而现年63岁的基辛格突然被退休,让市场感到意外。为了确保平稳过渡,英特尔董事会立即着手寻找新的CEO人选……
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
‍‍12月18日,深圳雷曼光电科技股份有限公司(下称“雷曼光电”)与成都辰显光电有限公司(下称“辰显光电”)在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势,共同推进Mi
12月18日,珠海京东方晶芯科技举行设备搬入仪式。插播:加入LED显示行业群,请加VX:hangjia188在10月31日,珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品
有博主基于曝光的信息绘制了iPhone 17系列渲染图,对比iPhone 16系列,17系列最大变化是采用横置相机模组,背部DECO为条形跑道设计,神似谷歌Pixel 9系列,这是iPhone六年来的
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
对于华为来说,今年的重磅机型都已经发完了,而明年的机型已经在研发中,Pura 80就是期待很高的一款。有博主爆料称,华为Pura 80将会用上了豪威OV50K传感器,同时电池容量达到5600毫安时。至
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
在上海嘉定叶城路1688号的极越办公楼里,最显眼的位置上,写着一句话:“中国智能汽车史上,必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景,未曾想这原来是命运的嘲弄。毕竟,极越用一种极其荒唐的
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益
点击蓝字 关注我们电网和可再生能源系统向着更智能、更高效的方向发展助力优化能源分配构建更加绿色和可靠的能源未来12 月 24 日 上午 9:30 - 11:302024 德州仪器新能源基础设施技术直播