过去两年是推理芯片行业最繁忙的两年。甚至有段时间,每隔一周都会有新公司推出新的优化方案。尽管这些创新都是伟大的,但问题在于大多数公司都不知道如何使用各种解决方案,因为他们无法确定哪个解决方案的性能优于另一个解决方案。

过去两年是推理芯片行业最繁忙的两年。甚至有段时间,每隔一周都会有新公司推出新的优化方案。尽管这些创新都是伟大的,但问题在于大多数公司都不知道如何使用各种解决方案,因为他们无法确定哪个解决方案的性能优于另一个解决方案。在这个新市场上,由于没有一套既定的基准,公司们要么必须尽快熟知推理芯片,要么必须相信各个供应商提供的性能数据。

大多数供应商给出的某些性能指标通常都是有利于其芯片表现的基准。一些供应商在讨论TOPS和TOPS/Watt时没有指定模型、批量大小或工艺/电压/温度条件。其它供应商使用ResNet-50基准,这一模型相当简单,远低于人们的需求,因此它在评估推理选项方面的价值令人怀疑。

我们在这条漫长道路上探索了很久。众多公司逐渐发现,在评测推理芯片性能时,最关键的是(1)高MAC利用率(2)低功耗(3)保持小尺寸。

我们知道如何评测——接下来呢?

在我们熟知推理芯片之间的性能评测比对方法之后,公司们开始提出在同一设计中同时使用多个推理芯片的优点(或缺点)的问题。 简而答之,只要推理芯片设计正确,使用多个推理芯片可以实现性能的线性提高。当我们考虑使用多个推理芯片时,可以拿高速公路作类比,你想要一条单行道公路还是一条四车道公路?

显然,每家公司都想要一条四车道的高速公路,所以现在的问题变成了“我们如何在不造成交通堵塞的情况下成功打造这条四车道高速公路?” 答案在于选择正确的推理芯片。为解释这一点,让我们先了解神经网络模型。

神经网络被分解成多层。像ResNet-50有50层,YOLOv3有100多层,并且每层都会跟进上一层的激活。因此,在第N层中,其输出是进入N+1层的激活值。它等待该层的进入,计算完成后,输出是进入n+2层的激活值。这会一直持续到最后一层,直到算出结果为止。请记住,此示例的初始输入是图像或模型正在处理的任何数据集。

多个芯片何时发挥作用?

事实是,即便你的芯片具有一定的性能水平,总会有客户希望获得两倍或四倍的性能。但在某些情况下,如果你分析神经网络模型,这是有可能实现的。你只需要关注如何将模型分成两个芯片或四个芯片。

多年来,这一直是并行处理面临的问题,因为对于正在进行的处理,人们很难找出划分方式 并确保所有处理都会叠加,而不是造成性能缩减。

与并行处理和通用计算不同,使用推理芯片的好处在于,客户通常提前知道他们是否需要使用两个芯片,这样编译器就不必在运行中做出决定,它是在编译时完成的。有了神经网络模型,一切都是完全可预测的,因此我们可以分析并找出如何准确地拆分模型,以及它是否能在两个芯片上良好地运行。

为了确保该模型可以在两个或更多芯片上运行,必须逐层查看MAC的激活值大小和数量。通常情况下,最大的激活值出现在第一层。这意味着激活值大小随着层数的递增而缓慢下降。

查看MAC的数量以及每周期MAC完成数量也很重要。在大多数模型中,每个周期中完成的MAC数量通常与激活值大小相关。这很重要,因为如果您有两个芯片,并且希望以最大频率运行,则需要为每个芯片分配相同的工作负载。如果一个芯片完成了模型的大部分工作,而另一个芯片只完成了模型的一小部分工作,那么您将受到第一个芯片的吞吐量的限制。

如何在两个芯片之间分割模型也很重要。您需要查看MAC的数量,因为这决定了工作负载的分配。您还必须查看芯片之间传递的信息。在某些情况下,您需要分割模型,并使其能够传递最小激活值,以使所需通信带宽量和传输延迟最小化。若分割的模型导致激活值非常大,则激活值的传输会成为瓶颈,并限制双芯片方案的性能。

下图显示了YOLOv3/Winograd/2 Megapixel图像的激活输出大小和累积的Mac逐层操作(绘制出卷积层)。为了平衡两个芯片之间的工作量,该模型将削减约50%的累积MAC操作——此时,从一个芯片到另一个芯片的激活值是1MB或2MB。在4个芯片之间分割,削减量大约为25%、50%和75%;注意,激活值在开始时最大,所以在25%的削减点时,有4或8MB的激活要传输。

YOLOv3/Winograd/2Mpixel图像的激活输出值(蓝条)和MAC操作累积(红线),显示了如何在多个芯片之间分配工作负载(图片:Flex Logix)  

性能工具

幸运的是,现在可以使用性能工具来确保高吞吐量。事实上,模拟单个芯片性能的工具可以推广到模拟两个芯片的性能。虽然任何给定层的性能完全相同,但问题在于数据传输如何影响性能。建模工具需要考虑这一点,因为如果所需的带宽不够,那么该带宽将限制吞吐量。

如果您需要处理4个芯片,则将需要更大的带宽,因为模型第一个1/4部分的激活值远大于后面部分的激活值。因此,您可以借助投入的通信资源将大量芯片连接在一起,但所有芯片,包括独立芯片在内,也会因此承担间接成本。

结论

使用多个推理芯片可以显著提高性能,但前提是必须按照上述方法正确设计神经网络。如果我们回顾一下高速公路的类比,就会发现,使用错误的芯片和神经网络模型很有可能会增加通信量。如果你一开始就使用正确的芯片,那你就步入正轨了。谨记,最重要的是吞吐量,而不是TOPS或Res-Net50基准。一旦你选择了正确的推理芯片,你就可以设计一个同样强大的神经网络模型,为你的应用需求提供最佳的性能。

(参考原文:Advantages and Challenges of Designing with Multiple Inferencing Chips , by Geoff Tate)

责编:Amy Guan

本文为《电子工程专辑》2020年1月 刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅 

阅读全文,请先
您可能感兴趣
拍卖标的包括三项域名以及15项软件著作权和14项专利。其中,三项域名的起拍价为13879元,15项软件著作权和14项专利的起拍价为15550元……
Rambus的HBM4控制器IP还具备多种先进的特性集,旨在帮助设计人员应对下一代AI加速器及图形处理单元(GPU)等应用中的复杂需求。这些特性使得Rambus在HBMIP领域继续保持市场领导地位,并进一步扩展其生态系统支持。
一直听说x86指令集天生做不了低功耗,真的是这样吗?这篇文章着重谈谈酷睿Ultra二代是怎么考量低功耗的,有没有可能做到低功耗...
对于股价波动的原因,寒武纪表示,除了公司经营层面的因素外,还可能受到其他因素的影响。寒武纪还提醒投资者,应甄别信息来源,具体情况以公司公告为准。
此次财报也从侧面反应了半导体行业在AI业务上的强劲增长势头,但同时也暴露出非AI业务增长乏力的困境。
今年的CadenceLIVE中国用户大会上,Cadence谈到在芯片领域之外,数据中心、生命科学、航空航天等系统设计领域的仿真技术应用相当有限,这对Cadence而言是重要的市场机会。与此同时AI技术的发展,也在推动着市场前行...
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
点击蓝字 关注我们德州仪器全球团队坚持克服挑战,为电源模块开发新的 MagPack™ 封装技术,这是一项将帮助推动电源设计未来的突破性技术。  ■ ■ ■作为一名经验丰富的马拉松运动员,Kenji K
天眼查信息显示,天津三星电子有限公司经营状态9月6日由存续变更为注销,注销原因是经营期限届满。该公司成立于1993年4月,法定代表人为YUN JONGCHUL(尹钟撤),注册资本约1.93亿美元,
在当今人工智能飞速发展的时代,AI Agent正以其独特的方式重塑着企业的生产运营方式。澜码科技作为AI Agent领域的先行者,其创始人兼CEO周健先生分享了对大模型与AI Agent发展现状的深刻
据市场调查机构Allied Market Research的《单晶硅晶圆市场》报告指出,2022年单晶硅晶圆市场价值为109亿美元,预计到2032年将达到201亿美元,2023年~2032年的复合年均
会议预告向世界展示中国最具创新力、领导力和品牌化的产品与技术!9月27号,“第6届国际移动机器人集成应用大会暨复合机器人峰会”将在上海举行,敬请关注!逐个击破现有痛难点。文|新战略半导体行业高标准、灵
近日,又一国产SiC企业宣布实现了主驱突破,并将出口海外。据“行家说三代半”的追踪统计,自2022年起,国内主驱级SiC器件/模块开始在多款车型中得到应用,尤其是2024年,本土供应商的市场份额显著上
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了骄成超声等十余家企业,深入了
9月6日,“智进AI•网易数智创新企业大会”在秦皇岛正式举行,300+企业高管及代表、数字化技术专家齐聚一堂,探讨当AI从技术探索迈入实际应用,如何成为推动组织无限进化的新引擎。爱分析创始人兼CEO金
近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆