使用多个推理芯片进行设计的优势与挑战-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 扫一扫

扫码查看更多文章

过去两年是推理芯片行业最繁忙的两年。甚至有段时间，每隔一周都会有新公司推出新的优化方案。尽管这些创新都是伟大的，但问题在于大多数公司都不知道如何使用各种解决方案，因为他们无法确定哪个解决方案的性能优于另一个解决方案。

过去两年是推理芯片行业最繁忙的两年。甚至有段时间，每隔一周都会有新公司推出新的优化方案。尽管这些创新都是伟大的，但问题在于大多数公司都不知道如何使用各种解决方案，因为他们无法确定哪个解决方案的性能优于另一个解决方案。在这个新市场上，由于没有一套既定的基准，公司们要么必须尽快熟知推理芯片，要么必须相信各个供应商提供的性能数据。

大多数供应商给出的某些性能指标通常都是有利于其芯片表现的基准。一些供应商在讨论TOPS和TOPS/Watt时没有指定模型、批量大小或工艺/电压/温度条件。其它供应商使用ResNet-50基准，这一模型相当简单，远低于人们的需求，因此它在评估推理选项方面的价值令人怀疑。

我们在这条漫长道路上探索了很久。众多公司逐渐发现，在评测推理芯片性能时，最关键的是（1）高MAC利用率（2）低功耗（3）保持小尺寸。

我们知道如何评测——接下来呢？

在我们熟知推理芯片之间的性能评测比对方法之后，公司们开始提出在同一设计中同时使用多个推理芯片的优点（或缺点）的问题。简而答之，只要推理芯片设计正确，使用多个推理芯片可以实现性能的线性提高。当我们考虑使用多个推理芯片时，可以拿高速公路作类比，你想要一条单行道公路还是一条四车道公路？

显然，每家公司都想要一条四车道的高速公路，所以现在的问题变成了“我们如何在不造成交通堵塞的情况下成功打造这条四车道高速公路?” 答案在于选择正确的推理芯片。为解释这一点，让我们先了解神经网络模型。

神经网络被分解成多层。像ResNet-50有50层，YOLOv3有100多层，并且每层都会跟进上一层的激活。因此，在第N层中，其输出是进入N+1层的激活值。它等待该层的进入，计算完成后，输出是进入n+2层的激活值。这会一直持续到最后一层，直到算出结果为止。请记住，此示例的初始输入是图像或模型正在处理的任何数据集。

多个芯片何时发挥作用？

事实是，即便你的芯片具有一定的性能水平，总会有客户希望获得两倍或四倍的性能。但在某些情况下，如果你分析神经网络模型，这是有可能实现的。你只需要关注如何将模型分成两个芯片或四个芯片。

多年来，这一直是并行处理面临的问题，因为对于正在进行的处理，人们很难找出划分方式并确保所有处理都会叠加，而不是造成性能缩减。

与并行处理和通用计算不同，使用推理芯片的好处在于，客户通常提前知道他们是否需要使用两个芯片，这样编译器就不必在运行中做出决定，它是在编译时完成的。有了神经网络模型，一切都是完全可预测的，因此我们可以分析并找出如何准确地拆分模型，以及它是否能在两个芯片上良好地运行。

为了确保该模型可以在两个或更多芯片上运行，必须逐层查看MAC的激活值大小和数量。通常情况下，最大的激活值出现在第一层。这意味着激活值大小随着层数的递增而缓慢下降。

查看MAC的数量以及每周期MAC完成数量也很重要。在大多数模型中，每个周期中完成的MAC数量通常与激活值大小相关。这很重要，因为如果您有两个芯片，并且希望以最大频率运行，则需要为每个芯片分配相同的工作负载。如果一个芯片完成了模型的大部分工作，而另一个芯片只完成了模型的一小部分工作，那么您将受到第一个芯片的吞吐量的限制。

如何在两个芯片之间分割模型也很重要。您需要查看MAC的数量，因为这决定了工作负载的分配。您还必须查看芯片之间传递的信息。在某些情况下，您需要分割模型，并使其能够传递最小激活值，以使所需通信带宽量和传输延迟最小化。若分割的模型导致激活值非常大，则激活值的传输会成为瓶颈，并限制双芯片方案的性能。

下图显示了YOLOv3/Winograd/2 Megapixel图像的激活输出大小和累积的Mac逐层操作(绘制出卷积层)。为了平衡两个芯片之间的工作量，该模型将削减约50%的累积MAC操作——此时，从一个芯片到另一个芯片的激活值是1MB或2MB。在4个芯片之间分割，削减量大约为25%、50%和75%；注意，激活值在开始时最大，所以在25%的削减点时，有4或8MB的激活要传输。

YOLOv3/Winograd/2Mpixel图像的激活输出值（蓝条）和MAC操作累积（红线），显示了如何在多个芯片之间分配工作负载（图片：Flex Logix)

性能工具

幸运的是，现在可以使用性能工具来确保高吞吐量。事实上，模拟单个芯片性能的工具可以推广到模拟两个芯片的性能。虽然任何给定层的性能完全相同，但问题在于数据传输如何影响性能。建模工具需要考虑这一点，因为如果所需的带宽不够，那么该带宽将限制吞吐量。

如果您需要处理4个芯片，则将需要更大的带宽，因为模型第一个1/4部分的激活值远大于后面部分的激活值。因此，您可以借助投入的通信资源将大量芯片连接在一起，但所有芯片，包括独立芯片在内，也会因此承担间接成本。

结论

使用多个推理芯片可以显著提高性能，但前提是必须按照上述方法正确设计神经网络。如果我们回顾一下高速公路的类比，就会发现，使用错误的芯片和神经网络模型很有可能会增加通信量。如果你一开始就使用正确的芯片，那你就步入正轨了。谨记，最重要的是吞吐量，而不是TOPS或Res-Net50基准。一旦你选择了正确的推理芯片，你就可以设计一个同样强大的神经网络模型，为你的应用需求提供最佳的性能。

（参考原文：Advantages and Challenges of Designing with Multiple Inferencing Chips , by Geoff Tate）

责编：Amy Guan

阅读全文，请先

EDA/IP/IC设计人工智能

您可能感兴趣

美国大学报告：中国芯片研究论文占全球34%，远超其他国家或地区

全球前十大高产机构中，9家为中国机构（如中国科学院、清华大学等）。其中，中国科学院以 2018-2023 年期间发布的 14,387 篇文章位居榜首。

国家八部门联合起草指导政策，鼓励全国使用开源RISC-V芯片

这一新指导政策不仅反映了中国在芯片产业中减少对外依赖的战略意图，也体现了RISC-V架构在中国芯片产业中的重要地位和发展潜力。

我国成功研制世界首款光子时钟芯片

这一成果不仅将芯片上的时间调控速度提升了 100 倍，时钟频率突破100GHz，还为未来智能计算、6G 通信、空天遥感等一系列现实应用的性能提升提供了强大支持。

拆解苹果iPhone 16e，入门机王者还是智商税？

在外观和部分组件方面，iPhone 16e 延续了 iPhone 14 的设计。它的外壳与 iPhone 14 相似，就连 Face ID 模组也完全一样……

经营正常！中芯聚源严正辟谣“北京办公室关门”传言

此次风波始于2月28日，部分自媒体在小红书、微信公众号等平台发布《芯片界最大投资机构之一北京办公室关门》等文章，声称中芯聚源“北京办公室已关闭”、“上海团队人心涣散”、“仅剩最后一期基金”等……

芯华章管理层重大调整：新联席CEO上任，创始人转向战略整合

此次调整被视为芯华章迈向规模化发展的关键一步，旨在应对半导体EDA市场日益激烈的竞争与技术挑战。

赤池昌二先生升任TEL集团副总裁兼中国区总裁

TEL宣布自2025年3月1日起，现任TEL中国区地区总部——东电电子（上海）有限公司高级执行副总经理赤池昌二正式升任为集团副总裁，同时兼任东电电子（上海）有限公司总裁和东电光电半导体设备（昆山）有限公司总裁。

2025年无线连接的七大趋势

预计在2025年，以下七大关键趋势将塑造物联网的格局。

4月必逛电子展！六大热门新赛道，来NEPCON China 2025一展全看

领域新成果领域新成果4月必逛电子展！AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道，来NEPCON China 2025一展全看，速登记！

ASML公布2025年度股东大会议程，并提名Karien van Gennip为新任监事会委员

本次股东大会将采取线上和线下相结合的混合形式召开，股东们可选择现场出席或线上参会。

PI不断创新，为您提升效率和可靠性

作为功率半导体领域的创新领导者，Power Integrations（以下简称：PI）始终专注于前沿技术研发，持续为全球客户提供突破性解决方案。PI 在功率变换架构、电力电子驱动系统及汽车电子领域构建

披露金额超1.5亿元-2月AGV/AMR领域中标项目一览

千万级中标项目5个，百万级中标项目12个。文｜新战略根据公开信息，新战略移动机器人产业研究所不完全统计，2025年2月，国内发布35项中标公告，披露总金额超15527.01万元。（由新战略移动机器人全

解析差分电路原理，输出电压为什么要偏移？

差分运算放大电路，对共模信号得到有效抑制，而只对差分信号进行放大，因而得到广泛的应用。差分电路的电路构型上图是差分电路。目标处理电压：是采集处理电压，比如在系统中像母线电压的采集处理，

2024全球PCB企业40强榜单(含营收)

从上表可知，2024年前三季度全球40强PCB企业总营收约416.7亿美元，同比增长7.6%。其中，营收排名第一位的是臻鼎科技（36.05亿美元），排名第2～5位的分别是欣兴电子（26.85亿美元）、

全面供货－MG26并发多协议SoC提供优异连接和AI/ML性能

Silicon Labs（芯科科技）宣布其MG26系列无线片上系统（SoC）现已通过芯科科技及其分销合作伙伴全面供货。作为业界迄今为止最先进、高性能的Matter和并发多协议解决方案，MG26 SoC

低耗LED照明驱动电源ICU6116值得一选

UN低耗LED照明驱动电源IC U6116值得一选LED驱动电源在LED整灯成本中占比不小，在市场竞争激烈的当下，整灯企业希望能够降低LED驱动电源的成本，同时LED驱动电源的品质和性价比也成为主要焦

再过几年，日本人或许只能购买中国电视机了

先问大家一个问题：你有多久没看电视了？对老局来说，最近这几年除了春晚和国庆阅兵，其他情况下，基本已经不会看电视了。当然了，连着PS5打游戏那是另外一回事。不过，虽然我们不怎么看电视了，但电视的市场却并

闪耀新能源时代！安富利荣获2025“北极星杯”储能影响力BMS/EMS供应商奖

在储能行业蓬勃发展的浪潮中，安富利凭借卓越的技术实力与广泛的市场影响力，荣获2025“北极星杯”储能影响力BMS/EMS供应商奖。这一荣誉不仅是对安富利过往成就的高度认可，更是对其在储能领域持续创新与

脊髓伤患重获新生，XoMotion开启站立与舞动的可能

点击蓝字关注我们SUBSCRIBE to USXoMotion许多脊髓受伤的人都有惊心动魄的灾难经历：潜水事故、车祸、建筑工地灾难等。但Chloë Angus的故事却截然不同。2015年的一个晚上，

奇瑞用春天的阳光，唤醒了漫长的季节

文｜金融街老李奇瑞终于正式向港交所递交上市申请了。其实，支持奇瑞汽车实现IPO，此前就已经被安徽省列在了汽车产业2025年重点工作的第38条，但正如奇瑞汽车一贯的低调作风，此次赴香港上市，奇瑞在资本市

文章评论

最新
热门

换一换

EE直播

更多>

使用多个推理芯片进行设计的优势与挑战

我们知道如何评测——接下来呢？

多个芯片何时发挥作用？

性能工具

结论

杂志声明