(本文编译自Semiconductor Engineering)
随着处理的数据量不断增长,功耗正成为一个更大的问题,这迫使芯片制造商和系统公司需要重新考虑从端点到数据中心的计算架构。
这个问题没有简单的解决办法。越来越多的数据被收集、移动和处理,每一步都需要更多的电力,并且需要更多地关注物理效应,例如热量、加速老化和信号干扰等。晶体管密度越大,利用率越高,控制这些影响所需的努力就越大,需要的权衡也就越多。这在AI/ML应用中尤其明显,这些应用的主要关注度是性能和最大程度地利用具有极快数据吞吐量的处理单元。
除此之外,还有其他与功耗相关的问题在不断累积,这些问题自至少40nm工艺节点以来一直存在,从这一节点开始即使是在“关闭”状态下,栅极也开始漏电。在16/14nm时,通过在晶体管栅极上添加鳍片来控制静态漏电,这一问题得到了短暂解决,并且效果非常显著,直到大约7nm时,电流漏电开始重新出现。这导致了环绕栅极FET(GAA FET)的出现,其正在从3nm开始实施,并计划在埃范围内的某个地方实现互补FET。而所有这些问题都因每个新节点的动态密度增加而加剧,这导致在逐渐缩小的区域内产生更多的热量,并迫使芯片制造商将其关键指标从处理器频率转移到每瓦性能。
“现在必须在小空间内引入和消耗更多的功率,这可能会发生各种有趣的事情,”Rambus杰出发明家Steven Woo表示,“随着时间的推移,散发的热量会对芯片产生影响,这可能需要担心热循环。当芯片做大量工作时,芯片的一部分会停止工作,然后继续执行更多工作。这些快速循环——先耗散大量功率,然后又不耗散——会导致局部加热、冷却和热应力,所有芯片都会经历这些。有时还会担心封装上的焊球会随着时间的推移而开裂,或者PCB发生翘曲,以及其他机械应力。可以想象,当有一个非常大的芯片时,芯片边缘的膨胀会比小芯片更大。这也会增加压力。这意味着必须非常小心地对这些部件进行冷却。内存也不例外。对于内存来说,需要担心一些非常具体的事情,比如保留数据的能力取决于芯片的温度。”
这就是为什么许多最先进的芯片设计都配有大型散热器,并且越来越多地采用某种类型的液体冷却。这也解释了为什么一些最先进的设计将处理推向边缘,在传感器和/或内存中,以限制需要移动的数据量。这本质上是纳米级的先进负载平衡。它更加高效,尤其适用于由电池供电的边缘设备。
Alphawave Semi首席技术 Tony Chan Carusone表示:“在边缘设备中,降低成本和降低功耗非常重要。在这些领域中,定制芯片变得更加重要。计算机视觉的下一步发展方向之一就是开发有助于降低功耗和成本的边缘AI芯片解决方案。”
这当然有帮助,但仍然不能解决所有问题。例如,对于图像传感器,可能需要处理大量以流视频或图像形式呈现的数据。但这些传感器对温度非常敏感——与其说是器件特性,不如说是极性。
Ansys半导体部门产品营销总监Marc Swinnen解释说:“如果你想要一个图像传感器,你就得有一个大芯片,而且你希望以非常高的分辨率忠实地呈现图像。你不能让图像传感器因为温度而弯曲和变形。即使图像传感器轻微弯曲也会导致图像失真。问题是,大多数配置都是将图像传感器堆叠在电子芯片上,以便立即处理图像。但这些电子设备会变热,如果你一不小心,就会导致图像传感器变形。你需要进行非常精确和灵敏的热分析,以确保图像传感器保持平坦,不会因为热机械应力而变形或弯曲。”
图 1:显卡热模拟
来源:Ansys
多芯粒(chiplet)问题
如果再加上异质性,尤其是芯粒,情况就会变得更加复杂。
Cadence产品管理总监Dan Lee表示:“尤其在谈论异构集成时,无法获得简单如单片设计中的热导率。这需要更多的思考和规划,因为老化和加热是相关的,热量会影响芯片的老化。在其他条件相同的情况下,如果在非常热的环境中进行操作,芯片寿命就会缩短。”
所有这些因素都给设计师带来了挑战,因为有时必须平衡相互冲突的要求。例如,对于汽车芯片而言,热量可能来自芯片或封装的内部或外部。
Ansys首席产品经理Suhail Saif表示:“对于我们的汽车客户来说,功耗优化非常重要,因为环境温度范围差异很大。由于安全等级,他们必须针对最坏情况进行设计分析,这可能与正常情况大不相同。他们设计的范围非常大,因此必须在功耗和性能方面做出很多妥协。他们在每个阶段都部署了功耗优化。例如,他们加入了额外的逻辑。即使需要更多的电池电量,也没关系。在汽车中,您可以轻松供电,因此他们在这方面做出了妥协,但随后他们在芯片中内置了比其他地方更多的电源控制器,以便以后管理电源。每个阶段都会做出此类设计妥协,以确保功耗得到控制,并且始终满足功耗限制。”
更多数据,更多类型的芯片
除了使用现有器件精心平衡设计外,业界还在探索采用新型芯片。这在图像传感器领域尤其明显,图像传感器是数据增加的来源之一。例如,在汽车中,来自道路的流式图像迫使汽车工程师考虑各种替代方案,从整体系统架构到新型芯片。特别是在电动汽车中,计算效率被认为是最大限度延长行驶里程的关键,而热量在很大程度上是浪费的能源。
随着基于事件的视觉传感器(EVS)(也称为神经形态传感器)的推出,这一点显而易见。据Yole Research预测,到2034年,该市场规模将达到29亿美元。EVS基于“硅视网膜”的神经形态理念,为视觉传感提供了一种低功耗解决方案。它们可以处理许多与传统计算机视觉传感器相同的功能,但从根本上重新思考了基于大脑处理视觉的方式(而不是数字芯片的便利方式)的操作方法。
神经形态传感器广泛应用的最大障碍是不确定它们何时会摆脱小众地位,而不是学术理念是否能够扩大规模。大多数神经形态传感器使用一种较新的神经网络,称为脉冲神经网络(SNN),这与当前使用卷积或变压器神经网络的计算机视觉设备不同。
Quadric首席营销官Steve Roddy表示:“利用神经形态技术发表的研究成果或可用于生产的神经网络非常少。对于传统的神经网络模型,有成千上万种物体检测器、场景分割器、物体分类器、姿势检测器和更多经过验证的有效神经网络。甚至还有记分牌跟踪数百种按准确度、参数大小和计算强度排序的变体。因此,如果选择传统的图像传感器和传统的NPU或GPNPU在传感器输出上运行ML推理,那么在构建成功的产品时,有很多解决方案可供选择。”
相比之下,在神经形态计算领域,有十几个甚至更多的研究工具集可用于探索SNN。但Roddy表示,有用的模型库很少,甚至没有。他表示:“人们发现最突出的是一堆工具,它们可以将传统的神经网络转换成神经形态形式,以便进一步研究和改进。如果你是一名研究人员,这很好,但如果你想制造产品,那就不好了。”
尽管如此,研究机构和初创企业对神经形态传感器的兴趣仍然很浓厚,因为它具有低功耗优势,而这种优势是基于对图像处理的重新思考。传统CMOS视觉处理的根源可以追溯到19世纪末迈布里奇对运动中的马的研究。他的工作引入了将连续运动解析为以特定速率拍摄的离散静止“帧”的想法。这一原理仍然是最常见的计算机视觉方法的基础,这意味着视觉传感器会记录场景中的所有内容,而不会选择显著性。
这种冗余方法也会影响能耗。Christian Brändli,现任索尼高级视觉传感公司首席执行官,该公司正在开发一种神经形态传感器,他在博士论文中总结了这种对比:“虽然这种在空间和时间上均匀采样场景的方式允许采用统一且易于开发的处理程序,但效率低下。只要时间和能源不是应用程序的关键,这并不重要……但在与现实世界交互的系统中,延迟会成为一个问题,如果系统仅靠电池供电,功耗也会成为一个关键方面。”
为了解决这个问题,神经形态视觉系统从视神经处理信息的方式中汲取灵感,即通过亮度变化确定显著性,从而丢弃重复输入。有一个较为熟悉的比较(理论上,而不是执行上)是JPEG图像压缩,其中通过压缩冗余数据(例如,每一帧都不会变化的蓝天)来减小图像文件的大小。
虽然JPEG图像处理是在图像采集之后进行的,并且通常会导致一些信息丢失,但Prophesee首席执行管Luca Verre表示,神经形态传感器更像是一个“在沉积层面上的高级冗余抑制设备”。Prophesee有一个使用SNN的研究传感器,以及一个不使用SNN的商业EVS传感器。“就像生物视网膜一样,我们的传感器不是在固定的时间点捕获图像。相比之下,常规传感器会捕获一系列帧。这种采集原理的问题在于,最终会捕获大量冗余信息,因为场景的一部分通常完全是静态的,因此会不断获取具有大量冗余的图像。而生物视网膜,尤其是人眼中的视网膜,并不是以固定的帧速率捕获图像并将图像发送到大脑,而是只捕获随时间连续变化的内容。”他补充道。
像素会捕捉光线对比度的变化,但不提供强度值。Luca Verre表示:“它不提供灰度或颜色信息。它只告诉你光线是否增加了或减少了一定的相对量。这通常与场景中的一些动态或场景中的一些运动有关。当没有任何事情发生时,我们的传感器将完全保持静音,同时仍然获取场景中的光线。但只要光线不超过某个相对灵敏度阈值,它就不会发送任何信息。这使该传感器的功耗非常低。一旦场景发生变化,传感器就会被唤醒,然后以极高的速度处理这种变化,因为我们能够以微秒的时间精度捕捉这些变化。”
在神经形态工程和神经生物学中,信息范围的缩小被称为“稀疏性”。在神经形态工程中,稀疏设计模拟生物神经元选择显著性的方式,通过一系列神经元“脉冲”(放电)减少从视网膜传递到大脑中高阶神经元的信息量。这些原理导致了脉冲神经网络的发展,脉冲神经网络是大多数基于事件的传感器的基础,而不是基于帧的传感器的基础——较旧的卷积神经网络。
正如imec所描述的那样,“SNN模仿生物神经元群的运作方式——随着时间的推移稀疏地发射电脉冲,而对于生物感觉神经元来说,仅当感觉输入发生变化时才会发射电脉冲。”
从长远来看,这是工程师降低功耗和发热量的又一个工具,并有可能减少处理更多数据所需的计算元素数量。而且这些数据可以在本地处理,从而进一步降低整体功耗预算。
Prophessee已经在市场上推出了基于SNN的研究项目和非SNN传感器。与此同时,imec正在研究基于事件的神经形态启发处理架构,用于处理和融合各种传感器,如摄像头、雷达、激光雷达等,同时努力确保它们能够与当前的半导体工艺技术和符合行业要求的设计方法配合使用。
imec无线传感和边缘AI项目总监Christian Bachmann表示:“我们受到大脑和生物神经元的启发,但我们也希望制造出适合客户在半导体芯片中使用的实用设备。我们所谓的数字神经形态模仿神经形态设计,但使用标准芯片设计工具和技术来实现。我们在基于事件的神经网络方面的工作利用了时间稀疏性,也利用了输入数据或神经网络权重的稀疏性。我们在算法方面和硬件方面都利用了这些特性,在芯片上的电路和架构实现中,使我们的工业合作伙伴能够轻松使用神经形态设计。我们的设计并非基于特殊材料或技术,这些材料或技术距离实际制造还需要几十年的时间。而我们的技术今天就可以使用。”
虽然它不是对生物神经元的完美模仿,但却是一种启发,但最重要的是利用基于事件的处理,Bachmann表示,“与大脑类似,只有在发生某些事情时,你才会处理神经网络的部分。例如,稀疏性意味着数据或神经网络权重中存在不需要计算的间隙。”
这种稀疏方法应该可以带来低功耗优势。Imec声称其SNN原型比传统芯片的功耗降低了100倍,延迟减少了10倍。
结语
从初始发电、移动数据所需的电量、处理量增加所产生的热量以及这些热量对电路老化和整体性能的影响等方面来看,电力成本高昂。然而,解决这些问题不仅仅需要一个巨大的散热器,它还需要重新考虑芯片设计的各个方面,包括处理发生的位置以及实际处理的内容。
芯片市场的发展可能会因应用和工作负载的不同而有很大差异。但整个芯片行业都致力于解决这些问题以及新的问题,这几乎肯定会在未来十年内导致低功耗、高性能设计发生一些根本性变化。
END