在最新一期的《Nature Electronics》期刊,IBM研究人员描述了一种名为Hermes的推理芯片设计与运作;该款在去年首度被打造出来的芯片,内含400万权重,以及64个核心,整合了模拟相变化内存,在读取深度神经网络时能提高速度与省电效益,让IBM得以验证该公司已经在设计的、朝向开发更能自给自足的端对端芯片之想法。
根据位于瑞士苏黎世地区IBM吕施利孔研究中心(Rüschlikon Center)、由研究员Abu Sebastian领军的研究团队说法,“该芯片实现了16.1~63.1TOPS (每秒兆次计算)的矩阵向量乘法(matrix-vector- multiplication)处理量峰值,能源效率为2.48~9.76TOPS W-1。”
该团队成员将他们的芯片与其他几款在过去几年发表的芯片性能基准测试结果进行比较,包括来自台积电/台湾清华大学(TSMC/NTHU)、AI芯片设计企业Mythic、美国普林斯顿大学(Princeton)的设计,以及神经形态芯片NeuRRAM;“尽管该芯片的能源效益通常较低,但相较于所有以电阻式内存为基础的模拟式存内计算(analog in-memory computing,AiMC)芯片,以1.8倍的更高处理量密度表现胜过了效率降低的问题。”
IBM研究团队指出,Hermes在CIFAR-10图像资料库的处理性能上胜过其他任何一款芯片。
存内计算
由于乘法计算扩展的方式(参考图1),深度学习模型的耗电量庞大,输入层的每一个节点在添加至其他节点、馈入下一层之前,必须乘以恰当的权重。因此,如果在第一层(Layer 1)有100个神经元,每一个都连结第二层(Layer 2)的100个神经元,就有1万个权重被储存,每个时间步长(time step)都有1万次乘法计算。
图1:来自某一层的输入乘以个别连结权重,然后下一层的神经元能加总输入(Σ)并执行响应函数(f);在一个每层有m个神经元、完全连结的n层网络中,每次推理的权重,以及权重乘法数量,大概是以平方纳米(nm²)大小来衡量。确切需要多少资源,取决于所需精度的高低;速度有多快,则部分取决于得移动多少权重以执行那些计算。这些都是在资料触及个别神经元取得响应之前。
存内计算(compute-in-memory)是一种模拟电子技术,看来很适合这类应用。首先,模拟架构减少了所需内存组件(device)数量,因为每一个内存组件都能代表多个位──在Hermes芯片,四组件内存能储存8位权重,甚至可能更多。
Hermes芯片实体照。
(来源:IBM Research)
其次,存内计算组件不是用逻辑来执行乘法计算,而是在内存电路本身的内部以电子方式进行:权重在纵横闩阵列(参考图2的黄色部分)被储存为电阻,来自第一层的信号作为电压输入到纵横闩的纵列(column)中(来自输入调变器,图2的橘色部分)。这些输入自然地被乘以权重,沿着交错的横列(row)传送;在其中它们会结合,并由模拟数字转换器(ADC)转换。
相变化的优势与挑战
除此之外,相变化材料──利用局部加热能将非晶体(高电阻)改变为晶体(低电阻)模式──特别适合此类应用。在推理芯片中,权重不应该需要太多改变,因此不需要能量来维持的内存,又一次改善了功耗。
然而,这类材料也有缺点──最重要的是组件不匹配(device mismatch),这导致它们的行为略有偏差。在类似的芯片中,这可以透过将网络载入芯片之后进行重新训练来克服。为避免这种制造后的调整,Hermes芯片采用了一种罕见的ADC配置。
首先,每一个横列都有其转换器(参考图2),这意味着整个阵列向量乘法能平行进行,降低延迟并提高处理量。其次,ADC被用来校准系统,有效消除了一些不匹配;在本地数字处理单元中的其他电路负责了大部份剩余的工作。
研究人员纳入Hermes芯片的另一个组件,是对角选择解码器(diagonal selection decoder,在图2顶部),这能精确隔离他们想要写入的组件,因此改善编程流程。
图2:网络权重在相变化材料纵横闩阵列中,透过编程组件(图顶部的灰色块)进行编程,并取得来自对角选择解码器(diagonal selection decoder,图底部红色块)的协助。一旦完成编程,调变器会从底部透过纵列送出资料,将其乘以权重然后沿着横列相加。ADC以及本地数字处理单元负责转换、校准并对信号做出响应。
(来源:由IBM研究中心发表于《Nature Electronics》的论文图1改绘)
在Hermes芯片上部署网络的研究人员Athanasios Vasilopoulos表示,团队的愿景是扩增通讯网络并将更多种类的数字单元纳入(因此举例来说,它们可以支持Transformer模型)。研究人员还打算将这些部署于能自己执行整个网络模型的更大芯片中,并且与其他芯片搭配运作。
“这同样不会是量产芯片,”Vasilopoulos表示:“那仍将是研究用设备,但可能为这类技术朝向成熟发展开辟一条道路,使其能成为真正的替代方案,但目前它还不是。”
Hermes研究芯片不会提供给IBM社群以外的人使用,但对它有兴趣的人可以透过使用IBM的神经网络训练与推理应用模拟存内硬件加速器(Analog In-Memory Hardware Acceleration Kit for Neural Network Training and Inference),以执行软件模拟的方式来测试该芯片在他们的应用中如何表现。
(参考原文:IBM Research Inference Chip Performance Results Released,by Sunny Bains)
本文同步刊登于台湾版《电子工程专辑》杂志2023年9月刊