人工智能在边缘的崛起对存储系统提出了一系列新的要求。目前的存储技术能否满足这一具有挑战性的新应用的苛刻要求?长远来看,新兴存储技术将为边缘人工智能(edge AI)带来什么?
首先我们要认识到,没有标准的“边缘AI”应用。广义上来讲,“边缘AI”涵盖了除云端外所有支持人工智能的电子系统。它包括“近边缘(near edge)”,即通常所说的企业数据中心和本地服务器。
再远一点,它包含了自动驾驶中的计算机视觉应用;生产制造环境下的网关设备执行AI推理,以检查生产线上产品的缺陷;电线杆上的5G“边缘盒”分析视频流,以用于交通管理等智慧城市应用;5G基础设施也在边缘利用AI实现复杂而高效的波束成形算法。
而在最远的“远边缘(far edge)”,手机等终端设备也能够支持AI功能(如Snapchat过滤器),比如实现对电器的语音控制,对工厂中的物联网传感器节点执行传感器融合,然后再将结果发送到另一台网关设备。
存储器在边缘AI系统中的作用对大多数AI应用都是相同的,即存储神经网络权重、模型代码、输入数据和中间激活操作等。为保持效率,这些工作负载需要加速处理以最大化AI计算能力。因此,对边缘AI系统中的存储容量和带宽通常都要求很高。不过,不同应用的需求多种多样,而且涵盖多种因素,如尺寸、功耗、低压运行、可靠性、散热/冷却考虑以及成本等等。
边缘数据中心
边缘数据中心是一个关键的边缘市场。其用例涵盖医学成像、研究和复杂的财务算法,其中涉及防止隐私被上传到云端。另一个重要领域是自动驾驶,但延迟阻碍了AI在这一领域的发展。这些系统采用的存储与其它应用服务器中的相同。
“在需要开发和训练AI算法的应用中,采用低延迟DRAM以实现快速、字节级的主存储器至关重要,” 存储产品设计与开发公司Smart Modular Technologies的方案架构师Pekon Gupta表示,“大数据集需要大容量的RDIMM或LRDIMM;系统加速则需要NVDIMM,我们用这些存储器进行写操作缓存和检查点,以替代速度较慢的SSD。”
电信运营商通常将计算节点放置在靠近终端用户的位置。
Gupta说:“我们意识到,这些电信边缘服务器将能够执行越来越复杂的算法。”因此,“服务提供商正在为这些边缘服务器添加更多存储和处理能力,例如采用RDIMM、LRDIMM,以及像NVDIMM之类的高可用持久性存储技术。”
Gupta认为,英特尔的3D-Xpoint非易失性存储器Optane是服务器AI应用的良好解决方案,其性能介于DRAM和Flash之间。
Gupta说:“Optane DIMM和NVDIMM都被用于AI加速。”NVDIMM为AI应用加速提供了极低延迟的分层、缓存、写缓冲和元数据存储能力。Optane数据中心DIMM用于存内数据库加速,这需要数百GB至TB的持久性存储与DRAM结合使用。尽管它们都是AI / ML加速应用的持久性存储解决方案,但却各有不同的独立用例。”
在EE Times采访中,英特尔Optane产品营销总监Kristie Mann表示,Optane正在逐步赢得服务器AI领域的应用市场。
Mann说:“我们的客户已经使用Optane非易失性存储来助力其AI应用,成功推动了电子商务、视频推荐引擎和实时财务分析等应用的发展。由于可用容量增加,我们还看到了向存内应用的转变趋势。”
DRAM的高价也使Optane逐渐成为更有吸引力的选择。配置两个Intel Xeon可扩展处理器和Optane非易失性存储器的服务器可提供多达6 TB的存储空间,足以满足需要大量数据存储的应用场景需求。
“DRAM仍然是最受欢迎的,但从成本和容量的角度来看,有其局限性,”Mann说。“由于成本、容量和性能方面的优势,Optane非易失性存储和Optane SSD之类的新型内存和存储技术正在逐步替代DRAM。Optane SSD尤其可以为HDD和NAND SSD数据提供强大的缓存功能,以持续馈送AI应用数据。”
Mann补充说,Optane相比其它尚未完全成熟的新兴存储器相比也具有一定优势。
GPU加速
对高端边缘数据中心和边缘服务器应用来说,GPU之类的AI计算加速器越来越受到青睐。除了DRAM,其内存选择还有GDDR和HBM。GDDR是一种专门用于高带宽GPU的DDR SDRAM,而HBM采用了相对较新的芯片堆叠技术,可以将多个存储裸片与GPU本身放在同一封装中。
GDDR和HBM两者都是为AI应用所需的极高内存带宽而设计的。
对于最苛刻的AI模型训练,HBM2E可以提供3.6 Gbps的速度以及460 GB / s的内存带宽(两个HBM2E叠加可提供接近1 TB / s的带宽)。这是目前性能最高的存储器,而且体积小、功耗低。GPU领导者英伟达在其所有数据中心产品中都使用了HBM。
Rambus公司IP内核产品营销高级总监Frank Ferro表示,GDDR6也用于边缘AI推理应用。GDDR6可以满足边缘AI推理系统的速度、成本和功耗要求。其速度可达18 Gbps,带宽可达72 GB/s。而拥有四个GDDR6的DRAM可提供接近300 GB/s的存储带宽。
“GDDR6主要用于AI推理和ADAS应用”Ferro补充道。
若对比GDDR6和LPDDR,Ferro认为LPDDR更适用于边缘或终端的低成本AI推理。英伟达在其大多数非数据中心边缘解决方案中(从Jetson AGX Xavier到Jetson Nano),均采用了LPDDR。
Ferro说:“LPDDR4的带宽限制为4.2 Gbps,LPDDR5的带宽限制为6.4 Gbps。随着存储器带宽需求的增加,我们将看到越来越多使用GDDR6的设计。存储带宽的差距推动了GDDR6的需求。”
尽管GDDR是为了与GPU配合使用而设计,但其它处理加速器也可以利用其带宽优势。Ferro重点介绍了Achronix Speedster7t,这是一款基于FPGA的 AI加速器,用于推理和一些低端训练。
“HBM和GDDR存储器在边缘AI应用中都有机会,”Ferro说。“HBM将继续用于边缘应用。尽管HBM拥有众多优势,但由于采用了3D技术和2.5D制造工艺,成本仍然较高。鉴于此,GDDR6是综合考虑成本与性能后的折衷选择,尤其适合网络AI推理应用。”
HBM适用于高性能数据中心AI ASIC,如Graphcore IPU。尽管它性能一流,但其价格对某些应用而言仍高得离谱。
高通就是倾向于GDDR6的公司之一,其Cloud AI 100芯片专门用于边缘数据中心、5G“边缘盒”、ADAS /自动驾驶和5G基础设施中的AI推理加速。
高通计算和边缘云业务部总经理Keith Kressin说:“对我们而言,使用标准的DRAM而非HBM至关重要,因为我们希望降低物料成本。我们希望使用可以从多个供应商处购买的标准组件。我们的客户有些想要在一个芯片上实现所有功能,有些则希望跨芯片实现功能。相同的是,他们都希望将成本控制在合理范围内,而不会追求HBM或其它更独特的存储器。
他继续说道:“在AI训练中,确实会存在跨多个芯片的大型模型,但对Cloud AI 100面对的推理市场来说,很多模型都更加本地化。”
远边缘(Far edge)
在数据中心以外,边缘AI系统通常专注于推理,但也有一些例外值得注意,例如联合学习(federated learning)和其它增量训练技术。
有一些针对低功耗应用的AI加速器采用存储器进行AI处理。推理基于多维矩阵乘法,适用于具有一系列存储单元的模拟计算技术,其中存储单元被用来执行计算。Syntiant的产品采用这种技术,面向消费类电子产品的语音控制,而Gyrfalcon的产品则用于处理智能手机的相机效果AI推理。
再举一个例子,专门从事智能处理单元开发的Mythic使用闪存单元的模拟操作,可以在单个闪存晶体管上存储8-bit整数值(一个权重参数),这使其密度比其它内存计算技术要高很多。这种可编程闪存晶体管可用作可变电阻器,其输入为电压,输出为电流。再结合ADC与DAC,就可以得到一个高效的矩阵乘法引擎。
Mythic的IP采用在补偿和校准技术,可以消除噪声并实现可靠的8-bit运算。
Mythic采用闪存晶体管阵列来构建密集型乘法累加引擎
除了存内运算器件以外,ASIC在特定的边缘利基市场中也很流行,尤其是在低功耗和超低功耗系统中。ASIC的存储系统采用了几种存储类型的组合,其中分布式本地SRAM最快、最节能,但占用空间较大。在芯片上配置单个大容量SRAM可以减少空间,但会带来性能瓶颈。 片外DRAM较便宜,但功耗较高。
Flex Logix首席执行官Geoff Tate表示,在分布式SRAM、大容量SRAM和片外DRAM之间为其InferX X1芯片找到最佳平衡点,需要进行一系列性能仿真。其目的是最大化单位成本的推理吞吐量,这需要综合考量芯片尺寸、封装成本和DRAM数量。
“最佳配置为一个x32 LPDDR4 DRAM、4K MAC(933MHz时算力为7.5 TOPS),以及约10MB的SRAM。”他说道。SRAM速度较快,但与DRAM相比价格昂贵。若采用台积电的16nm工艺技术,1MB SRAM占用面积约为1.1 mm2。“而我们的InferX X1占板面积仅为54 mm2,而且得益于我们的体系架构,DRAM访问与计算在很大程度上重叠,因此没有性能折中问题。对于大型模型来说,配置单个DRAM比较恰当,至少对我们的架构是如此。”Tate认为。
Flex Logix芯片将用于需要实时操作的边缘AI推理应用,包括低延迟流媒体视频分析。这类应用包括ADAS系统、安全录像分析、医学成像和质量保证/检查等。
那么在这些应用中,哪种类型的DRAM可以与InferX X1一起工作呢?
“我们认为LPDDR会比较适合,单个DRAM可以提供超过10GB/s的带宽,而且有足够的bit位来存储权重/中间激活,”Tate说。“而其它任何DRAM都需要更多芯片和接口,并且需要购买更多用不上的bit位。”
这里是否存在任何新兴存储技术的机会?
Tate补充说:“使用任何新兴存储都会使晶圆成本急剧上升,而SRAM却是“免费”的,除了占用芯片空间外。随着经济效益的提升,临界点也可能发生变化,新兴存储总有发挥作用的一天。”
新兴存储器
不管规模效益,其它存储器类型未来仍将为AI应用带来可能性。
MRAM(磁阻RAM)通过外加电压控制的磁体方向来存储数据的每个bit位。如果电压低于翻转bit位所需的电压,则可能只有一位翻转。我们不希望存在这种随机性,因此采用更高电压驱动MRAM来预防这种情况发生。尽管如此,某些AI应用仍可以利用这种固有的随机性(可以将其视为随机选择或生成数据的过程)。
Gyrfalcon的器件已将MRAM的这种随机功能应用于实验中,它可将所有权重和激活精度降低到1位,从而大大降低远边缘应用的计算和功耗要求。根据网络重新训练的方式,有可能需要进行精度的权衡取舍。通常,尽管降低了精度,神经网络仍可以可靠地运行。
Spin Memory公司产品副总裁Andy Walker表示,“二元神经网络(BNN)的独特之处在于,即使一个数字是-1或+1的确定性减小了,它仍可以可靠地运行。我们发现,即便引入被错误写入的存储位“误码率”降低了确定性,BNN仍然能够以较高的精度运行。”
MRAM可以在低电压电平下自然地以受控方式引入误码率,在保持精度的同时进一步降低功耗要求。其关键在于确定最低电压和最短时间下的最佳精度。Walker指出,这意味着最高能效。
尽管这项技术也适用于更高精度神经网络,但它尤其适用于BNN,因为MRAM单元具有两种状态,恰好与BNN中的二值状态相匹配。
Walker认为,在边缘使用MRAM是其另一个潜在应用。
他说:“对于边缘AI,MRAM能够在不要求高性能的应用中以较低的电压运行,但提高能效和存储器耐用性非常重要。此外,MRAM固有的非易失性不需电源也可保存数据。
还有一种“统一存储”,这种新兴存储既可以充当嵌入式闪存,又可以替代SRAM,在节省芯片面积的同时又避免了SRAM固有的静态功耗。
尽管Spin Memory的MRAM即将商用,但BNN的具体实现将在基本MRAM单元的某种变体上效果最好。因此,目前它仍处于研究阶段。
神经拟态ReRAM
ReRAM是适用于边缘AI应用的另一种新兴存储。米兰理工大学(Politecnico Milan)最近利用Weebit Nano的氧化硅(SiOx)ReRAM技术进行了研究,其结果显示出ReRAM在神经拟态计算上有不错的前景。ReRAM为神经网络硬件增加了可塑性。也就是说,它可以随条件的改变而进化,这是神经拟态计算的一种可贵品质。
目前的神经网络如果不忘记之前的训练任务,就无法继续学习,而大脑却可以很容易地做到这一点。用AI术语来说,这是“无监督学习”,其算法在无标记的情况下对数据集进行推理,在数据中寻找自己的模式。最终的结果可能就是,ReRAM使能的边缘AI系统可以就地学习新任务,并适应其周围环境。
总体而言,存储器制造商正在开发新的技术,以提供满足AI应用所需的速度和带宽。无论是与AI计算在同一芯片上、在同一封装中,还是在不同的模块上,都有很多种类型的存储器可用于边缘AI应用。
虽然针对边缘AI的存储系统的具体特性取决于具体应用,但事实证明,GDDR、HBM和Optane在数据中心非常受欢迎,而LPDDR与片上SRAM则适用于端点应用。
新兴存储需要超越目前硬件能力的先进神经网络研究,才能实现未来高效节能的类脑系统。
(参考原文:Memory Technologies Confront Edge AI’s Diverse Challenges)