人工智能带来的喧嚣正在消退,它已面临新的工程挑战,而存储器需求正在成为焦点:并非每个机器学习和推理任务都需要先进的存储器技术,而久经考验的传统存储器可以在边缘处理AI,而这类AI(分布式)可能正是5G所需。
不过,基本的推理操作已经变得很复杂。但总体而言,存储器预期将在推理方面发挥更大的作用。
TECHnalysis Research总裁兼首席分析师Bob O’Donnell认为,人工智能是实现5G愿景不可或缺的部分,只有两者的结合才能实现新的应用。“具有讽刺意味的是,所有人都认为:5G是一回事,边缘是另一回事,而人工智能又是另外一回事。我们真的需要将这些东西结合起来,让它们任何一个都能真正发挥其潜力。”O’Donnell说。
随着边缘处理器的发展,以及LPDDR之类的存储器应邀在边缘处理普通的人工智能任务,分布式AI已经在一定程度上证明了自己。“房间里的摄像头可以进行非常简单的人工智能处理,检测房间内的人数,进而调节暖通空调(HVAC),”O’Donnell说。这看似简单,但这些任务可以在一组具有有限的计算和存储能力的建筑物中进行本地处理,而无需将数据发送至云端。
O’Donnell补充到,还有一种折中的方法,即边缘设备在本地处理数据,同时具备足够的智能,知道何时将文件发送到数据中心进行“深度处理”。其中一种结果就是改进发送回边缘的算法。
“这是一个良性循环,”该分析师说,“这也是事情开始变得非常有趣的地方。”
O’Donnell预测,专用于分布式AI应用的存储器将相对低端,这些存储器类型可用于多种应用,例如分布式边缘设备。“采用LPDDR存储器将会最合乎逻辑”,O’Donnell估计。
但即使是低功耗DDR也能获得提升,超越在智能手机、汽车和各种边缘端点中使用的典型设备类型。在最近一个关于将内存内处理(PIM)技术推向主流的讨论进展更新中,三星指出,该技术最终应可以用于其他类型的内存,以支持人工智能工作载荷。可能包括LPDDR5,用于将AI带到各种端点设备中的边缘,而无需连接数据中心。
三星展示了当LPDDR5-PIM用于语音识别、翻译和聊天机器人等应用时,其性能提高了一倍以上,而能耗则降低了60%以上。
AI与5G
英伟达首席平台架构师Robert Ober指出,一些需要存储的分布式AI正在帮助运行5G基站。
边缘5G基础设施有时具有比它所连接的旧基础设施更宽的带宽,因此需要一些推理来管理网络事务。“使用显式编程太过复杂,”Ober说。
AI的许多边缘用例都非常普通,使用的嵌入式设备需要小体积与小功率的存储器。Ober认为,难点在于,即使是最基本的AI功能,如边缘图像识别和分类,其工作量也很大。高达4K的高分辨率图像,加上更多信息和上下文的需求,意味着这些神经网络变得愈加复杂。
“如果是视频,你还需要按时间从多个帧中提取含义,”Ober说,“此时存储器就显得非常重要。”
Ober表示,英伟达专注于在数据中心训练工作载荷,其存储容量和带宽至关重要,降低功耗也同样重要。因此,不同的存储技术可以在未来的AI部署中发挥重要作用,例如压控MRAM,它可以降低功耗、维持带宽并释放计算功率。“从长远来看,你会看到一些非常有趣的解决方案,”Ober认为。
Ober还补充,即使存储能力不断提高,满足了AI需求,预期值也会不断提高,因为AI的复杂性始终呈指数级增长。“可以编码的知识越多,可以做的事情就越多。”训练网络本质上就是编码信息,即便是检测到一只狗,边缘设备已远不能满足需求了。
“他们还想知道是哪种狗,它在做什么,它快乐还是难过。期望值继续呈指数级上升。”这位英伟达高管如此表示。
随着机器人图像检测和分类等功能的不断改进,数据中心的AI和ML工作载荷预计将发挥更多作用。他说,对高性能计算的需求会持续,并且总会有更复杂、需要更多时间和更多机器智能的新AI任务出现。
将AI任务关联的数据转移到合适的存储器中是数据中心AI面临的最大挑战之一。因此,需要减少将所有工作载荷都发送到中央云的需求,这也会对存储资源造成更大压力。Ober预计,对新型高带宽、低功耗大容量存储器的需求会增加,因为它本质上是非易失性的。现在已经有一些在嵌入式设备(例如工业端点)中处理AI工作载荷的举措,另一些任务被转移到5G连接的本地基站。
而更复杂的任务则被发送到云数据中心。“目前已经有一些工作以这种方式分层,因为坦率地说,他们没有足够的带宽连接到核心设备。”
联合学习
Ober介绍到,分布式AI的分层方法支持增量训练或“联合学习”,从而实现持续的改进。“神经网络不断被重新训练并更新,因此必须有一些非易失性存储器或其他存储器,可以将这些更新推送到所有这些设备中,无论其大小。”
图1:联想的ThinkEdge等边缘设备利用DDR DRAM和闪存SSD来处理和存储数据,实现本地AI和安全的云管理。(来源:联想集团)
例如图1所示的联想的ThinkEdge,它包括一个支持AI的边缘设备。它采用高性能DDR4 DRAM和大容量SSD来支持AI和机器学习模型,例如用于跟踪仓储和物流操作或自动化制造过程的计算机视觉。
对于工业机器人以及自动驾驶汽车等汽车用例来说,可能需要更多的存储带宽和容量,但它不一定是最重要的。
Macronix技术营销总监JimYastic表示,人工智能的喧嚣周期类似于目前在汽车、工业和安全设置中正发挥重要作用的物联网。据IDC预测,到2023年,70%的物联网部署都将包括AI,用于实现自主或边缘决策,其中计算机视觉是增长最快的边缘AI应用之一。
Yastic指出,人工智能的分布式策略是有道理的,因为在数据中心做所有事情都成本高昂。正如物联网设备也在本地承担更多处理任务一样,更多AI操作正在移出数据中心,与此同时,需要确定哪些内容需要发回中央云。
在工业和汽车领域,边缘AI的存储要求由各式各样的传感器决定,这些传感器都执行某种级别的过滤,并将选定的数据发送回中央位置以优化ML模型,然后,再下载新的模型。
Yastic认为这种方法是必要的,因为汽车等行业根本无法在很短时间内处理TB级的数据。即使有5G,本地系统也必须快速做出一些合理的决策,而不用来回传输大量数据。在自动驾驶汽车中,5G支持自动驾驶辅助(ADAS)功能和AI功能。
Yastic表示,不同设备需要做出决策的速度决定了AI系统的架构,也决定了以性能和密度来衡量的存储需求。“根据应用的不同,它可能只是一个”嵌入式多媒体卡。
存储器考虑要素
用于汽车和工业AI的一些存储器件可能包括通用闪存、NAND闪存SSD、DRAM甚至SRAM。
在众多生态系统中,尤其是汽车领域,可靠性、安全性和数据安全都是永恒的主题。这就是为什么现有存储器仍然是首选,对人工智能任务来说也是如此。就好比如今的汽车就是轮子上的服务器一样,它们也是多个嵌入式端点的集合,其中包含许多配置板载存储的传感器和摄像头,故这些存储器需要和车辆一样长久运行。
据Yastic预测,NOR闪存将长期为汽车AI贡献力量,因为它具有高可靠性和长寿命,可以在严苛环境中运行十年甚至更长时间。而且,它还因具备快速启动能力而受到汽车制造商的青睐。例如,Macronix的OctaFlash SPI NOR闪存提供快速启动和快速接口,可以用于自动驾驶汽车中的绝大多数端点。
这还实现了成本节约,Yastic指出,NOR闪存已经存在了很长时间,其价格已经下调。
所有存储技术都自然而然地在提高密度和性能,同时保证成本低、尺寸小,功耗也低。数据中心仍然需要高性能存储器来处理AI和ML工作载荷,但商用存储器也有机会满足分布式系统中的许多AI需求。
根据Rambus研究员Steve Woo的说法,从长远来看,从计算的历史就可以预测AI系统中存储器的未来。“今天的超级计算机就是明天的智能手机。”他指出。
一些需要高端硬件的早期AI模型现在已经可以用较主流的存储器来处理。“现在用存储器更容易实现,部分原因是已经实现了小型化,且硬件成本也降低了。”
今天的HBM2可能很快成为少数通过Compute Express Link(CXL)连接的DDR DIMM和其他内存。“将能够达到今天看来似乎是遥不可及的性能水平,”Woo说道。
Woo将人工智能的主流化比作智能手机长达十年的演变。“各种开发人员不断想出使用该技术的新颖方法,”他指出。随着规模的不断扩大,数量的不断增加,服务于低功耗市场的专用存储器逐渐出现。Woo期望AI存储也能产生一样的协同效应。“成本将继续下降。专用器件此时出现将是合理的,因为已经可以实现投资回报。”
这些进步也与互联网进行的架构更新保持一致。“数据传输正在成为瓶颈,”Woo补充道,将数据传送到云端进行处理会消耗过多的能量,而在本地处理能够降低成本并提高性能,同时功耗更低。
Woo还预测:推理和计算任务以及端点类型,将决定哪些种类的存储器最适用于AI的未来所需。但无论如何,热特性和功率制约都将是影响因素。“这中间需要权衡,”他说,如果只是完成推理,那片上SRAM可能就足够了。
Woo认为,随着AI变得无处不在并分布在不同的平台上,最终对存储器产生影响的是神经网络的简化,例如,使其成为主流AI平台。
在可预见的未来,AI应用将需要超级计算能力,但摩尔定律的扩展和其他存储技术的进步将有助于让数据靠近计算资源。无论是哪一种新型的存储器,所面临的挑战都在于如何证明用其替换一些已经尝试过且正确的东西的好处。“行业真正需要的存储器数量将是有限的。在许多情况下,很多现任者似乎已经足够好了。”Woo说。
Gary Hilson-自由作家和编辑。
(参考原文:Ubiquitous AI WillRely on Conventional Memory)
本文为《电子工程专辑》2021年12月刊杂志文章,版权所有,禁止转载。点击申请免费杂志订阅
责编:Amy Wu