几年前,计算存储的概念在业内人士之间引起了讨论。它被吹捧为如何解决如何最大化CPU处理能力的这一古老问题的潜在答案。
这一想法乍看之下颇具吸引力。想象一下,如果像SSD这样的存储设备能够处理它们所存储信息的一部分,那么存储设备和CPU之间需要传输的数据就会减少。理论上,这有助于节省电力、减少数据传输需求,并加快计算速度。
然而,与许多看似革命性的想法一样,这一概念始终未能找到实现商业化的途径——主要是因为每个用例都高度独特,且根本不具备可扩展性。
当工程师和开发人员谈论计算存储时,他们往往采取一种不切实际的方法:“如果我们能在驱动器上运行Linux,并给它配备更大的处理器,会怎么样?”虽然这个想法看似创新,但它缺乏重点和实际应用。这是一种被技术理想主义驱动的、过度复杂的误导性思维。最终,它并不会带来所期望的好处。
更明智的方法:定制化加速
了解NAND存储技术创新可以带来更好的方法,将处理负担卸载到SSD上。通过采用定制化的加速方法,我们可以专注于存储设备最擅长的任务:对逻辑块寻址(LBA)范围应用固定操作。
SSD中的专用加速器处理特定任务,这些任务不需要过多的功率或复杂性。例如,硬件加速器可以以非常高的速度执行特定操作:
·筛选大型数据集。
·基于对象的纠删编码。
·校验和验证。
·在数据到达CPU之前过滤掉无关信息。
这有助于实现更快、更高效的数据处理,特别是在像数据中心或超级计算机集群这样高需求的环境中。通过在SSD层面处理数据,可以减少需要通过PCIe总线或网络传输的数据量。这缓解了拥塞,减轻了带宽限制,并提高了整体性能。
通过专注于被视为“简单重复工作”的高度特定任务,这些加速器可以在不增加大量成本或功耗的情况下提供显著好处。加速后的SSD可以更快地处理大量数据,同时消耗的功率低于传统处理器。重要的是,这种方法可以扩展到多个驱动器,从而创建一个更高效、并行化的系统,其性能优于传统的受CPU限制的处理方式。
主机CPU可以比单个SSD更快地完成上述所有任务。然而,分配给非操作系统(OS)任务的总CPU动态随机存取存储器(DRAM)带宽存在实际限制。此外,将数据从SSD移动到DRAM会消耗大约一半的CPU可用DDR带宽。
考虑到全闪存存储机箱可以容纳30、60甚至90个SSD,这为设备提供了大量的卸载能力。一个装有90个第六代SSD的机箱可以在不影响任何CPU资源的情况下,以2.5TB/s的速度处理数据。在这种场景中,SSD执行预过滤和预计算任务,而CPU管理更重要的操作。
智能SSD助力高性能计算提升
最近,群联电子已经转变方向,开始探索将部分CPU工作负载卸载到SSD上的新方法,这些方法超越了针对性加速器的范畴。这包括在存储阵列中添加CPU集群。这里的重大区别在于,CPU集群不是用来进行计算,而是实际运行网络服务或微服务。它们在PCIe总线上显示为额外的可寻址CXL服务。
以人工智能(AI)项目为例,该项目涉及大量的流水线操作。即一个大型语言模型(LLM)产生数据并输出,然后另一个LLM接收数据并进行转换,再发送给另一个LLM,依此类推。
一个例子是对TED演讲的视频翻译。可以部署多个LLM来执行不同的任务:
·提取英语音频并将其转换为文本。
·将文本翻译成中文。
·使用名人的声音生成音频轨道。
这一复杂操作涉及许多小步骤,通常由CPU或GPU处理,并需要大量的模型交换。为什么不能利用SSD在后台执行这些小步骤,同时使用主CPU将这些任务分配给这些加速器,并执行其他更高级别的任务呢?在高性能计算(HPC)组织中,结果可能令人印象深刻。
HPC集群拥有100P字节的数据存储(包括双重和三重冗余)并不罕见。该集群可以将工作负载分布在10万个SSD上。突然之间,原本需要一两天才能完成的操作现在只需几秒钟即可完成。
在大型HPC阵列中,SSD的数量如此之多,以至于SSD的带宽超过了整个网络或CPU的带宽。正是在这里,我们意识到存在一个巨大的未开发空间,SSD可以在其中发挥智能作用。
加速加密以提高安全性
HPC用例关注的是速度和计算能力,我们还研究了安全用例,这些用例更多地涉及符合FIPS 140-3标准的坚固产品,这些产品提供的安全服务远远超出了可信平台模块(TPM)2.0所能实现的。
SSD每秒可以执行数百次加密操作,如签名和验证——如果服务器有30到90个SSD,处理能力也会相应提升。每个SSD都可以作为一个独立的基于硬件的代理,具有一个可追溯至硬件安全模块(HSM)服务器的信任根。
总体而言,所有这些驱动器的处理能力超过了一个强大CPU所能做到的,因为CPU并不是设计为数字签名算法(DSA)引擎。这种多SSD的处理能力,加上它已经是服务器中安装的硬件这一事实,为增强安全性提供了巨大好处。
通过特定性消除复杂性
虽然群联电子仍然认为,传统的、通用的计算存储概念最终不会走向成功,但我们确实看到了一些用例,其中另一种计算存储方法可能成为一种资产。针对性加速器使特定操作变得不那么复杂。而且,考虑到SSD上巨大的板载带宽,以及以新方式利用这种能力的潜在好处,可能会在不久的将来带来一些令人兴奋的应用。
EETOP编译自allaboutcircuits 作者:群联电子 Sebastien Jean
================================
全球领先系统 IP 提供商SoC设计资料包
片上网络(NoC)互连 IP 和 SoC 集成自动化技术