引言
为人工智能优化存储不仅仅是选择合适的硬件,还需要一种数据管理方法来成功处理大型语言模型(LLM)所需的大量数据。通过将人工智能处理视为项目数据管道的一部分,企业可以确保其生成式人工智能模型得到有效训练,并确保存储选择符合目的。通过强调人工智能数据存储要求的重要性,企业可以确保其人工智能模型既有效又可扩展。
根据存储需求调整人工智能数据链路
在人工智能数据链路中,各个阶段都有特定的存储需求,以确保高效的数据处理和利用。以下是典型的几个阶段及其相关的存储需求:
数据收集和预处理:原始数据通常是非结构化数据,这些数据被收集并集中存储(越来越多地存储在数据湖中),然后被清理并转化为经过整理的数据集,准备用于培训流程。
模型训练和处理:将策划好的数据集输入 GPU 进行处理的存储。这一阶段的管道还需要存储训练工件,如超参数、运行指标、验证数据、模型参数和最终生成的推理模型。根据您是从零开始开发 LLM 还是增强现有模型(如再生增强代 (RAG)),对管道存储的要求会有所不同。
推断和模型部署:关键任务存储,用于托管训练模型,以便根据新数据做出预测或决策。推理的输出结果由应用程序利用,通常嵌入信息和自动化流程中。
归档存储:训练阶段完成后,不同的训练数据集和不同版本的模型等各种人工制品需要与原始数据一起存储。这通常是长期保留,但模型数据仍需可用,以调出与过去训练相关的特定项目。
人工智能的数据存储要求:
云与内部部署通常会影响所使用的存储空间
在开始人工智能项目之前,一个重要的决定是在混合云设置中是使用云资源、内部部署数据中心(DC)资源,还是两者兼用。在存储方面,云可提供各种类型和等级的存储,以匹配不同的流水线阶段,而内部部署的存储通常是有限的,这就导致了针对各种工作负载的通用解决方案。最常见的混合管道划分是在云中进行训练,在内部和边缘进行推理。
第一阶段:数据收集和预处理的存储要求
在数据收集过程中,大量原始的非结构化数据从远程 DC 和物联网边缘集中到一起,这就对高效数据流的总体性能水平提出了很高的要求。性能必须与互联网速度相匹配(互联网速度并不是特别快),以便使用多个线程集体传输 TB 级数据。容量可扩展性也同样重要,因为存储解决方案必须能够以具有成本效益的方式进行扩展,以适应不断增长的数据集和不断增加的计算需求。要在预算范围内满足这些扩展和性能需求,必须平衡成本效益,确保解决方案在提供价值的同时不会产生过多开支。此外,冗余对于通过可靠的备份和复制防止数据丢失至关重要。要保护敏感数据不被泄露,确保信息的完整性和保密性,安全性至关重要。最后,互操作性是与现有系统无缝集成的必要条件,可促进数据在各种平台和技术之间的顺畅流动和管理。
用于数据收集和预处理的最常用存储是高冗余云对象存储。对象存储旨在与互联网进行良好互动,以收集数据,具有可扩展性和成本效益。为了在大规模使用时保持成本效益,通常使用硬盘驱动器(HDD)设备,但随着这种存储的交互越来越多,低成本的固态驱动器(SSD)也变得越来越重要。这一阶段的最终成果是经过精心组织和提炼的数据集。
第二阶段a:存储要求有效LLM培训
为 GPU 提供 LLM 人工智能模型处理所需的存储必须满足几个关键要求。极高的性能至关重要,需要高吞吐量和快速读/写速度来为 GPU 供电并维持其持续运行。GPU 需要恒定而快速的数据流,这就强调了与其处理能力相匹配的存储的重要性。工作负载必须管理训练过程中频繁产生的大量检查点数据转储。可靠性对于防止训练中断至关重要,因为任何停机或不一致都可能导致整个管道的严重延误。此外,用户友好型界面也很重要,因为它们可以简化和精简管理任务,让数据科学家专注于人工智能模型开发而不是存储管理。
大多数大型语言模型 (LLM) 都是在云中利用大量 GPU 进行训练的。编辑好的数据集会从云对象存储复制到本地 NVMe SSD,这些 SSD 可提供极高的数据 GPU 送入性能,而且只需最少的存储管理。Azure 等云提供商拥有在本地复制和缓存这些数据的自动流程。然而,仅仅依靠本地存储可能效率不高;固态硬盘可能会闲置,数据集需要调整大小才能适应,而且数据传输时间可能会妨碍 GPU 的使用。因此,各公司都在探索并行文件系统设计,通过英伟达™(NVIDIA®)直接连接在云中运行以处理数据。
第二阶段b:有效 RAGS 培训的存储要求
在 RAGs 培训期间,私人数据被整合到通用 LLM 模型中,以创建一个新的汇总模型。这种分散式方法使 LLM 能够在无需访问组织机密数据的情况下进行训练。这种敏感数据的最佳存储解决方案是一个可以隐藏个人身份信息(PII)数据的系统。最近,所有数据从集中管理转变为在远程数据中心进行现场管理,然后转移到云端进行处理。另一种方法是使用云驻留分布式存储系统将数据拉入云中。
用于 RAGS 训练的有效存储解决方案必须将高性能与全面的数据编目功能相结合。关键是要采用高吞吐量存储,如基于固态硬盘的分布式系统,以确保向 GPU 输送大型数据集时有足够的带宽。此外,强大的安全措施,包括加密和访问控制,对于在整个训练过程中保护敏感数据至关重要。并行文件系统与传统的网络附加存储(NAS)之间预计将展开竞争。NAS 传统上一直是企业内部非结构化数据的首选,在许多企业内部数据中心仍是如此。
第三阶段:有效人工智能推理和模型部署的存储要求
成功部署模型推理需要高速的关键任务存储。高速存储可实现数据的快速访问和处理,最大限度地减少延迟并提高实时性能。此外,性能可扩展的存储系统对于适应不断增长的数据集和不断增加的推理工作量也至关重要。必须实施包括嵌入式勒索软件保护在内的安全措施,以保护整个推理过程中的敏感数据。
推理涉及处理非结构化数据,这些数据由文件系统或 NAS 进行有效管理。推理是人工智能的决策阶段,与内容服务紧密结合以确保实用性。它通常部署在边缘计算、实时决策和数据中心处理等各种环境中。推理的部署需要关键任务存储,通常需要低延迟的解决方案设计来及时交付结果。
第四阶段:项目存档的存储要求
确保数据的长期保留需要强大的耐用性,以保持存档数据在较长时间内的完整性和可访问性。在线检索对于方便偶尔需要访问或恢复存档数据非常重要。成本效益也很重要,因为存档数据的访问频率很低,因此需要低成本的存储解决方案。
基于硬盘或硬盘前端磁带的在线大容量对象存储是最常见的云归档方法。与此同时,由于主动式存档磁带具有成本效益和出色的可持续发展特性,越来越多的企业内部设置正在考虑采用这种存储方式。
可扩展性的重要性:
人工智能世界仍然年轻且不断发展
如今,人们通常采用不同类型的存储来优化人工智能数据管道流程。展望未来,Omdia 预计将更加重视优化整个人工智能数据管道和开发流程。
在数据摄取和预处理阶段,要使用可扩展且经济高效的存储。预计有 70% 的项目时间专门用于将原始输入转换为用于训练的经过整理的数据集。随着早期人工智能计划的完成,与数据发现、分类、版本控制和数据来源相关的挑战预计会越来越突出。
对于模型训练而言,基于 SSD 的高吞吐量分布式存储解决方案对于向 GPU 传输大量数据至关重要,可确保迭代训练流程的快速访问。虽然目前大多数云训练都依赖于本地固态硬盘,但随着进程的推进,企业有望优先采用更高效的训练方法和存储解决方案。因此,作为本地固态硬盘的替代品,初创公司开发的由固态硬盘支持的创新型并行文件系统最近有所增加。这些新型 NVMe SSD 存储系统旨在通过优化配置容量和消除对本地驱动器的数据传输操作,更高效地处理人工智能工作负载的高吞吐量和低延迟需求。
对于模型推理和部署,NVMe(非易失性存储器高速)驱动器等低延迟存储可提供快速数据检索并提高实时性能。随着推理开始取得进展,Omdia 预计到 2028 年,推理存储将以近 20% 的年复合增长率增长,几乎是用于 LLM 训练存储的四倍。
了解更多其他地区信息和观点,
请点击阅读原文。
文章版权和解释权归微信平台Omdia所有
Omdia公众号
长按二维码关注我们
Omdia,作为Informa Tech的一部分,是一家专注于科技行业的领先研究和咨询集团。凭借对科技市场的深入了解,结合切实可行的洞察力,Omdia将赋能企业做出明智的增长决策。要了解更多信息,请访问www.omdia.com。
如您想了解更多有关Omdia的最新研究成果,请浏览Omdia官方网站或通过电子邮件联系我们。
omdia.com
rina.zhang@Omdia.com