AIGC数据处理过程分为 5 个阶段,分别是:数据采集 / 清洗、数据共享 / 交互、模型训练、模型推理、数据归档。各阶段的需求与功能特点(更多内容参考自“AI数据中心(AIDC)建设白皮书合集”)。
800+份重磅ChatGPT专业报告
在数据采集 / 清洗阶段,采用面向存储海量数据的对象存储技术能够有效提升文件的读写效率,除了高速的访问能力外,同时具备存储海量数据的能力、弹性扩展的能力,为 AI 大模型的数据收集提供了有力支持。网络上收集的原始数据通常需要经过数据预处理,这包括多格式、多协议数据的清洗、去重、过滤和加工,以便用于 AI 模型训练。在数据采集阶段,采用文件系统的方式实现数据清洗,使用 POSIX 方式访问存储可以提供高效的访问速度,从而提升数据清洗的整体效率。
在数据共享 / 交互阶段,通过支持多种协议之间的转换,如 POSIX、HDFS、CSI 等,实现对存储的多个业务阶段之间进行快速共享和访问。采用软件定义系统,可以实现数据卸载技术,从而实现数据的快速复制和共享;通常会使用零拷贝、存储端拷贝等技术来实现数据的快速共享和交互。
在模型训练阶段,通常使用文件系统来存储模型训练所需的数据。为了降低 IO 路径损耗,可以改写存储引擎,并配合客户端实现并行文件存储,以实现高带宽低延迟的存储访问。对于大模型训练而言,训练参数和数据集都会呈指数级增长,为了快速加载海量小文件数据集,降低 GPU 等待时间是至关重要的。当前主流的预训练模型已经拥有千亿级的参数,训练过程容易受到参数调优、网络不稳定和服务器故障等多种因素的影响,导致训练过程不稳定并可能中断。为了确保训练能够回退到之前的还原点而不是初始点,需要使用检查点(Checkpoints)机制。。
模型推理阶段,为了提供低延迟、高带宽的整体解决方案,通常会使用全闪存存储。在 AIGC 应用的推理阶段,企业面临着数据安全、可追溯性、内容审核和合规性等一系列挑战。这些挑战不仅关乎技术的有效实施,还直接影响到企业的信誉和合法运营。对于存储而言,文件在推理阶段会针对较小的成果集进行快速的读取和写入,会产生对存储系统大量的数据访问,并且需对数据进行加密处理,以防止未授权访问。
数据归档阶段,需要 AIDC 存储端实现海量、长期、经济的数据保存。存储端需要实现全生命周期的数据存储与管理,提供完备的解决方案。因此需要提供分层存储解决方案:由热数据变成温数据,由温数据最终形成冷数据长期存储。这个过程涉及热存储(SSD)、温存储(HDD)以及冷存储(磁带、蓝光)等一整套上下游存储介质的融合平台。
存储选型设计
AIDC 的存储是整个 AIDC 建设的重要部分,因此要求系统建设方案拥有以下特性:高可靠性、经济性、先进性、高效性、可扩展性。
高可靠性
AIDC 的存储作为整个系统的重要部分,其高可靠性的要求成为至关重要的考量。其中分为数据安全性及系统稳定性两方面:数据安全性指数据本身的安全性,通过防止逻辑错误和物理错误两种方式进行保证。系统稳定性则代表系统高可用性,以保证业务连续性,因此,对象存储的稳定性直接影响系统的连续性。
经济性
经济性需从三个方面来考虑:首先建立对象存储过程中的初期投入费用,其次是系统建成后的维护费用,最后是对已有投资的保护。在追求存储、容灾系统具有高性能的同时,必须审慎考虑投资的合理性,精简选取需要的新技术。在建设的过程中,需考虑未来的升级能力,并确保项目经验丰富、服务水平可靠。
磁性存储具有广泛的应用范围,顺序 IO 较好,价格适中,但能耗较高;电类介质(如 NVME、SAS SSD)随机 IO 性能优异,但价格相对较高。光类存储采用物理刻录方式存储数据,具有防水、防腐嗿等特点,适用于长期保存,通常主流厂商的产品可保留至少 50 年。
在数据归档阶段,需要将海量原始数据、处理过程数据和 Checkpoint 数据长期归档存储,其他四个阶段也可能涉及到将温数据转化为热数据的需求。
可扩展性
从 ChatGPT 到Sora,新一代人工智能的蓬勃发展,数据爆炸性增长,使存储的存力核心基础设施价值凸显。存储的弹性扩展能力是AIDC 存储选型原则的重要考量,采用 Scale-out 存储架构可实现存储具备快速扩充能力,与集中式架构存储相比,分布式架构具备快速添加节点和线性扩展的能力。
AIDC 存储采用去中心化设计,大幅简化了分布式存储系统管理的复杂度,同时显著提升了高可用性 (HA) 、容量与性能横向扩展 (Scale-out) 的能力。节点之间采用 peer-to-peer 通讯协议,实现了几乎无限的节点扩充性。元数据即时分布到每个节点,并通过多副本保护,避免了单一节点元数据故障问题。
来源:超云AIDC基础设施建设白皮书(2024)
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。