AI数据中心(AIDC):存储系统分析

智能计算芯世界 2024-12-21 08:56


AIGC数据处理过程分为 5 个阶段,分别是:数据采集 / 清洗、数据共享 / 交互、模型训练、模型推理、数据归档。各阶段的需求与功能特点(更多内容参考自“AI数据中心(AIDC)建设白皮书合集”)。

下载地址:
《AI数据中心(AIDC)建设白皮书合集》
1、超云AIDC基础设施建设白皮书(2024)
2、华为AIDC白皮书(2024)
《2024中国算力大会技术合集》
中国算力大会:中国算力发展报告(2024年) 中国算力大会:中国存力发展报告(2024年)
特斯拉、OpenAI、英伟达和华为人形机器人生态简析
2024年半导体+算力+通信+数据中心产业链全景
自动驾驶软硬一体演进趋势研究报告
英伟达人工智能行业发展战略研究报告
AIGC行业全景篇:算力、模型与应用的创新融合
2024年中国智能算力行业白皮书
《AIGC行业研究报告合集(最新版)》
1、AIGC发展研究3.0发布版(2024.11) 2、2024年全球AIGC产业全景报告(2024.11)
2025中国AIoT产业全景图谱报告(2024)
DeepSeek发布中国版o1推理模型,海外量子密集突破
《大模型微调技术实践合集》
AIGC算力全景及趋势报告(精华)
SSD闪存技术基础知识全解(知识星球版)
服务器基础知识全解(知识星球版)
存储系统基础知识全解(知识星球版)

800+份重磅ChatGPT专业报告


在数据采集 / 清洗阶段,采用面向存储海量数据的对象存储技术能够有效提升文件的读写效率,除了高速的访问能力外,同时具备存储海量数据的能力、弹性扩展的能力,为 AI 大模型的数据收集提供了有力支持。网络上收集的原始数据通常需要经过数据预处理,这包括多格式、多协议数据的清洗、去重、过滤和加工,以便用于 AI 模型训练。在数据采集阶段,采用文件系统的方式实现数据清洗,使用 POSIX 方式访问存储可以提供高效的访问速度,从而提升数据清洗的整体效率。

在数据共享 / 交互阶段,通过支持多种协议之间的转换,如 POSIX、HDFS、CSI 等,实现对存储的多个业务阶段之间进行快速共享和访问。采用软件定义系统,可以实现数据卸载技术,从而实现数据的快速复制和共享;通常会使用零拷贝、存储端拷贝等技术来实现数据的快速共享和交互。

在模型训练阶段,通常使用文件系统来存储模型训练所需的数据。为了降低 IO 路径损耗,可以改写存储引擎,并配合客户端实现并行文件存储,以实现高带宽低延迟的存储访问。对于大模型训练而言,训练参数和数据集都会呈指数级增长,为了快速加载海量小文件数据集,降低 GPU 等待时间是至关重要的。当前主流的预训练模型已经拥有千亿级的参数,训练过程容易受到参数调优、网络不稳定和服务器故障等多种因素的影响,导致训练过程不稳定并可能中断。为了确保训练能够回退到之前的还原点而不是初始点,需要使用检查点(Checkpoints)机制。。

模型推理阶段,为了提供低延迟、高带宽的整体解决方案,通常会使用全闪存存储。在 AIGC 应用的推理阶段,企业面临着数据安全、可追溯性、内容审核和合规性等一系列挑战。这些挑战不仅关乎技术的有效实施,还直接影响到企业的信誉和合法运营。对于存储而言,文件在推理阶段会针对较小的成果集进行快速的读取和写入,会产生对存储系统大量的数据访问,并且需对数据进行加密处理,以防止未授权访问。

数据归档阶段,需要 AIDC 存储端实现海量、长期、经济的数据保存。存储端需要实现全生命周期的数据存储与管理,提供完备的解决方案。因此需要提供分层存储解决方案:由热数据变成温数据,由温数据最终形成冷数据长期存储。这个过程涉及热存储(SSD)、温存储(HDD)以及冷存储(磁带、蓝光)等一整套上下游存储介质的融合平台。

存储选型设计

AIDC 的存储是整个 AIDC 建设的重要部分,因此要求系统建设方案拥有以下特性:高可靠性、经济性、先进性、高效性、可扩展性。

高可靠性

AIDC 的存储作为整个系统的重要部分,其高可靠性的要求成为至关重要的考量。其中分为数据安全性及系统稳定性两方面:数据安全性指数据本身的安全性,通过防止逻辑错误和物理错误两种方式进行保证。系统稳定性则代表系统高可用性,以保证业务连续性,因此,对象存储的稳定性直接影响系统的连续性。

经济性

经济性需从三个方面来考虑:首先建立对象存储过程中的初期投入费用,其次是系统建成后的维护费用,最后是对已有投资的保护。在追求存储、容灾系统具有高性能的同时,必须审慎考虑投资的合理性,精简选取需要的新技术。在建设的过程中,需考虑未来的升级能力,并确保项目经验丰富、服务水平可靠。

磁性存储具有广泛的应用范围,顺序 IO 较好,价格适中,但能耗较高;电类介质(如 NVME、SAS SSD)随机 IO 性能优异,但价格相对较高。光类存储采用物理刻录方式存储数据,具有防水、防腐嗿等特点,适用于长期保存,通常主流厂商的产品可保留至少 50 年。

在数据归档阶段,需要将海量原始数据、处理过程数据和 Checkpoint 数据长期归档存储,其他四个阶段也可能涉及到将温数据转化为热数据的需求。

可扩展性

从 ChatGPT 到Sora,新一代人工智能的蓬勃发展,数据爆炸性增长,使存储的存力核心基础设施价值凸显。存储的弹性扩展能力是AIDC 存储选型原则的重要考量,采用 Scale-out 存储架构可实现存储具备快速扩充能力,与集中式架构存储相比,分布式架构具备快速添加节点和线性扩展的能力。

AIDC 存储采用去中心化设计,大幅简化了分布式存储系统管理的复杂度,同时显著提升了高可用性 (HA) 、容量与性能横向扩展 (Scale-out) 的能力。节点之间采用 peer-to-peer 通讯协议,实现了几乎无限的节点扩充性。元数据即时分布到每个节点,并通过多副本保护,避免了单一节点元数据故障问题。

来源:超云AIDC基础设施建设白皮书(2024)

下载链接:
谷歌TPU:为更专业的AI计算而生
《2024智算中心算力技术白皮书合集》
1、2024智算中心基础设施演进白皮书 2、2024年中国智能算力行业白皮书
2024年全球人工智能现状全景报告
2024年智能传感器产业:前景机遇与技术趋势探析报告
《2024年AI算力“卖水人”系列报告合集》
1、AI算力“卖水人”系列(1):2024年互联网AI开支持续提升 2、AI算力“卖水人”系列(2):芯片散热从风冷到液冷,AI驱动产业革新
3、AI算力“卖水人”系列(3):NVIDIA GB200:重塑服务器、铜缆、液冷、HBM分析
《数据中心技术与趋势合集》
1、中伦互联网数据中心全解读 2、中国第三方数据中心服务商分析报告 3、面向AI 智算数据中心网络架构与连接技术的发展路线展望 4、新一代智算数据中心基础设施技术白皮书 5、中国数据中心产业发展白皮书
《2024全球人工智能开发与应用大会》
1、大语言模型在计算机视觉领域的应用 2、大模型的异构计算和加速 3、大模型辅助需求代码开发 4、大模型在华为推荐场景中的探索和应用 5、大模型在推荐系统中的落地实践 6、大语言模型的幻觉检测 7、大语言模型在法律领域的应用探索
《2024全球人工智能开发与应用大会(下)》
《2024全球人工智能开发与应用大会(上)》
《大模型实践案例合集集》
1、2024大模型典型示范应用案例集 2、2023大模型落地应用案例集
2024人形机器人研究报告
2024亚太不同国家和区域对生成式AI的反应白皮书
大规模智算集群的管理与性能调优实践
计算机自主可控系列:国产AI算力万卡集群,多芯混合时代来临
2024年AI原生路由器白皮书
端侧AI行业:引领边缘智能革命,激发数据潜能
2024全球AI芯片研究报告
大模型时代的AI能力工程化
大模型时代的工业质检方法论
大模型时代数据库技术创新
大模型在融合通信中的应用实践
2024车载SoC芯片产业分析报告
中国智能汽车车载计算芯片产业报告
中国车规级芯片产业白皮书
计算机行业深度:从技术路径,纵观国产大模型逆袭之路
《AI算力“卖水人”系列报告合集》
1、AI算力卖水人系列(1):2024年互联网AI开支持续提升 2、AI算力卖水人系列(2):芯片散热从风冷到液冷,AI驱动产业革新

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 耳机虽看似一个简单的设备,但不仅只是听音乐功能,它已经成为日常生活和专业领域中不可或缺的一部分。从个人娱乐到专业录音,再到公共和私人通讯,耳机的使用无处不在。使用高质量的耳机不仅可以提供优良的声音体验,还能在长时间使用中保护使用者听力健康。耳机产品的质量,除了验证产品是否符合法规标准,也能透过全面性的测试和认证过程,确保耳机在各方面:从音质到耐用性,再到用户舒适度,都能达到或超越行业标准。这不仅保护了消费者的投资,也提升了该公司在整个行业的产品质量和信誉!客户面临到的各种困难一家耳机制造商想要透
    百佳泰测试实验室 2024-12-20 10:37 140浏览
  • By Toradex秦海1). 简介为了保证基于 IEEE 802.3 协议设计的以太网设备接口可以互相兼容互联互通,需要进行 Ethernet Compliance 一致性测试,相关的技术原理说明请参考如下文章,本文就不赘述,主要展示基于 NXP i.MX8M Mini ARM 处理器平台进行 1000M/100M/10M 以太网端口进行一致性测试的测试流程。https://www.toradex.com
    hai.qin_651820742 2024-12-19 15:20 140浏览
  • ​本文介绍PC电脑端运行VMware环境下,同时烧录固件检测不到设备的解决方法。触觉智能Purple Pi OH鸿蒙开发板演示,搭载了瑞芯微RK3566芯片,类树莓派设计,Laval官方社区主荐,已适配全新OpenHarmony5.0 Release系统!PC端烧录固件时提示没有发现设备按照各型号烧录手册中进入loader模式的操作方法,让开发板连接到PC端。正常来说开发板烧录时会显示“发现一个LOADER设备”,异常情况下,会提示“没有发现设备”,如下图所示: 解决步骤当在烧录系统固
    Industio_触觉智能 2024-12-18 18:07 79浏览
  • 汽车驾驶员监控系统又称DMS,是一种集中在车辆中的技术,用于实时跟踪和评估驾驶员状态及驾驶行为。随着汽车产业智能化转型,整合AI技术的DMS逐渐成为主流,AI模型通过大量数据进行持续训练,使得驾驶监控更加高效和精准。 驾驶员监测系统主要通过传感器、摄像头收集驾驶员的面部图像,定位头部姿势、人脸特征及行为特征,并通过各种异常驾驶行为检测模型运算来识别驾驶员的当前状态。如果出现任何异常驾驶行为(如疲劳,分心,抽烟,接打电话,无安全带等),将发出声音及视觉警报。此外,驾驶员的行为数据会被记录
    启扬ARM嵌入式 2024-12-20 09:14 87浏览
  • 随着工业自动化和智能化的发展,电机控制系统正向更高精度、更快响应和更高稳定性的方向发展。高速光耦作为一种电气隔离与信号传输的核心器件,在现代电机控制中扮演着至关重要的角色。本文将详细介绍高速光耦在电机控制中的应用优势及其在实际工控系统中的重要性。高速光耦的基本原理及优势高速光耦是一种光电耦合器件,通过光信号传递电信号,实现输入输出端的电气隔离。这种隔离可以有效保护电路免受高压、电流浪涌等干扰。相比传统的光耦,高速光耦具备更快的响应速度,通常可以达到几百纳秒到几微秒级别的传输延迟。电气隔离:高速光
    晶台光耦 2024-12-20 10:18 125浏览
  • 百佳泰特为您整理2024年12月各大Logo的最新规格信息。——————————USB▶ 百佳泰获授权进行 USB Active Cable 认证。▶ 所有符合 USB PD 3.2 标准的产品都有资格获得USB-IF 认证——————————Bluetooth®▶ Remote UPF Testing针对所有低功耗音频(LE Audio)和网格(Mesh)规范的远程互操作性测试已开放,蓝牙会员可使用该测试,这是随时测试产品的又一绝佳途径。——————————PCI Express▶ 2025年
    百佳泰测试实验室 2024-12-20 10:33 99浏览
  •         不卖关子先说感受,真本书真是相见恨晚啊。字面意思,见到太晚了,我刚毕业或者刚做电子行业就应该接触到这本书的。我自己跌跌撞撞那么多年走了多少弯路,掉过多少坑,都是血泪史啊,要是提前能看到这本书很多弯路很多坑都是可以避免的,可惜这本书是今年出的,羡慕现在的年轻人能有这么丰富完善的资料可以学习,想当年我纯靠百度和论坛搜索、求助啊,连个正经师傅都没有,从软件安装到一步一布操作纯靠自己瞎摸索,然后就是搜索各种教程视频,说出来都是泪啊。  &
    DrouSherry 2024-12-19 20:00 87浏览
  • 沉寂已久的无人出租车赛道,在2024年突然升温了。前脚百度旗下萝卜快跑,宣布无人驾驶单量突破800万单;后脚特斯拉就于北京时间10月11日上午,召开了以“We,Robot”为主题的发布会,公布了无人驾驶车型Cybercab和Robovan,就连低调了好几个月的滴滴也在悄悄扩编,大手笔加码Robotaxi。不止是滴滴、百度、特斯拉,作为Robotaxi的重磅选手,文远知行与小马智行,也分别在10月份先后启动美股IPO,极氪也在近日宣布,其与Waymo合作开发的无人驾驶出行汽车将大规模量产交付,无人
    刘旷 2024-12-19 11:39 140浏览
  • 由于该文反应热烈,受到了众多工程师的关注,衷心感谢广大优秀工程师同仁的建言献策。特针对该技术点更新一版相关内容! 再次感谢大家的宝贵建议!填充铜(Solid Copper)和网格铜(Hatched Copper)是PCB设计中两种不同的铺铜方式,它们在电气性能、热管理、加工工艺和成本方面存在一些区别:1. 电气性能:填充铜:提供连续的导电层,具有极低的电阻和最小的电压降。适合大电流应用,并能提供优秀的电磁屏蔽效果,显著提高电磁兼容性。网格铜:由于铜线之间存在间隔,电阻相对较高,电压降也
    为昕科技 2024-12-18 17:11 135浏览
  •         在上文中,我们介绍了IEEE 802.3cz[1]协议提出背景,旨在定义一套光纤以太网在车载领域的应用标准,并介绍了XMII以及PCS子层的相关机制,在本篇中,将围绕IEEE 802.3cz-MultiGBASE-AU物理层的两个可选功能进行介绍。EEE功能        节能以太网(Energy-Efficient Ethernet)是用于在网络空闲时降低设备功耗的功能,在802.3cz的定义中,链
    经纬恒润 2024-12-19 18:47 79浏览
  • 在强调可移植性(portable)的年代,人称「二合一笔电」的平板笔电便成为许多消费者趋之若鹜的3C产品。说到平板笔电,不论是其双向连接设计,面板与键盘底座可分离的独特功能,再加上兼具笔电模式、平板模式、翻转模式及帐篷模式等多种使用方式,让使用者在不同的使用情境下都能随意调整,轻巧灵活的便利性也为多数消费者提供了绝佳的使用体验。然而也正是这样的独特设计,潜藏着传统笔电供货商在产品设计上容易忽视的潜在风险。平板笔电Surface Pro 7+ 的各种使用模式。图片出处:Microsoft Comm
    百佳泰测试实验室 2024-12-19 17:40 164浏览
  • //```c #include "..\..\comm\AI8051U.h"  // 包含头文件,定义了硬件寄存器和常量 #include "stdio.h"              // 标准输入输出库 #include "intrins.h"         &n
    丙丁先生 2024-12-20 10:18 79浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦