本文内容参考自“Hyperion Research:数据密集型HPC产业趋势(中文版)”,白皮书重点分析了HPC新兴市场空间、数据密集型场景、技术趋势和HPC存储保持持续增长的原因。
下载链接:
Hyperion Research:数据密集型HPC产业趋势(中文版)
Lustre Admin培训材料合集(上)
Lustre Admin培训材料合集(下)
CCF HPC China 2021 论文集电子版
高性能计算前沿问题研究合集
近年来,市场增长受到新的因素推动,尤其是将 HPC 资源应用于领先的人工智能(AI)和其他高性能数据分析(HPDA)任务,包括这些资源不断被转移到企业数据中心以支持实时业务运营带来的数据分析需求。虽然 HPC 整体市场预计在未来五年(2019-2024 年)将以 6.8%的复合年增长率(CAGR)增长,但HPDA 的市场份额(包括支持 HPC 的人工智能)预计将以 5 年平均 17%的 CAGR 迅猛增长,而 AI 份额的 5 年 CAGR 则达到更高的 33%。
从传统 HPC 建模/仿真应用向新的 HPDA/AI/ML/DL 应用演进的主要特点是从计算密集型负载向数据密集型负载转变。这一转变凸显了存储架构在为研究人员、工程师和业务数据分析师提供最佳性能的 HPC 基础设施中发挥出的关键作用,帮助其最快获得研究和分析结果。从市场角度来看,存储约占整个 HPC 市场的 20%,预计到 2024 年本地 HPC 的存储收入为 80 亿美元。
Hyperion Research 发现,随着数据密集型应用和负载的不断普及,对 HPC 生态系统的需求也不断地发生变化。HPDA/AI 的快速发展同样也推动着传统 HPC 建模/仿真应用的不断转型。HPDA/AI/ML/DL 技术产生越来越多的数据,给现有的 HPC 存储生态系统带来巨大压力,要解决和优化这两种类型的负载就需要高度关注HPC 存储基础设施。
传统的 HPC 建模和仿真环境不断扩大并推动市场发展,更多的企业和政府用户正在寻求更快的周转时间,同时增加问题规模、建模保真度和迭代次数。为了满足最严苛的计算要求,高级计算愈加盛行,并且大多数新兴 AI 用例都受益于分析和仿真运行。表 1 总结了对本地自建广义 HPC 的整体市场预测,需要注意的是,存储是广义 HPC 市场中增长最快的领域,约占本地 HPC 市场支出的 20%。
在 HPC 市场中,HPDA/AI 细分市场的增长明显大于整个 HPC 市场的增长。具体而言,在 HPC 生态系统的存储领域中,HPDA 存储的复合年增长率为通用 HPC 市场的 2 倍,而 AI 存储的复合年增长率几乎为通用HPC 市场的 4 倍。表 2 总结了各个细分市场的预测增长。
注意 HPDA 存储收入是本地自建 HPC 存储收入的子集,基于 HPC 的 AI 存储收入是 HPDA 存储收入的子集。图 1 显示了 HPC、HPDA 和 AI(机器学习(ML)、深度学习(DL)及其他)等细分场景之间的关系,包括 2024 年相对 HPC 存储市场的分配预测。
影响整个 HPC 市场增长的因素有很多,其中有些因素对数据密集型 HPC 领域的影响尤其深远。HPDA/AI基础设施的应用与日俱增,与之相关的特别值得注意的项目包括:
HPC 负载使用云资源的情况也在增加。大多数用户将云计算视为对传统 HPC 采购的补充,而不是替代。混合设置通常支持容器开发,这些容器帮助用户负载在本地自建和 HPC 云平台之间编排计算、网络和存储基础设施。企业 HPC 负载也正在向本地自建的私有云扩展。新一代 HPC 架构越来越类似云, HPC 工作流跨越多个容器,每个容器都动态配备适当的硬件和软件资源。最近,Hyperion Research 研究预测,到 2024 年,用户在云中运行 HPC 负载的支出将达到 88 亿美元,其中大约三分之一(29 亿美元)的支出用于云存储。注意,此项支出完全是指用户将在 HPC 云资源上的支出,不包括云服务提供商(CSP)在支持 HPC 云服务的基础设施上花费的支出。
HPDA 泛指利用 HPC 资源的数据密集型负载,包括大数据和 AI 负载。HPDA 问题的特点是数据量大、时效性强以及算法复杂,这对于工资单、电子邮件和一般会计等传统企业业务负载来说影响并不明显。AI 负 载是 HPDA 问题的一个重要子集,增长迅速,HPDA 问题寻求从数据本身而不是主要从仿真物理模型中提取价值。为了进一步阐明和定义 AI 负载,适用以下定义:
AI:广泛的通用术语,表示计算机能够做人类想做的事情(但无法以人类思考的方式思考)。AI 包括机器学习、深度学习和其他方法论。
ML:使用示例来训练计算机识别特定模式的过程,例如蓝睛模式或表示欺诈的数字模式。计算机无法学习超过其训练范围的东西,在识别过程中需要人工监督。计算机遵循给定的基本规则。ML 是 AI 的一个子集。
DL:一种先进的机器学习形式,它使用数字神经网络使计算机能够不受其训练内容限制并自行学习,无需额外的显式编程或人工监督。计算机自己制定规则。DL 是 ML 的子集。
某些垂直领域的应用比其他应用更倾向于采用和利用 HPDA(包括支持 HPC 的 AI 技术)。表 3 总结了这些垂直领域以及每个领域中的特定应用。
此外,AI 工作流通常包括三个阶段:收集、训练和推理。在收集阶段,数据被加载到模型中,通常是加载到大型矩阵中,数据集越大,模型就越准确。加载数据后,通过执行多次计算和比较(矩阵运算),根据参考数据集和预定标准进行数据分配和权重评估来开展训练。执行矩阵运算通常需要大量并行计算能力。训练完成后,可以执行推理(应用预定规则来确定新信息和结果)。
HPDA 和 AI 负载一直在推动 HPC 系统需求突破传统 HPC 系统架构负载的需求,跨越 HPC 系统架构的所有要素。尤其是对存储的需求已经让传统 HPC 存储解决方案达到性能极限,亟需进行多方面创新。
用于传统建模和仿真的传统 HPC 存储通常包括项目文件共享、Scratch 和归档的负载,AI 工作流程则带来一组不同的负载:数据收集和注入、数据准备、训练、推理和归档。有的拥有像传统 HPC 负载那样的存储属性,而有的则推动了新的或更严苛和极端的要求。
HPC 和 AI 负载通常表现出不同的 I/O 模型。传统的 HPC 负载通常基于顺序大 I/O 型,而 AI 负载需要顺序大和随机小 I/O 型的混合,用于 AI 数据集标记的元数据管理需要快速的随机小 I/O 型。应用场景还催生了各种耐用性和弹性解决方案需求。归档需要极具高性价比的解决方案,没有苛刻的性能要求。传统的临时应用需要高性能,能够将临时结果转移到持久存储以防止出现故障。AI 和 HPDA 解决方案需要混合存储需求满足高性能、瞬态存储和持久弹性存储的要求,包括大块顺序和小块随机 I/O模型的平衡混合。
最后,数据类型和访问方法推动了对不同类型存储系统的需求发展。结构化和非结构化数据采用不同的访问方式,如文件、块和对象协议。每种访问方式都需要独特的协议支持,通常,这些协议由多个独立的专用系统或一个系统内的不同单元提供,数据通常需要保存多个副本。表 4总结了负载、场景、I/O 模型和数据类型之间的关系。
与生活的方方面面一样,挑战往往伴随着巨大的机遇,HDPA/AI 负载的存储也不例外。通过适当关注每个 HPDA/AI 负载和场景提出的要求,存储系统架构师和供应商可以围绕整个 HPC 系统的性能和易用性优化来开展创新。针对 HPDA 负载和数据湖解决方案中经常出现的非结构化数据,我们可以在如下方面进行创新:
支持不同 I/O 模型。提供具有单一文件系统的单一存储架构,可以同时支持大块顺序访问(TB/s)和小块随机访问(IOPS)的应用性能需求,将消除独立系统的费用并简化存储管理员所需的管理和支持。
支持多协议访问。AI 工作流的不同阶段通常需要使用不同的协议为数据提供服务。可以使用 S3收集对象数据,而训练是通过 NFS 文件访问实现的,在整个 HPDA/AI 工作流中使用的其他协议还包括 MPI-IO、SMB 和 HDFS。与以前需要多份数据副本场景不同,单个系统支持多个接入协议和一份数据能够服务于多个应用,可以节省多系统和额外容量的费用。
支持各种数据访问频率。热数据需要最高的带宽和 IOPS 以支持频繁且及时的访问,而冷数据的访问频率相对低,对性能的要求也不高。SSD 盘和 HDD 盘具备按需扩展容量和新技术的能力,可 以满足热冷数据分级的需求。一个能够随时随地提供合适类型数据的经济高效存储平台是广受HPC 社区欢迎的。
高密度高效设计。HPC 存储解决方案可保留大量数据,这些数据存储占地面积大,通常需要多 个设备机架以及关联功率和散热。使用合适的材料促进散热并注意可维护性,也将有助于提供经济高效的解决方案,从而优化 TCO。
在 HPDA等新用例推动下,以及随着传统企业 IT 数据中心不断采用 HPC 基础设施来支持基于HPC 的AI应用,HPC市场继续保持高速增长,其中存储领域的增长率最快。
存储供应商要想在数据密集型 HPC 市场取得成功,他们需要充分了解并满足 HPDA 负载对系统提出的超出传统 HPC 建模/仿真要求的需求。他们需要为普通 HPC 用户,乃至 HPC 要求极为苛刻的科学家,研究人员和业务分析师,以高效又经济实惠的方式,从多个角度(例如,I/O 模型、协议支持、存储介质类型)提供多方位支持。
下载链接:
Hyperion Research:数据密集型HPC产业趋势(中文版)
Lustre Admin培训材料合集(上)
Lustre Admin培训材料合集(下)
CCF HPC China 2021 论文集电子版
高性能计算前沿问题研究合集
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
电子书<服务器基础知识全解(终极版)>更新完毕。
获取方式:点击“阅读原文”即可查看182页 PPT可编辑版本和PDF阅读版本详情。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。