如何将224个GPU塞进一个机柜？

智能计算芯世界 2024-11-21 08:14

泰克2/3/4系列示波器、信号发生器大促 构建AI未来，Arm计算平台无处不在

如果您认为 Nvidia 的 120 kW NVL72 机架配备 72 个 Blackwell 加速器，计算密度非常高，那么它们与 HPE Cray 最新的 EX 系统相比根本不算什么，后者可以在单个机柜中装入三倍以上的 GPU。

Cray 的 EX154n 平台在下周于亚特兰大举行的超级计算会议之前宣布，每个机柜将支持多达 224 个 Nvidia Blackwell GPU和 8,064 个 Grace CPU 核心。对于 HPC 应用程序，这相当于在 FP64 上超过 10 petaFLOPS，对于稀疏 AI 和机器学习工作负载，这相当于在 FP4 上超过 4.4 exaFLOPS，而这些工作负载的精度通常不是那么重要。

下载链接：

人工智能基础知识

2024年全球AI生态全景概览

人工智能讲义（冯翔）

生成式AI在科研学习中的应用（2024）

AIGC行业全景篇：算力、模型与应用的创新融合

2024生成式AI如何改变AI缺陷检测的传统范式白皮书

大规模语言模型：从理论到实践

浅谈人工智能：现状、任务、架构与统一

人工智能和机器学习概述

《2024年AI产业系列深度报告合集》

1、AI产业系列深度报告（一）：生成式AI多领域落地，赋能传媒行业发展

2、AI产业系列深度报告（二）：AIPC赛道风起，产业链创新云涌

《2024全球开发者大会（大模型专题）》

1、百度基于大模型安全运营的质效提升实践

2、从社区数据看大模型开发生态的全景与趋势

3、大模型技术重塑智能研发新范式

4、安全大模型的最后一公里实践

5、大模型在华为云数字化运维的全面探索和实践

6、大模型训练中PyTorch与国产芯片的爱恨情仇

7、百度文心智能体开发实战与分发模式创新

《英特尔AI实战手册合集》

1、英特尔中国物流与交通AI实战手册

2、英特尔中国制造及能源行业AI实战手册

3、英特尔中国教育行业AI实战手册

4、英特尔中国金融行业AI实战手册

5、英特尔中国医疗健康行业AI实战手册

具体来说，每个 EX154n 加速器刀片将配备一对 2.7 kW Grace Blackwell 超级芯片 (GB200)，每个芯片配备两个 Blackwell GPU 和一个 72 核 Arm CPU。这两个超级芯片将通过 Nvidia 的 NVL4 参考配置互连。

在机架级别，仅计算一项就将消耗 300 kW 以上的电力，因此不言而喻，就像过去的 EX 系统一样，HPE 的 Blackwell 刀片将采用液冷。

事实上，这些系统完全无风扇，甚至包括全新的 Slingshot 400 系列以太网 NIC、电缆和交换机。顾名思义，Slingshot 400 是对其前代产品的一次可喜升级，带宽从 200 Gbps 提升至 400 Gbps，与当前一代以太网和 InfiniBand 网络保持一致。

HPE 的上一代 Slingshot 200 互连已成为大型超级计算平台的中流砥柱，并且是 Frontier、Aurora 和 Lumi 机器的核心，仅举几例。

不幸的是，任何想要获得 Cray 超高密度 Blackwell 系统和高速 Slingshot 400 网络的人都必须等待一段时间。预计这两款产品都要到 2025 年底才能出货。

如果您更喜欢基于传统 CPU 的 HPC，那么 Cray 的第五代基于 Epyc 的 EX4252 Gen 2 计算刀片将于明年春季推出，每个机柜将配备多达八个 192 核的 Turin-C 处理器，总共 98,304 个核心。

Cray 还将开始发售升级版 E2000 存储系统，该公司声称，得益于基于 PCIe 5.0 的更快 NVMe 存储，该系统的 I/O 性能将比前几代产品提高一倍以上。HPE 预计将从 2025 年初开始发售这些存储阵列。

虽然 HPE 的 Cray EX 平台承诺比普通服务器或机架具有更高的密度，但它们并不是那种可以部署在普通数据中心的系统。因此，HPE 还推出了两款新型风冷 ProLiant Compute 服务器，它们利用了其以企业为中心的 iLO 无人值守管理系统。

任何见过 Nvidia HGX 平台的人都会对这些系统相当熟悉，该平台的 XD680 和 XD685 服务器均支持您选择的 8 种加速器。

令人惊讶的是，我们并不像您预期的那样仅限于 Nvidia 和 AMD GPU。XD680 实际上标配了八个英特尔 Gaudi3 加速器，总计 1 TB HBM2e。正如我们在春季报道的那样，Gaudi3 与目前的加速器相比具有相当的竞争力。每个加速器都能够产生 1.8 petaFLOPS 的密集 BF16 性能，使其在计算密集型工作负载方面比 H100、H200 和 AMD 的 MI300X 更具优势。

升级到 HPE 的 XD685，您可以选择八块 Nvidia H200，总共 1.1 TB HBM3e，或者即将推出的 Blackwell GPU（可能是 B200），这应该会将内存容量提升到 1.5 TB。前者将于 2025 年初推出，而基于 Blackwell 的系统推出时间仍不太明确。

如果您不喜欢 Nvidia，或者您需要更多内存，HPE 还推出了一款搭载 AMD 新推出的 MI325X 的系统版本。该系统于 10 月与加速器一起发布，将配备高达 2 TB 的 HBM3e 内存，并将于 2025 年第一季度发货。

功能强大的新型超级计算机平台

惠普企业公司今天表示，正在更新其高性能计算平台产品组合。

扩展的产品线包括几个新的 HPE Cray Supercoming EX 系统，以及一对新的 HPE Proliant 服务器，这些服务器针对人工智能工作负载进行了优化，包括大型语言模型训练和微调。

HPE 表示，这些系统是为负责解决一些世界上最棘手问题的研究机构设计的。它们针对的是更传统的 HPC 工作负载，例如 DNA 测序和股票交易自动化，而不是只专注于 AI 工作负载。

利用超级计算机制造巨头HPE 于 2019 年收购的Cray 的专业知识，它们也是同类产品中第一台采用100% 无风扇、直接液体冷却系统架构制造的机器，该架构涵盖机器的每一层，包括计算节点、网络和存储。

这些产品包括 HPE Cray Supercomputing EX154n 加速器刀片，将于明年年底推出，旨在大幅缩短完成超级计算任务所需的时间。它还设计用于处理 AI 工作负载，为此，它可以在一个机柜中容纳多达 224 个 Nvidia Corp. 的全新Blackwell 图形处理单元。每个加速器刀片都配备一个 Nvidia Grace Blackwell NVL4 超级芯片，总共可容纳四个通过 NVLink 连接的 Blackwell GPU，并通过 NVLink-C2C 与两个 Nvidia Grace 中央处理单元配对。

即将推出的是新的 HPE Cray Supercomputing EX4252 Gen 2 Compute Blade，将于明年春季推出。它更像是一个传统的超级计算平台，因为它经过优化，可以支持更广泛的计算应用。

它缺乏 GPU 硬件，这可能使它对 AI 的用处不大，但就传统工作负载而言，它是一款强大的产品，单个机柜中最多可容纳 98,304 个 CPU 内核，使其成为同类产品中最强大的单机架系统。每个内核配备八个由 Advanced Micro Devices Inc. 制造的第五代 EPYC CPU，可提供极高的 CPU 密度，使客户能够在比以前小得多的空间内实现更高性能的计算。

为了配合新的 Cray Supercomputing EX 型号，HPE 还推出了下一代百亿亿次级互连产品组合，捆绑了支持高达 400 千兆位/秒速度的网络接口控制器、电缆和交换机。此外，还有一个新的存储系统和服务软件值得期待。

新的网络基础设施被称为 HPE Slingshot Interconnect 400，其线速是上一代互连的两倍。它还支持自动拥塞管理和自适应路由等高级功能，这意味着它可以动态重新路由和优化连接，以确保它支持的任何给定工作负载的延迟尽可能低。它将于明年秋季面向基于最新 HPE Cray 系统的集群推出。

至于 HPE Cray 超级计算存储系统 E2000，它提供的输入/输出容量性能是 HPE 前代超级计算机存储系统的两倍多。在底层，它利用开源 Lustre 文件存储系统，这有助于减少与 I/O 操作相关的空闲时间。这一切加起来比以前快得多的存储读写速度，并将在明年初推出时显著提高超级计算操作的性能。

最后还有新的 HPE Cray 超级计算用户服务软件，该软件旨在通过优化系统效率、管理功耗等新功能来改善其超级计算平台的用户体验。

虽然 Cray 超级计算机针对更广泛的 HPC 工作负载进行了优化，但新的 HPE ProLiant Compute XD 服务器专为当今几乎每个企业都渴望接受的所有重要的 AI 工作负载而构建。

HPE 高级副总裁兼 HPC 和 AI 基础设施解决方案总经理 Trish Damkroger 表示，企业和政府对“自主 AI 计划”越来越感兴趣，因为这些计划使他们能够完全控制自己的 AI 模型和训练数据。但对于自主 AI，这些组织需要访问一些非常强大的硬件，而这正是 ProLiant Compute XD 服务器所提供的。

HPE 于 3 月推出了首批用于 AI 的 ProLiant Compute 服务器，但 XD 型号是一种全新的机器类别，经过优化，可支持部署大型高性能 AI 集群。该公司一直与 Nvidia 密切合作，对它们进行微调以支持最先进的 LLM。

新款机型包括 HPE ProLiant Compute XD688，这是两款机型中功能最强大的一款，面向优先考虑性能而非成本的客户。该公司表示，这款机型面向 AI 训练和推理，买家可以选择 8 个 Nvidia H200 SXM Tensor Core GPU 或五机架机箱中相同数量的 Nvidia Blackwell GPU。这是一款液冷系统，将于明年初上市，与 Nvidia 推出 Blackwell GPU 的时间大致相同。

除了 Nvidia 硬件，客户还有更多选择。HPE 最近宣布推出HPE ProLiant Compute XD685 的独立版本，该版本配备八个 AMD Instinct MI325X 加速器和两个 AMD EPYC CPU，而不是 Nvidia 的硬件，后者也将于明年初上市销售。

至于风冷式 HPE ProLiant Compute XD680 服务器，它是一种替代方案，面向那些希望优化性价比，同时仍能处理最苛刻的 AI 训练、调优和推理任务的客户。它没有使用 Nvidia 的 GPU，而是使用英特尔公司的八个Gaudi 3 AI 加速器，这些加速器被压缩成一个紧凑的节点。它们将很快开始销售，发布日期定于下个月。

这两款新服务器均采用了 HPE 的 Integrated Lights-Out 技术，用于远程管理，使选定的授权人员能够从任何位置访问它们，与传统的带内网络访问相比，提供了更高的安全性。

HPE 表示，新款 Proliant XD 服务器附带可选服务，例如安装、定制、集成和验证，以及在公司自己的制造工厂内进行的全面测试，以满足希望加快现场部署的客户的需求。

Damkroger 表示：“我们的客户希望我们能够加快他们的人工智能系统部署，从而更快、更高效地实现价值，并利用我们数十年交付、部署和服务全集成系统的经验。”

参考链接

https://www.theregister.com/2024/11/13/hpe_cray_ex/

转自：半导体行业观察

下载地址：

800+份重磅ChatGPT专业报告

SSD闪存技术基础知识全解（知识星球版）

服务器基础知识全解（知识星球版）

存储系统基础知识全解（知识星球版）

《异构计算芯片（ASIC/FPGA等）技术合集（1）》

《异构计算芯片（ASIC/FPGA等）技术合集（2）》

《CXL技术合集（2022）（1）》

《CXL技术合集（2022）（2）》

《2024 OCP全球峰会合集（Chiplets篇）》

《2024 OCP全球峰会合集（Server篇）》

《2024 OCP全球峰会合集（Security篇）》

《2024 OCP全球峰会合集（Composable Memory Systems篇）》

《2024 OCP全球峰会合集（HPC/NIC/OAI篇）》

《2024 OCP全球峰会合集（MHS篇）》

2024年中国智能算力行业白皮书

大模型技术的重要特性与发展趋势

权威科普：CPU处理器通识课

《2024全球人工智能开发与应用大会》

《2024 ODCC大会技术研究合集》

《2024全球人工智能开发与应用大会（下）》

《2024全球人工智能开发与应用大会（上）》

《2024年中国信创产业发展白皮书合集》

1、艾媒咨询：2024年中国信创产业发展白皮书（精简版） 2、艾媒咨询：2023年中国信创产业发展白皮书（精简版）

中国AIOps现状调查报告（2024）

中国算力中心服务商分析报告（2024）

分布式异构智能算力的管理和调度技术研究报告

《大模型实践案例合集集》

1、2024大模型典型示范应用案例集 2、2023大模型落地应用案例集

2024人形机器人研究报告

2024亚太不同国家和区域对生成式AI的反应白皮书

大规模智算集群的管理与性能调优实践

计算机自主可控系列：国产AI算力万卡集群，多芯混合时代来临

2024年AI原生路由器白皮书

端侧AI行业：引领边缘智能革命，激发数据潜能

2024全球AI芯片研究报告

大模型时代的AI能力工程化

大模型时代的工业质检方法论

大模型时代数据库技术创新

大模型在融合通信中的应用实践

本号资料全部上传至知识星球，更多内容请登录智能计算芯知识（知识星球）星球下载全部资料。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

温馨提示：

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享，点击“阅读原文”获取更多原创技术干货。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

进入专栏

智能计算芯世界聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.

文章：1546篇粉丝：197人

 私信

如何将224个GPU塞进一个机柜？

最近文章

热门文章

推荐

最新资讯