如何将224个GPU塞进一个机柜?

智能计算芯世界 2024-11-21 08:14

如果您认为 Nvidia 的 120 kW NVL72 机架配备 72 个 Blackwell 加速器,计算密度非常高,那么它们与 HPE Cray 最新的 EX 系统相比根本不算什么,后者可以在单个机柜中装入三倍以上的 GPU。


Cray 的 EX154n 平台在下周于亚特兰大举行的超级计算会议之前宣布,每个机柜将支持多达 224 个 Nvidia Blackwell GPU和 8,064 个 Grace CPU 核心。对于 HPC 应用程序,这相当于在 FP64 上超过 10 petaFLOPS,对于稀疏 AI 和机器学习工作负载,这相当于在 FP4 上超过 4.4 exaFLOPS,而这些工作负载的精度通常不是那么重要。


下载链接:

人工智能基础知识

2024年全球AI生态全景概览
人工智能讲义(冯翔)
生成式AI在科研学习中的应用(2024)
AIGC行业全景篇:算力、模型与应用的创新融合
2024生成式AI如何改变AI缺陷检测的传统范式白皮书
大规模语言模型:从理论到实践
浅谈人工智能:现状、任务、架构与统一
人工智能和机器学习概述
《2024年AI产业系列深度报告合集》 
1、AI产业系列深度报告(一):生成式AI多领域落地,赋能传媒行业发展 
2、AI产业系列深度报告(二):AIPC赛道风起,产业链创新云涌
《2024全球开发者大会(大模型专题)》
1、百度基于大模型安全运营的质效提升实践 
2、从社区数据看大模型开发生态的全景与趋势 
3、大模型技术重塑智能研发新范式 
4、安全大模型的最后一公里实践 
5、大模型在华为云数字化运维的全面探索和实践 
6、大模型训练中PyTorch与国产芯片的爱恨情仇 
7、百度文心智能体开发实战与分发模式创新
《英特尔AI实战手册合集》
1、英特尔中国物流与交通AI实战手册 
2、英特尔中国制造及能源行业AI实战手册 
3、英特尔中国教育行业AI实战手册 
4、英特尔中国金融行业AI实战手册 
5、英特尔中国医疗健康行业AI实战手册


具体来说,每个 EX154n 加速器刀片将配备一对 2.7 kW Grace Blackwell 超级芯片 (GB200),每个芯片配备两个 Blackwell GPU 和一个 72 核 Arm CPU。这两个超级芯片将通过 Nvidia 的 NVL4 参考配置互连。


在机架级别,仅计算一项就将消耗 300 kW 以上的电力,因此不言而喻,就像过去的 EX 系统一样,HPE 的 Blackwell 刀片将采用液冷。


事实上,这些系统完全无风扇,甚至包括全新的 Slingshot 400 系列以太网 NIC、电缆和交换机。顾名思义,Slingshot 400 是对其前代产品的一次可喜升级,带宽从 200 Gbps 提升至 400 Gbps,与当前一代以太网和 InfiniBand 网络保持一致。


HPE 的上一代 Slingshot 200 互连已成为大型超级计算平台的中流砥柱,并且是 Frontier、Aurora 和 Lumi 机器的核心,仅举几例。


不幸的是,任何想要获得 Cray 超高密度 Blackwell 系统和高速 Slingshot 400 网络的人都必须等待一段时间。预计这两款产品都要到 2025 年底才能出货。


如果您更喜欢基于传统 CPU 的 HPC,那么 Cray 的第五代基于 Epyc 的 EX4252 Gen 2 计算刀片将于明年春季推出,每个机柜将配备多达八个 192 核的 Turin-C 处理器,总共 98,304 个核心。


Cray 还将开始发售升级版 E2000 存储系统,该公司声称,得益于基于 PCIe 5.0 的更快 NVMe 存储,该系统的 I/O 性能将比前几代产品提高一倍以上。HPE 预计将从 2025 年初开始发售这些存储阵列。


虽然 HPE 的 Cray EX 平台承诺比普通服务器或机架具有更高的密度,但它们并不是那种可以部署在普通数据中心的系统。因此,HPE 还推出了两款新型风冷 ProLiant Compute 服务器,它们利用了其以企业为中心的 iLO 无人值守管理系统。


任何见过 Nvidia HGX 平台的人都会对这些系统相当熟悉,该平台的 XD680 和 XD685 服务器均支持您选择的 8 种加速器。


令人惊讶的是,我们并不像您预期的那样仅限于 Nvidia 和 AMD GPU。XD680 实际上标配了八个英特尔 Gaudi3 加速器,总计 1 TB HBM2e。正如我们在春季报道的那样,Gaudi3 与目前的加速器相比具有相当的竞争力。每个加速器都能够产生 1.8 petaFLOPS 的密集 BF16 性能,使其在计算密集型工作负载方面比 H100、H200 和 AMD 的 MI300X 更具优势。


升级到 HPE 的 XD685,您可以选择八块 Nvidia H200,总共 1.1 TB HBM3e,或者即将推出的 Blackwell GPU(可能是 B200),这应该会将内存容量提升到 1.5 TB。前者将于 2025 年初推出,而基于 Blackwell 的系统推出时间仍不太明确。


如果您不喜欢 Nvidia,或者您需要更多内存,HPE 还推出了一款搭载 AMD 新推出的 MI325X 的系统版本。该系统于 10 月与加速器一起发布,将配备高达 2 TB 的 HBM3e 内存,并将于 2025 年第一季度发货。

功能强大的新型超级计算机平台

惠普企业公司今天表示,正在更新其高性能计算平台产品组合。


扩展的产品线包括几个新的 HPE Cray Supercoming EX 系统,以及一对新的 HPE Proliant 服务器,这些服务器针对人工智能工作负载进行了优化,包括大型语言模型训练和微调。


HPE 表示,这些系统是为负责解决一些世界上最棘手问题的研究机构设计的。它们针对的是更传统的 HPC 工作负载,例如 DNA 测序和股票交易自动化,而不是只专注于 AI 工作负载。


利用超级计算机制造巨头HPE 于 2019 年收购的Cray 的专业知识,它们也是同类产品中第一台采用100% 无风扇、直接液体冷却系统架构制造的机器,该架构涵盖机器的每一层,包括计算节点、网络和存储。


这些产品包括 HPE Cray Supercomputing EX154n 加速器刀片,将于明年年底推出,旨在大幅缩短完成超级计算任务所需的时间。它还设计用于处理 AI 工作负载,为此,它可以在一个机柜中容纳多达 224 个 Nvidia Corp. 的全新Blackwell 图形处理单元。每个加速器刀片都配备一个 Nvidia Grace Blackwell NVL4 超级芯片,总共可容纳四个通过 NVLink 连接的 Blackwell GPU,并通过 NVLink-C2C 与两个 Nvidia Grace 中央处理单元配对。


即将推出的是新的 HPE Cray Supercomputing EX4252 Gen 2 Compute Blade,将于明年春季推出。它更像是一个传统的超级计算平台,因为它经过优化,可以支持更广泛的计算应用。


它缺乏 GPU 硬件,这可能使它对 AI 的用处不大,但就传统工作负载而言,它是一款强大的产品,单个机柜中最多可容纳 98,304 个 CPU 内核,使其成为同类产品中最强大的单机架系统。每个内核配备八个由 Advanced Micro Devices Inc. 制造的第五代 EPYC CPU,可提供极高的 CPU 密度,使客户能够在比以前小得多的空间内实现更高性能的计算。


为了配合新的 Cray Supercomputing EX 型号,HPE 还推出了下一代百亿亿次级互连产品组合,捆绑了支持高达 400 千兆位/秒速度的网络接口控制器、电缆和交换机。此外,还有一个新的存储系统和服务软件值得期待。


新的网络基础设施被称为 HPE Slingshot Interconnect 400,其线速是上一代互连的两倍。它还支持自动拥塞管理和自适应路由等高级功能,这意味着它可以动态重新路由和优化连接,以确保它支持的任何给定工作负载的延迟尽可能低。它将于明年秋季面向基于最新 HPE Cray 系统的集群推出。


至于 HPE Cray 超级计算存储系统 E2000,它提供的输入/输出容量性能是 HPE 前代超级计算机存储系统的两倍多。在底层,它利用开源 Lustre 文件存储系统,这有助于减少与 I/O 操作相关的空闲时间。这一切加起来比以前快得多的存储读写速度,并将在明年初推出时显著提高超级计算操作的性能。


最后还有新的 HPE Cray 超级计算用户服务软件,该软件旨在通过优化系统效率、管理功耗等新功能来改善其超级计算平台的用户体验。


虽然 Cray 超级计算机针对更广泛的 HPC 工作负载进行了优化,但新的 HPE ProLiant Compute XD 服务器专为当今几乎每个企业都渴望接受的所有重要的 AI 工作负载而构建。


HPE 高级副总裁兼 HPC 和 AI 基础设施解决方案总经理 Trish Damkroger 表示,企业和政府对“自主 AI 计划”越来越感兴趣,因为这些计划使他们能够完全控制自己的 AI 模型和训练数据。但对于自主 AI,这些组织需要访问一些非常强大的硬件,而这正是 ProLiant Compute XD 服务器所提供的。


HPE 于 3 月推出了首批用于 AI 的 ProLiant Compute 服务器,但 XD 型号是一种全新的机器类别,经过优化,可支持部署大型高性能 AI 集群。该公司一直与 Nvidia 密切合作,对它们进行微调以支持最先进的 LLM。


新款机型包括 HPE ProLiant Compute XD688,这是两款机型中功能最强大的一款,面向优先考虑性能而非成本的客户。该公司表示,这款机型面向 AI 训练和推理,买家可以选择 8 个 Nvidia H200 SXM Tensor Core GPU 或五机架机箱中相同数量的 Nvidia Blackwell GPU。这是一款液冷系统,将于明年初上市,与 Nvidia 推出 Blackwell GPU 的时间大致相同。


除了 Nvidia 硬件,客户还有更多选择。HPE 最近宣布推出HPE ProLiant Compute XD685 的独立版本,该版本配备八个 AMD Instinct MI325X 加速器和两个 AMD EPYC CPU,而不是 Nvidia 的硬件,后者也将于明年初上市销售。


至于风冷式 HPE ProLiant Compute XD680 服务器,它是一种替代方案,面向那些希望优化性价比,同时仍能处理最苛刻的 AI 训练、调优和推理任务的客户。它没有使用 Nvidia 的 GPU,而是使用英特尔公司的八个Gaudi 3 AI 加速器,这些加速器被压缩成一个紧凑的节点。它们将很快开始销售,发布日期定于下个月。


这两款新服务器均采用了 HPE 的 Integrated Lights-Out 技术,用于远程管理,使选定的授权人员能够从任何位置访问它们,与传统的带内网络访问相比,提供了更高的安全性。


HPE 表示,新款 Proliant XD 服务器附带可选服务,例如安装、定制、集成和验证,以及在公司自己的制造工厂内进行的全面测试,以满足希望加快现场部署的客户的需求。


Damkroger 表示:“我们的客户希望我们能够加快他们的人工智能系统部署,从而更快、更高效地实现价值,并利用我们数十年交付、部署和服务全集成系统的经验。”


参考链接

https://www.theregister.com/2024/11/13/hpe_cray_ex/

转自:半导体行业观察


下载地址:
800+份重磅ChatGPT专业报告
SSD闪存技术基础知识全解(知识星球版)
服务器基础知识全解(知识星球版)
存储系统基础知识全解(知识星球版)
《异构计算芯片(ASIC/FPGA等)技术合集(1)》
《异构计算芯片(ASIC/FPGA等)技术合集(2)》
《CXL技术合集(2022)(1)》
《CXL技术合集(2022)(2)》 
《2024 OCP全球峰会合集(Chiplets篇)》
《2024 OCP全球峰会合集(Server篇)》
《2024 OCP全球峰会合集(Security篇)》
《2024 OCP全球峰会合集(Composable Memory Systems篇)》
《2024 OCP全球峰会合集(HPC/NIC/OAI篇)》
《2024 OCP全球峰会合集(MHS篇)》
2024年中国智能算力行业白皮书
大模型技术的重要特性与发展趋势
权威科普:CPU处理器通识课
《2024全球人工智能开发与应用大会》
《2024 ODCC大会技术研究合集》
《2024全球人工智能开发与应用大会(下)》
《2024全球人工智能开发与应用大会(上)》
《2024年中国信创产业发展白皮书合集》
1、艾媒咨询:2024年中国信创产业发展白皮书(精简版) 2、艾媒咨询:2023年中国信创产业发展白皮书(精简版)
中国AIOps现状调查报告(2024)
中国算力中心服务商分析报告(2024)
分布式异构智能算力的管理和调度技术研究报告
《大模型实践案例合集集》
1、2024大模型典型示范应用案例集 2、2023大模型落地应用案例集
2024人形机器人研究报告
2024亚太不同国家和区域对生成式AI的反应白皮书
大规模智算集群的管理与性能调优实践
计算机自主可控系列:国产AI算力万卡集群,多芯混合时代来临
2024年AI原生路由器白皮书
端侧AI行业:引领边缘智能革命,激发数据潜能
2024全球AI芯片研究报告
大模型时代的AI能力工程化
大模型时代的工业质检方法论
大模型时代数据库技术创新
大模型在融合通信中的应用实践


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 新能源汽车市场潮起潮落,只有潮水退去,才能看清谁在裸泳。十年前,一批新能源汽车新势力带着创新的理念和先进的技术,如雨后春笋般涌入中国汽车市场,掀起一场新旧势力的角逐。经历市场的激烈洗礼与投资泡沫的挤压,蔚来、理想、小鹏等新势力车企脱颖而出,刷爆网络。不曾想,今年新势力车企杀出一匹“超级黑马”,爬上新势力车企销量榜前三,将蔚来、小鹏等昔日强者甩在了身后,它就是零跑汽车。公开数据显示,11月份,零跑汽车实现新车交付量约4.02万辆,同比增长117%,单月销量首次突破4万辆;小鹏汽车当月共交付新车约3
    刘旷 2024-12-26 10:53 108浏览
  •       半导体材料是一类具有半导体性能、可用来制作半导体器件和集成电的电子材料,其电导率在10(U-3)~10(U-9)欧姆/厘米范围内。半导体材料是一类具有半导体性能、可用来制作半导体器件和集成电的电子材料,其电导率在10(U-3)~10(U-9)欧姆/厘米范围内。正是利用半导体材料的这些性质,才制造出功能多样的半导体器件。半导体材料是半导体工业的基础,它的发展对半导体技术的发展有极大的影响。     半导体材料按化学成
    锦正茂科技 2024-12-24 13:11 30浏览
  • 当下,智能手机市场正呈现出明显的高端化趋势,更多消费者愿意为高端设备买单,这也推动了智能手机均价的提升。作为中国科技品牌出海的代表,传音控股凭借在折叠屏手机、AI技术、多肤色影像技术等方面的优势,在全球高端手机市场上展现出强大的竞争力。智能手机高端化趋势明显,传音打造AI技术优势12月初,全球市场调研机构Counterpoint发布报告称,2024年三季度,全球智能手机市场出货量达3.07亿部,同比增长2%,连续四个季度保持增长。全球智能手机收入同比增长10%,平均售价增长7%,均创下历史新高。
    电子资讯报 2024-12-24 16:57 37浏览
  • “金字招牌”的户外叙事。2024年的夏天似乎异常炙热,体育迷们的心跳也随之澎湃,全球瞩目的体育盛宴——巴黎奥运会在此刻上映。在这个充满荣耀与梦想的夏天,我们见证了无数激动人心的瞬间:男子4X100米混合泳接力决赛中,潘展乐的最后一棒,气壮山河,中国队的历史性夺冠,让整个泳池沸腾;射击10米气步枪混合团体决赛,黄雨婷和盛李豪的精准射击,为中国队射落首金,展现了年轻一代的力量;乒乓球男单四分之一比赛中,樊振东的惊天逆转令人难以忘怀,凭借坚韧不拔的意志和卓越的技术,成功挺进半决赛,并最终夺冠……在这一
    艾迈斯欧司朗 2024-12-25 19:30 71浏览
  • 今年AI技术的话题不断,随着相关应用服务的陆续推出,AI的趋势已经是一个明确的趋势及方向,这也连带使得AI服务器的出货量开始加速成长。AI服务器因为有着极高的运算效能,伴随而来的即是大量的热能产生,因此散热效能便成为一个格外重要的议题。其实不只AI服务器有着散热的问题,随着Intel及AMD 的CPU规格也不断地在提升,非AI应用的服务器的散热问题也是不容小觑的潜在问题。即便如此,由于目前的液冷技术仍有许多待克服的地方,例如像是建置成本昂贵,机壳、轨道、水路、数据中心等项目都得重新设计来过,维修
    百佳泰测试实验室 2024-12-26 16:33 71浏览
  • 据IDTechEx最新预计,到2034年,全球汽车舱内传感(In-Cabin Sensing,ICS)市场将超过85亿美元。若按照增长幅度来看,包含驾驶员监控系统(DMS)、乘员监控系统(OMS)、手势控制和生命体征监测等高级功能在内的舱内传感市场预计2020年到2034年将增长11倍。感光百科:ICS中的光源选择01、政策推动带来的“硬”增长作为其中的增长主力,舱内监控系统应用(包含DMS和OMS等)被推动增长的首要因素正是法规。据统计,中国、欧盟、美国、韩国、印度等主要汽车国家或地区已推出相
    艾迈斯欧司朗 2024-12-25 19:56 69浏览
  • 在谐振器(无源晶振)S&A250B测试软件中,DLD1到DLD7主要用于分析晶体在不同驱动功率下的阻抗变化。此外,还有其他DLD参数用于反映晶振的磁滞现象,以及其频率和功率特性。这些参数可以帮助工程师全面了解KOAN晶振在不同功率条件下的动态特性,从而优化其应用和性能。磁滞现象晶振的磁滞现象(Hysteresis)是指在驱动功率变化时,晶体的阻抗或频率无法立即恢复至初始状态,而表现出滞后效应。1. DLDH: Hysteresis Ratio (MaxR/MinR)在不同驱动
    koan-xtal 2024-12-26 12:41 77浏览
  • 全球照明技术创新领航者艾迈斯欧司朗,于2024年广州国际照明展览会同期,举办【智慧之光】· 艾迈斯欧司朗-照明应用研讨会,以持续的技术创新,推动光+概念的全面落地。现场还演示了多款领先照明技术,且由资深工程师倾情解读,另有行业大咖深度洞察分享,助你开启“光的无限可能”探索之旅!精彩大咖分享引领未来照明无限遐想艾迈斯欧司朗精心准备了照明领域专业大咖的深度分享,无论是照明领域的资深从业者,还是对照明科技充满好奇的探索者,在这里,您都将大有所获。在艾迈斯欧司朗照明全球产品市场VP Geral
    艾迈斯欧司朗 2024-12-25 20:05 55浏览
  • 本文介绍瑞芯微RK3588主板/开发板Android12系统下,APK签名文件生成方法。触觉智能EVB3588开发板演示,搭载了瑞芯微RK3588芯片,该开发板是核心板加底板设计,音视频接口、通信接口等各类接口一应俱全,可帮助企业提高产品开发效率,缩短上市时间,降低成本和设计风险。工具准备下载Keytool-ImportKeyPair工具在源码:build/target/product/security/系统初始签名文件目录中,将以下三个文件拷贝出来:platform.pem;platform.
    Industio_触觉智能 2024-12-26 09:19 102浏览
  • 在PCB设计中,Stub(也称为短桩线或残桩线)对信号传输有以下几个主要影响:1.容性效应导致的阻抗偏低:Stub会导致容性效应,使得阻抗偏低,影响信道的阻抗一致性。Stub越长,阻抗降低得越多。这是因为传输线瞬态阻抗计算公式为:Z = \ sqrt { \ frac { L } { C } }Stub就像并联在传输线上的小电容,Stub越长,电容量越大,阻抗也就越低。2.信号反射:当信号在传输线与Stub的交界处遇到阻抗不匹配时,会产生信号反射。这会导致信号的失真和能量的反向传播,增加了噪声和
    为昕科技 2024-12-24 18:10 29浏览
  • IP 语音(VoIP)网络依赖于 SIP(会话启动协议)和 RTP(实时传输协议)等实时通信协议,因此必须保持高可用性和低延迟。一旦出现问题,就必须迅速查明并解决,以防止服务中断。一个常见的问题是不兼容问题,目前有 100 多份与 SIP 相关的征求意见稿(RFC),其中有大量 “应该”(SHOULD)而非 “必须”(MUST)的声明。这通常会导致用户无法拨出或拨入电话。本文将介绍一种使用 IOTA 的故障排除方法,IOTA 是一种实时流量捕获和分析工具,可简化复杂 VoIP 网络问题的根本原因
    艾体宝IT 2024-12-24 14:37 46浏览
  • 概述 Intel 要求用户为其10代FPGA器件使用特定的上电和掉电顺序,这就要求用户在进行FPGA硬件设计的时候必须选择恰当的FPGA供电方案,并合理控制完整的供电上电顺序。经过在Cyclone 10 GX测试板上实际验证,统一上电确实会导致FPGA无法正常工作,具体表现为JTAG接口无法探测或识别到目标器件。上电顺序要求 Cyclone 10 GX,Arria 10以及Stratix 10系列器件所有的电源轨被划分成了三个组合,三组电源轨要求依次上电,如图1所示,为三组电源轨上电顺序示意图。
    coyoo 2024-12-25 14:13 54浏览
  • 引言  LIN(Local Interconnect Network)是一种针对汽车电子系统应用的串行通信协议,主要用于汽车电子控制单元(ECU)之间的通信。LIN总线的特点是成本低、速率低、通信距离短、连接节点少,主要用于对带块要求低、实时性要求不高的控制任务,例如车门控制、天窗控制、座椅控制、车内照明等功能。LIN总线采用的是主从式架构,由主节点基于调度表调度网络中的通信。  LIN总线的错误类型  尽管LIN协议设计简单,具有低带
    北汇信息 2024-12-25 14:18 59浏览
  • RK3506是瑞芯微Rockchip在2024年第四季度全新推出的Arm嵌入式芯片平台,三核Cortex-A7+单核Cortex-M0多核异构设计,CPU频率达1.5Ghz, M0 MCU为200Mhz。RK3506平台各型号芯片该怎么选,看这篇文章就够了。RK3506各型号RK3506有3个型号,分别是RK3506G2、RK3506B、RK3506J,配置参数如图: 配置差异解析总的来说,RK3506各型号间的差异主要体现在内存、工作温度和封装上‌:内存差异‌:RK3506G2‌集成
    Industio_触觉智能 2024-12-25 10:27 34浏览
  • 本文介绍瑞芯微开发板/主板Android系统APK签名文件使用方法,触觉智能EVB3588开发板演示,搭载了瑞芯微RK3588芯片,各类接口一应俱全,帮助企业提高产品开发效率,缩短上市时间,降低成本和设计风险。系统签名文件生成APK系统签名文件,具体可参考此文章方法RK3588主板/开发板Android12系统APK签名文件生成方法,干货满满使用方法第一步,修改APK工程文件app/src/build.gradle,并添加以下内容: android {     na
    Industio_触觉智能 2024-12-26 09:20 73浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦