在 GB200 和 B200 发布仅 6 个月后,英伟达又推出了一款全新的 GPU,名为 GB300 和 B300。这次看似常规升级的背后,实则暗藏玄机。B300 GPU 是基于台积电 4纳米工艺节点的全新流片,对计算芯片进行了优化设计。相比于B200,其性能的提升主要在以下两个方面:- 算力:FLOPS性能提升50%;功耗增加200W(GB300和B300 HGX的TDP分别达到1.4KW和1.2KW,前代则为1.2KW和1KW);架构改进和系统级增强,例如CPU和GPU之间的动态功率分配(power sloshing)。
- 内存:HBM容量增加50%,从192GB提升至288GB;堆叠方案从8层HBM3E升级为12层;针脚速率保持不变,带宽仍为8TB/s。
「重磅合集」本星球合集资源链接,进入链接检索内容,根据提示均可下载:3、《14份半导体“AI的iPhone时刻”系列合集》8、《3+份技术系列基础知识详解(星球版)》
持续更新...
内存的改进对于 OpenAI O3 这类大模型的训练和推理至关重要,因为随着序列长度的增加,KVCache也在增长,这限制了关键批处理大小和延迟。下图展示了英伟达当前几代 GPU 在处理 1k 输入令牌和 19k 输出令牌时的效能提升情况,这与OpenAI的o1和o3模型中的思维链(CoT)模式相似。从 H100 到 H200,增加了更多、更快的内存:- 由于内存带宽的增加(H200为4.8TB/s,H100为3.35TB/s),在所有可比较的批处理大小下,交互性普遍提高了 43%。
- 由于 H200 可以运行更大的批处理大小,每秒生成的令牌数是H100的3倍,从而使成本降低了约3倍。这一差异主要是由于KV缓存限制了总批处理大小。
- 推理模型的请求和响应等待时间过长会带来糟糕的用户体验。如果可以提供更快的推理时间,将增加用户使用和付费的倾向。
- 最强大和最具差异化的模型可以比能力稍差的模型收取更高的费用。前沿模型的毛利率超过 70%,而在面临开源竞争的落后模型上,毛利率低于 20%。
当然,英伟达并不是唯一一家能够增加内存容量的公司。ASIC 也可以做到这一点,事实上,AMD 可能处于有利地位,因为他们的内存容量比英伟达更高,比如MI300X 的内存容量为 192GB,MI325X 的内存容量为 256GB,MI350X 的内存容量为 288GB……不过,黄仁勋手上还握有NVLink 这一利器。当我们转向采用 GB200 NVL72 和 GB300 NVL72 的英伟达系统时,其性能和成本效益得到显著提升。NVL72在推理应用中的核心价值在于,它能够实现72个GPU以超低延迟协同作业,并共享内存资源。这也是全球唯一一款集全连接交换(all-to-all switched connectivity)与全规约运算(all reduce)能力于一身的加速器系统。英伟达的 GB200 NVL72 和 GB300 NVL72 对实现许多关键功能至关重要:- 72 个 GPU 分散 KVCache,以实现更长的思维链,提高智能。
- 与典型的 8 GPU 服务器相比,批处理扩展性更好,降低了成本。
- 可以对同一问题进行更多样本搜索,以提高准确性和模型性能。
采用NVL72带来的经济效益提升了10倍以上,这一优势在长推理链的应用场景中尤为显著。此外,NVL72还是目前市场上唯一能够在大批量处理下,将推理长度扩展到10万以上令牌的解决方案。对于 GB200,英伟达提供配备齐全的 Bianca 主板,该主板集成了Blackwell GPU、Grace CPU、512GB LPDDR5X内存以及集成在同一PCB上的电压调节模块VRM。此外,还配套提供了交换机托盘和铜质背板。然而,随着GB300的发布,供应链结构及产品配置作出了重大调整。对于 GB300,英伟达不再提供完整的 Bianca 主板,而是提供搭载在“SXM Puck”模块上的 B300、BGA 封装的 Grace CPU ,以及由美国初创企业Axiado提供的基板管理控制器(HMC)。最终客户将需要直接采购计算板上的其他组件,而第二级内存将从焊接式LPDDR5X改为可更换的LPCAMM模块,美光将成为这些模块的主要供应商。至于交换机托盘和铜质背板则保持不变,继续由英伟达提供。转向 SXM Puck 为更多 OEM 和 ODM 厂商参与计算托盘制造打开了大门,以前只有纬创和富士康工业互联网(FII)能够制造 Bianca 计算板。这一转变对纬创在ODM领域的业务造成了显著影响,导致其Bianca主板的市场份额大幅下降。相比之下,富士康工业互联网通过独家生产SXM Puck及其插座,成功弥补了Bianca主板业务上的损失。英伟达目前正在积极寻找Puck和插座的其他供应商,但目前尚未有确定的新订单落地。另一个重大转变是在电压调节模块(VRM)方面。虽然 SXM Puck 上仍保留一些 VRM 组件,但大部分板载 VRM 还是由超大规模制造商/OEM 直接从 VRM 供应商处采购。英伟达在 GB300 平台上配备了 800G ConnectX-8 NIC,在 InfiniBand 和以太网上提供两倍的scale out带宽。由于上市时间复杂性以及决定不在Bianca主板上启用PCIe Gen 6技术,英伟达前段时间取消了 GB200 的 ConnectX-8。相较于上一代ConnectX-7,ConnectX-8具有多项显著优势,除了双倍带宽外,它还拥有 48 个 PCIe 通道(而非 32 个 PCIe 通道),从而支持空冷MGX B300A等创新性架构设计。此外,ConnectX-8 还支持 SpectrumX,而在之前的 400G 产品中,SpectrumX 需要借助效率较低的Bluefield 3 DPU。受GB200和GB300发布延迟的影响,大量订单转向了英伟达价格更高的新一代GPU。近期,所有超大规模云服务商均已决定采用GB300。这一决定的部分原因在于GB300提供了更高的FLOPS算力和更大的显存容量,但同样重要的是,客户能够享有更多的系统定制自主权。由于上市时间紧迫以及机架、冷却和供电密度方面的重大变化,超大规模云服务商无法在服务器层面对 GB200 做太多改动。因此,Meta不得不放弃从博通和英伟达多源采购网卡的希望,转而完全依赖英伟达。同样,谷歌也放弃了自家网卡,转而采用英伟达的产品。对于拥有数千人团队、习惯于在CPU、网络直至螺丝和钣金等各个环节都严格优化成本的超大规模云服务商而言,这一情况着实难以接受。最典型的例子是亚马逊,由于其选择了次优配置,导致总拥有成本(TCO)超出了参考设计的预期。具体来说,亚马逊采用了PCIe交换机和效率较低的、需要风冷散热的200G Elastic Fabric Adaptor NIC,这使得它无法像Meta、谷歌、微软、甲骨文、xAI和Coreweave等公司那样部署NVL72机架。由于亚马逊的内部网卡方案,它不得不采用NVL36,由于背板和交换机组件的增加,使得每个GPU的成本更高。总的来说,受限于定制化的不足,亚马逊的配置方案未能达到最优状态。GB300为超大规模云服务商提供了定制主板、冷却系统等能力。这一灵活性使得亚马逊能够打造构建自己的定制主板,将原先采用风冷的组件(例如Astera Labs PCIe交换机)集成到水冷系统中。随着越来越多的组件转向水冷设计,加之预计在2025年第三季度K2V6 400G网卡将实现大规模量产,亚马逊有望重新采用NVL72架构,并显著提升其TCO效率。然而,超大规模云服务商面临着一个重大挑战,即需要进行大量的设计、验证和确认工作。这无疑是他们有史以来所设计的最为复杂的平台之一(谷歌的TPU系统除外)。SemiAnalysis观察到,由于设计进度相对滞后,微软可能是最晚部署GB300的企业之一,他们在第四季度仍在采购GB200。https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/半导体行业系列专题:晶圆代工,特色工艺蓬勃发展,自主可控成果显著人工智能行业AI硬件全景洞察报告:下一波AI创新机遇在物理空间(2024)1、豆包MarsCode落地编程助手场景的探索与实战
2、多模态LLM在云音乐推荐场景的落地应用
3、腾讯游戏知几语音合成大模型推理实践
4、多模态大语言模型领域进展分享1、RAG 2.0引擎的设计挑战和实现
2、GraphRAG进展分享
3、基于大模型的生成式检索
4、增强AI能力的Agent实践RAG与Tool Use的协同效应
5、RAG在办公领域中的探索与实践
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。