英伟达最新GB300和B300技术细节曝光

智能计算芯世界 2024-12-31 08:23

在 GB200 和 B200 发布仅 6 个月后,英伟达又推出了一款全新的 GPU,名为 GB300 和 B300。这次看似常规升级的背后,实则暗藏玄机。

B300 GPU 是基于台积电 4纳米工艺节点的全新流片,对计算芯片进行了优化设计。相比于B200,其性能的提升主要在以下两个方面:

  • 算力:FLOPS性能提升50%;功耗增加200W(GB300和B300 HGX的TDP分别达到1.4KW和1.2KW,前代则为1.2KW和1KW);架构改进和系统级增强,例如CPU和GPU之间的动态功率分配(power sloshing)。
  • 内存:HBM容量增加50%,从192GB提升至288GB;堆叠方案从8层HBM3E升级为12层;针脚速率保持不变,带宽仍为8TB/s。

重磅合集本星球合集资源链接,进入链接检索内容,根据提示均可下载:
1、《70+篇半导体行业“研究框架”合集》
2、《55+份智能网卡和DPU合集》
3、《14份半导体“AI的iPhone时刻”系列合集》
4、《21份走进“芯”时代系列深度报告合集》
5、《800+份重磅ChatGPT专业报告
6、《92份GPU技术及白皮书汇总》
7、《11+份AI的裂变时刻系列报告》

8、《3+份技术系列基础知识详解(星球版)》

持续更新...



为推理模型而生

内存的改进对于 OpenAI O3 这类大模型的训练和推理至关重要,因为随着序列长度的增加,KVCache也在增长,这限制了关键批处理大小和延迟。下图展示了英伟达当前几代 GPU 在处理 1k 输入令牌和 19k 输出令牌时的效能提升情况,这与OpenAI的o1和o3模型中的思维链(CoT)模式相似。


从 H100 到 H200,增加了更多、更快的内存:

  • 由于内存带宽的增加(H200为4.8TB/s,H100为3.35TB/s),在所有可比较的批处理大小下,交互性普遍提高了 43%。
  • 由于 H200 可以运行更大的批处理大小,每秒生成的令牌数是H100的3倍,从而使成本降低了约3倍。这一差异主要是由于KV缓存限制了总批处理大小。
更大的内存容量带来的好处是显著的:

  • 推理模型的请求和响应等待时间过长会带来糟糕的用户体验。如果可以提供更快的推理时间,将增加用户使用和付费的倾向。
  • 3 倍的成本差异是巨大的。
  • 最强大和最具差异化的模型可以比能力稍差的模型收取更高的费用。前沿模型的毛利率超过 70%,而在面临开源竞争的落后模型上,毛利率低于 20%。
当然,英伟达并不是唯一一家能够增加内存容量的公司。ASIC 也可以做到这一点,事实上,AMD 可能处于有利地位,因为他们的内存容量比英伟达更高,比如MI300X 的内存容量为 192GB,MI325X 的内存容量为 256GB,MI350X 的内存容量为 288GB……不过,黄仁勋手上还握有NVLink 这一利器。

当我们转向采用 GB200 NVL72 和 GB300 NVL72 的英伟达系统时,其性能和成本效益得到显著提升。NVL72在推理应用中的核心价值在于,它能够实现72个GPU以超低延迟协同作业,并共享内存资源。这也是全球唯一一款集全连接交换(all-to-all switched connectivity)与全规约运算(all reduce)能力于一身的加速器系统。

英伟达的 GB200 NVL72 和 GB300 NVL72 对实现许多关键功能至关重要:

  • 更高的交互性使得每个思维链的延迟更低。
  • 72 个 GPU 分散 KVCache,以实现更长的思维链,提高智能。
  • 与典型的 8 GPU 服务器相比,批处理扩展性更好,降低了成本。
  • 可以对同一问题进行更多样本搜索,以提高准确性和模型性能。
采用NVL72带来的经济效益提升了10倍以上,这一优势在长推理链的应用场景中尤为显著。此外,NVL72还是目前市场上唯一能够在大批量处理下,将推理长度扩展到10万以上令牌的解决方案。


为 GB300 重构供应链

对于 GB200,英伟达提供配备齐全的 Bianca 主板,该主板集成了Blackwell GPU、Grace CPU、512GB LPDDR5X内存以及集成在同一PCB上的电压调节模块VRM。此外,还配套提供了交换机托盘和铜质背板。然而,随着GB300的发布,供应链结构及产品配置作出了重大调整。


对于 GB300,英伟达不再提供完整的 Bianca 主板,而是提供搭载在“SXM Puck”模块上的 B300、BGA 封装的 Grace CPU ,以及由美国初创企业Axiado提供的基板管理控制器(HMC)。

最终客户将需要直接采购计算板上的其他组件,而第二级内存将从焊接式LPDDR5X改为可更换的LPCAMM模块,美光将成为这些模块的主要供应商。至于交换机托盘和铜质背板则保持不变,继续由英伟达提供。


转向 SXM Puck 为更多 OEM 和 ODM 厂商参与计算托盘制造打开了大门,以前只有纬创和富士康工业互联网(FII)能够制造 Bianca 计算板。这一转变对纬创在ODM领域的业务造成了显著影响,导致其Bianca主板的市场份额大幅下降。相比之下,富士康工业互联网通过独家生产SXM Puck及其插座,成功弥补了Bianca主板业务上的损失。英伟达目前正在积极寻找Puck和插座的其他供应商,但目前尚未有确定的新订单落地。

另一个重大转变是在电压调节模块(VRM)方面。虽然 SXM Puck 上仍保留一些 VRM 组件,但大部分板载 VRM 还是由超大规模制造商/OEM 直接从 VRM 供应商处采购。

英伟达在 GB300 平台上配备了 800G ConnectX-8 NIC,在 InfiniBand 和以太网上提供两倍的scale out带宽。由于上市时间复杂性以及决定不在Bianca主板上启用PCIe Gen 6技术,英伟达前段时间取消了 GB200 的 ConnectX-8。

相较于上一代ConnectX-7,ConnectX-8具有多项显著优势,除了双倍带宽外,它还拥有 48 个 PCIe 通道(而非 32 个 PCIe 通道),从而支持空冷MGX B300A等创新性架构设计。此外,ConnectX-8 还支持 SpectrumX,而在之前的 400G 产品中,SpectrumX 需要借助效率较低的Bluefield 3 DPU。


GB300 对超大规模云服务商的影响

受GB200和GB300发布延迟的影响,大量订单转向了英伟达价格更高的新一代GPU。近期,所有超大规模云服务商均已决定采用GB300。这一决定的部分原因在于GB300提供了更高的FLOPS算力和更大的显存容量,但同样重要的是,客户能够享有更多的系统定制自主权。

由于上市时间紧迫以及机架、冷却和供电密度方面的重大变化,超大规模云服务商无法在服务器层面对 GB200 做太多改动。因此,Meta不得不放弃从博通和英伟达多源采购网卡的希望,转而完全依赖英伟达。同样,谷歌也放弃了自家网卡,转而采用英伟达的产品。

对于拥有数千人团队、习惯于在CPU、网络直至螺丝和钣金等各个环节都严格优化成本的超大规模云服务商而言,这一情况着实难以接受。

最典型的例子是亚马逊,由于其选择了次优配置,导致总拥有成本(TCO)超出了参考设计的预期。具体来说,亚马逊采用了PCIe交换机和效率较低的、需要风冷散热的200G Elastic Fabric Adaptor NIC,这使得它无法像Meta、谷歌、微软、甲骨文、xAI和Coreweave等公司那样部署NVL72机架。由于亚马逊的内部网卡方案,它不得不采用NVL36,由于背板和交换机组件的增加,使得每个GPU的成本更高。总的来说,受限于定制化的不足,亚马逊的配置方案未能达到最优状态。

GB300为超大规模云服务商提供了定制主板、冷却系统等能力。这一灵活性使得亚马逊能够打造构建自己的定制主板,将原先采用风冷的组件(例如Astera Labs PCIe交换机)集成到水冷系统中。随着越来越多的组件转向水冷设计,加之预计在2025年第三季度K2V6 400G网卡将实现大规模量产,亚马逊有望重新采用NVL72架构,并显著提升其TCO效率。

然而,超大规模云服务商面临着一个重大挑战,即需要进行大量的设计、验证和确认工作。这无疑是他们有史以来所设计的最为复杂的平台之一(谷歌的TPU系统除外)。SemiAnalysis观察到,由于设计进度相对滞后,微软可能是最晚部署GB300的企业之一,他们在第四季度仍在采购GB200。

原文链接:
https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/
来源:SDNLAB

下载链接:
半导体行业系列专题:晶圆代工,特色工艺蓬勃发展,自主可控成果显著
AI的裂变时刻”系列报告合集(2)
AI的裂变时刻”系列报告合集(1)
人工智能行业AI硬件全景洞察报告:下一波AI创新机遇在物理空间(2024)
中国移动:智能体通信网络(ACN)白皮书
豆包出圈:解析字节的AI终端布局
AI基础设施篇:AI新视觉,从算力之争到能源之争
中国计算机和软件:模型即服务(MaaS)
智算产业趋势展望:数据智能时代到来(2024)
《2024年生成式AI大会(实践篇)》
1、豆包MarsCode落地编程助手场景的探索与实战 2、多模态LLM在云音乐推荐场景的落地应用 3、腾讯游戏知几语音合成大模型推理实践 4、多模态大语言模型领域进展分享
《2024年生成式AI大会(RAG生成检索篇)》
1、RAG 2.0引擎的设计挑战和实现 2、GraphRAG进展分享 3、基于大模型的生成式检索 4、增强AI能力的Agent实践RAG与Tool Use的协同效应 5、RAG在办公领域中的探索与实践
伽马数据:人工智能行业研究报告(2024.10)
2024新技术前瞻专题系列合集
SSD闪存技术基础知识全解(知识星球版)
服务器基础知识全解(知识星球版)
存储系统基础知识全解(知识星球版)


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。



免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  •  探针台的维护直接影响其测试精度与使用寿命,需结合日常清洁、环境控制、定期校准等多维度操作,具体方法如下:一、日常清洁与保养1.‌表面清洁‌l 使用无尘布或软布擦拭探针台表面,避免残留清洁剂或硬物划伤精密部件。l 探针头清洁需用非腐蚀性溶剂(如异丙醇)擦拭,检查是否弯曲或损坏。2.‌光部件维护‌l 镜头、观察窗等光学部件用镜头纸蘸取wu水jiu精从中心向外轻擦,操作时远离火源并保持通风。3.‌内部防尘‌l 使用后及时吹扫灰尘,防止污染物进入机械滑
    锦正茂科技 2025-04-28 11:45 75浏览
  • 一、智能家居的痛点与创新机遇随着城市化进程加速,现代家庭正面临两大核心挑战:情感陪伴缺失:超60%的双职工家庭存在“亲子陪伴真空期”,儿童独自居家场景增加;操作复杂度攀升:智能设备功能迭代导致用户学习成本陡增,超40%用户因操作困难放弃高阶功能。而WTR096-16S录音语音芯片方案,通过“语音交互+智能录音”双核驱动,不仅解决设备易用性问题,更构建起家庭成员间的全天候情感纽带。二、WTR096-16S方案的核心技术突破1. 高保真语音交互系统动态情绪语音库:支持8种语气模板(温柔提醒/紧急告警
    广州唯创电子 2025-04-28 09:24 128浏览
  • 在CAN总线分析软件领域,当CANoe不再是唯一选择时,虹科PCAN-Explorer 6软件成为了一个有竞争力的解决方案。在现代工业控制和汽车领域,CAN总线分析软件的重要性不言而喻。随着技术的进步和市场需求的多样化,单一的解决方案已无法满足所有用户的需求。正是在这样的背景下,虹科PCAN-Explorer 6软件以其独特的模块化设计和灵活的功能扩展,为CAN总线分析领域带来了新的选择和可能性。本文将深入探讨虹科PCAN-Explorer 6软件如何以其创新的模块化插件策略,提供定制化的功能选
    虹科汽车智能互联 2025-04-28 16:00 91浏览
  • 随着电子元器件的快速发展,导致各种常见的贴片电阻元器件也越来越小,给我们分辨也就变得越来越难,下面就由smt贴片加工厂_安徽英特丽就来告诉大家如何分辨的SMT贴片元器件。先来看看贴片电感和贴片电容的区分:(1)看颜色(黑色)——一般黑色都是贴片电感。贴片电容只有勇于精密设备中的贴片钽电容才是黑色的,其他普通贴片电容基本都不是黑色的。(2)看型号标码——贴片电感以L开头,贴片电容以C开头。从外形是圆形初步判断应为电感,测量两端电阻为零点几欧,则为电感。(3)检测——贴片电感一般阻值小,更没有“充放
    贴片加工小安 2025-04-29 14:59 62浏览
  • 在电子电路设计和调试中,晶振为电路提供稳定的时钟信号。我们可能会遇到晶振有电压,但不起振,从而导致整个电路无法正常工作的情况。今天凯擎小妹聊一下可能的原因和解决方案。1. 误区解析在硬件调试中,许多工程师在测量晶振时发现两端都有电压,例如1.6V,但没有明显的压差,第一反应可能是怀疑短路。晶振电路本质上是一个交流振荡电路。当晶振未起振时,两端会静止在一个中间电位,通常接近电源电压的一半。万用表测得的是稳定的直流电压,因此没有压差。这种情况一般是:晶振没起振,并不是短路。2. 如何判断真
    koan-xtal 2025-04-28 05:09 116浏览
  • 贞光科技代理品牌紫光国芯的车规级LPDDR4内存正成为智能驾驶舱的核心选择。在汽车电子国产化浪潮中,其产品以宽温域稳定工作能力、优异电磁兼容性和超长使用寿命赢得市场认可。紫光国芯不仅确保供应链安全可控,还提供专业本地技术支持。面向未来,紫光国芯正研发LPDDR5车规级产品,将以更高带宽、更低功耗支持汽车智能化发展。随着智能网联汽车的迅猛发展,智能驾驶舱作为人机交互的核心载体,对处理器和存储器的性能与可靠性提出了更高要求。在汽车电子国产化浪潮中,贞光科技代理品牌紫光国芯的车规级LPDDR4内存凭借
    贞光科技 2025-04-28 16:52 94浏览
  •     今天,纯电动汽车大跃进牵引着对汽车电气低压的需求,新需求是48V。车要更轻,料要堆满。车身电子系统(电子座舱)从分布改成集中(域控),电气上就是要把“比12V系统更多的能量,送到比12V系统数量更少的ECU去”,所以,电源必须提高电压,缩小线径。另一方面,用比传统12V,24V更高的电压,有利于让电感类元件(螺线管,电机)用更细的铜线,缩小体积去替代传统机械,扩大整车电气化的边界。在电缆、认证行业60V标准之下,48V是一个合理的电压。有关汽车电气低压,另见协议标准第
    电子知识打边炉 2025-04-27 16:24 224浏览
  • 4月22日下午,备受瞩目的飞凌嵌入式「2025嵌入式及边缘AI技术论坛」在深圳深铁皇冠假日酒店盛大举行,此次活动邀请到了200余位嵌入式技术领域的技术专家、企业代表和工程师用户,共享嵌入式及边缘AI技术的盛宴!1、精彩纷呈的展区产品及方案展区是本场活动的第一场重头戏,从硬件产品到软件系统,从企业级应用到高校教学应用,都吸引了现场来宾的驻足观看和交流讨论。全产品矩阵展区展示了飞凌嵌入式丰富的产品线,从嵌入式板卡到工控机,从进口芯片平台到全国产平台,无不体现出飞凌嵌入式在嵌入式主控设备研发设计方面的
    飞凌嵌入式 2025-04-28 14:43 101浏览
  • 2025年全球人形机器人产业迎来爆发式增长,政策与资本双重推力下,谷歌旗下波士顿动力、比亚迪等跨国企业与本土龙头争相入局,产业基金与风险投资持续加码。仅2025年上半年,中国机器人领域就完成42笔战略融资,累计金额突破45亿元,沪深两市机器人指数年内涨幅达68%,印证了资本市场对智能终端革命的强烈预期。值得关注的是,国家发展改革委联合工信部发布《人形机器人创新发展行动计划》,明确将仿生感知系统、AI决策中枢等十大核心技术纳入"十四五"国家重大专项,并设立500亿元产业引导基金。技术突破方面,本土
    电子资讯报 2025-04-27 17:08 244浏览
  • 晶振在使用过程中可能会受到污染,导致性能下降。可是污染物是怎么进入晶振内部的?如何检测晶振内部污染物?我可不可以使用超声波清洗?今天KOAN凯擎小妹将逐一解答。1. 污染物来源a. 制造过程:生产环境不洁净或封装密封不严,可能导致灰尘和杂质进入晶振。b. 使用环境:高湿度、温度变化、化学物质和机械应力可能导致污染物渗入。c. 储存不当:不良的储存环境和不合适的包装材料可能引发化学物质迁移。建议储存湿度维持相对湿度在30%至75%的范围内,有助于避免湿度对晶振的不利影响。避免雨淋或阳光直射。d.
    koan-xtal 2025-04-28 06:11 98浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦