英伟达最新GB300和B300技术细节曝光

智能计算芯世界 2024-12-31 08:23

在 GB200 和 B200 发布仅 6 个月后,英伟达又推出了一款全新的 GPU,名为 GB300 和 B300。这次看似常规升级的背后,实则暗藏玄机。

B300 GPU 是基于台积电 4纳米工艺节点的全新流片,对计算芯片进行了优化设计。相比于B200,其性能的提升主要在以下两个方面:

  • 算力:FLOPS性能提升50%;功耗增加200W(GB300和B300 HGX的TDP分别达到1.4KW和1.2KW,前代则为1.2KW和1KW);架构改进和系统级增强,例如CPU和GPU之间的动态功率分配(power sloshing)。
  • 内存:HBM容量增加50%,从192GB提升至288GB;堆叠方案从8层HBM3E升级为12层;针脚速率保持不变,带宽仍为8TB/s。

重磅合集本星球合集资源链接,进入链接检索内容,根据提示均可下载:
1、《70+篇半导体行业“研究框架”合集》
2、《55+份智能网卡和DPU合集》
3、《14份半导体“AI的iPhone时刻”系列合集》
4、《21份走进“芯”时代系列深度报告合集》
5、《800+份重磅ChatGPT专业报告
6、《92份GPU技术及白皮书汇总》
7、《11+份AI的裂变时刻系列报告》

8、《3+份技术系列基础知识详解(星球版)》

持续更新...



为推理模型而生

内存的改进对于 OpenAI O3 这类大模型的训练和推理至关重要,因为随着序列长度的增加,KVCache也在增长,这限制了关键批处理大小和延迟。下图展示了英伟达当前几代 GPU 在处理 1k 输入令牌和 19k 输出令牌时的效能提升情况,这与OpenAI的o1和o3模型中的思维链(CoT)模式相似。


从 H100 到 H200,增加了更多、更快的内存:

  • 由于内存带宽的增加(H200为4.8TB/s,H100为3.35TB/s),在所有可比较的批处理大小下,交互性普遍提高了 43%。
  • 由于 H200 可以运行更大的批处理大小,每秒生成的令牌数是H100的3倍,从而使成本降低了约3倍。这一差异主要是由于KV缓存限制了总批处理大小。
更大的内存容量带来的好处是显著的:

  • 推理模型的请求和响应等待时间过长会带来糟糕的用户体验。如果可以提供更快的推理时间,将增加用户使用和付费的倾向。
  • 3 倍的成本差异是巨大的。
  • 最强大和最具差异化的模型可以比能力稍差的模型收取更高的费用。前沿模型的毛利率超过 70%,而在面临开源竞争的落后模型上,毛利率低于 20%。
当然,英伟达并不是唯一一家能够增加内存容量的公司。ASIC 也可以做到这一点,事实上,AMD 可能处于有利地位,因为他们的内存容量比英伟达更高,比如MI300X 的内存容量为 192GB,MI325X 的内存容量为 256GB,MI350X 的内存容量为 288GB……不过,黄仁勋手上还握有NVLink 这一利器。

当我们转向采用 GB200 NVL72 和 GB300 NVL72 的英伟达系统时,其性能和成本效益得到显著提升。NVL72在推理应用中的核心价值在于,它能够实现72个GPU以超低延迟协同作业,并共享内存资源。这也是全球唯一一款集全连接交换(all-to-all switched connectivity)与全规约运算(all reduce)能力于一身的加速器系统。

英伟达的 GB200 NVL72 和 GB300 NVL72 对实现许多关键功能至关重要:

  • 更高的交互性使得每个思维链的延迟更低。
  • 72 个 GPU 分散 KVCache,以实现更长的思维链,提高智能。
  • 与典型的 8 GPU 服务器相比,批处理扩展性更好,降低了成本。
  • 可以对同一问题进行更多样本搜索,以提高准确性和模型性能。
采用NVL72带来的经济效益提升了10倍以上,这一优势在长推理链的应用场景中尤为显著。此外,NVL72还是目前市场上唯一能够在大批量处理下,将推理长度扩展到10万以上令牌的解决方案。


为 GB300 重构供应链

对于 GB200,英伟达提供配备齐全的 Bianca 主板,该主板集成了Blackwell GPU、Grace CPU、512GB LPDDR5X内存以及集成在同一PCB上的电压调节模块VRM。此外,还配套提供了交换机托盘和铜质背板。然而,随着GB300的发布,供应链结构及产品配置作出了重大调整。


对于 GB300,英伟达不再提供完整的 Bianca 主板,而是提供搭载在“SXM Puck”模块上的 B300、BGA 封装的 Grace CPU ,以及由美国初创企业Axiado提供的基板管理控制器(HMC)。

最终客户将需要直接采购计算板上的其他组件,而第二级内存将从焊接式LPDDR5X改为可更换的LPCAMM模块,美光将成为这些模块的主要供应商。至于交换机托盘和铜质背板则保持不变,继续由英伟达提供。


转向 SXM Puck 为更多 OEM 和 ODM 厂商参与计算托盘制造打开了大门,以前只有纬创和富士康工业互联网(FII)能够制造 Bianca 计算板。这一转变对纬创在ODM领域的业务造成了显著影响,导致其Bianca主板的市场份额大幅下降。相比之下,富士康工业互联网通过独家生产SXM Puck及其插座,成功弥补了Bianca主板业务上的损失。英伟达目前正在积极寻找Puck和插座的其他供应商,但目前尚未有确定的新订单落地。

另一个重大转变是在电压调节模块(VRM)方面。虽然 SXM Puck 上仍保留一些 VRM 组件,但大部分板载 VRM 还是由超大规模制造商/OEM 直接从 VRM 供应商处采购。

英伟达在 GB300 平台上配备了 800G ConnectX-8 NIC,在 InfiniBand 和以太网上提供两倍的scale out带宽。由于上市时间复杂性以及决定不在Bianca主板上启用PCIe Gen 6技术,英伟达前段时间取消了 GB200 的 ConnectX-8。

相较于上一代ConnectX-7,ConnectX-8具有多项显著优势,除了双倍带宽外,它还拥有 48 个 PCIe 通道(而非 32 个 PCIe 通道),从而支持空冷MGX B300A等创新性架构设计。此外,ConnectX-8 还支持 SpectrumX,而在之前的 400G 产品中,SpectrumX 需要借助效率较低的Bluefield 3 DPU。


GB300 对超大规模云服务商的影响

受GB200和GB300发布延迟的影响,大量订单转向了英伟达价格更高的新一代GPU。近期,所有超大规模云服务商均已决定采用GB300。这一决定的部分原因在于GB300提供了更高的FLOPS算力和更大的显存容量,但同样重要的是,客户能够享有更多的系统定制自主权。

由于上市时间紧迫以及机架、冷却和供电密度方面的重大变化,超大规模云服务商无法在服务器层面对 GB200 做太多改动。因此,Meta不得不放弃从博通和英伟达多源采购网卡的希望,转而完全依赖英伟达。同样,谷歌也放弃了自家网卡,转而采用英伟达的产品。

对于拥有数千人团队、习惯于在CPU、网络直至螺丝和钣金等各个环节都严格优化成本的超大规模云服务商而言,这一情况着实难以接受。

最典型的例子是亚马逊,由于其选择了次优配置,导致总拥有成本(TCO)超出了参考设计的预期。具体来说,亚马逊采用了PCIe交换机和效率较低的、需要风冷散热的200G Elastic Fabric Adaptor NIC,这使得它无法像Meta、谷歌、微软、甲骨文、xAI和Coreweave等公司那样部署NVL72机架。由于亚马逊的内部网卡方案,它不得不采用NVL36,由于背板和交换机组件的增加,使得每个GPU的成本更高。总的来说,受限于定制化的不足,亚马逊的配置方案未能达到最优状态。

GB300为超大规模云服务商提供了定制主板、冷却系统等能力。这一灵活性使得亚马逊能够打造构建自己的定制主板,将原先采用风冷的组件(例如Astera Labs PCIe交换机)集成到水冷系统中。随着越来越多的组件转向水冷设计,加之预计在2025年第三季度K2V6 400G网卡将实现大规模量产,亚马逊有望重新采用NVL72架构,并显著提升其TCO效率。

然而,超大规模云服务商面临着一个重大挑战,即需要进行大量的设计、验证和确认工作。这无疑是他们有史以来所设计的最为复杂的平台之一(谷歌的TPU系统除外)。SemiAnalysis观察到,由于设计进度相对滞后,微软可能是最晚部署GB300的企业之一,他们在第四季度仍在采购GB200。

原文链接:
https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/
来源:SDNLAB

下载链接:
半导体行业系列专题:晶圆代工,特色工艺蓬勃发展,自主可控成果显著
AI的裂变时刻”系列报告合集(2)
AI的裂变时刻”系列报告合集(1)
人工智能行业AI硬件全景洞察报告:下一波AI创新机遇在物理空间(2024)
中国移动:智能体通信网络(ACN)白皮书
豆包出圈:解析字节的AI终端布局
AI基础设施篇:AI新视觉,从算力之争到能源之争
中国计算机和软件:模型即服务(MaaS)
智算产业趋势展望:数据智能时代到来(2024)
《2024年生成式AI大会(实践篇)》
1、豆包MarsCode落地编程助手场景的探索与实战 2、多模态LLM在云音乐推荐场景的落地应用 3、腾讯游戏知几语音合成大模型推理实践 4、多模态大语言模型领域进展分享
《2024年生成式AI大会(RAG生成检索篇)》
1、RAG 2.0引擎的设计挑战和实现 2、GraphRAG进展分享 3、基于大模型的生成式检索 4、增强AI能力的Agent实践RAG与Tool Use的协同效应 5、RAG在办公领域中的探索与实践
伽马数据:人工智能行业研究报告(2024.10)
2024新技术前瞻专题系列合集
SSD闪存技术基础知识全解(知识星球版)
服务器基础知识全解(知识星球版)
存储系统基础知识全解(知识星球版)


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。



免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论 (0)
  • 随着科学技术的不断发展,触摸芯片在我们的生活中开始扮演着越来越重要的角色,大到工业设备,小到家用电器中都能找到它的身影。相信大家都很好奇触摸芯片到底是怎样一个神奇的存在呢?那我们今天就来一探究竟。要了解触摸芯片,首先我们要知道触摸芯片的定义。触摸芯片是一种感知人机交互的电子元器件,一般分为电阻式和电容式两种触控技术,目前市场上大部分触摸芯片是基于电容式触控感应技术的触摸芯片。我们就以此为例来说明。<iframe height=340 width=100% allowscriptaccess
    ICMAN 2025-03-12 09:37 81浏览
  •        传统语音芯片在复杂场景下的高功耗问题长期困扰行业。以某主流智能音箱为例,其待机日均耗电0.05度,年耗电量超18度,相当于一盏5W LED灯全年耗电量的3.6倍。思必驰TH1520芯片通过双核DSP架构与40nm先进制程的协同创新,将典型场景功耗压缩至15-80mW,仅为行业平均值的1/5,成功破解了这一难题,并在美的空调、小鹏P7等产品中实现商用落地。       双核DSP架构的分工与协作是TH15
    中科领创 2025-03-11 15:07 157浏览
  • 为增加微孔加湿器的雾化量,以及从外观和功能设计角度,进一步差异化桌面小型加湿器,市场上出现了越来越多的双头甚至多头的微孔雾化加湿器,用两根棉棒连接两个微孔雾化片,可以同时工作雾化(如下图所示,图片来自网络,仅供参考,侵删),也可以只是其中某一个微孔陶瓷片单独工作雾化。这种双头雾化的设计,存在一个刚需的规格要求:双头的一致性,也就是要保证两个微孔在雾化时的流量大致相同,雾态从外观上不能有明显的差别。消费者语言简单说就是:不能一个高一个低。实际市场的反馈,有公司已经收到不少针对“双头雾化明显不一致”
    Loximonline 2025-03-10 22:11 85浏览
  • 在捷配PCB板厂的官网计价页中,材料选择难住了很多新打板的工程师,接下来就提供一些疑问解答:一、PCB 原材料有哪些?PCB 制造需要诸多原材料,对于 PCB 厂家而言,这是生产的基础要素。其中包括覆铜板、绝缘金属基板、半固化片、铜箔、阻焊油墨、丝印油墨以及一些化学药剂等。在柔性 PCB 制造时,原材料则有聚酰亚胺和聚酯柔性覆铜板、覆盖膜、胶粘剂、电磁屏蔽膜,有时还会用到钢板或 FR - 4 作为补强材料。 二、原材料在 PCB 成本中的占比情况如何?原材料成本在 PCB 运营成本中所
    捷配科技 2025-03-12 09:16 111浏览
  • CS5228 是一款单端口 HDMI/DVI 电平转换 / 中继器,具有重新定时功能。它支持高达 6.0 Gbps 运行速率的交流和直流耦合输入T-MDS 信号,具备可编程均衡和抖动清理功能。它包含 TypeC双模式 DP 线缆适配器寄存器,可用于识别线缆适配器的性能。抖动清理 PLL(锁相环)能够消除输入抖动,并完全重置系统抖动容限,因此能更好地满足更高数据速率下 HDMI 抖动合规性要求。设备的运行和配置可通过引脚设置或 I2C 总线实现。自动断电和静噪功能提供了灵活的电源管理。2. 特性
    QQ1540182856 2025-03-11 15:35 84浏览
  • J599系列光纤连接器的特点标准J599 III系列光纤连接器、J599 A8系列光纤连接器和J599 A6系列光纤连接器均具有相同的符合GJB599B标准规定的插座法兰尺寸。其中,J599 A8系列光纤连接器和J599 A6系列光纤连接器可提供APC的端面类型,其插入损耗和回损损耗性能更优。J599系列光纤连接器的未来发展方向随着国内光纤通信技术的日趋成熟,光纤处理工艺水平的不断提高,以及对光纤连接器需求的多样化,J599系列光纤连接器正在向低损耗、高密度、高可靠方向发展。中连讯科J599 I
    用户1741596356358 2025-03-11 14:24 101浏览
  • 随着全球对光伏、风电等可再生能源需求的持续增长,在全球能源转型的浪潮中,储能技术凭借着可平衡能源供需、提高能源利用效率等优势,已成为实现 “双碳” 目标的核心支撑。据国家能源局公布数据显示,截至2024年底,我国新型储能装机规模突破7000万千瓦,约为“十三五”末的20倍,比2023年底增长超过130%,市场前景持续向好。目前,储能系统正朝着高电压(1500V+)与长寿命(≥10 年)等方向稳步演进,然而,愈发高压化、复杂化的储能系统亦面临着严峻的安全挑战。例如,储能电池组与控制电路的直接连接可
    华普微HOPERF 2025-03-12 11:16 55浏览
  • 故障现象一辆单电机,前驱的纯电动汽车。方向盘往一边打死过弯,急加速下,听到底盘传来“呜呜”声。在车内能听到,但不算太明显,要仔细听才能听到。类似轴承的声音,车速在30~40km/h下也能重现。故障诊断初步判断根据故障现象的描述,初步怀疑可能的故障点是:1) 左边轮胎的轴承响2) 右边轮胎的轴承响3) 中间的减速器响4) 驱动电机响为了更精确地定位故障,我们使用虹科Pico NVH异响设备来捕捉故障出现时的实时振动和声音数据,用数据说话!设备连接与探头布置如图1,将四通道分别通过四个NVH接口盒与
    虹科Pico汽车示波器 2025-03-12 13:35 115浏览
  • 行车记录仪存储卡现状描述行车记录仪作为现代驾驶中的重要安全设备,其记录的视频资料在关键时刻往往能起到至关重要的作用。然而,许多车主在使用行车记录仪时,经常会遇到存储卡提示需要格式化的情况。这一提示不仅让车主们感到困惑,更可能让他们担心行车记录仪的数据安全问题。行车记录仪存储卡提示需要格式化,意味着存储卡上的数据可能无法被正常读取,或者存储卡本身存在某种故障。这种情况下,行车记录仪可能无法继续录制新的视频,而原有的视频资料也可能面临丢失的风险。分析行车记录仪存储卡提示需要格式化怎么办当行车记录仪存
    172林 2025-03-12 14:00 103浏览
  •        记得二十多年前,年轻的我刚入行,加入了当年的全球最大的企业也是医疗器械的龙头老大,在企业内医疗器械分公司业务被誉为“皇冠上的宝石”,在他众多的卓越分公司中熠熠生辉格外耀眼。而当年年轻的我就加入了行业中的“黄埔军校”中茁壮成长,开始了追梦(也是噩梦)之旅,工作中得知该公司工程师在美国很受尊敬,路上出示工作证连警方都会优先放行。而在国内的工作让我深切感受到了一辆跑车是如何奔驰在崎岖不平的山路上,感恩这些年来祖国变的富强,建设出了条条康庄大道。风流
    广州铁金刚 2025-03-12 12:09 96浏览
  • 文/郭楚妤编辑/cc孙聪颖‍2024年9月起,家电以旧换新政策在全国范围内广泛落地。8大类产品的覆盖、15%—20%的强劲补贴力度,对消费的拉动超越预期。1月15日,国家发改委和财政部联合发布了《关于2025年加力扩围实施大规模设备更新和消费品以旧换新政策的通知》(以下简称“通知”),明确了补贴设备类型和补贴幅度。2025年以旧换新政策覆盖范围新增手机、平板、智能手表手环3类数码产品,要求单件售价不超过6000元,按产品售价的15%给予补贴。每位消费者每类产品可享受补贴一次,且每件不超过500元
    华尔街科技眼 2025-03-11 09:40 63浏览
  • 质量管理体系可以依公司场址所有产品与服务过程管理,输入与输出活動來推行使用,例如电动自行车产业包括一阶委外加工供应商、客供品管理、风险管理与质量一致性车辆审验作业等。中小企业要确保组织质量系统的程序及政策得以落实。有效的执行质量保证责任,以满足客户的需求,成公司的目标质量政策,需制文件程序化。质量管理体系定义落实公司质量管理而建立的组织架构、工作职责、作业程序等并将其文件化管理。一般中小企业质量系统依据当地政府法令与ISO国际标准规范要求,以追求客户满意需求过程导向、公司的质量政策制定的。其文件
    优思学院 2025-03-11 11:25 95浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦