英伟达最新GB300和B300技术细节曝光

智能计算芯世界 2024-12-31 08:23

在 GB200 和 B200 发布仅 6 个月后,英伟达又推出了一款全新的 GPU,名为 GB300 和 B300。这次看似常规升级的背后,实则暗藏玄机。

B300 GPU 是基于台积电 4纳米工艺节点的全新流片,对计算芯片进行了优化设计。相比于B200,其性能的提升主要在以下两个方面:

  • 算力:FLOPS性能提升50%;功耗增加200W(GB300和B300 HGX的TDP分别达到1.4KW和1.2KW,前代则为1.2KW和1KW);架构改进和系统级增强,例如CPU和GPU之间的动态功率分配(power sloshing)。
  • 内存:HBM容量增加50%,从192GB提升至288GB;堆叠方案从8层HBM3E升级为12层;针脚速率保持不变,带宽仍为8TB/s。

重磅合集本星球合集资源链接,进入链接检索内容,根据提示均可下载:
1、《70+篇半导体行业“研究框架”合集》
2、《55+份智能网卡和DPU合集》
3、《14份半导体“AI的iPhone时刻”系列合集》
4、《21份走进“芯”时代系列深度报告合集》
5、《800+份重磅ChatGPT专业报告
6、《92份GPU技术及白皮书汇总》
7、《11+份AI的裂变时刻系列报告》

8、《3+份技术系列基础知识详解(星球版)》

持续更新...



为推理模型而生

内存的改进对于 OpenAI O3 这类大模型的训练和推理至关重要,因为随着序列长度的增加,KVCache也在增长,这限制了关键批处理大小和延迟。下图展示了英伟达当前几代 GPU 在处理 1k 输入令牌和 19k 输出令牌时的效能提升情况,这与OpenAI的o1和o3模型中的思维链(CoT)模式相似。


从 H100 到 H200,增加了更多、更快的内存:

  • 由于内存带宽的增加(H200为4.8TB/s,H100为3.35TB/s),在所有可比较的批处理大小下,交互性普遍提高了 43%。
  • 由于 H200 可以运行更大的批处理大小,每秒生成的令牌数是H100的3倍,从而使成本降低了约3倍。这一差异主要是由于KV缓存限制了总批处理大小。
更大的内存容量带来的好处是显著的:

  • 推理模型的请求和响应等待时间过长会带来糟糕的用户体验。如果可以提供更快的推理时间,将增加用户使用和付费的倾向。
  • 3 倍的成本差异是巨大的。
  • 最强大和最具差异化的模型可以比能力稍差的模型收取更高的费用。前沿模型的毛利率超过 70%,而在面临开源竞争的落后模型上,毛利率低于 20%。
当然,英伟达并不是唯一一家能够增加内存容量的公司。ASIC 也可以做到这一点,事实上,AMD 可能处于有利地位,因为他们的内存容量比英伟达更高,比如MI300X 的内存容量为 192GB,MI325X 的内存容量为 256GB,MI350X 的内存容量为 288GB……不过,黄仁勋手上还握有NVLink 这一利器。

当我们转向采用 GB200 NVL72 和 GB300 NVL72 的英伟达系统时,其性能和成本效益得到显著提升。NVL72在推理应用中的核心价值在于,它能够实现72个GPU以超低延迟协同作业,并共享内存资源。这也是全球唯一一款集全连接交换(all-to-all switched connectivity)与全规约运算(all reduce)能力于一身的加速器系统。

英伟达的 GB200 NVL72 和 GB300 NVL72 对实现许多关键功能至关重要:

  • 更高的交互性使得每个思维链的延迟更低。
  • 72 个 GPU 分散 KVCache,以实现更长的思维链,提高智能。
  • 与典型的 8 GPU 服务器相比,批处理扩展性更好,降低了成本。
  • 可以对同一问题进行更多样本搜索,以提高准确性和模型性能。
采用NVL72带来的经济效益提升了10倍以上,这一优势在长推理链的应用场景中尤为显著。此外,NVL72还是目前市场上唯一能够在大批量处理下,将推理长度扩展到10万以上令牌的解决方案。


为 GB300 重构供应链

对于 GB200,英伟达提供配备齐全的 Bianca 主板,该主板集成了Blackwell GPU、Grace CPU、512GB LPDDR5X内存以及集成在同一PCB上的电压调节模块VRM。此外,还配套提供了交换机托盘和铜质背板。然而,随着GB300的发布,供应链结构及产品配置作出了重大调整。


对于 GB300,英伟达不再提供完整的 Bianca 主板,而是提供搭载在“SXM Puck”模块上的 B300、BGA 封装的 Grace CPU ,以及由美国初创企业Axiado提供的基板管理控制器(HMC)。

最终客户将需要直接采购计算板上的其他组件,而第二级内存将从焊接式LPDDR5X改为可更换的LPCAMM模块,美光将成为这些模块的主要供应商。至于交换机托盘和铜质背板则保持不变,继续由英伟达提供。


转向 SXM Puck 为更多 OEM 和 ODM 厂商参与计算托盘制造打开了大门,以前只有纬创和富士康工业互联网(FII)能够制造 Bianca 计算板。这一转变对纬创在ODM领域的业务造成了显著影响,导致其Bianca主板的市场份额大幅下降。相比之下,富士康工业互联网通过独家生产SXM Puck及其插座,成功弥补了Bianca主板业务上的损失。英伟达目前正在积极寻找Puck和插座的其他供应商,但目前尚未有确定的新订单落地。

另一个重大转变是在电压调节模块(VRM)方面。虽然 SXM Puck 上仍保留一些 VRM 组件,但大部分板载 VRM 还是由超大规模制造商/OEM 直接从 VRM 供应商处采购。

英伟达在 GB300 平台上配备了 800G ConnectX-8 NIC,在 InfiniBand 和以太网上提供两倍的scale out带宽。由于上市时间复杂性以及决定不在Bianca主板上启用PCIe Gen 6技术,英伟达前段时间取消了 GB200 的 ConnectX-8。

相较于上一代ConnectX-7,ConnectX-8具有多项显著优势,除了双倍带宽外,它还拥有 48 个 PCIe 通道(而非 32 个 PCIe 通道),从而支持空冷MGX B300A等创新性架构设计。此外,ConnectX-8 还支持 SpectrumX,而在之前的 400G 产品中,SpectrumX 需要借助效率较低的Bluefield 3 DPU。


GB300 对超大规模云服务商的影响

受GB200和GB300发布延迟的影响,大量订单转向了英伟达价格更高的新一代GPU。近期,所有超大规模云服务商均已决定采用GB300。这一决定的部分原因在于GB300提供了更高的FLOPS算力和更大的显存容量,但同样重要的是,客户能够享有更多的系统定制自主权。

由于上市时间紧迫以及机架、冷却和供电密度方面的重大变化,超大规模云服务商无法在服务器层面对 GB200 做太多改动。因此,Meta不得不放弃从博通和英伟达多源采购网卡的希望,转而完全依赖英伟达。同样,谷歌也放弃了自家网卡,转而采用英伟达的产品。

对于拥有数千人团队、习惯于在CPU、网络直至螺丝和钣金等各个环节都严格优化成本的超大规模云服务商而言,这一情况着实难以接受。

最典型的例子是亚马逊,由于其选择了次优配置,导致总拥有成本(TCO)超出了参考设计的预期。具体来说,亚马逊采用了PCIe交换机和效率较低的、需要风冷散热的200G Elastic Fabric Adaptor NIC,这使得它无法像Meta、谷歌、微软、甲骨文、xAI和Coreweave等公司那样部署NVL72机架。由于亚马逊的内部网卡方案,它不得不采用NVL36,由于背板和交换机组件的增加,使得每个GPU的成本更高。总的来说,受限于定制化的不足,亚马逊的配置方案未能达到最优状态。

GB300为超大规模云服务商提供了定制主板、冷却系统等能力。这一灵活性使得亚马逊能够打造构建自己的定制主板,将原先采用风冷的组件(例如Astera Labs PCIe交换机)集成到水冷系统中。随着越来越多的组件转向水冷设计,加之预计在2025年第三季度K2V6 400G网卡将实现大规模量产,亚马逊有望重新采用NVL72架构,并显著提升其TCO效率。

然而,超大规模云服务商面临着一个重大挑战,即需要进行大量的设计、验证和确认工作。这无疑是他们有史以来所设计的最为复杂的平台之一(谷歌的TPU系统除外)。SemiAnalysis观察到,由于设计进度相对滞后,微软可能是最晚部署GB300的企业之一,他们在第四季度仍在采购GB200。

原文链接:
https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/
来源:SDNLAB

下载链接:
半导体行业系列专题:晶圆代工,特色工艺蓬勃发展,自主可控成果显著
AI的裂变时刻”系列报告合集(2)
AI的裂变时刻”系列报告合集(1)
人工智能行业AI硬件全景洞察报告:下一波AI创新机遇在物理空间(2024)
中国移动:智能体通信网络(ACN)白皮书
豆包出圈:解析字节的AI终端布局
AI基础设施篇:AI新视觉,从算力之争到能源之争
中国计算机和软件:模型即服务(MaaS)
智算产业趋势展望:数据智能时代到来(2024)
《2024年生成式AI大会(实践篇)》
1、豆包MarsCode落地编程助手场景的探索与实战 2、多模态LLM在云音乐推荐场景的落地应用 3、腾讯游戏知几语音合成大模型推理实践 4、多模态大语言模型领域进展分享
《2024年生成式AI大会(RAG生成检索篇)》
1、RAG 2.0引擎的设计挑战和实现 2、GraphRAG进展分享 3、基于大模型的生成式检索 4、增强AI能力的Agent实践RAG与Tool Use的协同效应 5、RAG在办公领域中的探索与实践
伽马数据:人工智能行业研究报告(2024.10)
2024新技术前瞻专题系列合集
SSD闪存技术基础知识全解(知识星球版)
服务器基础知识全解(知识星球版)
存储系统基础知识全解(知识星球版)


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。



免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  •  近年来,消费电子行业难言景气,长期处于萎靡不振的状态。其中,作为明星品类的智能手机同样被寒意所笼罩,出货量持续下跌。据IDC发布的报告显示,2023年全年,中国智能手机市场出货量约2.71亿台,同比下降5.0%,创近10年以来最低出货量。不过,在智能手机行业整体低迷之际,折叠屏手机却表现亮眼,成为智能手机市场唯一实现增长的品类。据IDC发布的跟踪报告显示,2023年,中国折叠屏手机市场出货量约700.7万台,同比增长114.5%。而这也是自2019年首款产品上市以来,出货量连续4年同
    刘旷 2025-01-02 11:27 37浏览
  • 2024年之前国际国内大品牌芯片,是电子产品生产主流供应产品,国际和国内大品牌电子芯片,产品质量有保证,质量过硬,芯片各项参数满足电子产品需求,但价格高,交货慢,工厂接了急单,国内外大品牌产品短期内交不出来,交出芯片,价格太高。目前来看,以美国为首国外势力,对我们国家一些高端芯片,不出货,不卖给我们,我们要生产电器产品,一定要自己研发芯片,替代进口芯片,低价格芯片替代高价格芯片。国外买家对电子产品,价格压的太低,用国内外知名品牌电子芯片,那电子产品成本高过了卖价,工厂没有利润,工厂无法生存,芯片
    开发工匠 2025-01-01 11:49 94浏览
  •  在这个日新月异的科技时代,智能家居正以前所未有的速度融入我们的日常生活,从智能灯光到温控系统,从安防监控到语音助手,每一处细节都透露着科技的温度与智慧。而在这场智能化浪潮中,一个看似不起眼却至关重要的组件——晶体管光耦,正扮演着连接物理世界与数字世界的隐形桥梁角色,默默推动着智能家居行业的发展与革新。 晶体管光耦——智能家居的“神经递质”晶体管光耦,作为一种能够将电信号转换为光信号,再通过光信号控制另一侧电路开关的电子元器件,其独特的工作原理使得它在隔离传输、抗干扰及保护电
    晶台光耦 2025-01-02 16:19 59浏览
  • 随着全球汽车行业向更加清洁、可持续的能源转型,燃料电池汽车(FCV)作为一种具有广阔前景的技术,正逐渐受到业界的广泛关注。这类氢能源车辆通过燃料电池中的电化学反应,将氢气转化为电能,并仅产生水作为副产品,展现出显著的环境效益。然而,氢气的易燃性也为燃料电池汽车的安全带来了挑战,因此,高效的氢气泄漏检测系统和残氢排放监控技术对于确保车辆的安全性和可靠性至关重要。 ‌一、氢能源车氢气泄漏检测技术‌为了确保燃料电池汽车的安全性,氢气传感器被广泛应用于氢气泄漏检测中。这些传感器能够集成到车辆的
    锂电小助手 2025-01-02 10:05 51浏览
  • 2层PCB设计时候回路的寄生电感计算方式。由两个平面构成电流路径的回路电感,取决于每个平面路径的局部自感和它们之间的局部互感。平面越宽,电流分布就越扩散开,平面的局部自感就越小,从而回路电感也就越小。平面越长,局部自感就越大,从而回路电感也就越大。平面间距越小,平面之间的互感就越大,从而回路电感也就越小。当该区域为正方形,即长度等于宽度时,无论边长是多少,长和宽之比始终等于1。令人惊奇的是,一对平面上的边长为100mil的正方形区域和边长为1in的正方形区域的回路电感相同。平面对上的任一正方形区
    tao180539_524066311 2025-01-02 13:51 41浏览
  • 早期概念与探索阶段(19 世纪以前):在古代,人类就对自动机械充满了想象,如古希腊时期的希罗发明的自动门、水钟等自动装置,中国古代的指南车、木牛流马等,虽然这些装置不能称之为真正的机器人,但为后来机器人的发展奠定了思想基础。从概念走向实践阶段(19 世纪~20 世纪初):随着工业革命的到来,自动机概念开始与实际机械设计结合,出现了具有实际功能的自动机械,例如雅卡尔提花机等,可通过穿孔卡片控制编织图案,为后续可编程控制的机器人发展提供了灵感。现代机器人产业萌芽期(1920 年代~1950 年代):
    Jeffreyzhang123 2025-01-02 14:53 81浏览
  • 前言近年来,随着汽车工业的快速发展,尤其是新能源汽车与智能汽车领域的崛起,汽车安全标准和认证要求日益严格,应用范围愈加广泛。ISO 26262和ISO 21448作为两个重要的汽车安全标准,它们在“系统安全”中扮演的角色各自不同,但又有一定交集。在智能网联汽车的高级辅助驾驶系统(ADAS)应用中,理解这两个标准的区别及其相互关系,对于保障车辆的安全性至关重要。ISO 26262:汽车功能安全的基石如图2.1所示,ISO 26262对“功能安全”的定义解释为:不存在由于电子/电气系统失效引起的危害
    广电计量 2025-01-02 17:18 89浏览
  • 国际标准IPC 标准:IPC-A-600:规定了印刷电路板制造过程中的质量要求和验收标准,涵盖材料、外观、尺寸、焊接、表面处理等方面。IPC-2221/2222:IPC-2221 提供了用于设计印刷电路板的一般原则和要求,IPC-2222 则针对高可靠性电子产品的设计提供了进一步的指导。IPC-6012:详细定义了刚性基板和柔性基板的要求,包括材料、工艺、尺寸、层次结构、特征等。IPC-4101:定义了印刷电路板的基板材料的物理和电气特性。IPC-7351:提供了元件封装的设计规范,包括封装尺寸
    Jeffreyzhang123 2025-01-02 16:50 96浏览
  • 常见通信标准无线通信标准蜂窝移动通信标准:如 2G(GSM)、3G(WCDMA、CDMA2000、TD - SCDMA)、4G(LTE)以及 5G 等。以 5G 为例,其具有高速率、低时延、大容量等特点,为智能交通、工业互联网和物联网等领域提供支持。无线局域网标准:主要是 IEEE802.11 标准,也就是我们常说的 Wi - Fi。例如 IEEE802.11ac 和 IEEE802.11ax(Wi-Fi 6)等标准,不断提升无线局域网的传输速度和稳定性。短距离无线通信标准:包括蓝牙(Bluet
    Jeffreyzhang123 2025-01-02 14:33 43浏览
  • 起源与诞生:AI 技术的起源可以追溯到 20 世纪 40 年代,随着计算机技术的兴起,科学家们开始思考如何让机器具备类似人类的智能。1950 年,英国数学家艾伦・图灵提出了著名的 “图灵测试”,为 AI 技术的发展奠定了理论基础。1956 年,美国达特茅斯学院举行了一次人工智能研讨会,标志着 AI 作为一门独立学科的诞生。符号主义阶段(20 世纪 50 年代 - 70 年代):研究人员主要关注如何使用符号逻辑和推理规则来模拟人类思维,试图通过构建复杂的逻辑系统来解决各种问题。然而,由于这种方法的
    Jeffreyzhang123 2025-01-02 15:15 78浏览
  • 在科技飞速发展的今天,机器人已经逐渐深入到我们生活和工作的各个领域。从工业生产线上不知疲倦的机械臂,到探索未知环境的智能探测机器人,再到贴心陪伴的家用服务机器人,它们的身影无处不在。而在这些机器人的背后,C 语言作为一种强大且高效的编程语言,发挥着至关重要的作用。C 语言为何适合机器人编程C 语言诞生于 20 世纪 70 年代,凭借其简洁高效、可移植性强以及对硬件的直接操控能力,成为机器人编程领域的宠儿。机器人的运行环境往往对资源有着严格的限制,需要程序占用较少的内存和运行空间。C 语言具有出色
    Jeffreyzhang123 2025-01-02 16:26 82浏览
  • 很荣幸收到富芮坤 FR3068x-C低功耗开发板,参加测评。断断续续看了一些资料,今天有时间把开发环境初步搭建好了,能下载程序了。记录一下,给大家分享一下。1、找不到ARMCM33_DSP_FP。安装Keil。我之前安装的Keil版本低,下载了重新安装了5.41,安装完成后,在工程配置页面的Device页面没有找到官方说的ARMCM33_DSP_FP,下图为官方文档内的截图,没有关系,注意右边涂黄色部分,Pack 的信息。打开keil的Pack Installer,找到ARM::CMSIS,找到
    王晓明 2025-01-01 15:38 89浏览
  • 在科技飞速发展的今天,5G 通信技术无疑是最耀眼的明星之一。它如同一场数字革命的风暴,以其前所未有的速度、极低的延迟和强大的连接能力,为我们的生活、经济和社会带来了翻天覆地的变化,开启了一个万物互联的崭新时代。5G 技术的卓越特性5G,即第五代移动通信技术,相比其前辈们,有着诸多令人瞩目的特性。首先是超高速率。5G 网络的理论峰值下载速度可达 10Gbps,这意味着下载一部高清电影只需短短几秒钟,而 4G 网络可能需要几分钟甚至更长时间。这种高速率让高清视频流、云游戏等对带宽要求极高的应用变得流
    Jeffreyzhang123 2025-01-02 14:18 60浏览
  • 【工程师故事】+半年的经历依然忧伤,带着焦虑和绝望  对于一个企业来说,赚钱才是第一位的,对于一个人来说,赚钱也是第一位的。因为企业要活下去,因为个人也要活下去。企业打不了倒闭。个人还是要吃饭的。企业倒闭了,打不了从头再来。个人失业了,面对的不仅是房贷车贷和教育,还有找工作的焦虑。企业说,一个公司倒闭了,说明不了什么,这是正常的一个现象。个人说,一个中年男人失业了,面对的压力太大了,焦虑会摧毁你的一切。企业说,是个公司倒闭了,也不是什么大的问题,只不过是这些公司经营有问题吧。
    curton 2025-01-02 23:08 62浏览
  • 从无到有:智能手机的早期探索无线电话装置的诞生:1902 年,美国人内森・斯塔布菲尔德在肯塔基州制成了第一个无线电话装置,这是人类对 “手机” 技术最早的探索。第一部移动手机问世:1938 年,美国贝尔实验室为美国军方制成了世界上第一部 “移动” 手机。民用手机的出现:1973 年 4 月 3 日,摩托罗拉工程师马丁・库珀在纽约曼哈顿街头手持世界上第一台民用手机摩托罗拉 DynaTAC 8000X 的原型机,给竞争对手 AT&T 公司的朋友打了一个电话。这款手机重 2 磅,通话时间仅能支持半小时
    Jeffreyzhang123 2025-01-02 16:41 86浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦