英伟达芯片路线图分析：RubinGPU、RubinUltra及Feynman架构

原创汽车电子设计 2025-03-22 07:30 289浏览 0评论 0点赞

EPC专家实战拆解：电机能效优化技巧 STM32峰会2025：AI与GUI开发的未来，就在这里！

芝能智芯出品

英伟达GTC 25大会上，黄教主公布了2026-2027年的数据中心GPU路线图，在AI和高性能计算领域的雄心。

Blackwell B200刚刚全面投产，Blackwell Ultra预计于2025年下半年推出。

● 英伟达已规划了后续两代产品：2026年的Rubin GPU和2027年的Rubin Ultra，并透露了以物理学家理查德·费曼（Feynman）命名的新架构。

◎ Rubin GPU推理速度将达到50 petaflops（每秒千万亿次浮点运算），内存提升至288 GB，性能是Blackwell的2.5倍；

◎ 而Rubin Ultra的性能将是GB300 NVL72的14倍，英伟达通过快速迭代和尖端技术（如NVLink和HBM4）巩固市场领导地位的战略。

Part 1

Blackwell Ultra：

挤牙膏还是过渡之作？

英伟达在去年的GTC 2024上发布了Blackwell架构，并推出了GB200芯片，今年将这一系列正式命名为Blackwell Ultra。

与此前传言的GB300不同，Blackwell Ultra本质上是Blackwell的内存升级版，基于台积电N4P（5nm）工艺的双芯片架构（Blackwell GPU + Grace CPU），搭配12层堆叠的HBM3e内存，显存容量提升至288 GB，带宽达1.8 TB/s，延续第五代NVLink技术。

从技术角度看，Blackwell Ultra在FP4精度下的算力达到15 petaflops，结合Attention Acceleration机制，其推理性能比Hopper架构的H100提升2.5倍。

这一升级显得较为保守，Blackwell Ultra并未带来全新架构，通过内存和微调优化现有设计。

这种“挤牙膏”式的迭代是不是有点像之前的Intel，英伟达是否在为Rubin等更具颠覆性的产品蓄力，而将Blackwell Ultra定位为市场过渡产品？其核心改进在于满足当前AI推理需求的内存带宽提升，而非底层架构的革命性突破。

Blackwell Ultra NVL72机柜进一步佐证了这一定位，一款专为“AI推理时代”定制的产品，包含18个计算托盘（72颗Blackwell Ultra GPU + 36颗Grace CPU），总显存20 TB，带宽576 TB/s，配备9个NVLink交换机托盘（节点间带宽130 TB/s）。

机柜整合了72张CX-8网卡（14.4 TB/s带宽）、Quantum-X800 InfiniBand和Spectrum-X 800G以太网卡，以及18张BlueField-3 DPU，优化了延迟和多租户支持。

应用场景包括AI代理、机器人训练和物理仿真等，其推理性能比GB200 NVL72提升1.5倍，比Hopper架构的DGX机柜高出50倍。以6710亿参数的DeepSeek-R1模型为例，H100需1.5分钟完成推理（100 tokens/秒），而Blackwell Ultra NVL72仅需15秒（1000 tokens/秒）。

Blackwell Ultra NVL72预计于2025年下半年上市，目标客户包括服务器厂商（思科、戴尔、HPE等）、云服务商（AWS、Google Cloud、Azure等）和算力租赁商（CoreWeave、Lambda等）。

这种广泛的市场覆盖显示出强劲需求，但其增量式升级表明英伟达在为Rubin铺路，同时利用Blackwell Ultra维持生态系统粘性。

Part 2

Rubin及未来：

真正的下一代飞跃

如果说Blackwell Ultra是战术性过渡，那么2026年的Rubin GPU则是英伟达的战略重拳。以天文学家Vera Rubin命名的这款GPU，推理速度将达50 petaflops（比Blackwell的20 petaflops高出一倍多），配备288 GB HBM4内存。

基于Rubin的Vera Rubin NVL144机柜（72颗Grace CPU + 144颗Rubin GPU）将提供3.6 exaflops（FP4推理）和1.2 exaflops（FP8训练）的算力，是Blackwell Ultra NVL72的3.3倍。

到2027年，Rubin Ultra NVL576将进一步提升至15 exaflops（FP4）和5 exaflops（FP8），性能是Blackwell Ultra NVL72的14倍。这些数据表明，英伟达正全力抢占AI计算的制高点。

● Rubin的突破依赖三大支柱：

◎ 首先，HBM4内存（NVL144带宽13 TB/s）解决了大规模AI模型的内存瓶颈；

◎ 其次，第六代NVLink和CX9网卡提升了多GPU集群的互联效率；

◎ 最后，Rubin可能采用更先进的制程（如3nm），优化功耗和性能。黄仁勋提到的NVLink革新暗示Rubin将在多芯片设计上更进一步，延续Blackwell的双芯片经验。

Rubin Ultra NVL576以576颗GPU的配置瞄准超大规模AI部署，例如万亿参数模型的生成式AI和物理仿真，其15 exaflops推理能力可将复杂任务压缩至秒级。

而后续的Feynman架构（以理查德·费曼命名）则预示着英伟达的长远布局，可能探索量子计算或光互联等前沿技术。

● 基于Blackwell Ultra的DGX Super POD提供即插即用的“AI超算工厂”，分为两种配置：

◎ 包含576颗Blackwell Ultra GPU和288颗Grace CPU（11.5 exaflops FP4）；

◎ 采用B300 GPU的风冷设计，适用于企业数据中心。

Equinix的液冷/风冷支持增强了其灵活性，但其依赖Blackwell Ultra使其更像过渡性产品，难以与Rubin匹敌，市场影响深远。

Rubin和Rubin Ultra将加剧与AMD（Instinct MI300）和英特尔（Gaudi、Ponte Vecchio）的竞争，后者在算力和生态成熟度上仍落后。

云服务商和AI初创企业将受益于Rubin的可扩展性，但高昂成本可能拉大巨头与中小玩家的差距。Rubin对推理的重视也顺应了AI从训练向部署的行业趋势。

小结

英伟达的2026-2027路线图以Rubin、Rubin Ultra和Feynman架构为核心，巩固了其在AI芯片领域的领导地位。

Blackwell Ultra虽是过渡性产品，却通过内存和推理优化满足当前需求，为Rubin的登场铺平道路。Rubin GPU的50 petaflops推理能力和HBM4技术标志着代际飞跃，而Rubin Ultra NVL576的15 exaflops性能则重新定义了AI计算的边界。

Feynman的预告则进一步彰显了英伟达的雄心。快速迭代可能让客户疲于升级，执行延迟也可能被对手利用。提前公布Rubin和Feynman，不仅激励了投资者和开发者，也向竞争对手施压。

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

汽车电子设计本公众号是博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结，以作为技术交流和沟通的桥梁

进入专栏

汽车电子设计本公众号是博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结，以作为技术交流和沟通的桥梁

文章：4209篇粉丝：84人

关注  私信

英伟达芯片路线图分析：RubinGPU、RubinUltra及Feynman架构

最近文章

热门文章

推荐

最新资讯