英伟达芯片路线图分析:RubinGPU、RubinUltra及Feynman架构

原创 汽车电子设计 2025-03-22 07:30
芝能智芯出品

英伟达GTC 25大会上,黄教主公布了2026-2027年的数据中心GPU路线图,在AI和高性能计算领域的雄心。


Blackwell B200刚刚全面投产,Blackwell Ultra预计于2025年下半年推出。


● 英伟达已规划了后续两代产品:2026年的Rubin GPU和2027年的Rubin Ultra,并透露了以物理学家理查德·费曼(Feynman)命名的新架构。


◎ Rubin GPU推理速度将达到50 petaflops(每秒千万亿次浮点运算),内存提升至288 GB,性能是Blackwell的2.5倍;


◎ 而Rubin Ultra的性能将是GB300 NVL72的14倍,英伟达通过快速迭代和尖端技术(如NVLink和HBM4)巩固市场领导地位的战略。



Part 1

Blackwell Ultra:

挤牙膏还是过渡之作?


英伟达在去年的GTC 2024上发布了Blackwell架构,并推出了GB200芯片,今年将这一系列正式命名为Blackwell Ultra。


与此前传言的GB300不同,Blackwell Ultra本质上是Blackwell的内存升级版,基于台积电N4P(5nm)工艺的双芯片架构(Blackwell GPU + Grace CPU),搭配12层堆叠的HBM3e内存,显存容量提升至288 GB,带宽达1.8 TB/s,延续第五代NVLink技术。


从技术角度看,Blackwell Ultra在FP4精度下的算力达到15 petaflops,结合Attention Acceleration机制,其推理性能比Hopper架构的H100提升2.5倍。



这一升级显得较为保守,Blackwell Ultra并未带来全新架构,通过内存和微调优化现有设计。


这种“挤牙膏”式的迭代是不是有点像之前的Intel,英伟达是否在为Rubin等更具颠覆性的产品蓄力,而将Blackwell Ultra定位为市场过渡产品?其核心改进在于满足当前AI推理需求的内存带宽提升,而非底层架构的革命性突破。



Blackwell Ultra NVL72机柜进一步佐证了这一定位,一款专为“AI推理时代”定制的产品,包含18个计算托盘(72颗Blackwell Ultra GPU + 36颗Grace CPU),总显存20 TB,带宽576 TB/s,配备9个NVLink交换机托盘(节点间带宽130 TB/s)


机柜整合了72张CX-8网卡(14.4 TB/s带宽)、Quantum-X800 InfiniBand和Spectrum-X 800G以太网卡,以及18张BlueField-3 DPU,优化了延迟和多租户支持。


应用场景包括AI代理、机器人训练和物理仿真等,其推理性能比GB200 NVL72提升1.5倍,比Hopper架构的DGX机柜高出50倍。以6710亿参数的DeepSeek-R1模型为例,H100需1.5分钟完成推理(100 tokens/秒),而Blackwell Ultra NVL72仅需15秒(1000 tokens/秒)


Blackwell Ultra NVL72预计于2025年下半年上市,目标客户包括服务器厂商(思科、戴尔、HPE等)、云服务商(AWS、Google Cloud、Azure等)和算力租赁商(CoreWeave、Lambda等)


这种广泛的市场覆盖显示出强劲需求,但其增量式升级表明英伟达在为Rubin铺路,同时利用Blackwell Ultra维持生态系统粘性。



Part 2

Rubin及未来:

真正的下一代飞跃


如果说Blackwell Ultra是战术性过渡,那么2026年的Rubin GPU则是英伟达的战略重拳。以天文学家Vera Rubin命名的这款GPU,推理速度将达50 petaflops(比Blackwell的20 petaflops高出一倍多),配备288 GB HBM4内存。


基于Rubin的Vera Rubin NVL144机柜(72颗Grace CPU + 144颗Rubin GPU)将提供3.6 exaflops(FP4推理)和1.2 exaflops(FP8训练)的算力,是Blackwell Ultra NVL72的3.3倍。


到2027年,Rubin Ultra NVL576将进一步提升至15 exaflops(FP4)和5 exaflops(FP8),性能是Blackwell Ultra NVL72的14倍。这些数据表明,英伟达正全力抢占AI计算的制高点。



● Rubin的突破依赖三大支柱:


◎ 首先,HBM4内存(NVL144带宽13 TB/s)解决了大规模AI模型的内存瓶颈;


◎ 其次,第六代NVLink和CX9网卡提升了多GPU集群的互联效率;


◎ 最后,Rubin可能采用更先进的制程(如3nm),优化功耗和性能。黄仁勋提到的NVLink革新暗示Rubin将在多芯片设计上更进一步,延续Blackwell的双芯片经验。


Rubin Ultra NVL576以576颗GPU的配置瞄准超大规模AI部署,例如万亿参数模型的生成式AI和物理仿真,其15 exaflops推理能力可将复杂任务压缩至秒级。


而后续的Feynman架构(以理查德·费曼命名)则预示着英伟达的长远布局,可能探索量子计算或光互联等前沿技术。


● 基于Blackwell Ultra的DGX Super POD提供即插即用的“AI超算工厂”,分为两种配置:


◎ 包含576颗Blackwell Ultra GPU和288颗Grace CPU(11.5 exaflops FP4);


◎ 采用B300 GPU的风冷设计,适用于企业数据中心。


Equinix的液冷/风冷支持增强了其灵活性,但其依赖Blackwell Ultra使其更像过渡性产品,难以与Rubin匹敌,市场影响深远。


Rubin和Rubin Ultra将加剧与AMD(Instinct MI300)和英特尔(Gaudi、Ponte Vecchio)的竞争,后者在算力和生态成熟度上仍落后。


云服务商和AI初创企业将受益于Rubin的可扩展性,但高昂成本可能拉大巨头与中小玩家的差距。Rubin对推理的重视也顺应了AI从训练向部署的行业趋势。


小结


英伟达的2026-2027路线图以Rubin、Rubin Ultra和Feynman架构为核心,巩固了其在AI芯片领域的领导地位。


Blackwell Ultra虽是过渡性产品,却通过内存和推理优化满足当前需求,为Rubin的登场铺平道路。Rubin GPU的50 petaflops推理能力和HBM4技术标志着代际飞跃,而Rubin Ultra NVL576的15 exaflops性能则重新定义了AI计算的边界。


Feynman的预告则进一步彰显了英伟达的雄心。快速迭代可能让客户疲于升级,执行延迟也可能被对手利用。提前公布Rubin和Feynman,不仅激励了投资者和开发者,也向竞争对手施压。


汽车电子设计 本公众号是博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结,以作为技术交流和沟通的桥梁
评论 (0)
  • 在人工智能与物联网技术蓬勃发展的今天,语音交互已成为智能设备的重要功能。广州唯创电子推出的WT3000T8语音合成芯片凭借其高性能、低功耗和灵活的控制方式,广泛应用于智能家居、工业设备、公共服务终端等领域。本文将从功能特点、调用方法及实际应用场景入手,深入解析这款芯片的核心技术。一、WT3000T8芯片的核心功能WT3000T8是一款基于UART通信的语音合成芯片,支持中文、英文及多语种混合文本的实时合成。其核心优势包括:高兼容性:支持GB2312/GBK/BIG5/UNICODE编码,适应不同
    广州唯创电子 2025-03-24 08:42 111浏览
  • 人形机器人产业节奏预估:2024年原型机元年,2025年小规模量产元年。当宇树科技H1人形机器人以灵动的手部动作在春晚舞台上演创意融合舞蹈《秧Bot》,舞出"中国智造"时,电视机前十几亿观众第一次深刻意识到:那个需要仰望波士顿动力的时代正在落幕。*图源:宇树科技短短数周后,宇树G1机器人又用一段丝滑的街舞在网络收割亿级播放量,钢铁之躯跳出赛博朋克的浪漫。2月11日,宇树科技在其京东官方旗舰店上架了两款人形机器人产品,型号分别为Unitree H1和G1。2月12日,9.9万元的G1人形机器人首批
    艾迈斯欧司朗 2025-03-22 21:05 108浏览
  •       知识产权保护对工程师的双向影响      正向的激励,保护了工程师的创新成果与权益,给企业带来了知识产权方面的收益,企业的创新和发明大都是工程师的劳动成果,他们的职务发明应当受到奖励和保护,是企业发展的重要源泉。专利同时也成了工程师职称评定的指标之一,专利体现了工程师的创新能力,在求职、竞聘技术岗位或参与重大项目时,专利证书能显著增强个人竞争力。专利将工程师的创意转化为受法律保护的“无形资产”,避免技术成果被他人抄袭或无偿使
    广州铁金刚 2025-03-25 11:48 33浏览
  • 无论你是刚步入职场的新人,还是已经有几年经验的职场老手,培养领导力都是职业发展中一个至关重要的环节。拥有良好的领导能力不仅能让你从人群中脱颖而出,也能让你在团队中成为一个值得信赖、富有影响力的核心成员。什么是领导力?领导力并不仅仅意味着“当老板”或者“发号施令”。它更多地是一种能够影响他人、激发团队潜能,并带领大家实现目标的能力。一位优秀的领导者需要具备清晰的沟通能力、解决问题的能力,以及对人心的深刻理解。他们知道如何激励人心,如何在压力下保持冷静,并能在关键时刻做出正确的决策。如何培养领导力?
    优思学院 2025-03-23 12:24 69浏览
  • 在智慧城市领域中,当一个智慧路灯项目因信号盲区而被迫增设数百个网关时,当一个传感器网络因入网设备数量爆增而导致系统通信失效时,当一个智慧交通系统因基站故障而导致交通瘫痪时,星型网络拓扑与蜂窝网络拓扑在构建广覆盖与高节点数物联网网络时的局限性便愈发凸显,行业内亟需一种更高效、可靠与稳定的组网技术以满足构建智慧城市海量IoT网络节点的需求。星型网络的无线信号覆盖范围高度依赖网关的部署密度,同时单一网关的承载设备数量有限,难以支撑海量IoT网络节点的城市物联系统;而蜂窝网络的无线信号覆盖范围同样高度依
    华普微HOPERF 2025-03-24 17:00 101浏览
  • 核心板简介创龙科技 SOM-TL3562 是一款基于瑞芯微 RK3562J/RK3562 处理器设计的四核 ARM C ortex-A53 + 单核 ARM Cortex-M0 全国产工业核心板,主频高达 2.0GHz。核心板 CPU、R OM、RAM、电源、晶振等所有元器件均采用国产工业级方案,国产化率 100%。核心板通过 LCC 邮票孔 + LGA 封装连接方式引出 MAC、GMAC、PCIe 2.1、USB3.0、 CAN、UART、SPI、MIPI CSI、MIPI
    Tronlong 2025-03-24 09:59 118浏览
  • 在智能终端设备快速普及的当下,语音交互已成为提升用户体验的关键功能。广州唯创电子推出的WT3000T8语音合成芯片,凭借其卓越的语音处理能力、灵活的控制模式及超低功耗设计,成为工业控制、商业终端、公共服务等领域的理想选择。本文将从技术特性、场景适配及成本优势三方面,解析其如何助力行业智能化转型。一、核心技术优势:精准、稳定、易集成1. 高品质语音输出,适配复杂环境音频性能:支持8kbps~320kbps宽范围比特率,兼容MP3/WAV格式,音质清晰自然,无机械感。大容量存储:内置Flash最大支
    广州唯创电子 2025-03-24 09:08 118浏览
  • 文/Leon编辑/cc孙聪颖‍“无AI,不家电”的浪潮,正在席卷整个家电行业。中国家电及消费电子博览会(AWE2025)期间,几乎所有的企业,都展出了搭载最新AI大模型的产品,从电视、洗衣机、冰箱等黑白电,到扫地机器人、双足机器人,AI渗透率之高令人惊喜。此番景象,不仅让人思考:AI对于家电的真正意义是什么,具体体现在哪些方面?作为全球家电巨头,海信给出了颇有大智慧的答案:AI化繁为简,将复杂留给技术、把简单还给生活,是海信对于AI 家电的终极答案。在AWE上,海信发布了一系列世俱杯新品,发力家
    华尔街科技眼 2025-03-23 20:46 71浏览
  • 今年全国两会期间,“体重管理”和“育儿”整体配套政策引发了持久广泛关注。从“吃”到“养”,都围绕着国人最为关心的话题:健康。大家常说“病从口入”,在吃这件事上,过去大家可能更多是为了填饱肚子,如今,消费者从挑选食材到厨电都贯彻着健康的宗旨,吃得少了更要吃得好了。这也意味着在新消费趋势下,谁能抓住众人的心头好,就能带起众人的购买欲望,才能在新一轮竞争中脱颖而出。作为家电行业的风向标,在2025年中国家电及消费电子博览会(AWE)上,这两个话题也被媒体和公众频繁提及。深耕中国厨房三十余年的苏泊尔再次
    华尔街科技眼 2025-03-22 11:42 49浏览
  • 文/Leon编辑/cc孙聪颖‍去年,百度公关部副总裁璩静的争议言论闹得沸沸扬扬,最终以道歉离职收场。时隔一年,百度的高管又出事了。近日,“百度副总裁谢广军女儿开盒孕妇”事件登上热搜,持续发酵,引起网友对百度数据安全性的怀疑。3月19日晚间,百度正式发布声明,表示坚决谴责窃取和公开他人隐私的网络暴力行为,同时强调,百度内部实施匿名化、假名化处理,经查验,泄露数据并非来自百度,而是海外的社工库,“当事人承认家长给她数据库”为不实信息,针对相关谣言百度已经向公安机关报案。然而,并非所有网友都对这份声明
    华尔街科技眼 2025-03-21 21:21 84浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦