去年NVIDIA GTC开发者大会,有媒体形容其为AI届的伍德斯托克音乐节(Woodstock of AI),今年老黄在主题演讲中则称其为“AI届的超级碗”(Super Bowl of AI)——强调的似乎还是AI盛宴及狂欢属性。
今年春节DeepSeek引爆有关生成式AI更低成本实现的话题之后,包括NVIDIA在内的AI相关企业股价纷纷下跌,连能源板块都受影响。市场基于直觉认为,此前老黄说要建大量大规模AI数据中心的想法不成立了。在DeepSeek诞生以后,媒体和资本市场有关foundation model的scaling law已经不复存在的说法一度非常盛行。
在此之前我们通常认为,更大的AI模型、越多算力资源,就意味着更智能的AI,也就是传说中的“大力出奇迹”。而DeepSeek的诞生“好像”宣判了这种认知的错误:毕竟AI计算所需成本越低,技术实现效率越高,不就意味着对底层AI芯片算力需求越低吗?

显然在“AI超级碗”这一形容之下,黄仁勋可不认为DeepSeek R1及同类AI模型及相关技术,会颠覆AI基础设施将大规模扩张的判断和事实;他甚至特别提到AI的“scaling law is more resilient”。这也是我们的看法,《电子工程专辑》4月刊和《国际电子商情》5月刊的封面故事都会特别就此话题做探讨。只不过黄仁勋阐明该问题的视角与我们不同。
从相对简单的营收角度来看,黄仁勋在主题演讲中给出的数据是,仅从4家美国顶级CSP(云服务供应商,包括AWS, Azure, GCP和OCI)的Hopper显卡出货量角度(不包含企业及更多数据中心客户),2024年Hopper显卡走向巅峰,大约是130万片GPU;而去年GTC上发布的Blackwell显卡则在刚刚宣布达成full production的当下,已经面向这几家CSP完成了360万片的出货量。
“用于模型训练、推理所需的算力在此期间发生了暴涨。仅1年时间,从Blackwell开始出货,我们是可以看到AI基础设施的巨幅增长的。”所以Dell'Oro预测全球数据中心CapEx(资本支出)会在2028年超过1万亿美金。“以前我就说过数据中心建设会达到万亿美金。”黄仁勋说,“我现在也相当确定我们很快就会达到这个数字。”
可能在很多人看来,这只是企业家给资本市场画饼的伎俩。不过实际上有一些更可靠和现实的依据是值得探讨的。
推理的100倍算力需求
从去年下半年开始就特别流行一个词“Agentic AI”,国内有译作“智能体AI”的。现在市面上对Agentic AI的解读多少存在些差异。在NVIDIA看来,AI时代历经了Perception AI(感知AI,比如基于CNN的CV类应用)、Generative AI(生成式AI,典型如ChatGPT)、Agentic AI(智能体AI),以及现在热度极高的Physical AI——更多指代机器人。
这里我们还是有必要解释一下被NVIDIA称作过去2-3年巨大突破的Agentic AI具体是什么。AI智能体(或代理)能够感知和理解环境或上下文,并且进行逻辑推理——不是inference,而是reason;通过一步步的规划和推理来解决复杂问题;它还能使用工具,建立在对多模态信息的理解上——无论是读取网站文字、图片还是视频,利用这些信息来解决问题。
我们认为,NVIDIA定义的“Agentic AI”应该可以狭义理解为众人所知如DeepSeek R1开启“深度思考”以后的行为方式:Copilot, Grok之类的服务或模型现在也都具备这样的能力。
黄仁勋在会上举了个比较具体的例子:让AI安排一场婚宴的座次。这种问题需要考虑的因素包括文化传统、人际关系、家庭成员亲疏、方便拍照的角度等等。传统LLM大语言模型在回答该问题时,能够在500个token以下快速响应问题(这里称其为one-shot);而推理模型(reasoning model,这一例用的就是DeepSeek R1)思考了将近9000个token,才得出答案。
前者虽然快,但答案显然有问题;后者速度慢、输出多,但几乎给出了最优解。在推理(reason)过程中,R1尝试了各种不同场景的可能性,并且还对答案做回测,所需的算力显然是更多的。“Agentic AI进行推理(reasoning)之时所需算力资源,能够轻易超过one-shot的100倍。”
“现在的AI能够进行一步步的推理(reason),基于CoT、best-of-n、持续检测路径规划(path planning)等各种不同的技术,这样的AI就能把文字做一步步的拆解。”AI技术范式未变,同样是持续生成新token,虽然生成序列文本时会分步进行。但与此同时,生成的token数量显著变多。
考虑在生成10倍甚至更多token(500 tokens VS 9000 tokens)时,还要确保响应和交互体验的出众——可能保持相似体验就需要更快10倍的生成速度。则基本可以说,在Agentic AI时代,AI推理(inference)所需算力大幅提升。
实际在DeepSeek爆火的那几周,就有行业专家提过市场现阶段对DeepSeek几乎疯狂的“低成本”追捧,完全忽略了逻辑推理模型(reasoning model)在推理阶段的算力消耗,或者说在pre-training(预训练), post-raining(后训练,包含fine-tune), inference(推理)这三个阶段,逻辑推理模型(reasoning model)的算力需求是显著开始向inference倾斜的。
虽然我们不清楚老黄说逻辑推理算力是以往one-shot推理的100倍,这数字具体是怎么算出来的,但DeepSeek绝不意味着未来AI芯片算力需求变少是共识。这里还没有去谈即便是training训练阶段,算力需求总和也是只增不减的问题——我们在《电子工程专辑》4月刊的封面故事里,对这一点有更具体的阐述。
这次给AI工厂做了个软件
实际上模型的scaling law依旧生效,即便是DeepSeek R1满血版的参数规模也不小。所以黄仁勋笃信下一代大模型达到万亿参数是必然。那么AI负载工作仍旧要在很多GPU构成的完整系统之上跑:借助包括Tensor Parallelism(张量并行)、Pipeline Parallelism(管线并行)、Expert Parallelism(专家模型并行)等不同配置与方案,实现工作负载吞吐、效率的最大化。
加上针对延迟、吞吐、负载聚合等相关的优化需求,这次GTC上NVIDIA发布的重头戏产品就是开源的NVIDIA Dynamo。PPT上说这是个分布式推理服务库;黄仁勋称其为AI工厂需要完成上述复杂配置的操作系统——AI工厂也就是规模很大的AI数据中心。这里我们对NVIDIA Dynamo稍作注解,将有助于理解逻辑推理模型更高算力需求的根本。
对于逻辑推理(reason)而言,模型在接到请求以后首先需要“思考”。这个阶段包括获取和消化信息——无论是从PDF文档还是从网站获取这些信息;再基于上下文的处理,去规划答案。这一阶段称为Prefill(预填充?),这个阶段对算力需求很大,尤其表现在FLOPS数字上。
接下来如图所示的Decode(解码)阶段,也就是开始“说”或输出的阶段。这个阶段的特点是对带宽要求很高,因为当token依序生成之时,就是基于输入和已经生成的token,来计算下个生成token的可能性(参考KV cache中的内容)——这个过程需要访问内存中的海量数据,迭代进行快速和持续的数据搬运,每秒数据量可以达到数百T。
每个token生成过程,都需要反复进行Decode操作,且每次都意味着万亿规模参数、海量数据访问(也有写入操作)。则回顾一下上述婚宴座次安排的例子,将近9000个token,如果每一个都要历经此等规模的操作,则跨GPU做各层级并行的操作也就是必然。
在AI技术范式未变的情况下,任何阶段的大力出奇迹逻辑也不曾变化——当然谈这一点,黄仁勋主要是为了说明NVLink的必要性的。不过就AI技术发展大方向来看,更高的算力要求大趋势即便在DeepSeek及更多大幅提升效率的模型和中间件出现之后,也是没变的。这和以往最朴素的道理“Andy gives, Bill takes away”一样。
值得一提的是,基于多GPU或多节点的这种操作,Dynamo可以对Prefill和Decode两阶段的操作做分解:也就是可以决策用更多GPU资源做Prefill,更少分配给Decode(想得多,说得少...);或者也可以在需求高吞吐时,将资源倾斜给Decode。再考虑上述各类动态的并行操作、KV cache给到正确的GPU、管理不同层级的内存等,这些就是NVIDIA Dynamo尝试解决的问题。所以黄仁勋称Dynamo为AI工厂的操作系统。
去年GTC上,NVIDIA宣称Blackwell性能提升30倍——我们撰文剖析过“30倍”这个数字具体是怎么来的,其核心还是在于包含NVLink在内的系统性能提升(H100 NVL8 V.S. GB200 NVL72),而非Blackwell GPU芯片性能真的提升了30倍(在半导体行业这也不现实)。而这次,NVIDIA又把30倍这个数字提到了40倍,这在NVIDIA的宣传中应该就是加了Dynamo的结果。
1300万亿晶体管,GPU堆料再堆料
更多人关心NVIDIA的动作还是芯片和硬件。那我们就来说说基于NVIDIA对市场的判断,今年GTC上更新的硬件——很多同学可能已经从新闻报道中看过NVIDIA发布的未来芯片规划,包括Blackwell Ultra, Rubin, Rubin Ultra,乃至2028年的Feynman;甚至有人困惑NVIDIA为什么要提前2-3年去谈后续预备发布的芯片?
一方面可能和资本市场有关,另一方面则显然与其对AI市场的判断有关:明确继续堆料的未来,以及坚持AI更高算力需求不动摇。而且实际上黄仁勋把硬件方面的更多篇幅是给到了系统的scale-up和scale-out的,也就是芯片之外的互联——包括首度公开的NVIDIA Photonics硅光芯片;可见“大力出奇迹”绝不是说说,也不会仅停留在芯片层面。
文章篇幅有限,我们只能抓其中的重点做解读。不过对于其中的一些热点,比如其CPO(Co-Packaged Optics)硅光芯片,基于MRM(Micro Ring Modulators)这类热点,我们后续会做更深入的技术解析。
要谈硬件,可以从三个角度入手:计算(computing)、互联(networking)、存储(storage)。可能很多人对NVIDIA的误解是,他们只做“计算”。去年我们在圣何塞听NVIDIA首席科学家Bill Dally谈到一件趣事,2011年Bill去找老黄聊希望面向HPC开发networking技术。老黄很困惑:我们为什么要做networking,我们不是家GPU公司吗?
不过最后黄仁勋还是做出了相关研究的大力支持的。我们现在当然知道,跨GPU、跨板、跨机架、跨节点做AI计算集群的大规模运算已经是常态,以及NVIDIA在NVLink, NVSwitch等技术投入上的正确性;但当年应该还没有太多人看得这么远。
还是先来谈谈计算(computing)。去年GTC上发布Blackwell GPU,及对应的Blackwell GB200 NVL72系统——也就是那个通过NVLink全连接所有GPU,总共72颗Blackwell GPU芯片,AI训练总算力720 PetaFLOPS,推理1440 PetaFLOPS的液冷机柜。
不知道老黄为什么总有执念,要把这样一个NVL72系统画在一张晶圆上,这张(虚假的)晶圆有130万亿晶体管,其中20万亿用于计算——毕竟这样一个复杂系统,即便在同一个NVLink域内,也还是涉及到NVLink交换机互联和数据一致性之类的问题。
其实在今年CES上,他就展示了这个晶圆样式的NVL72系统——我们也知道以现在的半导体制造技术,要把这么多芯片和复杂的networking逻辑放到一张晶圆上是不现实的。但他可能就是为了表现NVL72系统相当于一大颗GPU,或者其工作效率犹如一颗GPU(以及也可能表达了对半导体制造行业跟不上AI技术发展深深的失望...)。
而规划中将在今年下半年上市的Blackwell Ultra芯片——看名字就知道这是Blackwell的升级版,单芯片有两片GPU die,所对应的算力是15 PFLOPS(Dense FP4),以及288GB HBM3e片上存储——这颗芯片本身的资料目前还不多(产品编号是B300)。
黄仁勋在主题演讲中强调的还是Blackwell Ultra构成的系统Blackwell Ultra NVL72,总共1.1 ExaFLOPS(Dense FP4)推理算力或0.36 ExaFLOPS FP8训练算力,是此前GB200 NVL72的1.5倍;新增加速注意力机制的新指令;内存容量1.5倍提升,基于CX8(ConnectX-8 NIC)的带宽2倍提升。
2026年下半年准备要来的Vera Rubin NVL144——则开始采用名为Vera的CPU(替代目前的Grace,88核176线程,1.8TB/s NVLink-C2C;性能据说是Grace的2倍,且功耗仅50W),以及代号Rubin的新GPU——标称FP4算力达到50 PFLOPS,288GB HBM4存储。
需要注意的是,Vera Rubin NVL144——这里的144和前面的72,在标定方式上有差别。此处的144是指总共144片die(2片die组成一颗Rubin芯片),所以Vera Rubin NVL144系统应该仍然是72颗Rubin芯片,但总共3.6 ExaFLOPS FP4推理和1.2 ExaFLOPS FP8训练性能,已经是GB300 NVL72(即Blackwell Ultra)的3.3倍了;1.6倍存储能力提升;新一代的NVLink6和CX9也准备实现2倍的带宽提升。
到2027年下半年,则会有Rubin Ultra芯片,以及对应的Rubin Ultra NVL576系统问世。从后面的576数字就知道,这是个规模更为庞大的NVLink域,总共576片Rubin Ultra die。届时单片Rubin Ultra的片内存储就有1TB HBM4e;整个系统性能会达到GB300 NVL72的14倍,存储资源涨8倍;配套NVLink7和CX9达成的带宽分别是目前这一代的12倍和8倍。
如果把这样一套系统也画在晶圆上,则它长下面这样:
1300万亿晶体管,总量是GB200 NVL72的10倍之多,总共12672个Vera CPU核心,576个CX9 NIC,72个BlueField DPU,144个NVLink Switch交换机,2304片内存芯片,以及576片Rubin GPU die。这才是真正的大力出奇迹......
想一想,老黄预备造此等大型NVLink域,并且下游要基于此再做scale out,构成AI计算集群,资本市场却在1-2个月前认为NVIDIA的芯片以后没地方卖了,还是挺魔幻的...
当我们在为这等规模的芯片和系统,计算它需要半导体行业支出多少成本时,老黄的账本是:Rubin达成相比于Hopper大约900倍性能提升,但基于TCO/Perf角度,Rubin的单位性能成本仅相当于Hopper的3%。
互联也要堆料,且用上硅光
说完计算(computing)硬件,就该聊聊networking(互联)和storage(存储)了。要说现在芯片厂商还真是预备包揽系统核心构成:当涉及一个NVL72这样的域(scale-up),或者再到AI计算集群(scale-out),计算瓶颈往往就在互联和存储上;AI芯片厂商现在操心的事情是真多。
除了已经在不少OEM和CSP厂商处准备就绪的Spectrum-X SuperNIC和Spectrum-X Ethernet Switch交换机(包含前述ConnectX-8/9,乃至10)之外,本届GTC的一个巨大看点应该就是NVIDIA Photonics硅光芯片,据说是首颗达成1.6Tb/s速率的CPO(Co-Packaged Optics)芯片,基于MRM(Micro Ring Modulators);也是首颗采用台积电工艺做3D堆叠的硅光引擎(3D Stacked Silicon Photonics Engine)。
去年面向媒体的NVIDIA Research闭门活动上,Bill就提到了NVIDIA在做硅光相关的研究——不过他提的方向主要是跨芯片封装的光通信(也就是scale-up方向)。这次公开的NVIDIA Photonics还是用于Spectrum-X和Quantum-X(即scale-out方向),面向以太网的Spectrum-X集成硅光芯片预计为今年下半年,面向Infiniband的Quantum-X集成硅光芯片则将着眼于明年下半年。
黄仁勋在此着重谈的是NVIDIA对MRM这一技术的投入。他将MRM和MZM(Mach-Zehnder Modulators)做了对比,提到如果我们要用万卡集群,那就需要几万个基于MZM的transceiver——每个30W功耗,也就是总共几十、上百万瓦功耗仅用在数据收发工作上(且每个收发器成本大约1000美元)。而在MRM的加持下,功率密度和效率就能大幅提升,极大降低networking的成本。
“光芯片(Photonic IC)垂直堆叠在电芯片(Electronic IC)上,再叠上一系列微透镜,加上光纤阵列(fiber array)——这些基于TSMC的COUPE技术进行制造。芯片封装则基于3D CoWoS。”涉及的生态合作伙伴据说还不少。未来我们有机会会对NVIDIA Photonics硅光芯片做更为细致的解析。
更关键的是基于此的NVIDIA Photonics Switch交换机,包括Spectrum-X Photonics和Quantum-X Photonics也要在今年和明年下半年问世了。黄仁勋说NVIDIA已经把为此获得的大量专利授权给了一些合作伙伴,让他们能够去造这类硅光交换机。基于硅光交换机,“在典型的数据中心里能够节省兆瓦(MW)级别的功耗,要知道6MW就相当于10个Rubin Ultra机架的功耗,60MW就是100个。”那么也就有了更多的资源用于真正的计算。
说完networking,稍微再谈谈storage(存储)——虽然这里的storage与本文AI技术栈堆料的思路不大相关,只是在我们看来有一定可能成为NVIDIA AI潜在技术栈的一环;并且它也能代表目前NVIDIA AI企业布局的一个面向。
今年的主题演讲里,黄仁勋明确说了计算三要素包含存储,那就必须“重新发明”存储:核心思想是要做基于语义的存储系统(semantics-based storage system),“存储系统需要持续在后台嵌入信息;获取raw数据,将其嵌入进知识库;做访问时,就不是检索获取数据,而是基于提问来获取。”
从示意图来看,有个语义请求agent,演示中是基于NeMo Retriever从企业文件和矢量数据库(NVIDIA cuVS)中,通过上层Llama Nemotron获取数据。NVIDIA认为将来每家企业都会有这样的系统,是“未来的企业存储”。所以这其实更像是面向企业存储解决方案的一个AI具体应用,而不是对AI底层性能与效率提升的技术——故而可能将这部分放在这里不是那么合适。
无论如何这也涉及到和存储行业的合作了,包括DDN, Dell, HPE, IBM, PureStorage等的合作。
硬件更新这部分的最后给一张来自Dell的PPT(下图)——虽然这并非完全表达AI数据中心基础设施,而更多是在谈企业AI构建,但我们认为对于描绘NVIDIA现如今的AI硬件及设备产品覆盖很有概括性。
老黄说这是Michael Dell在会前塞给他的:从最左边的AI PC(基于GeForce RTX显卡),到本次发布的DGX Spark(即CES上发布的Project DIGITS改名)和DGX Station(更高规格和性能版的Project DIGITS),都算是桌面型AI开发设备(老黄甚至用PC来形容DGX Station,说这是AI时代的计算机);往后到更大规模的服务器盒子、机柜,以及覆盖networking和storage产品,门类已经相当全面。
NVIDIA AI企业基础设施层面的布局是可见一斑的,而数据中心只是一环。这其中类似DGX Spark之类的设备也很有趣——听说它提供PCIe接口能接GeForce游戏显卡,值得我们未来再花笔墨书写。
堆料,真的能解决一切问题吗?
本文最后再谈一个老黄在主题演讲中花了比较多时间的理念宣导:以前他喜欢在GTC上大谈“买得越多,省得越多”(the more you buy, the more you save);这次的说辞则改成了“买得越多,赚得越多”(the more you buy, the more you make)。我们不谈NVIDIA的市场营销鬼才成分,简单谈谈这一理念的逻辑,以及我们从中看到的启示。
所谓的AI inference,也就是模型产生token的过程;老黄描述该过程即等价于企业产生营收和利润的过程。所以唯有提高推理效率,才能增加营收和利润。这次GTC上提出的黄氏理论是这样的,看下面这张图:
这张图的横轴表示和LLM模型对话时,对于一名用户而言,每秒token生成数。这个值当然越大越好,因为生成速度太慢也就意味着用户体验不佳;从他的讲解来看,这其中还暗含了另一重变量,即在保证AI高质量的情况下达成更快的响应速度(或在速度相同的情况下,更智能的AI模型)。
纵轴代表的,是对于AI数据中心而言总的每秒token生成数——它可以表征该数据中心的最大吞吐能力。横纵轴的两个维度通常是难两全的——比如一般达成更高的总吞吐,可以考虑基于大量用户请求做batching;但这对个体用户而言就意味着更久的等待时间。
所以对于AI数据中心提供的某个特定AI服务而言,采用不同的配置方案(曲线上不同的点),横纵轴总是此消彼长的关系,故而形成一条曲线。如果提升AI基础设施配置,包括算力水平、HBM存储容量和带宽,提升架构与上层软件的效率,则这条曲线会往右上方向去走(或者说曲线之下覆盖的坐标面积更大),也即意味着它可以达成更高和更理想的营收——这是老黄的说法。
如果将此理论具体应用到Hopper, Blackwell NVL8, Blackwell NVL72等系统身上,则它们的曲线基本是下面这样的:
这其中考虑系统本身的规模扩增(如从NVL8扩增到NVL72,即一个NVLink域内采用更多GPU芯片),推理数据格式变化(FP8, FP4),以及是否启用前文谈到的NVIDIA Dynamo来做配置优化。则曲线之下覆盖的坐标面积都有变化(或者用老黄的话来说,提升了企业营收)。
我们从这张图上看到的,倒不是如何达成企业营收最大化,而是达成在AI吞吐和质量两个变量间权衡的更多可能(如不同batch或并行配置方案;以及企业的业务特性更考虑偏向横轴还是纵轴),除了需要GPU堆料,显然还需要AI上层堆栈的优化:FP8→FP4,以及Dyanmo的提出皆如此;与此同时,即便是Blackwell NVL72硬件层面性能提升,也相关于整个系统,包括芯片互联、节点间通信,以及更高维度的networking。
所以外界对NVIDIA AI评价的“大力出奇迹”也并不是那么准确;毕竟作为一家芯片公司,如果NVIDIA真的就靠半导体行业的技术进步来发展AI,那这家公司也绝不可能达到现在的市值。或者换句话来说,半导体行业本身的技术进步速度,真的已经远远赶不上AI技术的发展了。
- 写得很好!
