在NVIDIA踩中AI尤其是生成式AI的风口之后,很多人说老黄这个有危机意识的人已经在想着能否踩中下一个风口了。那么下一个风口是什么呢?过去一年多在不同活动的主题演讲中,黄仁勋已经明显开始增加有关机器人技术的篇幅。
今年CES展的主题演讲,所有人预期主角应该是GeForce RTX 50系显卡——这的确是个主角,但没有我们想象得那么主角。一个半小时的主题演讲,大约有近一半时间是给到了机器人的。GeForce RTX 50系显卡的发布只用了10分钟...
黄仁勋总结自2012年AlexNet刮起当代AI旋风以后,AI相继经历了“Perception AI”(感知AI)、“Generative AI”(生成式AI)、“Agentic AI”(智能体 AI),及即将全面到来的“Physical AI”时期——包括自动驾驶汽车和各类机器人。在NVIDIA看来,Physical AI是将在1000万工厂、20万仓库、15亿汽车和卡车及海量人形机器人之上应用的下一波万亿规模市场驱动力。
这是个还挺高度抽象时代发展的概括,尤其是将生成式AI之前的CV/ASR/NLP应用称作Perception AI,并且提炼到现如今出现了越来越多的基于生成式AI的助手型AI智能体,尔后将AI延伸到物理世界的Physical AI——听起来是个非常符合直觉的发展路线。
如果说当代LLM结合RAG之类的技术方法,我们给大模型一些PDF参考文件作为其回答的依据,则这些PDF需要转为token;Transformer的自注意力机制决定了每个token需要找到与其他token的相关性...基于各种对参数、输入序列、在网络每一层的处理等等,产出1个token;随后该token也作为输入序列,参与生成下一个token...
如果把此处作为上下文的PDF换成现实世界的周遭环境,将我们对LLM发出的提问换成具体的操纵请求,而生成的token不再是文本而是动作,那么我们就得到了一个AI机器人——即physical AI。
上面这段话是黄仁勋在CES主题演讲中,谈机器人话题开篇时所说。这也很好地向我们展示了,如果将住在计算机里面的生成式AI,转为需要参与现实世界生产的机器人,究竟是怎样的一个过程。基于此,NVIDIA这次在机器人领域也发布了好几项还挺重磅的产品。这些产品能够真正体现NVIDIA对于机器人未来发展的信心与野心。
3台计算机,最赚钱的不是机器人本身
关注NVIDIA机器人技术的读者,对于过去1-2年内,NVIDIA反复在提机器人所需的3台计算机应该不会陌生。其中一台计算机用于AI模型训练;一台则用于构建虚拟环境,相当于在虚拟世界里面测试模型和机器人,并生成训练所需的合成数据;还有一台就是在机器人身体里跑模型的计算机了。
对于这三台计算机的另外一种描述方式是:一台计算机用于训练AI模型;一台计算机用于部署AI,也就是机器人体内那台;还有一台则负责数字孪生的虚拟世界模拟,是将前两台计算机真正实现联结的计算机——训练得到的AI在这里进行模拟测试,且基于合成数据生成及强化学习AI反馈,让模型和算法真正走向可用和好用。
之所以提出这套解决方案,一方面当然在于NVIDIA本身出售这三台计算机产品;另一方面则在于:和智能体AI不同,机器人作为现实世界的实体,其试错和测试成本相当之高,而且还存在安全问题。用NVIDIA的话来说,人类自身进化了超过600万年才有了现在的能力;我们不可能指望机器人也在现实世界里进化这么久才实现充分的智能。
在NVIDIA看来,physical AI实现的最大挑战就在数据策略上。虽然机器人基础模型已经基于多模态数据做了大量预训练,但仅拥有这类通用知识“就像刚毕业的大学生”,还是需要更实用的技能才能完成对应的工作。“后训练(post training)”就变得很重要。
基于现实世界的“后训练”所需成本就非常高。在机器人这个大类中,有个相对特殊的类型就是汽车——汽车可以视作是某种特殊的机器人。车厂通常需要行驶大量路程以后,收集PB级别的数据,还要进行处理、过滤、标记。到通用型机器人,如果完全由人类给予机器人操作演示数据,还进行物理测试,则成本和风险都会变得不可承受;而且即便真的这么做了,不少长尾场景还覆盖不到。
这是NVIDIA面向机器人的“3台计算机”解决方案存在的逻辑基础。
Rev Lebaredian(NVIDIA Omniverse与模拟技术副总裁)在媒体会上特别提到,于这3台计算机而言,NVIDIA的主要盈利机会点其实是在AI模型训练和虚拟世界模拟这两台计算机上——也就是图中的上面两台计算机,而非很多人直觉上所见的机器人本身。
NVIDIA虽然没有去谈面向机器人时,这3台计算机分别产生的营收构成;但在谈到汽车时,提及汽车业务于NVIDIA的营收量级目前在10亿美元上下——如果将3台计算机解决方案套用到汽车身上,则预期2026财年(通常为2025自然年)云和汽车业务可共同产生的营收大约在50亿美元左右。可见NVIDIA在这类解决方案中的营收大头并不在机器人/汽车本体。
世界模型:机器人AI时代的Llama
顺着这个思路,NVIDIA要在头两台计算机上创造更高的价值,就需要为开发者提供更便于模型训练及机器人模拟的工具。如文首比喻智能体AI时代的PDF文档,包括机器人在内的physical AI所需感知的周遭环境数据,自然比PDF文档复杂许多。所以机器人需要世界模型(world model)。
“世界模型需要理解世界的语言,理解物理动态——引力、摩擦力、惯性等等,理解几何与空间关系,理解因果关系,理解物体存继性(object permanence)。”黄仁勋在发布会上说,“所有这些符合直觉的理解,是现在绝大部分模型很难搞定的。”
“所以我们需要世界基础模型。”于是就有了本届CES上发布的Cosmos世界基础模型——而且NVIDIA说这是全球首个世界基础模型。实际上,应该说NVIDIA Cosmos是个世界基础模型开发平台,目标市场就是physical AI,同时包含了机器人和汽车。
Cosmos生成的影像
前不久的ROSCon机器人大会上,NVIDIA就向我们介绍过Cosmos tokenizer——这也是本次发布Cosmos平台的一部分。总的来说,Cosmos平台主要包含几个组成部分:
- Diffusion扩散模型和自回归模型(autoregressive model),输入文本、图像或视频数据,生成包括虚拟世界状态在内的视频片段,作为训练的合成数据;
- 如果开发者打算用自己的模型,也可以使用其中的视频tokenizer(图像和视频数据的tokenizer,也就是将视觉数据token化;可应用于图片和视频生成,及为开发多模态生成式AI模型整合数据)——NVIDIA宣称Cosmos tokenizer可以达成相较其他tokenizer更高8倍的压缩率和12倍的性能;
- 还有对应的、实现了AI加速的视频数据处理pipeline,基于CUDA加速处理海量视频数据——NVIDIA将其称作面向自动驾驶汽车与机器人公司构建训练数据的game changer…
- 当然也支持模型的guardrail,也就是限定范围的规范化,确保安全和可靠使用;及支持模型fine-tune,以自有数据对模型做定制;
本次发布的Diffusion和自回归模型应当都已经登陆Hugging Face和NVIDIA NGC;Cosmos平台也开启了授权。据说这些基础模型本身经过了2000万小时视频数据的训练,包括诸多自然动态属性,如行走、手部动作、操纵方式、快速的摄像头视角移动等…换句话说,也就是教AI理解物理世界…
CES期间发布的不同规模的Cosmos世界基础模型主要包括有:Cosmos Nano, Cosmos Super, Cosmos Ultra,对应于快速、主流、高精度与高质量的模型选择。
NVIDIA对于Cosmos应当是寄予了厚望的,“我们希望Cosmos世界基础模型之于机器人和工业AI,就相当于Llama 3之于企业AI。”或者说NVIDIA希望Cosmos在physical AI时代的价值,就相当于Llama之于智能体AI时代。
Cosmos、多元宇宙、时间宝石
一言蔽之,Cosmos模型作为生成自动驾驶和机器人行动模型的基础模型存在;或者Cosmos模型可以扮演teacher model的角色,提供强化训练AI反馈,来提升和测试机器人策略。Rev介绍说已经有合作伙伴(1X Technologies)用Cosmos来评估其自家模型,看模型在特定场景下的表现如何。
所以不同的企业应当是可以根据自己的需要,来选择Cosmos平台中的不同构成要素去辅助机器人开发的。
很自然的,延续3台计算机解决方案思路,而且涉及到物理级世界合成数据,NVIDIA把Cosmos和Omniverse放到了一起。我们知道Omniverse是NVIDIA的元宇宙,或者说符合物理世界规则的数字孪生平台。黄仁勋形容Omniverse为“physics grounded”。这么做也算是真正把Omniverse延展到了物理世界。
“将Omniverse与Cosmos联结,实现生成的可控。”如果要类比两者的结合,可以理解为LLM + RAG,确保AI生成是基于ground truth的。Omniverse + Cosmos也迈向机器人和汽车,实现了符合物理世界规则、可控的数据生成。
开发者在Omniverse中构建3D世界,基于特定需求在这个虚拟空间打造真实世界场景;然后渲染图像和视频进入到Cosmos中,也就能生成视频片段大型数据集,用于post training。
换句话说,基于生成不同的多物理可信场景(phsically plausible scenario),让机器人在AI虚拟世界里尝试各种不同的可能性。一个比较有趣的比方,是NVIDIA将Omniverse + Cosmos比作是多元宇宙模拟引擎。
因为对于汽车和机器人而言,这就是个多元宇宙、尝试不同可能性的模拟仿真过程,“就像‘奇异博士’模拟出了各种可能性的未来”。
电影《复仇者联盟3:无限战争》有这样一个情节,奇异博士因为手持时间宝石能够穿梭于未来和现在;他基于这样的能力,做出各种不同选择,来事先看到未来复仇者联盟及人类可能的不同结局走向,并返回现实选择一个最优解。
Cosmos缔造的多元宇宙
实际上,仔细想一想我们所知NVIDIA的机器人及汽车解决方案,乃至扩展到所有数字孪生、Omniverse解决方案,都可以形象地比作奇异博士的这一能力。现在将其拿来给Cosmos做比,还是可见NVIDIA市场部门的鬼才操作的。数字孪生+AI本来就是通过模拟各种可能的方向,来最终选择正确路径或可行的最优解。
目前NVIDIA公布已经开始采用NVIDIA Cosmos的企业包括有小鹏汽车、Uber、Galbot、Fourier、Wayve、Agility Robotics等。
机器人开发的参考工作流
CES期间还有一些相关Cosmos的发布,比如已经就Cosmos展开与某些生产制造企业的合作,与高校合作配套的benchmark基准测试,以及针对physical AI的两个Blueprints(即NVIDIA官方发布的更具体的参考工作流)等。因为篇幅的原因,本文只选择某些具代表性的稍作介绍。
传统人形机器人和汽车的一大差异,还是在于人形机器人需要模仿人类的某些动作,毕竟汽车只需要解决在路上行驶的问题就够了——从这个角度来看人形机器人的训练和模仿数据收集获取也更有难度。
这颗倒不是时间宝石,而是新发布面向机器人与汽车的Thor(Hyperion 9平台)
对机器人而言,哪怕只是针对一个简单的任务(比如把某对象捡起从一个框放进另一个框里),人类动作的演示不光要有量,还需要经过严密规划,然后藉由AI和Omniverse来进行合成数据的量级扩增。基于这样的逻辑,NVIDIA发布了名为Isaac GR00T的合成动作生成(synthetic motion generation)参考流程。
Isaac GR00T面向人形机器人开发者提供了4个核心组件:机器人基础模型、合成动作与数据生成pipeline、模拟框架(Isaac Lab & Isaac Sim)、Thor(也就是第3台计算机,本次新发布的Thor Blackwell机器人处理器)。在开发者不需要太多的人类动作演示的情况下,就生成大型数据集,其流程如下图所示。
首先借助GR00T-Teleop,用Apple Vision Pro头显将演示者(比如操作人员)的动作演示记录并转为机器人可参考的数字孪生,在不需要机器人的情况下也能抓取数据。通过一系列的操作演示,抓取动作轨迹,GR00T-Mimic会将这些动作轨迹扩增为更大型的数据集。
随后基于Omniverse + Cosmos的GR00T-Gen实现指数级的数据集扩增,在前述“多元宇宙模拟引擎”的加持下训练机器人策略。训练完成后,开发者就可以在Isaac Sim中进行SIL软件在环测试和验证,最终部署到机器人身上。已经有包括1X, Fourier, Galbots等在内的企业开始采用这套流程。
除了Isaac GR00T之外,NVIDIA这次还发布了针对机器人集群模拟的Mega参考工作流,已经有包括Kion, Accenture等在内的供应链解决方案或服务企业开始采用等,此处不再做列举。不过很显然,无论是所谓50万亿市场价值的工业制造,还是10万亿规模的仓储与分发服务市场,NVIDIA都准备以机器人为出发点,从中分一杯羹。
而且如果将汽车也视作机器人的一部分,本文甚至还未对NVIDIA在汽车市场的发展状况做介绍(尤其和丰田的合作、DRIVE OS通过最高ASIL-D功能安全认证等)…
不过到这里,我们也会发现一个有趣的事实:以相对低成本训练机器人所需的软硬件,都是在这个时代刚刚准备就绪的,比如像Apple Vision Pro这样的数字与现实世界入口,以及承载合成数据生成、模型训练与调优的硬件,乃至部署到机器人身上的芯片或计算机载体。
在机器人的3台计算机和周边生态、开发工具相继准备就绪的情况下,黄仁勋自然从去年开始反复强调通用机器人的ChatGPT时刻已经到来。“所有我今天谈论的技术都将在未来数年内成为可能,在通用机器人领域看到快速和令人惊叹的突破。”
这也践行了在AI高速发展时代,万物皆可生成的预言——去年GTC上黄仁勋就提出的万物皆可token化,万物皆可生成。“应用是无止尽的。实际上针对我们所见的几乎任意AI应用,问出这样3个基本问题:习得的输入模态(modality)是什么,转化以后的信息模态是什么,生成的信息模态是什么?也就关乎于每个应用都能推理。”
“当我们看到各种AI驱动、AI原生的应用,其基本概念也就是如此。”“机器学习变革了每个应用构建的方式,改变了计算实现的方法,衍伸了各种可能性。”而机器人显然是诸多AI应用中的一个,也是NVIDIA眼中的下一个大趋势或市场价值重心。