“物理智能(Physical AI)”,是黄仁勋在CES 2025上发表主题演讲时提出的新概念。他指出,自2012年AlexNet刮起当代AI旋风以后,AI相继经历了“Perception AI”(感知AI)、“Generative AI”(生成式AI)、“Agentic AI”(智能体AI)时代,而即将全面到来的“Physical AI”时代,将是在1000万工厂、20万仓库、15亿汽车和卡车及海量人形机器人之上应用的下一波万亿规模市场驱动力。
截图出自NVIDIA CES 2025开幕主题演讲

欢迎来到“物理智能”时代
在NVIDIA看来,尽管Physical AI被称之为“大语言模型对生成式AI的变革性影响”,但其实现的最大挑战主要来自数据策略。如果用一个形象的比喻来解释的话,就是虽然机器人基础模型已经基于多模态数据做了大量预训练,但仅拥有这类通用知识的它们“就好像刚毕业的大学生”,还需要更实用的技能才能完成对应的工作。此时,“后训练(Post Training)”就变得十分重要。
汽车在某种程度上其实也可以被视作是特殊类型的机器人。一直以来,为了构建物理AI模型并确保自动驾驶技术的顺利迭代,车厂通常需要收集PB级别的视频数据以及数万小时的计算来处理、过滤、标记这些数据。
但和智能体AI不同,无论是汽车还是机器人,作为现实世界的实体,如果完全由人类给予操作演示数据和物理测试,其试错和测试成本相当高,而且还存在安全问题,我们也不能指望机器人花费数百万年才实现充分的智能。而且即便真的这么做了,很多长尾场景还无法实现覆盖。
所以,黄仁勋说,未来打造自动驾驶汽车,就像构建所有机器人一样,将需要3个计算平台——NVIDIA DGX用于在数据中心训练基于AI的堆栈;运行在NVIDIA OVX™ 平台上的NVIDIA Omniverse™平台,用于仿真和合成数据的生成;而车载计算平台DRIVE AGX则是超级计算平台,用于处理实时传感器数据以实现安全驾驶——这就是NVIDIA面向自动驾驶汽车开发提出的“3个计算平台”解决方案存在的逻辑基础。
截图出自NVIDIA CES 2025开幕主题演讲
具体而言,第一个计算平台用于训练AI模型的系统。训练通常在云端、数据中心或像NVIDIA DGX这样的强大系统上进行,这是构建汽车“大脑”的关键步骤。第二个计算平台用于仿真:一旦训练完成,就需要进行测试。以往的标准是物理测试,但这种方式既慢又昂贵,还存在风险,更好的解决方案是引入一个“仿真层”,即“数字孪生”,在虚拟环境中完成测试,无需受到真实世界时间或成本的限制。第三个计算平台则用于部署:对NVIDIA来说,这可以通过像Jetson或AGX这样的系统来实现,它们安装在机器人内部,是操作物理机器人的“大脑”。
通过整合这三种系统,可以显著缩短汽车和机器人的“训练-仿真-测试”流程,大大加速开发和上市时间。黄仁勋透露称,如果将3个计算平台解决方案套用到汽车行业,NVIDIA的汽车业务预计在2026财年将达到50亿美元(约合人民币365亿元)的规模。
为未来的汽车开发做好准备
基于NVIDIA Blackwell架构构建的 NVIDIA DRIVE AGX Thor系统级芯片(SoC)专为处理交通行业最苛刻的数据密集型工作负载而设计,包括涉及生成式AI、视觉语言模型和大语言模型的工作负载。1000 TFLOPS的加速计算性能,可加速推理任务,这对自动驾驶汽车理解和导航周边世界至关重要,例如识别行人、适应恶劣天气等。
目前,包括比亚迪、捷豹路虎、理想汽车、Lucid、梅赛德斯-奔驰、蔚来、Nuro、Rivian、沃尔沃汽车、Waabi、Wayve、小米、极氪在内的多家企业,都已宣布计划采用NVIDIA DRIVE AGX作为其下一代高级驾驶辅助系统和自动驾驶汽车的平台。
Aurora、大陆集团和NVIDIA也宣布建立长期战略合作关系,共同大规模部署由下一代 NVIDIA DRIVE Thor系统级芯片驱动的自动驾驶卡车。NVIDIA的DRIVE Thor和 DriveOS将被集成到大陆集团SAE L4级自动驾驶系统Aurora Driver中,计划于2027年大规模量产。
DRIVE AGX Thor的前代产品NVIDIA DRIVE AGX Orin是一款经过生产验证的先进驾驶辅助系统计算平台,它每秒可进行254万亿次加速计算,能够处理做出安全、实时驾驶决策所需的传感器数据,目前被广泛应用于众多智能汽车,继续担当着主流之选的角色。
例如全球最大的汽车制造商丰田将基于NVIDIA DRIVE Orin高性能车规级系统级芯片制造其下一代车型,并进一步运行经过安全认证的NVIDIA DriveOS 操作系统。这些车型将提供具有功能安全保障的高级辅助驾驶功能。
在DRIVE AGX Thor基础上打造的DRIVE Hyperion则是业内首个也是唯一一个端到端自动驾驶平台,它包括DRIVE AGX™系统级芯片(SoC)、参考板设计、NVIDIA DriveOS汽车操作系统、传感器套件以及主动安全和L2+驾驶堆栈,并已通过两家业内权威的汽车功能安全和网络安全认证评估机构——TÜV SÜD和TÜV Rheinland的行业安全评估。
更智能、更快速、更精确的自动驾驶汽车AI模型开发
再来谈一谈NVIDIA Cosmos平台。
Cosmos由先进的生成式世界基础模型(WFMs)、高级tokenizer、护栏以及加速视频处理管线组成,是上述三个全栈平台的有益补充,旨在推动自动驾驶汽车和机器人等物理AI系统的发展。随着Cosmos的加入,开发者将获得一个数据飞轮,能将数千英里的人类驾驶里程转化为数十亿英里的虚拟驾驶里程,从而提升训练数据的质量。
如前文所述,物理AI模型的开发成本很高并且需要大量真实数据和测试。Cosmos世界基础模型使开发者能够轻松生成大量基于物理学的逼真合成数据,以用于训练和评估其现有的模型,他们还可以通过微调Cosmos WFM构建自定义模型。
需要强调的是,这里的“世界”,并非传统意义上我们所理解的概念,而是指汽车、机器人交互的环境,例如机器人操作的房间内可见区域、仿真工业环境(例如仓库或工厂)和驾驶环境(包括各种路况),它可以生成高度逼真、基于物理学的视频环境,用于机器人训练。
为了理解“世界基础模型”带来的好处,NVIDIA机器人与边缘计算副总裁Deepu Talla曾用了一个简单的例子来进行描述:在开发过程中,可以直接输入自然语言指令,比如“构建一个包含玻璃花瓶、木质桌子和金属桌腿的室内场景”,世界基础模型就能够自动解析这些指令,并基于其对于物理世界的理解,构建出相应的仿真环境。这样一来,就可以大幅节省构建仿真环境的时间,同时提升仿真环境的真实性和多样性。
“通过将少量的现实世界数据与使用NVIDIA Cosmos生成的大规模合成数据相结合,就可以克服相关技术领域中数据稀缺的问题”,Deepu Talla表示,“目前,这种新工作流已经宣布并部分上线。NVIDIA正在与全球合作伙伴共同实施这一解决方案,以解决面临的基础数据挑战。”
从量化角度来看,NVIDIA NeMo™ Curator驱动的NVIDIA AI和CUDA加速数据处理管线,使开发者能够使用NVIDIA Blackwell平台在14天内处理、整理和标记2000万小时的视频,而如果单纯使用CPU则需要3年以上。NVIDIA Cosmos Tokenizer则可将图像和视频转换成token,与当前领先的tokenizer相比,其总压缩率提高了8倍,处理速度提高了12倍。
为了加速机器人和自动驾驶汽车行业的工作,Cosmos模型将以开放模型许可证的方式提供。开发者可以在NVIDIA API目录中预览首批模型,也可以从NVIDIA NGC™目录或Hugging Face下载整个系列的模型和微调框架。
Cosmos的首批用户包括1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot,、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi和小鹏汽车等领先机器人和汽车公司以及共享出行巨头Uber。
NVIDIA将Cosmos定位为物理AI领域的“ChatGPT”,目标是通过开放式的基础模型让更多开发者触及高质量数据资源和AI工具。这种策略有两层含义:一是降低技术门槛。即通过开放Cosmos平台,开发人员可以在NVIDIA加速计算系统上轻松部署模型,避免高昂的数据采集成本;二是扩大生态影响。通过与合作伙伴的合作,进一步扩大了NVIDIA在物理AI领域的生态影响力。当其与Omniverse结合后,一套为车企提供的“从产线设计到产品优化的全流程支持”,便跃然而出。
结语
“自动驾驶时代已经到来。”正如黄仁勋所言,在这场变革中,NVIDIA不仅是技术的推动者,更是未来出行方式的定义者。生成式AI、仿真技术和三个计算平台方法的加持下,自动驾驶车辆的性能和开发工作取得的突破性进展将更多,不断提高着自动驾驶汽车的安全和性能。
