很多人以为,今年CES上老黄演讲的主角是GeForce显卡,但其实是他手里握有的机器人相关的“时间宝石”...

在NVIDIA踩中AI尤其是生成式AI的风口之后,很多人说老黄这个有危机意识的人已经在想着能否踩中下一个风口了。那么下一个风口是什么呢?过去一年多在不同活动的主题演讲中,黄仁勋已经明显开始增加有关机器人技术的篇幅。

今年CES展的主题演讲,所有人预期主角应该是GeForce RTX 50系显卡——这的确是个主角,但没有我们想象得那么主角。一个半小时的主题演讲,大约有近一半时间是给到了机器人的。GeForce RTX 50系显卡的发布只用了10分钟...

黄仁勋总结自2012年AlexNet刮起当代AI旋风以后,AI相继经历了“Perception AI”(感知AI)、“Generative AI”(生成式AI)、“Agentic AI”(智能体 AI),及即将全面到来的“Physical AI”时期——包括自动驾驶汽车和各类机器人。在NVIDIA看来,Physical AI是将在1000万工厂、20万仓库、15亿汽车和卡车及海量人形机器人之上应用的下一波万亿规模市场驱动力。

这是个还挺高度抽象时代发展的概括,尤其是将生成式AI之前的CV/ASR/NLP应用称作Perception AI,并且提炼到现如今出现了越来越多的基于生成式AI的助手型AI智能体,尔后将AI延伸到物理世界的Physical AI——听起来是个非常符合直觉的发展路线。

如果说当代LLM结合RAG之类的技术方法,我们给大模型一些PDF参考文件作为其回答的依据,则这些PDF需要转为token;Transformer的自注意力机制决定了每个token需要找到与其他token的相关性...基于各种对参数、输入序列、在网络每一层的处理等等,产出1个token;随后该token也作为输入序列,参与生成下一个token...

如果把此处作为上下文的PDF换成现实世界的周遭环境,将我们对LLM发出的提问换成具体的操纵请求,而生成的token不再是文本而是动作,那么我们就得到了一个AI机器人——即physical AI。

上面这段话是黄仁勋在CES主题演讲中,谈机器人话题开篇时所说。这也很好地向我们展示了,如果将住在计算机里面的生成式AI,转为需要参与现实世界生产的机器人,究竟是怎样的一个过程。基于此,NVIDIA这次在机器人领域也发布了好几项还挺重磅的产品。这些产品能够真正体现NVIDIA对于机器人未来发展的信心与野心。

 

3台计算机,最赚钱的不是机器人本身

关注NVIDIA机器人技术的读者,对于过去1-2年内,NVIDIA反复在提机器人所需的3台计算机应该不会陌生。其中一台计算机用于AI模型训练;一台则用于构建虚拟环境,相当于在虚拟世界里面测试模型和机器人,并生成训练所需的合成数据;还有一台就是在机器人身体里跑模型的计算机了。

对于这三台计算机的另外一种描述方式是:一台计算机用于训练AI模型;一台计算机用于部署AI,也就是机器人体内那台;还有一台则负责数字孪生的虚拟世界模拟,是将前两台计算机真正实现联结的计算机——训练得到的AI在这里进行模拟测试,且基于合成数据生成及强化学习AI反馈,让模型和算法真正走向可用和好用。

之所以提出这套解决方案,一方面当然在于NVIDIA本身出售这三台计算机产品;另一方面则在于:和智能体AI不同,机器人作为现实世界的实体,其试错和测试成本相当之高,而且还存在安全问题。用NVIDIA的话来说,人类自身进化了超过600万年才有了现在的能力;我们不可能指望机器人也在现实世界里进化这么久才实现充分的智能。

在NVIDIA看来,physical AI实现的最大挑战就在数据策略上。虽然机器人基础模型已经基于多模态数据做了大量预训练,但仅拥有这类通用知识“就像刚毕业的大学生”,还是需要更实用的技能才能完成对应的工作。“后训练(post training)”就变得很重要。

基于现实世界的“后训练”所需成本就非常高。在机器人这个大类中,有个相对特殊的类型就是汽车——汽车可以视作是某种特殊的机器人。车厂通常需要行驶大量路程以后,收集PB级别的数据,还要进行处理、过滤、标记。到通用型机器人,如果完全由人类给予机器人操作演示数据,还进行物理测试,则成本和风险都会变得不可承受;而且即便真的这么做了,不少长尾场景还覆盖不到。

这是NVIDIA面向机器人的“3台计算机”解决方案存在的逻辑基础。

Rev Lebaredian(NVIDIA Omniverse与模拟技术副总裁)在媒体会上特别提到,于这3台计算机而言,NVIDIA的主要盈利机会点其实是在AI模型训练和虚拟世界模拟这两台计算机上——也就是图中的上面两台计算机,而非很多人直觉上所见的机器人本身。

NVIDIA虽然没有去谈面向机器人时,这3台计算机分别产生的营收构成;但在谈到汽车时,提及汽车业务于NVIDIA的营收量级目前在10亿美元上下——如果将3台计算机解决方案套用到汽车身上,则预期2026财年(通常为2025自然年)云和汽车业务可共同产生的营收大约在50亿美元左右。可见NVIDIA在这类解决方案中的营收大头并不在机器人/汽车本体。

 

世界模型:机器人AI时代的Llama

顺着这个思路,NVIDIA要在头两台计算机上创造更高的价值,就需要为开发者提供更便于模型训练及机器人模拟的工具。如文首比喻智能体AI时代的PDF文档,包括机器人在内的physical AI所需感知的周遭环境数据,自然比PDF文档复杂许多。所以机器人需要世界模型(world model)。

“世界模型需要理解世界的语言,理解物理动态——引力、摩擦力、惯性等等,理解几何与空间关系,理解因果关系,理解物体存继性(object permanence)。”黄仁勋在发布会上说,“所有这些符合直觉的理解,是现在绝大部分模型很难搞定的。”

“所以我们需要世界基础模型。”于是就有了本届CES上发布的Cosmos世界基础模型——而且NVIDIA说这是全球首个世界基础模型。实际上,应该说NVIDIA Cosmos是个世界基础模型开发平台,目标市场就是physical AI,同时包含了机器人和汽车。

Cosmos生成的影像

前不久的ROSCon机器人大会上,NVIDIA就向我们介绍过Cosmos tokenizer——这也是本次发布Cosmos平台的一部分。总的来说,Cosmos平台主要包含几个组成部分:

  • Diffusion扩散模型和自回归模型(autoregressive model),输入文本、图像或视频数据,生成包括虚拟世界状态在内的视频片段,作为训练的合成数据;
  • 如果开发者打算用自己的模型,也可以使用其中的视频tokenizer(图像和视频数据的tokenizer,也就是将视觉数据token化;可应用于图片和视频生成,及为开发多模态生成式AI模型整合数据)——NVIDIA宣称Cosmos tokenizer可以达成相较其他tokenizer更高8倍的压缩率和12倍的性能;
  • 还有对应的、实现了AI加速的视频数据处理pipeline,基于CUDA加速处理海量视频数据——NVIDIA将其称作面向自动驾驶汽车与机器人公司构建训练数据的game changer…
  • 当然也支持模型的guardrail,也就是限定范围的规范化,确保安全和可靠使用;及支持模型fine-tune,以自有数据对模型做定制;

本次发布的Diffusion和自回归模型应当都已经登陆Hugging Face和NVIDIA NGC;Cosmos平台也开启了授权。据说这些基础模型本身经过了2000万小时视频数据的训练,包括诸多自然动态属性,如行走、手部动作、操纵方式、快速的摄像头视角移动等…换句话说,也就是教AI理解物理世界…

CES期间发布的不同规模的Cosmos世界基础模型主要包括有:Cosmos Nano, Cosmos Super, Cosmos Ultra,对应于快速、主流、高精度与高质量的模型选择。

NVIDIA对于Cosmos应当是寄予了厚望的,“我们希望Cosmos世界基础模型之于机器人和工业AI,就相当于Llama 3之于企业AI。”或者说NVIDIA希望Cosmos在physical AI时代的价值,就相当于Llama之于智能体AI时代

 

Cosmos、多元宇宙、时间宝石

一言蔽之,Cosmos模型作为生成自动驾驶和机器人行动模型的基础模型存在;或者Cosmos模型可以扮演teacher model的角色,提供强化训练AI反馈,来提升和测试机器人策略。Rev介绍说已经有合作伙伴(1X Technologies)用Cosmos来评估其自家模型,看模型在特定场景下的表现如何。

所以不同的企业应当是可以根据自己的需要,来选择Cosmos平台中的不同构成要素去辅助机器人开发的。

很自然的,延续3台计算机解决方案思路,而且涉及到物理级世界合成数据,NVIDIA把Cosmos和Omniverse放到了一起。我们知道Omniverse是NVIDIA的元宇宙,或者说符合物理世界规则的数字孪生平台。黄仁勋形容Omniverse为“physics grounded”。这么做也算是真正把Omniverse延展到了物理世界。

“将Omniverse与Cosmos联结,实现生成的可控。”如果要类比两者的结合,可以理解为LLM + RAG,确保AI生成是基于ground truth的。Omniverse + Cosmos也迈向机器人和汽车,实现了符合物理世界规则、可控的数据生成。

开发者在Omniverse中构建3D世界,基于特定需求在这个虚拟空间打造真实世界场景;然后渲染图像和视频进入到Cosmos中,也就能生成视频片段大型数据集,用于post training。

换句话说,基于生成不同的多物理可信场景(phsically plausible scenario),让机器人在AI虚拟世界里尝试各种不同的可能性。一个比较有趣的比方,是NVIDIA将Omniverse + Cosmos比作是多元宇宙模拟引擎。

因为对于汽车和机器人而言,这就是个多元宇宙、尝试不同可能性的模拟仿真过程,“就像‘奇异博士’模拟出了各种可能性的未来”。

电影《复仇者联盟3:无限战争》有这样一个情节,奇异博士因为手持时间宝石能够穿梭于未来和现在;他基于这样的能力,做出各种不同选择,来事先看到未来复仇者联盟及人类可能的不同结局走向,并返回现实选择一个最优解。

Cosmos缔造的多元宇宙

实际上,仔细想一想我们所知NVIDIA的机器人及汽车解决方案,乃至扩展到所有数字孪生、Omniverse解决方案,都可以形象地比作奇异博士的这一能力。现在将其拿来给Cosmos做比,还是可见NVIDIA市场部门的鬼才操作的。数字孪生+AI本来就是通过模拟各种可能的方向,来最终选择正确路径或可行的最优解。

目前NVIDIA公布已经开始采用NVIDIA Cosmos的企业包括有小鹏汽车、Uber、Galbot、Fourier、Wayve、Agility Robotics等。

 

机器人开发的参考工作流

CES期间还有一些相关Cosmos的发布,比如已经就Cosmos展开与某些生产制造企业的合作,与高校合作配套的benchmark基准测试,以及针对physical AI的两个Blueprints(即NVIDIA官方发布的更具体的参考工作流)等。因为篇幅的原因,本文只选择某些具代表性的稍作介绍。

传统人形机器人和汽车的一大差异,还是在于人形机器人需要模仿人类的某些动作,毕竟汽车只需要解决在路上行驶的问题就够了——从这个角度来看人形机器人的训练和模仿数据收集获取也更有难度。

这颗倒不是时间宝石,而是新发布面向机器人与汽车的Thor(Hyperion 9平台)

对机器人而言,哪怕只是针对一个简单的任务(比如把某对象捡起从一个框放进另一个框里),人类动作的演示不光要有量,还需要经过严密规划,然后藉由AI和Omniverse来进行合成数据的量级扩增。基于这样的逻辑,NVIDIA发布了名为Isaac GR00T的合成动作生成(synthetic motion generation)参考流程。

Isaac GR00T面向人形机器人开发者提供了4个核心组件:机器人基础模型、合成动作与数据生成pipeline、模拟框架(Isaac Lab & Isaac Sim)、Thor(也就是第3台计算机,本次新发布的Thor Blackwell机器人处理器)。在开发者不需要太多的人类动作演示的情况下,就生成大型数据集,其流程如下图所示。

首先借助GR00T-Teleop,用Apple Vision Pro头显将演示者(比如操作人员)的动作演示记录并转为机器人可参考的数字孪生,在不需要机器人的情况下也能抓取数据。通过一系列的操作演示,抓取动作轨迹,GR00T-Mimic会将这些动作轨迹扩增为更大型的数据集。

随后基于Omniverse + Cosmos的GR00T-Gen实现指数级的数据集扩增,在前述“多元宇宙模拟引擎”的加持下训练机器人策略。训练完成后,开发者就可以在Isaac Sim中进行SIL软件在环测试和验证,最终部署到机器人身上。已经有包括1X, Fourier, Galbots等在内的企业开始采用这套流程。

除了Isaac GR00T之外,NVIDIA这次还发布了针对机器人集群模拟的Mega参考工作流,已经有包括Kion, Accenture等在内的供应链解决方案或服务企业开始采用等,此处不再做列举。不过很显然,无论是所谓50万亿市场价值的工业制造,还是10万亿规模的仓储与分发服务市场,NVIDIA都准备以机器人为出发点,从中分一杯羹。

而且如果将汽车也视作机器人的一部分,本文甚至还未对NVIDIA在汽车市场的发展状况做介绍(尤其和丰田的合作、DRIVE OS通过最高ASIL-D功能安全认证等)…

不过到这里,我们也会发现一个有趣的事实:以相对低成本训练机器人所需的软硬件,都是在这个时代刚刚准备就绪的,比如像Apple Vision Pro这样的数字与现实世界入口,以及承载合成数据生成、模型训练与调优的硬件,乃至部署到机器人身上的芯片或计算机载体。

在机器人的3台计算机和周边生态、开发工具相继准备就绪的情况下,黄仁勋自然从去年开始反复强调通用机器人的ChatGPT时刻已经到来。“所有我今天谈论的技术都将在未来数年内成为可能,在通用机器人领域看到快速和令人惊叹的突破。”

这也践行了在AI高速发展时代,万物皆可生成的预言——去年GTC上黄仁勋就提出的万物皆可token化,万物皆可生成。“应用是无止尽的。实际上针对我们所见的几乎任意AI应用,问出这样3个基本问题:习得的输入模态(modality)是什么,转化以后的信息模态是什么,生成的信息模态是什么?也就关乎于每个应用都能推理。”

“当我们看到各种AI驱动、AI原生的应用,其基本概念也就是如此。”“机器学习变革了每个应用构建的方式,改变了计算实现的方法,衍伸了各种可能性。”而机器人显然是诸多AI应用中的一个,也是NVIDIA眼中的下一个大趋势或市场价值重心。

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
该款机器人其实是深圳创业公司众擎机器人推出的人形机器人SE01,被网友称为“走路最像人的机器人”。为什么许多人形机器人走路时总是微微弯着膝盖,看起来有些别扭?最主要的原因是人形机器人的膝盖是用电机来控制的……
这款机器人头上的摄像头可以录制视频或使用人工智能识别物体,虽然该机器人的动作仅限于挥动细小的手臂和眨动动画眼睛,但它可以与一把小型电动椅子配对,自动在家中导航。
此次收购豪成智能科技,符合公司长远发展战略规划和经营发展的需要,公司将加速在机器人业务领域的发展,带来新的增长动力。
此次收购后,Rainbow Robotics被纳入三星电子的合并财务报表,并成为其子公司,三星不仅获得了Rainbow Robotics的控股权,还计划成立一个直接向首席执行官汇报的“未来机器人办公室”,以推动智能人形机器人的开发......
尽管面临裁员计划,禾赛科技在第三季度表现出了色的成绩,并对全年盈利目标充满信心。
12月28日,在南京举行的一场展会上,宇树科技最新人形机器人Unitree H1在进行舞蹈表演过程中突然失去平衡,摔倒在地,并出现了类似人体抽搐的现象……
• 2024欧洲电动汽车销售遭遇增长瓶颈,多家车企将面临因无法满足欧七排放标准而带来的巨额罚款风险。 • 汽车厂商将电动汽车销售贡献作为降低旗下所有车辆平均排放量的关键。 • 汽车制造商需要解决消费者对电动汽车价格高、相关保险费和充电体验差的看法,以提高电动汽车的销量。
• 2024 年第三季度,全球智能手机市场同比增长 2%,出货量达到 3.07 亿部。 • 全球智能手机收入同比增长 10%,平均售价增长 7%。收入和平均售价均创下历史新高。 • 三星在出货量方面继续领跑市场,占据 19% 的销量份额。 • 苹果在营收方面领先,并创下了其历年第三季度出货量、收入和平均售价的最高记录。 • 小米位居第三,收入增长超过出货量增长比例,而 OPPO 则位居第四。vivo 在前五大手机品牌厂商 中同比增长最快。
恩智浦携手专注于SDV所需系统、功能安全与信息安全的领先软件解决方案提供商,进一步提升汽车业务的实力;TTTech Auto将进一步完善并加速恩智浦CoreRide平台发展,助力汽车制造商降低复杂性、优化系统性能并缩短产品上市时间;此次收购是恩智浦成为汽车和工业物联网智能边缘系统领导者战略的又一重要里程碑
智能物流通过优化运输、仓储和网络连接,颠覆了供应链管理。这些进步不仅帮助物流公司提升运营效率,还促进了更可持续的供应链,惠及公司本身和地球。
为进一步推进商业信用体系建设,促进企业诚实守信经营,面向企业普及诚信与品牌建设的意义,指导企业加强诚信品牌建设,提升其整体竞争力,“崛起的民族品牌”专题系列节目以诚信为内涵,在全国范围内遴选出有行业代
 “ 潜在风险依旧巨大。 ”作者 | RichardSaintvilus编译 | 华尔街大事件特斯拉公司( NASDAQ: TSLA )股票的核心基本优势在于其强劲的生产和交付增长。特斯拉 Model
 “ 目前市场上有更多更优秀的半导体公司。 ”作者 | Bears of Wall Street编译 | 华尔街大事件美光科技公司 ( NASDAQ: MU ) 上个月公布了第二季度的疲软前景,预计收
 “ 芯片的需求正在加速增长。 ”作者 | On the Pulse编译 | 华尔街大事件上周发布的台积电(纽约证券交易所代码:TSM)12 月份未经审计的销售数据有力地表明,人工智能的涨势有可能在
SEMI中国光伏标准委员会联合秘书长吕锦标预计今年1月多晶硅产量低于10万吨。“随着供应减量,年前下游已开始为新的年度生产提前备料,市场价格有望回弹到成本线之上。”作者 | 余佳欣 邱思雨历经漫长且波
1月15日下午,“伙伴E起聊,升级新享法”,长安启源E07创新发布会全网直播圆满完成。来自骑行、潜水、摄影、钓鱼、露营五大圈层的用户代表与长安启源E07产品团队的伙伴们深入畅聊,鲜活再现了生活中的实际
来源:鼎龙股份1月15日晚间,鼎龙股份公告,预计2024年度归属于上市公司股东的净利润为4.9亿元至5.3亿元,比上年同期增长120.71%至138.73%。扣除非经常性损益后的净利润预计为4.4亿元
芯联集成公告显示,预计2024年年度实现营业收入约为65.09亿元,同比增长约22.26%,归母净利润方面预计同比减亏约50.51%。作者 | 郭辉芯联集成今日盘后发布2024年度业绩预告。公告显示,
聚焦:人工智能、芯片等行业欢迎各位客官关注、转发每日芯报0115期❶投资69亿港元!香港首座世界先进第三代半导体碳化硅八英寸晶圆厂签约1月10日,杰立方半导体(香港)有限公司(以下简称“杰立方”)在大
作为LED行业发展的关键赛道,近年,Mini/Micro LED技术的发展已进入到快速成长的阶段,在产学研的努力下,此前高成本、低良率等标签已被逐渐剔除,Mini/Micro LED技术在LED显示屏