CES2025|NVIDIA面向物理AI开发者社区开放Cosmos世界基础模型

原创 英伟达NVIDIA中国 2025-01-08 22:16

经数百万小时的驾驶和机器人视频数据训练的先进模型,可用于普及物理 AI 开发,并以开放模型许可形式提供。



NVIDIA Cosmos 是一个用于加速物理 AI 开发的平台,推出了一系列世界基础模型——可以预测和生成虚拟环境未来状态的物理感知视频的神经网络,以帮助开发者构建新一代机器人和自动驾驶汽车(AV)。


如同大语言模型一样,世界基础模型(WFM)属于基础类模型。这类模型使用包括文本、图像、视频和运动在内的输入数据来生成和仿真虚拟世界,以准确模拟场景中物体的空间关系及其物理交互。


在 CES 大会上,NVIDIA 推出第一批 Cosmos 世界基础模型,用于基于物理的仿真和合成数据生成,配备先进的 tokenizer、护栏、加速数据处理和管理工作流,以及模型定制和优化框架。


无论公司规模大小,研究人员和开发者都可以根据 NVIDIA 允许商业使用的开放模型许可下,自由使用 Cosmos 模型。构建 AI 智能体的企业还可以使用在 CES 上推出的新开源 NVIDIA Llama Nemotron 和 Cosmos Nemotron 模型。


Cosmos 先进的开放模型能够帮助物理 AI 开发者解决障碍,无拘无束构建机器人和自动驾驶汽车技术,并使各种规模的企业能够更快地将其物理 AI 应用推向市场。开发者可以直接使用 Cosmos 模型生成基于物理学的合成数据,或利用 NVIDIA NeMo 框架,根据自己的视频对模型进行微调,以实现特定物理 AI 设置。


物理 AI 领先者——包括机器人公司 1X、Agility Robotics 和小鹏汽车,以及自动驾驶汽车开发商 Uber 和 Waabi ——已经在与 Cosmos 协作,加速并增强模型开发。


开发者可以在 NVIDIA API 目录中预览首个 Cosmos 自回归和扩散模型,并从 NGC 目录和 Hugging Face 下载模型系列和微调框架。



用于物理 AI 的世界基础模型


Cosmos 世界基础模型是一套用于物理感知视频生成的开放式扩散和自回归 Transformer 模型。这些模型已基于 2000 万小时的真实世界人类互动、环境、工业、机器人和驾驶数据,训练了 9,000 万亿个 token。


该类模型分为三类:Nano,用于针对实时、低延迟推理和边缘部署进行优化的模型;Super,用于高性能基线模型;Ultra,具有高质量和保真度,适合用于蒸馏自定义模型。


配合 NVIDIA Omniverse 3D 输出时,扩散模型生成可控的高质量合成视频数据,用于启动机器人和自动驾驶汽车感知模型的训练。自回归模型基于输入帧和文本,预测视频帧序列中的下一步动态。可实现实时下一个 token 预测,让物理 AI 模型预测他们的下一个最佳行动。


开发者可以使用 Cosmos 开放模型进行文本到世界和视频到世界的生成。扩散或自回归模型版本的参数量在 40 亿到 140 亿之间,现可以在 NGC 目录和 Hugging Face 上查询。


还提供用于总结文本提示的参数量级达 120 亿的上采样模型、针对增强现实优化 70 亿参数级视频解码器、以及确保负责任和安全使用的护栏模型。


为了展示定制的机会,NVIDIA 还发布了针对垂直应用的微调模型样本,例如为自动驾驶汽车生成多传感器视图。


推动机器人、自动驾驶汽车应用


Cosmos 世界基础模型可以实现合成数据生成,以增强训练数据集,在物理 AI 模型部署到现实世界之前进行仿真测试和调试,以及在虚拟环境中进行强化学习以加速 AI 智能体学习。


开发者可以通过使用 NVIDIA Omniverse 组合的 3D 场景来调节 Cosmos ,从而生成大量可控的基于物理学的合成数据。


Waabi 是一家从自动驾驶汽车开始致力于开发物理世界生成式 AI 的先驱。该公司正在评估 Cosmos 在自动驾驶汽车软件开发和仿真中视频数据搜索与整理的应用。这将进一步加速该公司安全方面行业领先的方法,该方法以 Waabi World 为基础。Waabi World 是一种生成式 AI 仿真器,能够以与现实世界中发生的情况相同的水平,创建出车辆可能遇到的情况。


在机器人开发中,世界基础模型可以生成合成虚拟环境或世界,为机器人学习提供更具性价比、更高效和更受控的空间。AI 机器人初创公司 Hillbot 正在利用 Cosmos 生成万亿字节级的高保真 3D 环境,以提升数据工作流。这种 AI 生成数据将帮助公司完善其机器人培训和操作,实现更快、更高效的机器人技能和提高工业和家庭任务表现。


无论工业或家庭应用,开发者都可以使用 NVIDIA Omniverse 和 Cosmos 作为多元宇宙仿真引擎,允许物理 AI 策略模型模拟执行特定任务的每一个可能的未来路径,从而有助于模型选择最佳路径。


数据管理和 Cosmos 模型的训练依赖于数千个 NVIDIA GPU,通过高性能、完全托管的 AI 平台 NVIDIA DGX Cloud,在每个领先的云端提供加速计算集群。


采用 Cosmos 的开发者可以使用 DGX Cloud 进行 Cosmos 模型的简单部署,并通过 NVIDIA AI Enterprise 软件平台提供进一步的支持。


通过 NVIDIA Cosmos 进行自定义和部署


除基础模型外,Cosmos 平台还包括由 NVIDIA NeMo Curator 提供支持的数据处理和管理工作流,并针对 NVIDIA 数据中心 GPU 进行了优化。


机器人和自动驾驶汽车开发者收集数百万或数十亿小时的真实世界录制视频,从而产生数千万亿字节级的数据。Cosmos 使开发者能够在 NVIDIA Hopper GPU 上仅用 40 天处理 2000 万小时的数据,在 NVIDIA Blackwell GPU 上只需 14 天就能处理 2000 万小时的数据。使用在具有等效功耗的 CPU 系统上运行的未优化的工作流,处理相同数量的数据将需要三年以上的时间。


该平台还拥有一套强大的视频和图像 tokenizer,可以将视频转换为不同视频压缩比的标记,用于训练各种 Transformer 模型。


与当今先进的 tokenizer 相比,Cosmos tokenizer 的总压缩率高出 8 倍,处理速度快 12 倍,在训练和推理方面提供卓越的质量并降低计算成本。开发者可以通过 Hugging Face 和 GitHub 访问这些根据 NVIDIA 开放模式许可提供的tokenizer。


使用 Cosmos 的开发者还可以使用 NeMo 框架提供的模型训练和微调功能,NeMo 框架是一种 GPU 加速框架,可实现高吞吐量 AI 训练。


开发安全、负责任的 AI 模型


现在,Cosmos 已根据 NVIDIA 开放模式许可协议向开发者开放,其开发符合 NVIDIA 的可信 AI 原则,包括非歧视、隐私、安全、保障和透明度。


Cosmos 平台包括 Cosmos Guardrails,这是一套专用的模型,其功能包括在预处理期间减少有害文本和图像输入,以及在后处理期间屏幕生成安全视频。开发者可以进一步增强这些护栏,以适应自定义应用程序。


NVIDIA API Catalog 上的 Cosmos 模型还具有内置的水印系统,可识别 AI 生成序列。


NVIDIA Cosmos 由 NVIDIA Research 开发。请阅读研究论文《Cosmos World Foundation Model Platform for Physical AI》,了解有关模型开发和基准的更多详细信息。可访问 Hugging Face,查找模型卡以了解详细信息。


开始使用 NVIDIA Cosmos 并与 NVIDIA 一起,参加 CES 大会。


查阅相关软件产品信息说明:

https://www.nvidia.cn/about-nvidia/terms-of-service/ 



点击“阅读原文”扫描海报二维码,观看 NVIDIA CEO 黄仁勋在拉斯维加斯现场发表的 CES 开幕主题演讲精彩回放。


评论
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 92浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 150浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 80浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 128浏览
  • 在智能网联汽车中,各种通信技术如2G/3G/4G/5G、GNSS(全球导航卫星系统)、V2X(车联网通信)等在行业内被广泛使用。这些技术让汽车能够实现紧急呼叫、在线娱乐、导航等多种功能。EMC测试就是为了确保在复杂电磁环境下,汽车的通信系统仍然可以正常工作,保护驾乘者的安全。参考《QCT-基于LTE-V2X直连通信的车载信息交互系统技术要求及试验方法-1》标准10.5电磁兼容试验方法,下面将会从整车功能层面为大家解读V2X整车电磁兼容试验的过程。测试过程揭秘1. 设备准备为了进行电磁兼容试验,技
    北汇信息 2025-01-09 11:24 23浏览
  • 一个真正的质量工程师(QE)必须将一件产品设计的“意图”与系统的可制造性、可服务性以及资源在现实中实现设计和产品的能力结合起来。所以,可以说,这确实是一种工程学科。我们常开玩笑说,质量工程师是工程领域里的「侦探」、「警察」或「律师」,守护神是"墨菲”,信奉的哲学就是「墨菲定律」。(注:墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。)做质量工程师的,有时会不受欢迎,也会被忽视,甚至可能遭遇主动或被动的阻碍,而一旦出了问题,责任往往就落在质量工程师的头上。虽然质量工程师并不负
    优思学院 2025-01-09 11:48 28浏览
  • 在过去十年中,自动驾驶和高级驾驶辅助系统(AD/ADAS)软件与硬件的快速发展对多传感器数据采集的设计需求提出了更高的要求。然而,目前仍缺乏能够高质量集成多传感器数据采集的解决方案。康谋ADTF正是应运而生,它提供了一个广受认可和广泛引用的软件框架,包含模块化的标准化应用程序和工具,旨在为ADAS功能的开发提供一站式体验。一、ADTF的关键之处!无论是奥迪、大众、宝马还是梅赛德斯-奔驰:他们都依赖我们不断发展的ADTF来开发智能驾驶辅助解决方案,直至实现自动驾驶的目标。从新功能的最初构思到批量生
    康谋 2025-01-09 10:04 23浏览
  • 1月7日-10日,2025年国际消费电子产品展览会(CES 2025)盛大举行,广和通发布Fibocom AI Stack,赋智千行百业端侧应用。Fibocom AI Stack提供集高性能模组、AI工具链、高性能推理引擎、海量模型、支持与服务一体化的端侧AI解决方案,帮助智能设备快速实现AI能力商用。为适应不同端侧场景的应用,AI Stack具备海量端侧AI模型及行业端侧模型,基于不同等级算力的芯片平台或模组,Fibocom AI Stack可将TensorFlow、PyTorch、ONNX、
    物吾悟小通 2025-01-08 18:17 29浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球中空长航时无人机产值达到9009百万美元,2024-2030年期间年复合增长率CAGR为8.0%。 环洋市场咨询机构出版了的【全球中空长航时无人机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球中空长航时无人机总体规模,包括产量、产值、消费量、主要生产地区、主要生产商及市场份额,同时分析中空长航时无人机市场主要驱动因素、阻碍因素、市场机遇、挑战、新产品发布等。报告从中空长航时
    GIRtina 2025-01-09 10:35 21浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2025-01-09 09:58 22浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 100浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 115浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 82浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦