CES2025|NVIDIA面向物理AI开发者社区开放Cosmos世界基础模型

原创 英伟达NVIDIA中国 2025-01-08 22:16

经数百万小时的驾驶和机器人视频数据训练的先进模型,可用于普及物理 AI 开发,并以开放模型许可形式提供。



NVIDIA Cosmos 是一个用于加速物理 AI 开发的平台,推出了一系列世界基础模型——可以预测和生成虚拟环境未来状态的物理感知视频的神经网络,以帮助开发者构建新一代机器人和自动驾驶汽车(AV)。


如同大语言模型一样,世界基础模型(WFM)属于基础类模型。这类模型使用包括文本、图像、视频和运动在内的输入数据来生成和仿真虚拟世界,以准确模拟场景中物体的空间关系及其物理交互。


在 CES 大会上,NVIDIA 推出第一批 Cosmos 世界基础模型,用于基于物理的仿真和合成数据生成,配备先进的 tokenizer、护栏、加速数据处理和管理工作流,以及模型定制和优化框架。


无论公司规模大小,研究人员和开发者都可以根据 NVIDIA 允许商业使用的开放模型许可下,自由使用 Cosmos 模型。构建 AI 智能体的企业还可以使用在 CES 上推出的新开源 NVIDIA Llama Nemotron 和 Cosmos Nemotron 模型。


Cosmos 先进的开放模型能够帮助物理 AI 开发者解决障碍,无拘无束构建机器人和自动驾驶汽车技术,并使各种规模的企业能够更快地将其物理 AI 应用推向市场。开发者可以直接使用 Cosmos 模型生成基于物理学的合成数据,或利用 NVIDIA NeMo 框架,根据自己的视频对模型进行微调,以实现特定物理 AI 设置。


物理 AI 领先者——包括机器人公司 1X、Agility Robotics 和小鹏汽车,以及自动驾驶汽车开发商 Uber 和 Waabi ——已经在与 Cosmos 协作,加速并增强模型开发。


开发者可以在 NVIDIA API 目录中预览首个 Cosmos 自回归和扩散模型,并从 NGC 目录和 Hugging Face 下载模型系列和微调框架。



用于物理 AI 的世界基础模型


Cosmos 世界基础模型是一套用于物理感知视频生成的开放式扩散和自回归 Transformer 模型。这些模型已基于 2000 万小时的真实世界人类互动、环境、工业、机器人和驾驶数据,训练了 9,000 万亿个 token。


该类模型分为三类:Nano,用于针对实时、低延迟推理和边缘部署进行优化的模型;Super,用于高性能基线模型;Ultra,具有高质量和保真度,适合用于蒸馏自定义模型。


配合 NVIDIA Omniverse 3D 输出时,扩散模型生成可控的高质量合成视频数据,用于启动机器人和自动驾驶汽车感知模型的训练。自回归模型基于输入帧和文本,预测视频帧序列中的下一步动态。可实现实时下一个 token 预测,让物理 AI 模型预测他们的下一个最佳行动。


开发者可以使用 Cosmos 开放模型进行文本到世界和视频到世界的生成。扩散或自回归模型版本的参数量在 40 亿到 140 亿之间,现可以在 NGC 目录和 Hugging Face 上查询。


还提供用于总结文本提示的参数量级达 120 亿的上采样模型、针对增强现实优化 70 亿参数级视频解码器、以及确保负责任和安全使用的护栏模型。


为了展示定制的机会,NVIDIA 还发布了针对垂直应用的微调模型样本,例如为自动驾驶汽车生成多传感器视图。


推动机器人、自动驾驶汽车应用


Cosmos 世界基础模型可以实现合成数据生成,以增强训练数据集,在物理 AI 模型部署到现实世界之前进行仿真测试和调试,以及在虚拟环境中进行强化学习以加速 AI 智能体学习。


开发者可以通过使用 NVIDIA Omniverse 组合的 3D 场景来调节 Cosmos ,从而生成大量可控的基于物理学的合成数据。


Waabi 是一家从自动驾驶汽车开始致力于开发物理世界生成式 AI 的先驱。该公司正在评估 Cosmos 在自动驾驶汽车软件开发和仿真中视频数据搜索与整理的应用。这将进一步加速该公司安全方面行业领先的方法,该方法以 Waabi World 为基础。Waabi World 是一种生成式 AI 仿真器,能够以与现实世界中发生的情况相同的水平,创建出车辆可能遇到的情况。


在机器人开发中,世界基础模型可以生成合成虚拟环境或世界,为机器人学习提供更具性价比、更高效和更受控的空间。AI 机器人初创公司 Hillbot 正在利用 Cosmos 生成万亿字节级的高保真 3D 环境,以提升数据工作流。这种 AI 生成数据将帮助公司完善其机器人培训和操作,实现更快、更高效的机器人技能和提高工业和家庭任务表现。


无论工业或家庭应用,开发者都可以使用 NVIDIA Omniverse 和 Cosmos 作为多元宇宙仿真引擎,允许物理 AI 策略模型模拟执行特定任务的每一个可能的未来路径,从而有助于模型选择最佳路径。


数据管理和 Cosmos 模型的训练依赖于数千个 NVIDIA GPU,通过高性能、完全托管的 AI 平台 NVIDIA DGX Cloud,在每个领先的云端提供加速计算集群。


采用 Cosmos 的开发者可以使用 DGX Cloud 进行 Cosmos 模型的简单部署,并通过 NVIDIA AI Enterprise 软件平台提供进一步的支持。


通过 NVIDIA Cosmos 进行自定义和部署


除基础模型外,Cosmos 平台还包括由 NVIDIA NeMo Curator 提供支持的数据处理和管理工作流,并针对 NVIDIA 数据中心 GPU 进行了优化。


机器人和自动驾驶汽车开发者收集数百万或数十亿小时的真实世界录制视频,从而产生数千万亿字节级的数据。Cosmos 使开发者能够在 NVIDIA Hopper GPU 上仅用 40 天处理 2000 万小时的数据,在 NVIDIA Blackwell GPU 上只需 14 天就能处理 2000 万小时的数据。使用在具有等效功耗的 CPU 系统上运行的未优化的工作流,处理相同数量的数据将需要三年以上的时间。


该平台还拥有一套强大的视频和图像 tokenizer,可以将视频转换为不同视频压缩比的标记,用于训练各种 Transformer 模型。


与当今先进的 tokenizer 相比,Cosmos tokenizer 的总压缩率高出 8 倍,处理速度快 12 倍,在训练和推理方面提供卓越的质量并降低计算成本。开发者可以通过 Hugging Face 和 GitHub 访问这些根据 NVIDIA 开放模式许可提供的tokenizer。


使用 Cosmos 的开发者还可以使用 NeMo 框架提供的模型训练和微调功能,NeMo 框架是一种 GPU 加速框架,可实现高吞吐量 AI 训练。


开发安全、负责任的 AI 模型


现在,Cosmos 已根据 NVIDIA 开放模式许可协议向开发者开放,其开发符合 NVIDIA 的可信 AI 原则,包括非歧视、隐私、安全、保障和透明度。


Cosmos 平台包括 Cosmos Guardrails,这是一套专用的模型,其功能包括在预处理期间减少有害文本和图像输入,以及在后处理期间屏幕生成安全视频。开发者可以进一步增强这些护栏,以适应自定义应用程序。


NVIDIA API Catalog 上的 Cosmos 模型还具有内置的水印系统,可识别 AI 生成序列。


NVIDIA Cosmos 由 NVIDIA Research 开发。请阅读研究论文《Cosmos World Foundation Model Platform for Physical AI》,了解有关模型开发和基准的更多详细信息。可访问 Hugging Face,查找模型卡以了解详细信息。


开始使用 NVIDIA Cosmos 并与 NVIDIA 一起,参加 CES 大会。


查阅相关软件产品信息说明:

https://www.nvidia.cn/about-nvidia/terms-of-service/ 



点击“阅读原文”扫描海报二维码,观看 NVIDIA CEO 黄仁勋在拉斯维加斯现场发表的 CES 开幕主题演讲精彩回放。


评论 (0)
  • 在人工智能技术飞速发展的今天,语音交互正以颠覆性的方式重塑我们的生活体验。WTK6900系列语音识别芯片凭借其离线高性能、抗噪远场识别、毫秒级响应的核心优势,为智能家居领域注入全新活力。以智能风扇为起点,我们开启一场“解放双手”的科技革命,让每一缕凉风都随“声”而至。一、核心技术:精准识别,无惧环境挑战自适应降噪,听懂你的每一句话WTK6900系列芯片搭载前沿信号处理技术,通过自适应降噪算法,可智能过滤环境噪声干扰。无论是家中电视声、户外虫鸣声,还是厨房烹饪的嘈杂声,芯片均能精准提取有效指令,识
    广州唯创电子 2025-04-08 08:40 192浏览
  •   工业自动化领域电磁兼容与接地系统深度剖析   一、电磁兼容(EMC)基础认知   定义及关键意义   电磁兼容性(EMC),指的是设备或者系统在既定的电磁环境里,不但能按预期功能正常运转,而且不会对周边其他设备或系统造成难以承受的电磁干扰。在工业自动化不断发展的当下,大功率电机、变频器等设备被大量应用,现场总线、工业网络等技术也日益普及,致使工业自动化系统所处的电磁环境变得愈发复杂,电磁兼容(EMC)问题也越发严峻。   ​电磁兼容三大核心要素   屏蔽:屏蔽旨在切断电磁波的传播路
    北京华盛恒辉软件开发 2025-04-07 22:55 247浏览
  •   卫星图像智能测绘系统:地理空间数据处理的创新引擎   卫星图像智能测绘系统作为融合卫星遥感、地理信息系统(GIS)、人工智能(AI)以及大数据分析等前沿技术的综合性平台,致力于达成高精度、高效率的地理空间数据采集、处理与应用目标。借助自动化、智能化的技术路径,该系统为国土资源管理、城市规划、灾害监测、环境保护等诸多领域输送关键数据支撑。   应用案例   目前,已有多个卫星图像智能测绘系统在实际应用中取得了显著成效。例如,北京华盛恒辉北京五木恒润卫星图像智能测绘系统。这些成功案例为卫星
    华盛恒辉l58ll334744 2025-04-08 16:19 85浏览
  • 在万物互联时代,智能化安防需求持续升级,传统报警系统已难以满足实时性、可靠性与安全性并重的要求。WT2003H-16S低功耗语音芯片方案,以4G实时音频传输、超低功耗设计、端云加密交互为核心,重新定义智能报警设备的性能边界,为家庭、工业、公共安防等领域提供高效、稳定的安全守护。一、技术内核:五大核心突破,构建全场景安防基座1. 双模音频传输,灵活应对复杂场景实时音频流传输:内置高灵敏度MIC,支持环境音实时采集,通过4G模块直接上传至云端服务器,响应速度低至毫秒级,适用于火灾警报、紧急呼救等需即
    广州唯创电子 2025-04-08 08:59 156浏览
  •   物质扩散与污染物监测系统:环境守护的关键拼图   一、物质扩散原理剖析   物质扩散,本质上是物质在浓度梯度、温度梯度或者压力梯度等驱动力的作用下,从高浓度区域向低浓度区域迁移的过程。在环境科学范畴,物质扩散作为污染物在大气、水体以及土壤中迁移的关键机制,对污染物的分布态势、浓度动态变化以及环境风险程度有着直接且重大的影响。   应用案例   目前,已有多个物质扩散与污染物监测系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润物质扩散与污染物监测系统。这些成功案例为物质
    华盛恒辉l58ll334744 2025-04-09 11:24 57浏览
  • 文/郭楚妤编辑/cc孙聪颖‍伴随贸易全球化的持续深入,跨境电商迎来蓬勃发展期,物流行业 “出海” 成为不可阻挡的必然趋势。加之国内快递市场渐趋饱和,存量竞争愈发激烈。在此背景下,国内头部快递企业为突破发展瓶颈,寻求新的增长曲线,纷纷将战略目光投向海外市场。2024 年,堪称中国物流企业出海进程中的关键节点,众多企业纷纷扬帆起航,开启海外拓展之旅。然而,在一片向好的行业发展表象下,部分跨境物流企业的经营状况却不容乐观。它们受困于激烈的市场竞争、不断攀升的运营成本,以及复杂的国际物流环境,陷入了微利
    华尔街科技眼 2025-04-09 15:15 93浏览
  • HDMI从2.1版本开始采用FRL传输模式,和2.0及之前的版本不同。两者在物理层信号上有所区别,这就需要在一些2.1版本的电路设计上增加匹配电路,使得2.1版本的电路能够向下兼容2.0及之前版本。2.1版本的信号特性下面截取自2.1版本规范定义,可以看到2.1版本支持直流耦合和交流耦合,其共模电压和AVCC相关,信号摆幅在400mV-1200mV2.0及之前版本的信号特性HDMI2.0及之前版本采用TMDS信号物理层,其结构和参数如下:兼容设计根据以上规范定义,可以看出TMDS信号的共模电压范
    durid 2025-04-08 19:01 168浏览
  • 文/Leon编辑/侯煜‍就在小米SU7因高速交通事故、智驾性能受到质疑的时候,另一家中国领先的智驾解决方案供应商华为,低调地进行了一场重大人事变动。(详情见:雷军熬过黑夜,寄望小米SU7成为及时雨)4月4日上午,有网友发现余承东的职务发生了变化,华为官网、其个人微博认证信息为“常务董事,终端BG董事长”,不再包括“智能汽车解决方案BU董事长”。余承东的确不再兼任华为车BU董事长,但并非完全脱离华为的汽车业务,而是聚焦鸿蒙智行。据悉,华为方面寻求将车BU独立出去,但鸿蒙智行仍留在华为终端BG部门。
    华尔街科技眼 2025-04-09 15:28 93浏览
  • ## DL/T645-2007* 帧格式:* 帧起始字符:68H* 地址域:A0 A1 A2 A3 A4 A5* 帧起始字符:68H* 控制码:1字节* 主站:* 13H:请求读电能表通信地址* 11H:请求读电能表数据* 1CH:请求跳闸、合闸* 从站:* 91H:正常应答读电能表* 9CH:正常应答跳闸、合闸* 数据域长度:1字节* 数据域:DI0 DI1 DI2 DI3* 发送方:每字节+33H* 接收方:每字节-33H* 数据标识:* 电能量* 最大需量及发生时间* 变量* 事件记录*
    四毛打印店 2025-04-09 10:53 59浏览
  •   卫星图像智能测绘系统全面解析   一、系统概述   卫星图像智能测绘系统是基于卫星遥感技术、图像处理算法与人工智能(AI)技术的综合应用平台,旨在实现高精度、高效率的地理空间数据获取、处理与分析。该系统通过融合多源卫星数据(如光学、雷达、高光谱等),结合AI驱动的智能算法,实现自动化、智能化的测绘流程,广泛应用于城市规划、自然资源调查、灾害监测等领域。   应用案例   目前,已有多个卫星图像智能测绘系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润卫星图像智能测绘系统
    华盛恒辉l58ll334744 2025-04-08 15:04 99浏览
  •   物质扩散与污染物监测系统软件:多领域环境守护的智能中枢   北京华盛恒辉物质扩散与污染物监测系统软件,作为一款融合了物质扩散模拟、污染物监测、数据分析以及可视化等多元功能的综合性工具,致力于为环境科学、公共安全、工业生产等诸多领域给予强有力的技术支撑。接下来,将从功能特性、应用场景、技术实现途径、未来发展趋势等多个维度对这类软件展开详尽介绍。   应用案例   目前,已有多个物质扩散与污染物监测系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润物质扩散与污染物监测系统。这
    华盛恒辉l58ll334744 2025-04-09 14:54 111浏览
  •     根据 IEC术语,瞬态过电压是指持续时间几个毫秒及以下的过高电压,通常是以高阻尼(快速衰减)形式出现,波形可以是振荡的,也可以是非振荡的。    瞬态过电压的成因和机理,IEC 60664-1给出了以下四种:    1. 自然放电,最典型的例子是雷击,感应到电力线路上,并通过电网配电系统传输,抵达用户端;        2. 电网中非特定感性负载通断。例如热处理工厂、机加工工厂对
    电子知识打边炉 2025-04-07 22:59 154浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦