标准化合成数据的初始版本预计将成为世界上最大的此类数据集,目前已作为开源版本提供给机器人开发人员。
训练自主机器人和车辆与物理世界有效互动需要海量高质量的数据,为了让研究人员和开发者赢得先机,NVIDIA 现发布大型开源数据集,助力构建下一代物理 AI。
这个商业级、预先验证的数据集在加利福尼亚州圣何塞举办的全球 AI 大会 NVIDIA GTC 上正式发布,将帮助研究人员和开发者克服从零开始的挑战,顺利启动物理 AI 项目。开发者可以利用数据集开展模型预训练、测试和验证,或用于后训练以调优世界基础模型,加快部署进程。
初始数据集现可通过 Hugging Face 平台下载,为开发者提供 15 TB 数据,包含超过 320,000 条机器人训练轨迹,以及包含 SimReady 资源集合在内的高达 1,000 个通用场景描述(OpenUSD)资源。此外,还即将发布支持端到端自动驾驶汽车开发的专用数据,其中包括时长为 20 秒的剪辑片段,覆盖美国和二十多个欧洲国家/地区 1,000 多个城市的各种交通场景。
NVIDIA 物理 AI 数据集包含数百个 SimReady 资产,
可用于构建丰富的场景。
未来,该数据集有望发展为世界上最大的统一、开源的物理 AI 开发数据集。可以为多种 AI 开发模型提供支持,包括能安全穿越仓库环境的自主导航机器人、外科手术辅助机器人,以及在施工区等复杂交通场景下穿梭自如的自动驾驶汽车。
NVIDIA 物理 AI 数据集计划一系列真实数据和合成数据子集,并将使用这些数据通过多个平台来训练、测试和验证物理 AI,平台将包括 NVIDIA Cosmos 世界模型开发平台、NVIDIA DRIVE AV 软件栈、NVIDIA Isaac AI 机器人开发平台,以及 NVIDIA Metropolis 智慧城市应用框架。
加州大学伯克利分校 Berkeley DeepDrive 研究中心、卡内基梅隆安全 AI 实验室和加州大学圣地亚哥分校 Contextual 机器人研究所已经开始率先使用该数据集。
加州大学圣地亚哥分校多个机器人和自动驾驶汽车实验室的负责人 Henrik Christensen 表示:“利用这个数据集,我们能做很多工作,比如训练预测性 AI 模型,这些模型可以帮助自动驾驶汽车更好地追踪行人等易受伤害的道路使用者的动向,从而提高安全性。与现有的开源资源相比,这个数据集能提供多样化的场景和更长的视频片段,这将显著推动机器人技术和自动驾驶汽车的研究进展。”
满足物理 AI 数据需求
NVIDIA 物理 AI 数据集可以帮助开发者在预训练期间扩展 AI 性能,海量数据能够支持构建更强大的 AI 模型,在预训练阶段利用更丰富的数据对 AI 模型进行训练,以提高其在特定用例中的性能表现。
想要构建一个能准确反映真实世界物理特性及其动态变化的多样化场景数据集,需要投入大量时间开展数据采集、整理和标注工作,这成为了大多数开发者推进项目的一个瓶颈。对于学术研究人员和小型企业来说,部署车队进行长达数月的自动驾驶汽车 AI 数据收集既不现实且成本高昂,并且由于采集的视频大多为常规道路场景,仅有 10% 的数据可被用于训练。
但这种规模的数据采集对于构建安全、准确的商业级模型十分重要。NVIDIA Isaac GR00T 机器人模型需要数千小时的视频剪辑片段进行后训练,比如 GR00T N1,这一模型是在一个包含大量真实数据和合成数据的人形机器人数据集上进行训练的。NVIDIA DRIVE AV 自动驾驶汽车端到端 AI 模型需要数万小时的驾驶数据来开发。
该开源数据集收录了数千小时的多视角视频,其场景多样性、数据规模和覆盖地域范围都达到了前所未有的水平。这将为安全研究领域带来突破,特别是在识别异常行为和评估模型泛化等新兴研究方向。这项技术有助于 NVIDIA Halos 的全栈自动驾驶汽车安全系统。
除利用 NVIDIA 物理 AI 数据集来帮助满足数据需求外,开发者还可以通过 NVIDIA NeMo Curator 等工具进一步推动 AI 开发,这些工具可高效地处理用于训练和定制模型的庞大数据集。使用 NeMo Curator,只需两周就可以在 NVIDIA Blackwell GPU 上处理 2,000 万小时的视频,而使用未优化的 CPU 工作流则需要 3.4 年。
机器人开发者还可以利用新的 NVIDIA Isaac GR00T blueprint 来生成合成运动轨迹,这是一个基于 NVIDIA Omniverse 和 NVIDIA Cosmos 构建的参考工作流,利用少量的人类示范数据,即可大规模生成机器人合成运动轨迹。
大学实验室采用数据集进行 AI 开发
加州大学圣地亚哥分校机器人实验室包括专注于医疗应用、人形机器人和家庭辅助技术的团队。Christensen 预计,物理 AI 数据集中的机器人数据可以帮助开发语义 AI 模型,理解家庭、酒店房间或医院等空间的环境。
他说:“我们的核心目标之一是实现深度场景理解能力,如果机器人被要求整理杂货,它会确切地知道哪些物品需冰箱冷藏,哪些适合放在储藏室里。”
在自动驾驶汽车领域,Christensen 的实验室可以利用数据集来训练 AI 模型,以了解不同道路使用者的意图,并预测最佳的响应行动。他的研究团队还可以利用该数据集支持数字孪生开发,仿真极端情况和具有挑战性的天气条件。这些仿真场景可用于在真实世界环境中罕见的情况下,对自动驾驶模型进行训练和测试。
领先的自动驾驶系统 AI 研究中心 Berkeley DeepDrive 将该数据集用于开发自动驾驶汽车策略模型和世界基础模型。
Berkeley DeepDrive 联合主任 Wei Zhan 表示:“数据多样性对于训练基础模型非常重要。这个数据集能够为公共和私营部门团队开展前沿研究提供支持,帮助他们开发自动驾驶汽车和机器人 AI 模型。”
卡内基梅隆大学安全 AI 实验室的研究人员计划利用该数据集推进其评估和认证自动驾驶汽车安全性的工作。该团队计划对基于此数据集训练的物理 AI 基础模型在罕见场景仿真环境中的表现进行测试,并与基于现有数据集训练的自动驾驶模型作性能对比。
卡内基梅隆大学副教授兼安全 AI 实验室负责人 Ding Zhao 表示:“这个数据集涵盖不同类型的道路和地理位置、基础设施和天气环境,其多样性为训练具备物理世界因果推理能力的模型提供了重要的支持,特别是理解和处理极端案例和长尾问题方面有重要意义。”
请通过 Hugging Face 访问 NVIDIA 物理 AI 数据集。加入学习 OpenUSD 学习路径和机器人基础学习路径课程,掌握基础知识。
查看相关软件产品信息说明:
https://www.nvidia.cn/about-nvidia/terms-of-service/
点击“阅读原文”或扫描下方海报二维码,观看 NVIDIA CEO 黄仁勋主题演讲回放,了解代理式 AI、机器人、加速计算等领域的发展趋势,与我们一起探索 AI 的未来!