产业丨谷歌成立新团队模拟物理世界AI模型

原创 AI芯天下 2025-01-16 20:30

构建AI未来，Arm计算平台无处不在 如何增强电动汽车的实时控制能力？

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发

前言：

如果能够克服所有主要障碍，[世界模型]有望在虚拟世界生成、机器人技术和AI决策等领域带来重大突破，为人工智能与现实世界的融合开辟新的途径。

作者 | 方文三

图片来源 | 网络

谷歌成立新团队模拟物理世界AI模型

2025年初，谷歌向公众明确传达了其在人工智能领域的战略意图，表明今年将是公司在此领域发展的重要时期。

今年1月，谷歌宣布，负责AI Studio项目以及Gemini API开发的团队将整合并加入Google DeepMind部门。

此举是继去年将Gemini聊天机器人团队并入DeepMind之后的又一重大战略决策。

目前，谷歌在人工智能研发方面的力量已完全整合至DeepMind部门，由2024年诺贝尔化学奖得主德米斯·哈萨比斯领导。

随着谷歌进一步将人工智能团队并入DeepMind，这位在游戏开发、神经科学及人工智能领域均有卓越贡献的科学家，其影响力将更为显著。

近期，谷歌已连续三次将人工智能团队并入DeepMind，此前已完成了模型研发、基础研究以及负责任人工智能团队的整合。

1月6日，谷歌正式宣布成立一个专项团队，旨在开发能够模拟物理世界的先进人工智能大模型。

该团队由前OpenAI视频生成项目Sora的联合负责人蒂姆·布鲁克斯领衔。

布鲁克斯表示：[我们有志于构建一个能够模拟整个世界的大型生成式模型。]

根据公司发布的招聘信息，该团队将专注于解决[关键性新问题]，并将模型的性能提升至[最高计算水平]。

这支新成立的团队将与公司内现有的Gemini、Veo和Genie等项目进行深入合作，致力于提升人工智能对现实世界的认知和模拟能力。

蒂姆·布鲁克斯作为OpenAI视频生成器Sora的共同领导者之一，于10月份离职，转而加入了谷歌旗下的人工智能研究机构DeepMind。

据相关报道，布鲁克斯加入的新研究团队将致力于开发[实时交互生成]工具，并探索如何将他们所构建的模型与现有的多模式模型（例如Gemini）进行整合。

以开发能够模拟真实场景的AI工具为目标，Genie 2旨在为实现通用人工智能铺平道路，并引领人工智能领域的新方向——利用尖端技术实现复杂物理环境的真实模拟，未来有望广泛应用于游戏、影视制作、机器人训练等多个领域。

DeepMind认为，在视频和多模态数据上进行人工智能训练是实现通用人工智能（AGI）的关键路径。

世界模型将在诸多领域发挥重要作用，包括视觉推理与模拟、具身代理的规划以及实时互动娱乐等。

Genie 2模型对构建世界模型的积极一面

DeepMind已成功将SIMA技术融入由Genie 2所构建的虚拟世界中，这一技术进步预期将对人工智能的训练方法和游戏快速原型开发领域产生深远影响。

Genie 2模型的推出，体现了谷歌DeepMind在人工智能构建虚拟世界领域的积极参与和竞争态势。

该模型作为一种基础的人工智能工具，能够将单一图像转化为一个具有交互性的3D环境，并支持长达一分钟的互动体验。

该技术在多个维度上展现了其卓越的性能和优势，涵盖了动作控制、生成反事实场景、长期记忆、长视频内容生成、多样化环境模拟、3D结构建模、物体交互、复杂角色动画、NPC行为、物理效应、烟雾模拟、光影效果以及快速原型设计等方面。

Genie 2的核心功能在于训练与评估具身智能体，其通过构建多样化环境，能够生成智能体在训练过程中未曾遭遇的评估任务。

其工作原理是逐帧进行[像素预测]，并利用用户提供的[引导]信息来调整下一帧的概率分布。

Genie2 的功能包括具备[基础世界模型的涌现能力]，能够构建出丰富多样的三维世界，并能够模拟在虚拟世界中进行各种行为（例如跳跃、游泳等）所产生的结果。

Genie2 实现了让任何用户通过[文字]描述来构建他们理想中的世界，选择他们偏好的[效果图]，随后进入这个新构建的世界并进行[互动]，或者让AI代理在其中进行[训练或评估]。

该模型具备从单一图像中构建可交互3D环境的能力，并能够提供长达一分钟的沉浸式游戏体验。

该模型集成了物理模拟、照明效果以及非玩家角色（NPC）行为等高级功能。

谷歌将自身定位为研究与原型开发工具，该工具能够迅速构建丰富的环境，从而使得即便在缺乏专业训练的情况下，人工智能的评估工作也变得更加简便。

科技巨头纷纷入局世界模型竞赛

在CES 2025上，黄仁勋宣布推出Cosmos世界模型（Cosmos World Foundation Models，简称Cosmos WFMs），该模型专为理解物理世界而设计，能够预测并生成具有[物理感知]的视频内容。

除了英伟达，谷歌以及其他一些初创企业也在积极追求世界模型的开发。

李飞飞的World Labs已经筹集了2.3亿美元资金，用于构建[大世界模型]，而Decart和Odyssey等公司也加入了这一领域。

OpenAI先前发布的Sora模型亦可视为一种[世界模型]，它能够模拟如画家在画布上作画的行为，以及渲染类似Minecraft的用户界面和游戏世界。

具体而言，世界模型是通过大量图像、音频、视频和文本数据的训练，构建出对世界运作方式的内部表征，并能够推理行为的后果。

这使得它们能够更深入地理解和模拟现实世界的规律。

世界模型的概念源自人类大脑形成的心智模型，我们的大脑能够将感官获取的抽象信息整合成对周围世界的具体理解，形成[模型]，这些模型帮助我们预测和感知世界。

世界模型的特点在于其试图超越单纯的数据，模拟人类的潜意识推理。

例如，棒球击球手能在极短的时间内决定如何挥棒，是因为他们能够本能地预测球的轨迹。

这种潜意识推理能力被认为是实现人类级智能的关键条件之一。

[世界模型]的意义在于能够实现复杂的推理和规划，并将推动生成式视频技术的发展。

Meta的首席AI科学家Yann LeCun认为，世界模型未来可能在数字和物理领域的复杂预测和规划中发挥作用。

例如，给定一个杂乱无章的房间（初始状态）和一个整洁的房间（目标状态），世界模型可以推理出一系列清洁行动，而不仅仅是根据观察到的模式进行操作。

具备这些能力后，[世界模型]可广泛应用于影视、游戏、自动驾驶以及机器人等行业。

结尾：

未来的世界模型可能能够按需生成用于游戏、虚拟摄影等用途的3D世界，从而大幅降低开发成本和时间。

在过去一年中，人工智能技术在多个方向上持续取得突破，世界模型被视为下一个重大突破。

尽管距离成熟的[世界模型]还有数年时间，但这一技术已经展现出巨大的潜力。

部分资料参考：DeepTech深科技：《谷歌再次调整AI团队，诺奖得主哈萨比斯统领研发》，量子位：《Sora核心作者掌舵，谷歌世界模型新团队全球招募》，传媒1号：《谷歌DeepMind「世界模型」或成AGI突破口》，AI科技大本营：《Sora前负责人带队打造[现实世界模拟器]，AI领域再掀波澜》，腾讯科技：《全网热评的李飞飞世界生成模型，真的能构建物理世界吗？》，鼓捣AI：《DeepMind发布世界模型"GPT时刻"，Genie2或将颠覆游戏产业》，硬AI：《[世界模型]——AI下一个[必争之地]，英伟达、谷歌双双下场》

本公众号所刊发稿件及图片来源于网络，仅用于交流使用，如有侵权请联系回复，我们收到信息后会在24小时内处理。

END

推荐阅读：