借助Gemini机器人谷歌旨在打造更智能的机器人

IEEE电气电子工程师学会 2025-03-28 15:40 116浏览 0评论 0点赞

百万设备≠唯一解！精密测量成本砍半秘籍 多物理场仿真在半导体制程中的应用

点击蓝字关注我们

SUBSCRIBE to US

Google DeepMind

生成式人工智能模型正在更接近在现实世界中采取行动。大型人工智能公司已经在推出人工智能代理（agents），它们能够为你处理基于网络的繁琐事务，如订购食品杂货或预订晚餐。如今，谷歌DeepMind宣布了两款旨在为未来机器人提供动力的生成式人工智能模型（https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/）。

这两款模型均基于谷歌Gemini构建，这是一个多模态基础模型，能够处理文本、语音和图像数据以回答问题、提供建议并提供一般性的帮助。DeepMind将其中第一个新模型称为Gemini Robotics，这是一个“先进的视觉 - 语言 - 动作模型”，这意味着它能够接收所有这些相同的输入，然后输出机器人物理动作的指令。这些模型被设计为可与任何硬件系统协同工作，但主要是在DeepMind去年推出的双臂Aloha 2系统上进行测试的。

在一个演示视频中，一个声音说道：“拿起篮球并扣篮”。然后，一个机器人手臂小心地拿起一个微型篮球，并把它投进一个微型球网——虽然这不是NBA级别的扣篮，但这足以让DeepMind的研究人员兴奋起来。

“这个篮球的例子是我最喜欢的例子之一，”该项目的首席软件工程师Kanishka Rao在一场新闻发布会上说道。他解释说，这个机器人“从来没有见过任何与篮球有关的东西”，但是其底层基础模型对这项运动有一个大致的了解，知道篮球网是什么样子的，并且明白“扣篮”这个术语的含义。Rao说，因此这个机器人“能够将这些概念联系起来，从而在现实世界中实际完成这项任务”。

Gemini机器人有哪些进步？

谷歌DeepMind的机器人部门负责人Carolina Parada在新闻发布会上表示，新模型在三个方面对公司之前的机器人进行了改进：泛化能力、适应性和灵活性。她说，要制造“新一代有用的机器人”，所有这些进步都是必要的。

泛化意味着机器人能够将在一种情境中学到的概念应用到另一种情境中，研究人员研究了视觉泛化（例如，如果物体或背景的颜色发生变化，它是否会感到困惑）、指令泛化（它能否解释以不同措辞表述的命令）和动作泛化（它能否执行以前从未做过的动作）。

Parada还表示，由Gemini驱动的机器人能够更好地适应不断变化的指令和环境。在一个视频中为了证明这一点，一名研究人员告诉一个机器人手臂将一串塑料葡萄放入一个透明的特百惠（Tupperware）容器中，然后开始在桌子上移动三个容器，有点像骗子玩的猜贝壳游戏。机器人手臂尽职地跟着那个透明容器移动，直到它能够完成指令。

至于灵活性，演示视频展示了机器人手臂将一张纸折成一只折纸狐狸并执行其他精细任务。然而，需要注意的是，这里令人印象深刻的表现是基于机器人针对这些特定任务所训练的一组有限的高质量数据，所以这些任务所体现的灵活性水平并未被泛化。

什么是具身推理（embodied reasoning）？

该公司介绍的第二个模型是Gemini Robotics - ER，其中ER代表“具身推理”，这是人类随着时间推移凭借经验所发展出的一种对物理世界的直觉性理解。我们能够做一些聪明的事，比如看到一个从未见过的物体时，能根据经验推测出与之交互的最佳方式，这就是DeepMind试图用Gemini Robotics - ER所模拟的能力。

Parada举了一个Gemini Robotics - ER识别拿起咖啡杯合适抓取点能力的例子。该模型正确地识别出了把手，因为人类往往会抓咖啡杯的把手。然而，这也说明了依赖以人类为中心的训练数据的一个潜在弱点：对于一个机器人，特别是一个可能能够轻松拿住一杯热咖啡的机器人来说，一个细的把手可能远不如环抱杯身抓取来得可靠。

DeepMind的机器人安全策略

Vikas Sindhwani，深度思维该项目的机器人安全负责人，表示团队采用了分层式的安全策略。首先是经典的物理安全控制，用于管理诸如避免碰撞和稳定性之类的事务，但也包括“语义安全”系统，该系统会评估机器人的指令以及执行这些指令的后果（https://spectrum.ieee.org/tag/collision-avoidance）。Sindhwani说，这些系统在Gemini Robotics - ER模型中是最为复杂的，该模型“被训练用于评估在给定场景下执行一个潜在动作是否安全”。

而且，Sindhwani表示，由于“安全不是一种竞争性的努力”，DeepMind正在发布一个新的数据集以及所谓的Asimov基准测试，该测试旨在衡量模型理解生活常识规则的能力。这个基准测试包含有关视觉场景和文本场景的问题，询问模型对于诸如混合漂白剂和醋（这种组合会产生氯气）以及将毛绒玩具放在热炉子上之类事情的看法。在新闻发布会上，Sindhwani说Gemini模型在该基准测试上有“出色的表现”，并且技术报告显示这些模型答对了80%以上的问题（https://storage.googleapis.com/deepmind-media/gemini-robotics/gemini_robotics_report.pdf）。

DeepMind的机器人合作关系

早在12月，DeepMind和人形机器人公司Apptronik就宣布了一项合作关系，Parada表示，两家公司正在合作“以Gemini为核心打造下一代人形机器人”。DeepMind也正在将其模型提供给一群精英“受信任的测试者”：Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools。

微信号｜IEEE电气电子工程师学会

新浪微博｜IEEE中国

Bilibili | IEEE中国

· IEEE电气电子工程师学会 ·

往

期

推

荐

AI如何解读人类幸福？

驾驶时过于愤怒？AI或许能识别

干旱监测：新兴技术为农业播种希望

检查大坝：卫星和无人机如何帮助避免灾难

登录阅读全文



免责声明：该内容由专栏作者授权发布或作者转载，目的在于传递更多信息，并不代表本网赞同其观点，本站亦不保证或承诺内容真实性等。若内容或图片侵犯您的权益，请及时联系本站删除。侵权投诉联系： nick.zong@aspencore.com！

IEEE电气电子工程师学会 IEEE是全球最大的专业技术协会之一，一直致力于推动电气电子技术在理论方面的发展和应用方面的进步。IEEE在全球160多个国家有超过四十万名会员。

进入专栏

文章：2001篇粉丝：32人

关注  私信

借助Gemini机器人谷歌旨在打造更智能的机器人

最近文章

热门文章

推荐

最新资讯