点击蓝字 关注我们
SUBSCRIBE to US
Image: Google
谷歌DeepMind公司正在打造两款新型人工智能模型,旨在帮助机器人“执行比以往更广泛的现实世界任务”(https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/)。第一个模型名为Gemini Robotics,这是一个视觉 - 语言 - 行动模型,即使没有针对新情况进行过训练,也能够理解这些新情况。
Gemini Robotics基于Gemini 2.0构建,Gemini 2.0是谷歌旗舰人工智能模型的最新版本。在一次新闻发布会上,谷歌DeepMind公司的高级主管兼机器人部门负责人Carolina Parada表示,Gemini Robotics“借鉴了Gemini对多模态世界的理解,并通过添加物理行动作为一种新模态将其转移到现实世界”。
谷歌DeepMind称,这个新模型在构建有用机器人的三个关键领域取得了进展:通用性、交互性和灵活性。除了能够对新场景进行泛化之外,Gemini Robotics在与人及其周围环境的交互方面表现更佳。它还能够执行更精确的物理任务,比如折叠一张纸或者拧开瓶盖。
Parada说:“虽然过去我们在通用机器人领域的每个方面都分别取得了进展,但我们正在用单一模型使这三个方面的性能大幅提升。这使我们能够制造出能力更强、反应更灵敏、对环境变化适应性更强的机器人。”
谷歌DeepMind公司还将推出Gemini Robotics - ER,该公司称其为一种先进的视觉语言模型,能够“理解我们复杂且动态的世界”。
正如Parada解释的那样,当你正在打包午餐盒,面前的桌子上放着各种物品时,你需要知道所有东西的位置,还要知道如何打开午餐盒、如何抓取物品以及把它们放在哪里。这就是Gemini Robotics - ER有望进行的那种推理。它是为机器人专家设计的,用于与现有的低层级控制器(控制机器人运动的系统)相连接,从而使他们能够利用Gemini Robotics - ER来实现新的功能。
在安全方面,谷歌DeepMind的研究员Vikas Sindhwani告诉记者,该公司正在开发一种“分层方法”,并补充说Gemini Robotics - ER(模型“经过训练,可以评估在给定场景下执行潜在动作是否安全”。该公司还将发布新的基准和框架,以助力人工智能行业进一步开展安全研究。去年,谷歌DeepMind推出了其“机器人章程”,这是一套受Isaac Asimov启发而制定的、供其机器人遵循的规则(https://www.theverge.com/2024/1/4/24025535/google-ai-robot-constitution-autort-deepmind-three-laws)。
谷歌DeepMind正在与Apptronik公司合作,以“打造下一代人形机器人”。它还让“受信任的测试者”使用其Gemini Robotics - ER(模型,这些测试者包括Agile Robots公司、波士顿动力公司和Enchanted Tools。Parada说:“我们非常专注于构建能够理解物理世界并能在物理世界中采取行动的智能。我们对于基本上能在多种体现形式和众多应用中利用这种智能感到非常兴奋。”
微信号|IEEE电气电子工程师学会
新浪微博|IEEE中国
Bilibili | IEEE中国
· IEEE电气电子工程师学会 ·
往
期
推
荐
2025 IEEE主席兼首席执行官凯瑟琳·卡莫尔特别分享
博通创始人HENRY Samuelli获得2025年度IEEE荣誉勋章,该奖项是全球最负盛名的技术奖项之一
干旱监测:新兴技术为农业播种希望
检查大坝:卫星和无人机如何帮助避免灾难