借助Gemini机器人谷歌旨在打造更智能的机器人

IEEE电气电子工程师学会 2025-03-28 15:40

点击蓝字 关注我们

SUBSCRIBE to US


Google DeepMind


生成式人工智能模型正在更接近在现实世界中采取行动。大型人工智能公司已经在推出人工智能代理(agents),它们能够为你处理基于网络的繁琐事务,如订购食品杂货或预订晚餐。如今,谷歌DeepMind宣布了两款旨在为未来机器人提供动力的生成式人工智能模型(https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/)。


这两款模型均基于谷歌Gemini构建,这是一个多模态基础模型,能够处理文本、语音和图像数据以回答问题、提供建议并提供一般性的帮助。DeepMind将其中第一个新模型称为Gemini Robotics,这是一个“先进的视觉 - 语言 - 动作模型”,这意味着它能够接收所有这些相同的输入,然后输出机器人物理动作的指令。这些模型被设计为可与任何硬件系统协同工作,但主要是在DeepMind去年推出的双臂Aloha 2系统上进行测试的。


在一个演示视频中,一个声音说道:“拿起篮球并扣篮”。然后,一个机器人手臂小心地拿起一个微型篮球,并把它投进一个微型球网——虽然这不是NBA级别的扣篮,但这足以让DeepMind的研究人员兴奋起来。


“这个篮球的例子是我最喜欢的例子之一,”该项目的首席软件工程师Kanishka Rao在一场新闻发布会上说道。他解释说,这个机器人“从来没有见过任何与篮球有关的东西”,但是其底层基础模型对这项运动有一个大致的了解,知道篮球网是什么样子的,并且明白“扣篮”这个术语的含义。Rao说,因此这个机器人“能够将这些概念联系起来,从而在现实世界中实际完成这项任务”。


Gemini机器人有哪些进步?


谷歌DeepMind的机器人部门负责人Carolina Parada在新闻发布会上表示,新模型在三个方面对公司之前的机器人进行了改进:泛化能力、适应性和灵活性。她说,要制造“新一代有用的机器人”,所有这些进步都是必要的。


泛化意味着机器人能够将在一种情境中学到的概念应用到另一种情境中,研究人员研究了视觉泛化(例如,如果物体或背景的颜色发生变化,它是否会感到困惑)、指令泛化(它能否解释以不同措辞表述的命令)和动作泛化(它能否执行以前从未做过的动作)。


Parada还表示,由Gemini驱动的机器人能够更好地适应不断变化的指令和环境。在一个视频中为了证明这一点,一名研究人员告诉一个机器人手臂将一串塑料葡萄放入一个透明的特百惠(Tupperware)容器中,然后开始在桌子上移动三个容器,有点像骗子玩的猜贝壳游戏。机器人手臂尽职地跟着那个透明容器移动,直到它能够完成指令。


至于灵活性,演示视频展示了机器人手臂将一张纸折成一只折纸狐狸并执行其他精细任务。然而,需要注意的是,这里令人印象深刻的表现是基于机器人针对这些特定任务所训练的一组有限的高质量数据,所以这些任务所体现的灵活性水平并未被泛化。


什么是具身推理(embodied reasoning)?


该公司介绍的第二个模型是Gemini Robotics - ER,其中ER代表“具身推理”,这是人类随着时间推移凭借经验所发展出的一种对物理世界的直觉性理解。我们能够做一些聪明的事,比如看到一个从未见过的物体时,能根据经验推测出与之交互的最佳方式,这就是DeepMind试图用Gemini Robotics - ER所模拟的能力。


Parada举了一个Gemini Robotics - ER识别拿起咖啡杯合适抓取点能力的例子。该模型正确地识别出了把手,因为人类往往会抓咖啡杯的把手。然而,这也说明了依赖以人类为中心的训练数据的一个潜在弱点:对于一个机器人,特别是一个可能能够轻松拿住一杯热咖啡的机器人来说,一个细的把手可能远不如环抱杯身抓取来得可靠。


DeepMind的机器人安全策略


Vikas Sindhwani,深度思维该项目的机器人安全负责人,表示团队采用了分层式的安全策略。首先是经典的物理安全控制,用于管理诸如避免碰撞和稳定性之类的事务,但也包括“语义安全”系统,该系统会评估机器人的指令以及执行这些指令的后果(https://spectrum.ieee.org/tag/collision-avoidance)。Sindhwani说,这些系统在Gemini Robotics - ER模型中是最为复杂的,该模型“被训练用于评估在给定场景下执行一个潜在动作是否安全”。


而且,Sindhwani表示,由于“安全不是一种竞争性的努力”,DeepMind正在发布一个新的数据集以及所谓的Asimov基准测试,该测试旨在衡量模型理解生活常识规则的能力。这个基准测试包含有关视觉场景和文本场景的问题,询问模型对于诸如混合漂白剂和醋(这种组合会产生氯气)以及将毛绒玩具放在热炉子上之类事情的看法。在新闻发布会上,Sindhwani说Gemini模型在该基准测试上有“出色的表现”,并且技术报告显示这些模型答对了80%以上的问题(https://storage.googleapis.com/deepmind-media/gemini-robotics/gemini_robotics_report.pdf)。


DeepMind的机器人合作关系


早在12月,DeepMind和人形机器人公司Apptronik就宣布了一项合作关系,Parada表示,两家公司正在合作“以Gemini为核心打造下一代人形机器人”。DeepMind也正在将其模型提供给一群精英“受信任的测试者”:Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools。


微信号|IEEE电气电子工程师学会

新浪微博|IEEE中国

Bilibili | IEEE中国

 · IEEE电气电子工程师学会 · 


AI如何解读人类幸福?

驾驶时过于愤怒?AI或许能识别

干旱监测:新兴技术为农业播种希望

检查大坝:卫星和无人机如何帮助避免灾难

IEEE电气电子工程师学会 IEEE是全球最大的专业技术协会之一,一直致力于推动电气电子技术在理论方面的发展和应用方面的进步。IEEE在全球160多个国家有超过四十万名会员。
评论 (0)
  • 本文介绍OpenHarmony5.0 DevEco Studio开发工具安装与配置,鸿蒙北向开发入门必备!鸿蒙北向开发主要侧重于应用层的开发,如APP开发、用户界面设计等,更多地关注用户体验、应用性能优化、上层业务逻辑的实现,需要开发者具备基本的编程知识、对操作系统原理的简单理解,以及一定的UI设计感。由触觉智能Purple Pi OH鸿蒙开发板演示。搭载了瑞芯微RK3566四核处理器,支持开源鸿蒙OpenHarmony3.2至5.0系统,适合鸿蒙开发入门学习。下载与安装开发工具点下面链接下载:
    Industio_触觉智能 2025-03-28 18:16 184浏览
  • 在智能家居领域,无线门铃正朝着高集成度、低功耗、强抗干扰的方向发展。 WTN6040F 和 WT588F02B 两款语音芯片,凭借其 内置EV1527编解码协议 和 免MCU设计 的独特优势,为无线门铃开发提供了革命性解决方案。本文将深入解析这两款芯片的技术特性、应用场景及落地价值。一、无线门铃市场痛点与芯片方案优势1.1 行业核心痛点系统复杂:传统方案需MCU+射频模块+语音芯片组合,BOM成本高功耗瓶颈:待机电流
    广州唯创电子 2025-03-31 09:06 62浏览
  • 一、真空容器的定义与工作原理真空容器是一种能够创造并保持一定真空度的密闭容器。其工作原理通常涉及抽气系统,该系统能够逐渐抽出容器内部的气体分子,从而降低容器内的气压,形成真空环境。在这个过程中,容器的体积并不会因抽气而改变,但容器内的压力会随着气体的抽出而逐渐降低。二、真空容器并非恒压系统真空容器并非一个恒压系统。恒压系统指的是在外部环境变化时,系统内部压力能够保持相对稳定。然而,在真空容器中,随着气体的不断抽出,内部压力会持续降低,直至达到所需的真空度。因此,真空容器内部的压力是变化的,而非恒
    锦正茂科技 2025-03-29 10:23 139浏览
  • 3月27日,长虹中玖闪光超高剂量率电子射线放射治疗系统(e-Flash)临床试验项目在四川大学华西医院正式启动,标志着该项目正式进入临床试验阶段。这不仅是我国医学技术领域的一项重大突破,更是我国在高端医疗设备研发和应用方面的重要里程碑。e-Flash放射治疗系统适用于哪些病症,治疗周期为多久?会不会产生副作用?治疗费用高不高……随着超高剂量率电子射线放射治疗系统(e-Flash)正式进入临床试验阶段,社会各界对该项目的实施情况尤为关注。对此,中国工程院院士范国滨,以及四川大学华西医院、四川省肿瘤
    华尔街科技眼 2025-03-28 20:26 280浏览
  •        随着智能驾驶向L3级及以上迈进,系统对实时性的要求已逼近极限。例如,自动紧急制动(AEB)需在50毫秒内完成感知、决策到执行的全链路响应,多传感器数据同步误差需小于10微秒。然而,传统基于Linux-RT的方案在混合任务处理中存在天然缺陷——其最大中断延迟高达200微秒,且多任务并发时易引发优先级反转问题。据《2024年智能汽车电子架构白皮书》统计,超60%的车企因实时性不足被迫推迟舱驾一体化项目落地。为旌电子给出的破局之道,是采用R5F(实
    中科领创 2025-03-29 11:55 211浏览
  • 在智能语音交互设备开发中,系统响应速度直接影响用户体验。WT588F系列语音芯片凭借其灵活的架构设计,在响应效率方面表现出色。本文将深入解析该芯片从接收指令到音频输出的全过程,并揭示不同工作模式下的时间性能差异。一、核心处理流程与时序分解1.1 典型指令执行路径指令接收 → 协议解析 → 存储寻址 → 数据读取 → 数模转换 → 音频输出1.2 关键阶段时间分布(典型值)处理阶段PWM模式耗时DAC模式耗时外挂Flash模式耗时指令解析2-3ms2-3ms3-5ms存储寻址1ms1ms5-10m
    广州唯创电子 2025-03-31 09:26 96浏览
  • 真空容器的材料选择取决于其应用场景(如科研、工业、医疗)、真空等级(低真空、高真空、超高真空)以及环境条件(温度、压力、化学腐蚀等)。以下是常见材料及其优缺点分析:1. 不锈钢(如304、316L)优点:耐腐蚀性强:316L含钼,耐酸碱和高温氧化,适合高真空和腐蚀性环境。高强度:机械性能稳定,可承受高压差和外部冲击。低放气率:经电解抛光或镀镍处理后,表面放气率极低,适合超高真空系统(如粒子加速器、半导体镀膜设备)。易加工:可焊接、铸造,适合复杂结构设计。缺点:重量大:大型容器运输和安装成本高。磁
    锦正茂科技 2025-03-29 10:52 44浏览
  • 在工业控制与数据采集领域,高精度的AD采集和实时显示至关重要。今天,我们就来基于瑞芯微RK3568J + FPGA国产平台深入探讨以下,它是如何实现该功能的。适用开发环境如下:Windows开发环境:Windows 7 64bit、Windows 10 64bitLinux开发环境:Ubuntu18.04.4 64bit、VMware15.5.5U-Boot:U-Boot-2017.09Kernel:Linux-4.19.232、Linux-RT-4.19.232LinuxSDK:LinuxSD
    Tronlong 2025-03-28 10:14 168浏览
  • 在智能语音设备开发中,高音量输出是许多场景的核心需求,例如安防警报、工业设备提示、户外广播等。 WT588F02BP-14S 和 WTN6040FP-14S 两款语音芯片,凭借其内置的 D类功放 和 3W大功率输出 能力,成为高音量场景的理想选择。本文将从 性能参数、应用场景、设计要点 三大维度,全面解析这两款芯片的选型策略。一、核心参数对比与选型决策参数WT588F02BP-14SWTN6040FP-14S输出功率3W@4Ω(THD<1%)3W@4Ω(THD<0.8%)功
    广州唯创电子 2025-03-28 09:15 108浏览
  • 真空容器内部并非wan全没有压强,而是压强极低,接近于零。真空状态下的压强与容器内外气体的分子数量、温度以及容器本身的性质有关。一、真空与压强的基本概念真空指的是一个空间内不存在物质或物质极少的状态,通常用于描述容器或系统中气体的稀薄程度。压强则是单位面积上所受正压力的大小,常用于描述气体、液体等流体对容器壁的作用力。二、真空状态下的压强特点在真空状态下,容器内部的气体分子数量极少,因此它们对容器壁的作用力也相应减小。这导致真空容器内部的压强远低于大气压强,甚至接近于零。然而,由于技术限制和物理
    锦正茂科技 2025-03-29 10:16 146浏览
  • 本文介绍瑞芯微RK356X系列复用接口配置的方法,基于触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。复用接口介绍由下图可知,红圈内容当前引脚可配置为SPI0或者PWM0功能。由标准系统固件以及相关系统手册可得,当前接口默认配置为SPI0功能:console:/ # ls dev/spidev0.0dev/spidev0.0再由原理图可知当前GPIO为GPIO0_C3
    Industio_触觉智能 2025-03-28 18:14 139浏览
  • Shinco音响拆解 一年一次的面包板社区的拆解活动拉开帷幕了。板友们开始大显身手了,拆解各种闲置的宝贝。把各自的设计原理和拆解的感悟一一向电子爱好者展示。产品使用了什么方案,用了什么芯片,能否有更优的方案等等。不仅让拆解的人员了解和深入探索在其中。还可以让网友们学习电子方面的相关知识。今天我也向各位拆解一个产品--- Shinco音响(如下图)。 当产品连接上电脑的耳机孔和USB孔时,它会发出“开机,音频输入模式”的语音播报,。告诉用户它已经进入音响外放模式。3.5mm耳机扣接收电脑音频信号。
    zhusx123 2025-03-30 15:42 75浏览
  • 文/杜杰编辑/cc孙聪颖‍3月11日,美国总统特朗普,将自费8万美元购买的特斯拉Model S,开进了白宫。特朗普此举,绝非偶然随性,而是有着鲜明的主观意图,处处彰显出一种刻意托举的姿态 。特朗普也毫不讳言,希望他的购买能推动特斯拉的发展。作为全球电动车鼻祖,特斯拉曾凭借创新理念与先进技术,开辟电动汽车新时代,引领行业发展潮流。然而当下,这家行业先驱正深陷困境,面临着前所未有的挑战。就连“钢铁侠”马斯克自己都在采访时表示“非常困难”,的确是需要美国总统伸手拉一把了。马斯克踏入白宫的那一刻,特斯拉
    华尔街科技眼 2025-03-28 20:44 173浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦