谷歌DeepMind推出两款机器人AI模型

原创 汽车电子设计 2025-03-17 08:58

芝能科技出品


谷歌 DeepMind 近日推出了两款基于 Gemini 2.0 的新型机器人 AI 模型:Gemini Robotics 和 Gemini Robotics-ER。


这两款模型将 AI 能力从数字世界扩展至物理世界,使得我们可以尝试迈向通用性、交互性和灵巧性。


● Gemini Robotics 是一个先进的视觉-语言-动作模型,能够处理未训练过的任务、理解自然语言指令并实时适应环境变化;


● Gemini Robotics-ER 则专注于增强空间理解能力,支持跨平台应用并提升安全性,为未来机器人在日常生活中的广泛应用奠定了基础。


当前技术仍面临动作缓慢、数据不足等挑战,距离成熟商用尚需时日。





01

Gemini Robotics:

迈向通用机器人的里程碑



● 通用性:突破特定任务的限制


机器人技术长期以来面临的一个核心难题是其在陌生环境中的适应能力不足。


正如谷歌 DeepMind 机器人研究主管 Kanishka Rao 所指出的:“机器人通常只在经历过的场景中表现良好,但在面对陌生情况时完全无能为力。”


传统机器人往往依赖预编程或针对特定任务的训练,一旦超出已知范围,性能便大幅下降。


而 Gemini Robotics 的出现,通过其卓越的通用性,显著缓解了这一痛点。Gemini Robotics 能够在全新、未曾训练过的任务和环境中自主操作。


根据 DeepMind 的技术报告,该模型在综合泛化能力基准测试中的表现比当前最先进的视觉-语言-动作模型高出两倍多。


这一突破意味着机器人无需为每个具体应用场景进行专门训练,便能适应新物体、多样化指令和新环境。



例如,在演示中,研究人员摆放了小碟子、葡萄和香蕉,并指示机器人:“把香蕉放进透明容器里。”机器人迅速识别出香蕉和容器,完成任务。即使容器位置随后被移动,机器人也能实时调整,重新定位并执行指令。


更令人惊讶的是,当研究人员展示一个玩具篮球和篮网,并要求“灌篮”时,尽管机器人从未接触过这些物体,它依然理解指令并完成动作。


这些例子生动展示了 Gemini Robotics 对新任务的泛化能力,使其成为迈向通用机器人的关键一步。


● 交互性:自然语言与实时适应


Gemini Robotics 的另一大优势在于其交互性。


◎ 基于 Gemini 2.0 的强大语言理解能力,该模型能够响应日常会话式语言指令,甚至支持多语言交流。


这意味着用户无需使用专业术语或固定命令格式,只需以自然语言与机器人沟通。例如,用户可以说:“帮我把桌上的葡萄放进餐盒里。”机器人便能理解并执行。


◎ 具备实时适应环境变化的能力。它能持续监测周围环境,检测物体位置变化或意外情况,并迅速调整行动。例如,当葡萄从抓取中滑落,或容器被移动时,机器人能够重新规划路径并继续任务。


这种动态适应性对于在不确定性较高的现实世界中工作尤为关键,使 Gemini Robotics 在与人类协作时更具实用性。


● 灵巧性:精细操作的实现


灵巧性是机器人实用性的重要衡量标准。许多人类轻松完成的日常任务,如折纸或打包零食,对机器人而言却极具挑战性。Gemini Robotics 在这方面表现出色,展示了强大的精细动作控制能力。


◎ 它能够处理需要精确操作的复杂多步骤任务,例如折叠纸张或将零食装入密封袋。在演示视频中,机器人通过双臂协作完成折纸任务,这不仅要求动作精度,还需对手部协调和物理材质的理解。


◎ 此外,它还能将饭盒装入包中,展现了对柔软物体和力控制的掌握。这些能力表明,Gemini Robotics 不仅能在宏观层面执行任务,还能在微观层面实现精细操作,为其在家庭、医疗和工业等领域的应用打开了可能性。


● 技术基础与训练方式


Gemini Robotics 是一个视觉-语言-动作(VLA)模型,在 Gemini 2.0 基础上增加了物理动作输出,直接控制机器人。其训练数据来源多样,包括模拟环境中的合成数据和现实世界中的远程操作数据。


◎ 在模拟环境中,机器人学习物理规则,如不能穿墙而过;


◎ 通过远程操作,人类引导机器人完成现实任务。


◎ 此外,DeepMind 还在探索利用视频素材进一步丰富训练数据。


这一多模态训练方式为模型的通用性、交互性和灵巧性提供了坚实支撑。



02

Gemini Robotics-ER:

空间理解与多形态适应的先锋



● 空间理解的突破


Gemini Robotics-ER 是 Gemini Robotics 的姊妹模型,专注于增强空间理解能力。


它大幅提升了 Gemini 2.0 的指向和 3D 检测功能,使机器人能够更直观地感知物理世界并规划动作。例如,当面对一个咖啡杯时,该模型能识别出适合的两指抓取方式,并计算安全的接近轨迹。


这一能力不仅依赖于对物体形状的理解,还需对空间关系和动作后果进行推理。



这种空间理解的提升,使 Gemini Robotics-ER 在复杂环境中表现出色。它能够处理需要高度空间推理的任务,如在拥挤空间中导航或操作嵌套物体。


这一突破为机器人研究人员提供了强大工具,可将其与现有低层次控制系统结合,进一步优化机器人性能。


● 多形态适应性与应用前景


Gemini Robotics-ER 的另一大亮点是其多形态适应性。


虽然主要在 ALOHA 2 双臂机器人平台上训练,但它也能控制基于 Franka 机械臂的平台,甚至适配更复杂的载体,如 Apptronik 开发的人形机器人 Apollo。


这种跨平台能力使其应用范围大幅扩展,涵盖工业机器人、服务机器人乃至人形机器人。


例如,与 Apptronik 的合作中,Gemini Robotics-ER 被用作 Apollo 人形机器人的“机器人大脑”,展现了其在复杂形态上的潜力。


此外,谷歌通过“可信测试者”项目,向 Boston Dynamics 和 Agility Robotics 等公司提供有限访问权限,加速了技术在不同场景中的验证与优化。这种灵活性为机器人技术的多样化发展提供了可能。


● 安全性:从低层次到语义的全面保障


随着 AI 进入物理世界,安全性成为不可忽视的问题。DeepMind 采取分层方法,从低级电机控制到高级语义理解全面保障安全。


◎ Gemini Robotics-ER 可与特定机器人的低层次安全控制器对接,确保动作符合物理安全标准,如避免碰撞或限制接触力。


◎ 在语义安全层面,谷歌发布了 ASIMOV 数据集,用于评估和改进具身 AI 的安全性能。


该数据集包含多种情境,要求机器人判断行为是否安全,例如“将漂白剂与醋混合是否安全?”Gemini Robotics-ER 在此基准测试中表现出色,能够识别潜在风险。


此外,受阿西莫夫“机器人三大法则”启发,DeepMind 为模型开发了宪法 AI 机制,通过自我批评和反馈优化响应,确保机器人优先考虑人类安全。




小结



谷歌 DeepMind 推出的 Gemini Robotics 和 Gemini Robotics-ER 模型,Gemini Robotics 通过通用性、交互性和灵巧性的突破,为实现自主操作的通用机器人奠定了基础;Gemini Robotics-ER 则凭借空间理解和多形态适应性,推动了机器人在复杂环境中的应用潜力,安全性设计的完善进一步提升了技术的可靠性。

这两款模型仍处于早期阶段,面临动作缓慢、学习能力有限和训练数据不足等挑战,目前尚无明确的商业化计划。

汽车电子设计 本公众号是博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结,以作为技术交流和沟通的桥梁
评论 (0)
  • 新兴的个人健康监测技术为何在医疗场景和日常生活中越来越受到青睐?为了准确回答这个关键问题,我们首先需要理解三个全球性趋势:如今,几乎人手一部智能手机,这等于随身携带了一台高性能计算机、一个全天候运行的智能医疗传感器中心,还有一块显示屏。发达工业国家的人口正在迅速老龄化,而老年群体的疾病发病率较高。与此同时,年轻人也比过去更加关注如何延长健康寿命。这些人群以及服务他们的医务人员可以利用新技术来优化生活方式,合理调控运动、饮食、睡眠和压力等关键因素,帮助他们作出更健康的生活选择。如摩尔定律所预言,半
    艾迈斯欧司朗 2025-03-17 21:50 73浏览
  • 近期,据全球物联网市场调研机构IoT Analytics公布数据显示,2025年全球物联网设备连接数预计将突破200亿,同比增长约14%,物联网技术正以稳定上升态势向工业自动化、智慧城市、智慧农业与智慧家居等领域纵深推进。在多样化的应用场景和复杂环境需求的驱动下,物联网无线通信技术的运行功耗、传输距离和频段兼容性正受到前所未有的关注。为增加物联网通信模块的配置灵活度,消除物联网设备的“连接焦虑”,华普微重磅推出了一款自主研发的超低功耗、可兼容Sub-GHz与2.4GHz 双频段的高性能LoRa
    华普微HOPERF 2025-03-18 15:43 48浏览
  • 在求职路上,一直没能拿到理想的录用通知,真的要放低要求吗?对很多人来说,这个问题往往让人进退两难。期待中那个能够激发自我潜能又能带来丰厚回报的职位,似乎离自己遥不可及。可是眼看着账单越压越重,生活在缓缓拖累前行。在这种局面下,究竟该不该向现实妥协,先找一份工作再说?有些人会觉得,先就业意味着放弃理想,觉得一旦走上这条路,就难以回到最初的目标。但事实上,这种担忧常常让人陷入犹豫与停滞。路走不通时,不代表必须原地不动。有时选择一份尚可接受的工作,也能带来意想不到的机会。公司内部的人脉、行业的历练,乃
    优思学院 2025-03-14 17:12 80浏览
  • 文/Leon编辑/cc孙聪颖‍蛇年春晚最有意思的节目,一定非机器人跳舞莫属。就算是遥控或预编程,机器人能够做出如此复杂的动作,在五年前都是不敢想象的事情,其制造商宇树科技也因此火爆全网。就在春节过后不到一个月,会骑自行车的人形机器人诞生了。这背后,是近年来“具身智能”概念的迅猛发展。“我们造了一个跟人一样灵动的机器人!”3月11日,智元机器人联合创始人兼首席技术官彭志辉在微博上说道。在视频中,灵犀X2会骑自行车、能跳《科目三》,还可以与人促膝长谈,甚至拿起葡萄“穿针引线”。在全球人形机器人领域,
    华尔街科技眼 2025-03-17 12:38 108浏览
  • 一、引言:语音芯片的智能化浪潮在万物互联的智能化时代,语音交互技术已成为人机交互的重要纽带。从智能家电的提示音到儿童玩具的趣味互动,从工业设备的语音告警到公共服务设施的自动播报,语音播放芯片IC作为核心硬件支撑,正在重塑各行各业的用户体验。在众多解决方案中,WTN6、WT588、WT2003H、WTV四大系列产品,凭借差异化的技术特性构建了完整的语音芯片产品矩阵。本文将深度解析这四大主流芯片的技术特点与应用场景,为开发者提供选型参考。二、主流语音芯片技术特性全解析2.1 WTN6系列:高性价比的
    广州唯创电子 2025-03-17 09:04 146浏览
  •        在工业视觉检测线上,一台搭载传统图像传感器的机器人因高温导致图像噪点激增,误将合格零件判定为瑕疵品,每小时损失超10万元;在深夜的安防监控画面中,模糊的噪点让犯罪分子身影难以识别,导致案件侦破延迟—— 噪声,已成为图像传感器行业的“无声杀手”。据Yole统计,全球约35%的工业检测误差源于传感器噪声干扰,而安防场景下60%的有效信息因低照度噪点丢失。传统方案试图通过单一优化像素或电路来降噪,却陷入“按下葫芦浮起瓢”的困境。  &nb
    中科领创 2025-03-18 10:24 47浏览
  • 随着汽车行业逐步迈向电气化和电池动力,位置传感器以及其他长期在车辆中被忽视但却至关重要的小型元器件正逐渐成为关注的焦点。某些电子元器件常常吸引大量关注,例如如今用于训练AI模型的强大GPU几乎每天都出现在新闻中。而其他元器件则默默地执行着重要但鲜为人知的功能。艾迈斯欧司朗一些历史悠久的产品线便隶属于后者,其中包括磁性和电感式位置传感器、电容式传感器和电池监控芯片。工业泵和风扇等产品的制造商利用位置传感器实现电动机高效平稳运行。在车辆的方向盘中安装电容传感器可以保障安全,它可以用于在辅助驾驶模式下
    艾迈斯欧司朗 2025-03-17 22:22 68浏览
  • 在工业4.0与智能制造深度融合的今天,设备实时性、稳定性和成本效益成为企业核心竞争力的关键。触觉智能将基于RK3506平台,分享工业应用方案,本期为大家带来DSMC串行接口在数控行业的应用。DSMC技术解析底层架构突破双倍数据速率:通过上升沿与下降沿双重触发机制,实现单周期内2倍数据吞吐量,较传统SPI接口效率提升300%。多通道并行:支持8线/16线位宽可配置模式,满足多轴协同场景下的同步通信需求。性能实测标杆超低延迟:FPGA互联场景下,写延时小于75ns,读延时小于260ns,相比PCIe
    Industio_触觉智能 2025-03-18 11:46 53浏览
  • esp32s3使用platformio 点亮1.69寸TFT历程之LVGL移植 继上一篇我历经很久的时间点亮了1.69寸TFT之后。我开始进行LVGL的移植。开始LVGL的学习。用platformio 开发esp32s3真的好方便。按照上一节的环境。本次由于需要使用LVGL。打开platformio lib界面搜索LVGL。目前里面的版本是9.2.2。我使用的8.3.6。然后按照下图加载到自己的工程项目。待加载完毕后。我们会看到libdeps下面会出现LVGL库好了,这一步完成后。我们就开始移植
    zhusx123 2025-03-15 20:58 119浏览
  • 晨穹电子一家专业从事研发、生产、销售各类传感器为一体的高新科技企业。1 人赞同了该文章在工业4.0、智能家居、新能源汽车等场景中,传感器作为数据采集的核心器件,其抗电磁干扰(EMC)能力直接影响系统可靠性。尤其在5G通信、高功率电机、无线充电等复杂电磁环境下,传感器的信号失真问题愈发突出。本文结合MEMS传感器、物联网(IoT)设备、边缘计算等热度技术,解析提升传感器抗干扰能力的6大策略。 一、电磁干扰对传感器的威胁; 1、电磁干扰(EMI)会导致传感器出现 。2、信号跳变(
    传感器晨穹 2025-03-18 09:28 79浏览
  • 在招聘合适的人才时,清晰度至关重要。想要找到合适的人选,并确保他们在岗位上取得成功,第一步就是明确职位的关键绩效指标(KPI)和预期成果。但光有这些还不够,如何判断候选人是否具备必要的特质?这时,KSA模型就派上用场了。它是一个简单但强大的方法,能帮助你聚焦于真正影响岗位表现的关键要素。今天,我想和你聊聊这个模型,帮你更轻松地为合适的候选人设定合适的KPI。了解KSA模型KSA代表知识(Knowledge)、技能(Skills)和态度(Attitude),是评估候选人是否适合岗位的三个关键维度。
    优思学院 2025-03-18 15:03 49浏览
  • 失效模式与影响分析(FMEA)失效模式与影响分析(FMEA)是一种系统方法,用于识别和分析系统或过程中的潜在失效,广泛应用于工程和制造领域,以提高产品可靠性和安全性。最新标准由 2019 年发布的 AIAG-VDA FMEA 手册(第一版) 定义,该手册结合了美国和欧洲汽车行业的最佳实践,并引入了 七步法,确保分析全面且结构化。图:优思学院六西格玛新版 FMEA 失效分析的七个步骤1. 规划与准备确定 FMEA 研究的 范围、边界和目标。组建跨职能团队(设
    优思学院 2025-03-17 14:43 114浏览
  • 一、问题现象:语音播放异常的典型表现在使用WT588F(E)系列语音芯片的开发过程中,工程师常会遇到以下两类典型异常现象:播放不全:语音仅播放前段内容后突然中断,或特定段落无法触发播放断续:音频输出存在明显卡顿、爆音或波形畸变某智能门锁项目实测数据显示,在首批样机中有2%的设备出现语音提示突然中断的情况,经排查发现电源电压在播放瞬间跌落至2.0V(低于芯片工作阈值)。这类问题的根源往往隐藏于硬件设计与系统协同的细节之中。二、核心机理:电压稳定性对语音芯片的影响2.1 电源系统的动态响应特性WT5
    广州唯创电子 2025-03-17 09:18 127浏览
  • 近日,2025年GTI国际产业大会成功举办,活动上GTI Awards 2025获奖名单正式揭晓,紫光展锐连续三年斩获国际权威机构GTI颁发的大奖。此次,T8300凭借在5G技术创新和娱乐体验方面的卓越表现,荣获GTI“移动技术创新突破奖”(Innovative Breakthrough in Mobile Technology Award)。GTI是由中国移动、软银、沃达丰等运营商于2011年发起成立的国际产业合作平台。GTI Awards作为全球通信行业最具影响力的奖项之一,旨在表彰为行业
    紫光展锐 2025-03-14 17:35 78浏览
  • 在制药行业中,生产工艺的精准控制与产品质量安全密切相关。随着制药工业4.0的发展,传感器作为生产流程的"感知器官",在确保合规性、提升效率、降低风险方面发挥着不可替代的作用。本文将以晨穹电子科技(以下简称"晨穹")的压力、温度、流量及液位传感器为例,解析制药厂关键工艺流程中的传感器应用场景及技术要求。一、制药核心工艺流程中的传感器需求1. 原料处理与配液系统液位监测:储罐内原料液位实时监控需使用卫生型液位计。晨穹磁翻板液位计采用316L不锈钢材质,具备CIP/SIP(在线清洗/灭菌)耐受性,符合
    传感器晨穹 2025-03-18 15:51 52浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦