具身智能技术要点和前沿进展

IT阅读排行榜 2024-07-25 10:29

近年来,随着多模态大模型和强化学习技术的发展,具身智能技术也是日新月异,成为产学研共同关注的热点问题。本文对具身智能的技术要点和前沿进展进行介绍。


1什么是具身智能


在具身智能任务中,人工智能通过视觉传感器、听觉传感器、触觉传感器、力觉传感器等物理传感器来感知环境,并根据感知到的环境来操作机器人、机器狗、机械臂等机械构件,以实现更好的环境感知,并且进行合适的操作以完成各种各样的任务。

具身智能最大的特点是需要依赖机械实体来感知和影响环境,并且机械决策会进一步影响感知的过程。


比如,一个做家务的机器人,它需要自己在家里移动来查阅家里的物品,并且根据观察到的内容决定下一步应该去哪里、应该干什么。这个机器人应该是一个实物,它可以是人形机器人,也可以不是人形机器人。它可以通过摄像头对周围环境进行拍照和观察,也可以通过雷达测距仪来测量各物体的距离,还可以内置麦克风来接收人类指令。它可以用轮子或是机械腿来实现移动,可以用各种机械臂来完成物品吸附、抓取和放置等功能,还有各种机械机构来调整各传感器等位置和朝向。这就是一个具身智能的典型例子。


并不是所有的人工智能都是具身智能。如果一个人工智能不依赖于物理实体,或是它的观测并不会随着物理实体的变化而变化,那么它就不是具身智能。比如,下围棋的AlphaGo和聊天应用ChatGPT都是以软件应用的形式存在,它并不需要操纵什么硬件,所以它们都不是具身智能。

2具身智能的技术要点


具身智能需要在真实的物理世界中做决策。智能可以分为“大脑智能”和“小脑智能”两个部分。

“大脑智能”进行任务理解和规划决策。以家务机器人为例,家务机器人可以决定待做家务的先后次序,比如先洗碗然后擦桌子。在洗碗这个子任务中,它要决定洗碗的次序,比如要用几次洗碗机,每次用洗碗机时洗哪几块碗。每次用洗碗机也有步骤:它需要先打开洗碗机的门,然后把碗放进去,然后关上门,然后启动洗碗机,等洗碗机洗完后还要打开洗碗机的门,把碗拿出来,然后把洗碗机的门关上。这些规划决策都属于大脑智能


“小脑智能”控制机械设备的物理参数。比如为了打开洗碗机的门,需要调节某个可移动设备的移动功率或某个旋转设备的旋转力矩,使得机械设备能将某个机械结构其附着到门把手上然后把门打开到足够大。小脑智能的输出往往是移动设备的移动加速度、旋转设备的旋转力矩、施力设备的力的方向和大小、发声设备的声音波形这些具体的物理量。


由于具身智能涉及到物理设备,而物理设备可能较为昂贵。所以,人们希望物理设备尽可能通用,以降低硬件的均摊成本。比如,很多文学作品中塑造了人形机器人的形象,其中的人形机器人可能有类似人类一样的智慧,能做很多不同事情。这样的具身智能要求大脑智能具有多任务、多模态的处理能力。


具身智能有别于一般人工知智能的最重要特点是它需要操纵物理构件,所以,和物理构件直接打交道道小脑智能是具身智能的重要技术要点。

3多模态大模型赋能具身智能

近年多模态大模型的突破性进展极大地赋能了具身智能。GPT-4o等多模态大模型可以理解音视频输入,并有能力针对各种各样的任务给出解决方案。这样的大模型给了具身智能强大的“大脑”。在这样的背景下,各种各样的具身智能应用如雨后春笋般涌现出来,极大的丰富了具身智能的应用场景。


比如,人类给某个家务机器人发送语音指令:“请先洗碗,然后擦桌子”。机器人可以把采集到的音频信息直接给大模型,然后大模型从语音中识别出任务是“洗碗”和“擦桌子”,然后大模型进一步决策:要先观察环境得到周围图像信息,然后大模型根据得到的图像信息判断哪些是要洗的碗,等等。在这个例子中,多模态大模型听了人类的语音、观察了环境,理解了任务,并为任务做出了合适决策。


多模态大模型还能评估任务的完成情况。比如对于洗碗的任务,机器人可以把洗好的碗的视频发送给大模型,让大模型评估碗是否洗干净,洗好的碗是否摆放妥当了。大模型甚至还能判断做洗碗过程中用了多少水电、总成本是多少。最后,大模型还可以对任务的完成情况做个总结,给出改进建议。

4高自由度机械控制是未来具身智能研究的难点和要点


目前具身智能技术主要受限于“小脑智能”,也就是对物理系统的具体操作上。为了完成现实生活中的常见任务,往往需要机械结构具有多个自由度,并且需要对这些自由度进行精细控制。


以人形机器人的机械结构为例,人形机器人往往有数十个关节,每个关节还会有多个自由度,整个机器人会有数百个自由度。当前学界并没有能够完全掌握这样复杂任务的训练。


小脑智能所解决的任务比大脑智能更少,但是目前表现却比大脑智能要差,原因之一是因为小脑智能的任务是面向现实物理环境的,它的数据少,数据获取成本高。每个机械结构及其所处环境还会略有不同(比如受到部件尺寸误差、机械磨损、环境温湿度等影响),对不同环境下的数据集还略有不同。一般情况下,数据集不足以支持高自由度的训练,常常出现一些没有训练好的情况,造成任务失败。


在小脑智能中的研究中,灵巧手和双足是最受关注的两个机械部件。灵巧手指的是类似于人类手的机械手,它有五个手指,每个手指有2~3个关节,一共有几十个自由度。目前我们可以用灵巧手做一些拾取刚体这样的任务,但是对于高精度的、触觉力觉综合反馈的任务(比如剃头发、叠衣服、做外科手术等)还是有困难。至于双足,目前已经可以进行站立、走、跑等功能,但是要兼容屈膝捡东西、单腿踢球等任务还有难度。由于目前灵巧手和双足能完成的任务和人类的手脚相比有较大的差距,它们可以说是目前具身智能研究的要点和难点。

5模仿学习和强化学习是具身智能研发的重要工具


攻克小脑智能最主要的方法是模仿学习和强化学习。


模仿学习利用已有的成功交互记录来进行学习。比如,人工智能可以观察人类的示例,从这些示例中进行学习。不过,仅仅作为一个旁观者来进行学习往往不能达到学习目的。就像一个人学游泳,如果他永远只看别人游泳,而自己不去尝试、去经历成功和失败,那么他很难学好游泳。


强化学习则是利用奖励信号来进行学习。在强化学习的训练过程中,人工智能试图给出完成任务的解决方案,然后系统会给出一个奖励信号来评价任务的完成质量。人工智能可以不断尝试,通过每次尝试的奖励信号来不断改进,最终较好的完成任务。

不过,如果在现实世界中没有很好的完成任务,成本往往较大。为此,具身智能往往先要在仿真器里虚拟学习,在虚拟世界里学的差不多后,才试图把技能迁移到现实世界中。


多模态大模型可以为强化学习的学习过程赋能。强化学习需要奖励信号来判断任务的完成情况,而多模态大模型可以提供奖励信号。具体而言,当人工智能明确任务后,它可以观察周围环境,建立仿真模型来进行强化学习训练。在训练过程中,它可以把仿真环境中每次完成的情况发送给多模态大模型,由大模型来判断本次完成情况,给出奖励信号。这样,具身智能中实际操作物理机械设备前,已经在大模型的帮助下训练多时了。


除了直接给出奖励信号外,多模态大模型还能给出更多类型的反馈,比如对完成结果进行点评,给出修改意见等等。利用各种各样的反馈信息进行学习,是强化学习的一种拓展形式。



延伸阅读


《强化学习:原理与Python实战》

肖智清 著

介绍强化学习、模仿学习、多模态大模型的技术要点


理论完备,涵盖强化学习主干理论和常见算法,带你参透PPO、RLHF等大模型训练技术要点;

实战性强,每章都有编程案例,深度强化学习算法提供TensorFlow和PyTorch对照实现;

配套丰富,逐章提供阅读导引和知识点总结,章后习题形式丰富多样。还有Gym源码解读、开发环境搭建指南、习题答案等在线资源助力自学。



  • 本文来源:原创,图片来源:原创、pexels

  • 责任编辑:王莹,部门领导:宁姗

  • 发布人:白钰

IT阅读排行榜 技术圈的风向标,有趣,有料,有货,有品又有用
评论 (0)
  • 在人工智能技术飞速发展的今天,语音交互正以颠覆性的方式重塑我们的生活体验。WTK6900系列语音识别芯片凭借其离线高性能、抗噪远场识别、毫秒级响应的核心优势,为智能家居领域注入全新活力。以智能风扇为起点,我们开启一场“解放双手”的科技革命,让每一缕凉风都随“声”而至。一、核心技术:精准识别,无惧环境挑战自适应降噪,听懂你的每一句话WTK6900系列芯片搭载前沿信号处理技术,通过自适应降噪算法,可智能过滤环境噪声干扰。无论是家中电视声、户外虫鸣声,还是厨房烹饪的嘈杂声,芯片均能精准提取有效指令,识
    广州唯创电子 2025-04-08 08:40 120浏览
  • HDMI从2.1版本开始采用FRL传输模式,和2.0及之前的版本不同。两者在物理层信号上有所区别,这就需要在一些2.1版本的电路设计上增加匹配电路,使得2.1版本的电路能够向下兼容2.0及之前版本。2.1版本的信号特性下面截取自2.1版本规范定义,可以看到2.1版本支持直流耦合和交流耦合,其共模电压和AVCC相关,信号摆幅在400mV-1200mV2.0及之前版本的信号特性HDMI2.0及之前版本采用TMDS信号物理层,其结构和参数如下:兼容设计根据以上规范定义,可以看出TMDS信号的共模电压范
    durid 2025-04-08 19:01 74浏览
  • 在全球电子产业面临供应链波动、技术迭代和市场需求变化等多重挑战的背景下,安博电子始终秉持“让合作伙伴赢得更多一点”的核心理念,致力于打造稳健、高效、可持续的全球供应链体系。依托覆盖供应商管理、品质检测、智能交付的全链路品控体系,安博电子不仅能确保电子元器件的高可靠性与一致性,更以高透明的供应链管理模式,助力客户降低风险、提升运营效率,推动行业标准升级,与全球合作伙伴共同塑造更具前瞻性的产业生态。动态优选机制:构建纯净供应链生态安博电子将供应商管理视为供应链安全的根基。打造动态优选管控体系,以严格
    电子资讯报 2025-04-07 17:06 66浏览
  • 在万物互联时代,智能化安防需求持续升级,传统报警系统已难以满足实时性、可靠性与安全性并重的要求。WT2003H-16S低功耗语音芯片方案,以4G实时音频传输、超低功耗设计、端云加密交互为核心,重新定义智能报警设备的性能边界,为家庭、工业、公共安防等领域提供高效、稳定的安全守护。一、技术内核:五大核心突破,构建全场景安防基座1. 双模音频传输,灵活应对复杂场景实时音频流传输:内置高灵敏度MIC,支持环境音实时采集,通过4G模块直接上传至云端服务器,响应速度低至毫秒级,适用于火灾警报、紧急呼救等需即
    广州唯创电子 2025-04-08 08:59 99浏览
  •   工业自动化领域电磁兼容与接地系统深度剖析   一、电磁兼容(EMC)基础认知   定义及关键意义   电磁兼容性(EMC),指的是设备或者系统在既定的电磁环境里,不但能按预期功能正常运转,而且不会对周边其他设备或系统造成难以承受的电磁干扰。在工业自动化不断发展的当下,大功率电机、变频器等设备被大量应用,现场总线、工业网络等技术也日益普及,致使工业自动化系统所处的电磁环境变得愈发复杂,电磁兼容(EMC)问题也越发严峻。   ​电磁兼容三大核心要素   屏蔽:屏蔽旨在切断电磁波的传播路
    北京华盛恒辉软件开发 2025-04-07 22:55 137浏览
  • 医疗影像设备(如CT、MRI、超声诊断仪等)对PCB的精度、可靠性和信号完整性要求极高。这类设备需要处理微伏级信号、高频数据传输,同时需通过严格的EMC/EMI测试。制造此类PCB需从材料选择、层叠设计、工艺控制等多维度优化。以下是关键技术与经验分享。 1. 材料选择:高频与生物兼容性优先医疗影像设备PCB常采用 Rogers RO4000系列 或 Isola FR4高速材料,以降低介电损耗并保证信号稳定性。例如,捷多邦在客户案例中曾为某超声探头厂商推荐 Rogers RO4350B
    捷多邦 2025-04-07 10:22 101浏览
  •     在研究Corona现象时发现:临界电压与介电材料表面的清洁程度有关。表面越清洁的介电材料,临界电压越高;表面污染物越多的地方,越容易“爬电”。关于Corona现象,另见基础理论第007篇。    这里说的“污染物”,定义为——可能影响介电强度或表面电阻率的固体、液体或气体(电离气体)的任何情况。    IEC 60664-1 (对应GB/T 16935.1-2023) 定义了 Pollution Degree,中文术语是“污染等
    电子知识打边炉 2025-04-07 22:06 69浏览
  •     根据 IEC术语,瞬态过电压是指持续时间几个毫秒及以下的过高电压,通常是以高阻尼(快速衰减)形式出现,波形可以是振荡的,也可以是非振荡的。    瞬态过电压的成因和机理,IEC 60664-1给出了以下四种:    1. 自然放电,最典型的例子是雷击,感应到电力线路上,并通过电网配电系统传输,抵达用户端;        2. 电网中非特定感性负载通断。例如热处理工厂、机加工工厂对
    电子知识打边炉 2025-04-07 22:59 78浏览
  • 曾几何时,汽车之家可是汽车资讯平台领域响当当的“扛把子”。2005 年成立之初,它就像一位贴心的汽车小助手,一下子就抓住了大家的心。它不仅吸引了海量用户,更是成为汽车厂商和经销商眼中的“香饽饽”,广告投放、合作推广不断,营收和利润一路高歌猛进,2013年成功在纽交所上市,风光无限。2021年更是在香港二次上市,达到了发展的巅峰,当年3月15日上市首日,港股股价一度高达184.6港元,市值可观。然而,如今的汽车之家却陷入了困境,业务下滑明显。业务增长瓶颈从近年来汽车之家公布的财报数据来看,情况不容
    用户1742991715177 2025-04-07 21:48 77浏览
  • 引言:POPO声的成因与影响在语音芯片应用中,WT588F08A作为一款支持DAC+功放输出的高集成方案,常因电路设计或信号处理不当,在音频播放结束后出现POPO声(瞬态噪声)。这种噪声不仅影响用户体验,还可能暴露电路设计缺陷。本文将基于实际案例,解析POPO声的成因并提供系统化的解决方案。一、POPO声的根源分析1. 功放电路状态切换的瞬态冲击当DAC输出的音频信号突然停止时,功放芯片的输入端若处于高阻态或无信号状态,其内部放大电路会因电源电压突变产生瞬态电流,通过喇叭表现为POPO声。关键因
    广州唯创电子 2025-04-07 09:01 104浏览
  • 贞光科技作为三星电机车规电容代理商,针对电动汽车领域日益复杂的电容选型难题,提供全方位一站式解决方案。面对高温稳定性、高可靠性、高纹波电流和小型化等严苛要求,三星车规电容凭借完整产品矩阵和卓越技术优势,完美满足BMS、电机控制器和OBC等核心系统需求。无论技术选型、供应链保障、样品测试还是成本优化,贞光科技助力客户在电动汽车产业高速发展中占据技术先机。在电动汽车技术高速发展的今天,作为汽车电子系统中不可或缺的关键元器件,电容的选型已成为困扰许多工程师和采购人员的难题。如何在众多参数和型号中找到最
    贞光科技 2025-04-07 17:06 59浏览
  • 在追求环境质量升级与产业效能突破的当下,温湿度控制正成为横跨多个行业领域的核心命题。作为环境参数中的关键指标,温湿度的精准调控不仅承载着人们对舒适人居环境的期待,更深度关联着工业生产、科研实验及仓储物流等场景的运营效率与安全标准。从应用场景上看,智能家居领域要求温湿度系统实现与人体节律的协同调节,半导体洁净车间要求控制温湿度范围及其波动以保障良品率,而现代化仓储物流体系则依赖温湿度的实时监测预防各种产品的腐损与锈化。温湿度传感器作为实现温湿度监测的关键元器件,其重要性正在各行各业中凸显而出。温湿
    华普微HOPERF 2025-04-07 10:05 121浏览
  • 及时生产 JIT(Just In Time)的起源JIT 起源于 20 世纪 70 年代爆发的全球石油危机和由此引发的自然资源短缺,这对仰赖进口原物料发展经济的日本冲击最大。当时日本的生产企业为了增强竞争力、提高产品利润,在原物料成本难以降低的情况下,只能从生产和流通过程中寻找利润源,降低库存、库存和运输等方面的生产性费用。根据这种思想,日本丰田汽车公司创立的一种具有特色的现代化生产方式,即 JIT,并由此取得了意想不到的成果。由于它不断地用于汽车生产,随后被越来越多的许多行业和企业所采用,为日
    优思学院 2025-04-07 11:56 103浏览
  • 文/Leon编辑/cc孙聪颖‍转手绢、跳舞、骑车、后空翻,就在宇树、智元等独角兽企业率领“机器人大军”入侵短视频时,却有资本和科技大佬向此产业泼了一盆冷水。金沙江创投管理合伙人朱啸虎近日突然对人形机器人发难,他表示“最近几个月正在批量退出人形机器人公司”。“只是买回去做研究的,或者买回去做展示的,这种都不是我们意义上的商业化,谁会花十几万买一个机器人去干这些活?”朱啸虎吐槽。不过,朱啸虎的观点很快就遭到驳斥,众擎机器人的创始人、董事长赵同阳回怼道:“(朱啸虎)甚至问出了人形机器人在这个阶段有什么
    华尔街科技眼 2025-04-07 19:24 115浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦