具身智能技术要点和前沿进展

IT阅读排行榜 2024-07-25 10:29

近年来,随着多模态大模型和强化学习技术的发展,具身智能技术也是日新月异,成为产学研共同关注的热点问题。本文对具身智能的技术要点和前沿进展进行介绍。


1什么是具身智能


在具身智能任务中,人工智能通过视觉传感器、听觉传感器、触觉传感器、力觉传感器等物理传感器来感知环境,并根据感知到的环境来操作机器人、机器狗、机械臂等机械构件,以实现更好的环境感知,并且进行合适的操作以完成各种各样的任务。

具身智能最大的特点是需要依赖机械实体来感知和影响环境,并且机械决策会进一步影响感知的过程。


比如,一个做家务的机器人,它需要自己在家里移动来查阅家里的物品,并且根据观察到的内容决定下一步应该去哪里、应该干什么。这个机器人应该是一个实物,它可以是人形机器人,也可以不是人形机器人。它可以通过摄像头对周围环境进行拍照和观察,也可以通过雷达测距仪来测量各物体的距离,还可以内置麦克风来接收人类指令。它可以用轮子或是机械腿来实现移动,可以用各种机械臂来完成物品吸附、抓取和放置等功能,还有各种机械机构来调整各传感器等位置和朝向。这就是一个具身智能的典型例子。


并不是所有的人工智能都是具身智能。如果一个人工智能不依赖于物理实体,或是它的观测并不会随着物理实体的变化而变化,那么它就不是具身智能。比如,下围棋的AlphaGo和聊天应用ChatGPT都是以软件应用的形式存在,它并不需要操纵什么硬件,所以它们都不是具身智能。

2具身智能的技术要点


具身智能需要在真实的物理世界中做决策。智能可以分为“大脑智能”和“小脑智能”两个部分。

“大脑智能”进行任务理解和规划决策。以家务机器人为例,家务机器人可以决定待做家务的先后次序,比如先洗碗然后擦桌子。在洗碗这个子任务中,它要决定洗碗的次序,比如要用几次洗碗机,每次用洗碗机时洗哪几块碗。每次用洗碗机也有步骤:它需要先打开洗碗机的门,然后把碗放进去,然后关上门,然后启动洗碗机,等洗碗机洗完后还要打开洗碗机的门,把碗拿出来,然后把洗碗机的门关上。这些规划决策都属于大脑智能


“小脑智能”控制机械设备的物理参数。比如为了打开洗碗机的门,需要调节某个可移动设备的移动功率或某个旋转设备的旋转力矩,使得机械设备能将某个机械结构其附着到门把手上然后把门打开到足够大。小脑智能的输出往往是移动设备的移动加速度、旋转设备的旋转力矩、施力设备的力的方向和大小、发声设备的声音波形这些具体的物理量。


由于具身智能涉及到物理设备,而物理设备可能较为昂贵。所以,人们希望物理设备尽可能通用,以降低硬件的均摊成本。比如,很多文学作品中塑造了人形机器人的形象,其中的人形机器人可能有类似人类一样的智慧,能做很多不同事情。这样的具身智能要求大脑智能具有多任务、多模态的处理能力。


具身智能有别于一般人工知智能的最重要特点是它需要操纵物理构件,所以,和物理构件直接打交道道小脑智能是具身智能的重要技术要点。

3多模态大模型赋能具身智能

近年多模态大模型的突破性进展极大地赋能了具身智能。GPT-4o等多模态大模型可以理解音视频输入,并有能力针对各种各样的任务给出解决方案。这样的大模型给了具身智能强大的“大脑”。在这样的背景下,各种各样的具身智能应用如雨后春笋般涌现出来,极大的丰富了具身智能的应用场景。


比如,人类给某个家务机器人发送语音指令:“请先洗碗,然后擦桌子”。机器人可以把采集到的音频信息直接给大模型,然后大模型从语音中识别出任务是“洗碗”和“擦桌子”,然后大模型进一步决策:要先观察环境得到周围图像信息,然后大模型根据得到的图像信息判断哪些是要洗的碗,等等。在这个例子中,多模态大模型听了人类的语音、观察了环境,理解了任务,并为任务做出了合适决策。


多模态大模型还能评估任务的完成情况。比如对于洗碗的任务,机器人可以把洗好的碗的视频发送给大模型,让大模型评估碗是否洗干净,洗好的碗是否摆放妥当了。大模型甚至还能判断做洗碗过程中用了多少水电、总成本是多少。最后,大模型还可以对任务的完成情况做个总结,给出改进建议。

4高自由度机械控制是未来具身智能研究的难点和要点


目前具身智能技术主要受限于“小脑智能”,也就是对物理系统的具体操作上。为了完成现实生活中的常见任务,往往需要机械结构具有多个自由度,并且需要对这些自由度进行精细控制。


以人形机器人的机械结构为例,人形机器人往往有数十个关节,每个关节还会有多个自由度,整个机器人会有数百个自由度。当前学界并没有能够完全掌握这样复杂任务的训练。


小脑智能所解决的任务比大脑智能更少,但是目前表现却比大脑智能要差,原因之一是因为小脑智能的任务是面向现实物理环境的,它的数据少,数据获取成本高。每个机械结构及其所处环境还会略有不同(比如受到部件尺寸误差、机械磨损、环境温湿度等影响),对不同环境下的数据集还略有不同。一般情况下,数据集不足以支持高自由度的训练,常常出现一些没有训练好的情况,造成任务失败。


在小脑智能中的研究中,灵巧手和双足是最受关注的两个机械部件。灵巧手指的是类似于人类手的机械手,它有五个手指,每个手指有2~3个关节,一共有几十个自由度。目前我们可以用灵巧手做一些拾取刚体这样的任务,但是对于高精度的、触觉力觉综合反馈的任务(比如剃头发、叠衣服、做外科手术等)还是有困难。至于双足,目前已经可以进行站立、走、跑等功能,但是要兼容屈膝捡东西、单腿踢球等任务还有难度。由于目前灵巧手和双足能完成的任务和人类的手脚相比有较大的差距,它们可以说是目前具身智能研究的要点和难点。

5模仿学习和强化学习是具身智能研发的重要工具


攻克小脑智能最主要的方法是模仿学习和强化学习。


模仿学习利用已有的成功交互记录来进行学习。比如,人工智能可以观察人类的示例,从这些示例中进行学习。不过,仅仅作为一个旁观者来进行学习往往不能达到学习目的。就像一个人学游泳,如果他永远只看别人游泳,而自己不去尝试、去经历成功和失败,那么他很难学好游泳。


强化学习则是利用奖励信号来进行学习。在强化学习的训练过程中,人工智能试图给出完成任务的解决方案,然后系统会给出一个奖励信号来评价任务的完成质量。人工智能可以不断尝试,通过每次尝试的奖励信号来不断改进,最终较好的完成任务。

不过,如果在现实世界中没有很好的完成任务,成本往往较大。为此,具身智能往往先要在仿真器里虚拟学习,在虚拟世界里学的差不多后,才试图把技能迁移到现实世界中。


多模态大模型可以为强化学习的学习过程赋能。强化学习需要奖励信号来判断任务的完成情况,而多模态大模型可以提供奖励信号。具体而言,当人工智能明确任务后,它可以观察周围环境,建立仿真模型来进行强化学习训练。在训练过程中,它可以把仿真环境中每次完成的情况发送给多模态大模型,由大模型来判断本次完成情况,给出奖励信号。这样,具身智能中实际操作物理机械设备前,已经在大模型的帮助下训练多时了。


除了直接给出奖励信号外,多模态大模型还能给出更多类型的反馈,比如对完成结果进行点评,给出修改意见等等。利用各种各样的反馈信息进行学习,是强化学习的一种拓展形式。



延伸阅读


《强化学习:原理与Python实战》

肖智清 著

介绍强化学习、模仿学习、多模态大模型的技术要点


理论完备,涵盖强化学习主干理论和常见算法,带你参透PPO、RLHF等大模型训练技术要点;

实战性强,每章都有编程案例,深度强化学习算法提供TensorFlow和PyTorch对照实现;

配套丰富,逐章提供阅读导引和知识点总结,章后习题形式丰富多样。还有Gym源码解读、开发环境搭建指南、习题答案等在线资源助力自学。



  • 本文来源:原创,图片来源:原创、pexels

  • 责任编辑:王莹,部门领导:宁姗

  • 发布人:白钰

IT阅读排行榜 技术圈的风向标,有趣,有料,有货,有品又有用
评论
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-10 16:13 105浏览
  • 【萤火工场CEM5826-M11测评】OLED显示雷达数据本文结合之前关于串口打印雷达监测数据的研究,进一步扩展至 OLED 屏幕显示。该项目整体分为两部分: 一、框架显示; 二、数据采集与填充显示。为了减小 MCU 负担,采用 局部刷新 的方案。1. 显示框架所需库函数 Wire.h 、Adafruit_GFX.h 、Adafruit_SSD1306.h . 代码#include #include #include #include "logo_128x64.h"#include "logo_
    无垠的广袤 2024-12-10 14:03 69浏览
  • 全球知名半导体制造商ROHM Co., Ltd.(以下简称“罗姆”)宣布与Taiwan Semiconductor Manufacturing Company Limited(以下简称“台积公司”)就车载氮化镓功率器件的开发和量产事宜建立战略合作伙伴关系。通过该合作关系,双方将致力于将罗姆的氮化镓器件开发技术与台积公司业界先进的GaN-on-Silicon工艺技术优势结合起来,满足市场对高耐压和高频特性优异的功率元器件日益增长的需求。氮化镓功率器件目前主要被用于AC适配器和服务器电源等消费电子和
    电子资讯报 2024-12-10 17:09 87浏览
  • 我的一台很多年前人家不要了的九十年代SONY台式组合音响,接手时只有CD功能不行了,因为不需要,也就没修,只使用收音机、磁带机和外接信号功能就够了。最近五年在外地,就断电闲置,没使用了。今年9月回到家里,就一个劲儿地忙着收拾家当,忙了一个多月,太多事啦!修了电气,清理了闲置不用了的电器和电子,就是一个劲儿地扔扔扔!几十年的“工匠式”收留收藏,只能断舍离,拆解不过来的了。一天,忽然感觉室内有股臭味,用鼻子的嗅觉功能朝着臭味重的方向寻找,觉得应该就是这台组合音响?怎么会呢?这无机物的东西不会腐臭吧?
    自做自受 2024-12-10 16:34 136浏览
  • 智能汽车可替换LED前照灯控制运行的原理涉及多个方面,包括自适应前照灯系统(AFS)的工作原理、传感器的应用、步进电机的控制以及模糊控制策略等。当下时代的智能汽车灯光控制系统通过车载网关控制单元集中控制,表现特殊点的有特斯拉,仅通过前车身控制器,整个系统就包括了灯光旋转开关、车灯变光开关、左LED前照灯总成、右LED前照灯总成、转向柱电子控制单元、CAN数据总线接口、组合仪表控制单元、车载网关控制单元等器件。变光开关、转向开关和辅助操作系统一般连为一体,开关之间通过内部线束和转向柱装置连接为多,
    lauguo2013 2024-12-10 15:53 81浏览
  • 天问Block和Mixly是两个不同的编程工具,分别在单片机开发和教育编程领域有各自的应用。以下是对它们的详细比较: 基本定义 天问Block:天问Block是一个基于区块链技术的数字身份验证和数据交换平台。它的目标是为用户提供一个安全、去中心化、可信任的数字身份验证和数据交换解决方案。 Mixly:Mixly是一款由北京师范大学教育学部创客教育实验室开发的图形化编程软件,旨在为初学者提供一个易于学习和使用的Arduino编程环境。 主要功能 天问Block:支持STC全系列8位单片机,32位
    丙丁先生 2024-12-11 13:15 49浏览
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 77浏览
  • 近日,搭载紫光展锐W517芯片平台的INMO GO2由影目科技正式推出。作为全球首款专为商务场景设计的智能翻译眼镜,INMO GO2 以“快、准、稳”三大核心优势,突破传统翻译产品局限,为全球商务人士带来高效、自然、稳定的跨语言交流体验。 INMO GO2内置的W517芯片,是紫光展锐4G旗舰级智能穿戴平台,采用四核处理器,具有高性能、低功耗的优势,内置超微高集成技术,采用先进工艺,计算能力相比同档位竞品提升4倍,强大的性能提供更加多样化的应用场景。【视频见P盘链接】 依托“
    紫光展锐 2024-12-11 11:50 47浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 68浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 74浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦