近年来,随着多模态大模型和强化学习技术的发展,具身智能技术也是日新月异,成为产学研共同关注的热点问题。本文对具身智能的技术要点和前沿进展进行介绍。
在具身智能任务中,人工智能通过视觉传感器、听觉传感器、触觉传感器、力觉传感器等物理传感器来感知环境,并根据感知到的环境来操作机器人、机器狗、机械臂等机械构件,以实现更好的环境感知,并且进行合适的操作以完成各种各样的任务。
具身智能最大的特点是需要依赖机械实体来感知和影响环境,并且机械决策会进一步影响感知的过程。
比如,一个做家务的机器人,它需要自己在家里移动来查阅家里的物品,并且根据观察到的内容决定下一步应该去哪里、应该干什么。这个机器人应该是一个实物,它可以是人形机器人,也可以不是人形机器人。它可以通过摄像头对周围环境进行拍照和观察,也可以通过雷达测距仪来测量各物体的距离,还可以内置麦克风来接收人类指令。它可以用轮子或是机械腿来实现移动,可以用各种机械臂来完成物品吸附、抓取和放置等功能,还有各种机械机构来调整各传感器等位置和朝向。这就是一个具身智能的典型例子。
并不是所有的人工智能都是具身智能。如果一个人工智能不依赖于物理实体,或是它的观测并不会随着物理实体的变化而变化,那么它就不是具身智能。比如,下围棋的AlphaGo和聊天应用ChatGPT都是以软件应用的形式存在,它并不需要操纵什么硬件,所以它们都不是具身智能。
具身智能需要在真实的物理世界中做决策。智能可以分为“大脑智能”和“小脑智能”两个部分。
“大脑智能”进行任务理解和规划决策。以家务机器人为例,家务机器人可以决定待做家务的先后次序,比如先洗碗然后擦桌子。在洗碗这个子任务中,它要决定洗碗的次序,比如要用几次洗碗机,每次用洗碗机时洗哪几块碗。每次用洗碗机也有步骤:它需要先打开洗碗机的门,然后把碗放进去,然后关上门,然后启动洗碗机,等洗碗机洗完后还要打开洗碗机的门,把碗拿出来,然后把洗碗机的门关上。这些规划决策都属于大脑智能。
“小脑智能”控制机械设备的物理参数。比如为了打开洗碗机的门,需要调节某个可移动设备的移动功率或某个旋转设备的旋转力矩,使得机械设备能将某个机械结构其附着到门把手上然后把门打开到足够大。小脑智能的输出往往是移动设备的移动加速度、旋转设备的旋转力矩、施力设备的力的方向和大小、发声设备的声音波形这些具体的物理量。
由于具身智能涉及到物理设备,而物理设备可能较为昂贵。所以,人们希望物理设备尽可能通用,以降低硬件的均摊成本。比如,很多文学作品中塑造了人形机器人的形象,其中的人形机器人可能有类似人类一样的智慧,能做很多不同事情。这样的具身智能要求大脑智能具有多任务、多模态的处理能力。
具身智能有别于一般人工知智能的最重要特点是它需要操纵物理构件,所以,和物理构件直接打交道道小脑智能是具身智能的重要技术要点。
近年多模态大模型的突破性进展极大地赋能了具身智能。GPT-4o等多模态大模型可以理解音视频输入,并有能力针对各种各样的任务给出解决方案。这样的大模型给了具身智能强大的“大脑”。在这样的背景下,各种各样的具身智能应用如雨后春笋般涌现出来,极大的丰富了具身智能的应用场景。
比如,人类给某个家务机器人发送语音指令:“请先洗碗,然后擦桌子”。机器人可以把采集到的音频信息直接给大模型,然后大模型从语音中识别出任务是“洗碗”和“擦桌子”,然后大模型进一步决策:要先观察环境得到周围图像信息,然后大模型根据得到的图像信息判断哪些是要洗的碗,等等。在这个例子中,多模态大模型听了人类的语音、观察了环境,理解了任务,并为任务做出了合适决策。
多模态大模型还能评估任务的完成情况。比如对于洗碗的任务,机器人可以把洗好的碗的视频发送给大模型,让大模型评估碗是否洗干净,洗好的碗是否摆放妥当了。大模型甚至还能判断做洗碗过程中用了多少水电、总成本是多少。最后,大模型还可以对任务的完成情况做个总结,给出改进建议。
目前具身智能技术主要受限于“小脑智能”,也就是对物理系统的具体操作上。为了完成现实生活中的常见任务,往往需要机械结构具有多个自由度,并且需要对这些自由度进行精细控制。
以人形机器人的机械结构为例,人形机器人往往有数十个关节,每个关节还会有多个自由度,整个机器人会有数百个自由度。当前学界并没有能够完全掌握这样复杂任务的训练。
小脑智能所解决的任务比大脑智能更少,但是目前表现却比大脑智能要差,原因之一是因为小脑智能的任务是面向现实物理环境的,它的数据少,数据获取成本高。每个机械结构及其所处环境还会略有不同(比如受到部件尺寸误差、机械磨损、环境温湿度等影响),对不同环境下的数据集还略有不同。一般情况下,数据集不足以支持高自由度的训练,常常出现一些没有训练好的情况,造成任务失败。
在小脑智能中的研究中,灵巧手和双足是最受关注的两个机械部件。灵巧手指的是类似于人类手的机械手,它有五个手指,每个手指有2~3个关节,一共有几十个自由度。目前我们可以用灵巧手做一些拾取刚体这样的任务,但是对于高精度的、触觉力觉综合反馈的任务(比如剃头发、叠衣服、做外科手术等)还是有困难。至于双足,目前已经可以进行站立、走、跑等功能,但是要兼容屈膝捡东西、单腿踢球等任务还有难度。由于目前灵巧手和双足能完成的任务和人类的手脚相比有较大的差距,它们可以说是目前具身智能研究的要点和难点。
攻克小脑智能最主要的方法是模仿学习和强化学习。
模仿学习利用已有的成功交互记录来进行学习。比如,人工智能可以观察人类的示例,从这些示例中进行学习。不过,仅仅作为一个旁观者来进行学习往往不能达到学习目的。就像一个人学游泳,如果他永远只看别人游泳,而自己不去尝试、去经历成功和失败,那么他很难学好游泳。
强化学习则是利用奖励信号来进行学习。在强化学习的训练过程中,人工智能试图给出完成任务的解决方案,然后系统会给出一个奖励信号来评价任务的完成质量。人工智能可以不断尝试,通过每次尝试的奖励信号来不断改进,最终较好的完成任务。
不过,如果在现实世界中没有很好的完成任务,成本往往较大。为此,具身智能往往先要在仿真器里虚拟学习,在虚拟世界里学的差不多后,才试图把技能迁移到现实世界中。
多模态大模型可以为强化学习的学习过程赋能。强化学习需要奖励信号来判断任务的完成情况,而多模态大模型可以提供奖励信号。具体而言,当人工智能明确任务后,它可以观察周围环境,建立仿真模型来进行强化学习训练。在训练过程中,它可以把仿真环境中每次完成的情况发送给多模态大模型,由大模型来判断本次完成情况,给出奖励信号。这样,具身智能中实际操作物理机械设备前,已经在大模型的帮助下训练多时了。
除了直接给出奖励信号外,多模态大模型还能给出更多类型的反馈,比如对完成结果进行点评,给出修改意见等等。利用各种各样的反馈信息进行学习,是强化学习的一种拓展形式。
延伸阅读
《强化学习:原理与Python实战》
肖智清 著
介绍强化学习、模仿学习、多模态大模型的技术要点
理论完备,涵盖强化学习主干理论和常见算法,带你参透PPO、RLHF等大模型训练技术要点;
实战性强,每章都有编程案例,深度强化学习算法提供TensorFlow和PyTorch对照实现;
配套丰富,逐章提供阅读导引和知识点总结,章后习题形式丰富多样。还有Gym源码解读、开发环境搭建指南、习题答案等在线资源助力自学。
本文来源:原创,图片来源:原创、pexels
责任编辑:王莹,部门领导:宁姗
发布人:白钰