强化学习使Spot(机器狗)的奔跑速度提高三倍

IEEE电气电子工程师学会 2025-02-27 16:01

点击蓝字 关注我们

SUBSCRIBE to US


Robotics and AI Institute


大约一年前,波士顿动力公司(Boston Dynamics)发布了其四足机器人Spot的研究版本,该版本带有一个低级应用程序编程接口(API),可直接控制Spot的关节。即使在那时,就有传言称这个API使Spot在性能上有了显著提升,包括奔跑速度大幅提高。这个传言来自机器人技术与人工智能(RAI)研究所,其前身为人工智能研究所,再往前是波士顿动力人工智能研究所。如果你去年秋天参加了在鹿特丹举行的第40届国际机器人与自动化会议(ICRA@40)上Marc Raibert的演讲,你就已经知道这根本不是传言(https://spectrum.ieee.org/marc-raibert-boston-dynamics-instutute)。


今天,我们能够分享RAI研究所一直在做的一些工作,即应用基于现实的强化学习技术来让Spot实现更高的性能。同样的技术也有助于高动态机器人稳定运行,并且有一个全新的硬件平台可以展示这一点:一辆能跳跃的自动自行车。


看,Spot(机器狗名字)在跑



这个视频展示了Spot以每秒5.2米(每小时11.6英里)的持续速度奔跑。Spot出厂时的最高速度为每秒1.6米,这意味着RAI的Spot的速度是这台四足机器人出厂速度的三倍多!


如果看到Spot跑得这么快看起来有点奇怪,那可能是因为它确实奇怪,从某种意义上说,这只机器狗在奔跑时腿和身体的运动方式与真正的狗奔跑的方式完全不同。“这种步态不具有生物性,但机器人本身就不是生物,”RAI研究所的机器人专家Farbod Farshidian解释说,“Spot的驱动器与肌肉不同,其运动学也不同,所以适合狗快速奔跑的步态对这个机器人来说不一定是最好的。”


Farshidian能做出的最好归类是,Spot的移动方式有点类似于小跑步态,只是多了一个腾空阶段(四只脚同时离地),从技术上讲,这使其变成了奔跑。Farshidian称,这个腾空阶段是必要的,因为机器人需要这段时间来足够快地连续向前拉动它的脚以保持速度。这是一种“被发现的行为”,也就是说,机器人并没有被明确编程设定为“奔跑”,而只是被要求找到尽可能快地移动的最佳方式。


强化学习与模型预测控制


当你从波士顿动力公司购买Spot机器人时,随机器人配备的控制器基于模型预测控制(MPC)。这包括创建一个软件模型,尽可能最佳地近似机器人的动力学特性,然后针对你希望机器人实时执行的任务求解一个优化问题。这是一种非常可预测且可靠的机器人控制方法,但也有些刻板,因为初始的软件模型与现实情况的贴近程度不足以让你真正突破机器人的极限。并且如果你试图说:“好吧,我打算为我的机器人创建一个超级详细的软件模型,然后通过这种方式突破极限”,你会陷入困境,因为无论你希望机器人做什么,都必须实时求解优化问题,而且模型越复杂,就越难以足够快地求解从而发挥作用。另一方面,强化学习(RL)是离线学习的。你可以使用你想要的任意复杂的模型,然后在模拟中花费所需的所有时间来训练一个控制策略,之后这个策略就可以非常高效地在机器人上运行。


Robotics and AI Institute


以Spot的最高速度为例,在基于模型的控制系统(该系统要在机器人上实时运行)中,根本不可能对机器人的所有执行器的每一个细节都进行建模。因此,取而代之的是,对执行器实际的运行情况做出简化(通常是非常保守)的假设,这样就能预期到安全可靠的性能。


Farshidian解释说,这些假设使得人们难以深入理解实际的性能限制到底是什么。“机器人领域的很多人都知道,快速运行的限制之一是执行系统将会达到扭矩和速度的最大值。所以,人们试图利用执行器的数据手册来对其建模。对我们来说,我们想要回答的问题是是否可能存在其他一些实际上限制性能的现象。”


寻找这些其他现象需要将新数据引入强化学习流程,例如从机器人的实际运行性能中学习到的详细执行器模型。就Spot的情况而言,这为高速奔跑提供了答案。结果表明,限制Spot速度的不是执行器本身,也不是机器人的任何运动学因素:仅仅是电池无法提供足够的电量。“这让我很惊讶,”Farshidian说,“因为我原以为我们会首先触及执行器的极限。”


Spot的动力系统相当复杂,可能还有一些额外的调整空间,Farshidian表示,阻止他们将Spot的最高速度提升到超过5.2米/秒的唯一原因是他们无法获取电池电压,所以无法将该实际数据纳入他们的强化学习(RL)模型。“如果我们在上面配备更强劲的电池,我们就能跑得更快。而且如果在我们的模拟器中也对这种现象进行建模,我确信我们能让速度进一步提高。”


Farshidian强调,RAI的技术远不止是让Spot跑得快这么简单——它还可用于让Spot更高效地移动以实现电池寿命的最大化,或者更安静地移动以便在办公室或家庭环境中更好地工作。从本质上讲,这是一种可通用的工具,能够找到拓展任何机器人系统能力的新方法。而且,当利用现实世界的数据来让模拟机器人变得更好时,你就可以要求模拟做更多的事情,并且确信这些模拟技能将成功地转换到真实机器人上。


超移动载具:教机器人自行车跳跃


强化学习不仅有利于最大化机器人的性能,还能使这种性能更可靠。RAI一直在试验一种他们自主研发的全新类型的机器人:一辆名为超移动载具(UMV)的会跳跃的小自行车,它接受了跑酷训练,使用的基本上是与Spot高速奔跑相同的用于平衡和驱动的强化学习(RL)流程。


并没有独立的物理稳定系统(如陀螺仪)来防止超移动载具(UMV)倾倒;它只是一辆能前后移动以及转动前轮的普通自行车。然后尽可能多地将质量集中在上部,执行器可以使其快速上下加速。“我们在这个视频里展示两件事,”RAI苏黎世办公室主任Marco Hutter说,“一是强化学习如何帮助超移动载具在不同情况下让其驾驶能力变得非常稳健。其次,了解机器人的动态能力如何使我们能够做新的事情,比如跳到比机器人本身还高的桌子上。”


“The key of RL in all of this is to discover new behavior and make this robust and reliable under conditions that are very hard to model. That’s where RL really, really shines.”

—Marco Hutter, The RAI Institute


尽管跳跃很令人惊叹,但Hutter表示,做一些可能看似相当简单的动作(比如倒着骑行)同样困难。“倒着骑行非常不稳定,”Hutter解释道,“至少对我们来说,用传统的[模型预测控制]控制器真的不太可能做到,特别是在崎岖地形上或者有干扰的情况下。”


将这个机器人带出实验室,到地形上去进行真正的自行车跑酷是一项正在进行中的工作,RAI研究所表示他们将能够在不久的将来进行展示,但Hutter说,这其实不是关于这个特定硬件平台能做什么——而是关于任何机器人通过强化学习(RL)和其他基于学习的方法能做什么。“这里更宏观的情况是,这种机器人系统的硬件理论上能做的比我们用传统控制算法所能实现的要多得多。了解硬件系统中这些隐藏的限制能让我们提高性能,并不断突破控制方面的界限。”


Robotics and AI Institute


适用于各处机器人的强化学习


就在几周前,RAI宣布与波士顿动力公司(Boston Dynamics)建立新的合作伙伴关系,“通过强化学习推动人形机器人发展”(https://rai-inst.com/resources/press-release/boston-dynamics-atlas-partnership/)。人形机器人只是另一种机器人平台,尽管它要复杂得多,有更多的自由度,需要建模和模拟的东西也更多。但是,考虑到针对这种复杂程度的模型预测控制的局限性时,强化学习方法似乎几乎是不可避免的,特别是当这种方法由于其泛化能力已经被简化时。


“作为一个研究所,我们的目标之一是拥有适用于各种不同平台的解决方案,”Hutter说,“这关乎构建工具、构建基础设施,为在更广泛的背景下实现这一目标奠定基础。所以不仅是人形机器人,还有驾驶车辆、四足动物等等。但是进行强化学习(RL)研究并展示一些不错的初步概念验证是一回事——在所有条件下将其推向现实世界中工作,同时突破性能界限,则是另一回事。”


将技能迁移到现实世界一直是在模拟环境中训练的机器人所面临的一项挑战,这正是因为模拟环境对机器人来说太过理想。“如果投入足够的时间,”Farshidian解释说,“你就能设计出一个奖励函数,最终让机器人做你想让它做的事。但当你想要把模拟行为迁移到硬件上时往往就会失败,因为强化学习非常擅长发现模拟器中的漏洞并利用这些漏洞来完成任务。”


随着新工具的出现、更精确的动力学(模型)以及大量可用于解决该问题的计算能力,模拟(技术)已经变得越来越好。“我们能够模拟这么多东西,并且几乎免费生成这么多数据,这是一种非常强大的能力,”Hutter说道。但是,这些数据的有用性在于它与现实的联系,要确保你所模拟的内容足够精确,这样强化学习方法才能切实解决现实(中的问题)。Hutter认为,将在真实硬件上收集到的物理数据带回模拟(环境)是一种非常有前景的方法,无论它是应用于奔跑的四足动物、会跳跃的自行车还是人形机器人。“模拟(环境)和现实这两者的结合——我假设这就是正确的方向。”


微信号|IEEE电气电子工程师学会

新浪微博|IEEE中国

Bilibili | IEEE中国

 · IEEE电气电子工程师学会 · 


IEEE会员在CES上分享观点:AI向善

什么是代理型人工智能

皮质醇检测技术取得重大突破!

游泳机器人?是的,用于清洁海洋

IEEE电气电子工程师学会 IEEE是全球最大的专业技术协会之一,一直致力于推动电气电子技术在理论方面的发展和应用方面的进步。IEEE在全球160多个国家有超过四十万名会员。
评论 (0)
  • 一、温度计不准的原因温度计不准可能由多种原因导致,如温度计本身的质量问题、使用环境的变化、长时间未进行校准等。为了确保温度计的准确性,需要定期进行校准。二、校准前准备工作在进行温度计校准之前,需要做好以下准备工作:1. 选择合适的校准方法和设备,根据温度计的型号和使用需求来确定。2. 确保校准环境稳定,避免外部因素对校准结果产生影响。3. 熟悉温度计的使用说明书和校准流程,以便正确操作。三、温度计校准方法温度计校准方法一般分为以下几步:1. 将温度计放置在
    锦正茂科技 2025-03-31 10:27 54浏览
  • REACH和RoHS欧盟两项重要的环保法规有什么区别?适用范围有哪些?如何办理?REACH和RoHS是欧盟两项重要的环保法规,主要区别如下:一、核心定义与目标RoHS全称为《关于限制在电子电器设备中使用某些有害成分的指令》,旨在限制电子电器产品中的铅(Pb)、汞(Hg)、镉(Cd)、六价铬(Cr6+)、多溴联苯(PBBs)和多溴二苯醚(PBDEs)共6种物质,通过限制特定材料使用保障健康和环境安全REACH全称为《化学品的注册、评估、授权和限制》,覆盖欧盟市场所有化学品(食品和药品除外),通过登
    张工13144450251 2025-03-31 21:18 69浏览
  • 升职这件事,说到底不是单纯靠“干得多”或者“喊得响”。你可能也看过不少人,能力一般,甚至没你努力,却升得飞快;而你,日复一日地拼命干活,升职这两个字却始终离你有点远。这种“不公平”的感觉,其实在很多职场人心里都曾经出现过。但你有没有想过,问题可能就藏在一些你“没当回事”的小细节里?今天,我们就来聊聊你升职总是比别人慢,可能是因为这三个被你忽略的小细节。第一:你做得多,但说得少你可能是那种“默默付出型”的员工。项目来了接着干,困难来了顶上去,别人不愿意做的事情你都做了。但问题是,这些事情你做了,却
    优思学院 2025-03-31 14:58 76浏览
  • 在智能语音交互设备开发中,系统响应速度直接影响用户体验。WT588F系列语音芯片凭借其灵活的架构设计,在响应效率方面表现出色。本文将深入解析该芯片从接收指令到音频输出的全过程,并揭示不同工作模式下的时间性能差异。一、核心处理流程与时序分解1.1 典型指令执行路径指令接收 → 协议解析 → 存储寻址 → 数据读取 → 数模转换 → 音频输出1.2 关键阶段时间分布(典型值)处理阶段PWM模式耗时DAC模式耗时外挂Flash模式耗时指令解析2-3ms2-3ms3-5ms存储寻址1ms1ms5-10m
    广州唯创电子 2025-03-31 09:26 185浏览
  • 引言随着物联网和智能设备的快速发展,语音交互技术逐渐成为提升用户体验的核心功能之一。在此背景下,WT588E02B-8S语音芯片,凭借其创新的远程更新(OTA)功能、灵活定制能力及高集成度设计,成为智能设备语音方案的优选。本文将从技术特性、远程更新机制及典型应用场景三方面,解析该芯片的技术优势与实际应用价值。一、WT588E02B-8S语音芯片的核心技术特性高性能硬件架构WT588E02B-8S采用16位DSP内核,内部振荡频率达32MHz,支持16位PWM/DAC输出,可直接驱动8Ω/0.5W
    广州唯创电子 2025-04-01 08:38 108浏览
  • 据先科电子官方信息,其产品包装标签将于2024年5月1日进行全面升级。作为电子元器件行业资讯平台,大鱼芯城为您梳理本次变更的核心内容及影响:一、标签变更核心要点标签整合与环保优化变更前:卷盘、内盒及外箱需分别粘贴2张标签(含独立环保标识)。变更后:环保标识(RoHS/HAF/PbF)整合至单张标签,减少重复贴标流程。标签尺寸调整卷盘/内盒标签:尺寸由5030mm升级至**8040mm**,信息展示更清晰。外箱标签:尺寸统一为8040mm(原7040mm),提升一致性。关键信息新增新增LOT批次编
    大鱼芯城 2025-04-01 15:02 103浏览
  • 在不久前发布的《技术实战 | OK3588-C开发板上部署DeepSeek-R1大模型的完整指南》一文中,小编为大家介绍了DeepSeek-R1在飞凌嵌入式OK3588-C开发板上的移植部署、效果展示以及性能评测,本篇文章不仅将继续为大家带来关于DeepSeek-R1的干货知识,还会深入探讨多种平台的移植方式,并介绍更为丰富的交互方式,帮助大家更好地应用大语言模型。1、移植过程1.1 使用RKLLM-Toolkit部署至NPURKLLM-Toolkit是瑞芯微为大语言模型(LLM)专门开发的转换
    飞凌嵌入式 2025-03-31 11:22 181浏览
  • 引言在语音芯片设计中,输出电路的设计直接影响音频质量与系统稳定性。WT588系列语音芯片(如WT588F02B、WT588F02A/04A/08A等),因其高集成度与灵活性被广泛应用于智能设备。然而,不同型号在硬件设计上存在关键差异,尤其是DAC加功放输出电路的配置要求。本文将从硬件架构、电路设计要点及选型建议三方面,解析WT588F02B与F02A/04A/08A的核心区别,帮助开发者高效完成产品设计。一、核心硬件差异对比WT588F02B与F02A/04A/08A系列芯片均支持PWM直推喇叭
    广州唯创电子 2025-04-01 08:53 112浏览
  • 北京贞光科技有限公司作为紫光同芯产品的官方代理商,为客户提供车规安全芯片的硬件、软件SDK销售及专业技术服务,并且可以安排技术人员现场支持客户的选型和定制需求。在全球汽车电子市场竞争日益激烈的背景下,中国芯片厂商正通过与国际领先企业的深度合作,加速融入全球技术生态体系。近日,紫光同芯与德国HighTec达成的战略合作标志着国产高端车规芯片在国际化道路上迈出了关键一步,为中国汽车电子产业的发展注入了新的活力。全栈技术融合:打造国际化开发平台紫光同芯与HighTec共同宣布,HighTec汽车级编译
    贞光科技 2025-03-31 14:44 86浏览
  •        在“软件定义汽车”的时代浪潮下,车载软件的重要性日益凸显,软件在整车成本中的比重逐步攀升,已成为汽车智能化、网联化、电动化发展的核心驱动力。车载软件的质量直接关系到车辆的安全性、可靠性以及用户体验,因此,构建一套科学、严谨、高效的车载软件研发流程,确保软件质量的稳定性和可控性,已成为行业共识和迫切需求。       作为汽车电子系统领域的杰出企业,经纬恒润深刻理解车载软件研发的复杂性和挑战性,致力于为O
    经纬恒润 2025-03-31 16:48 54浏览
  • 在环保与经济挑战交织的当下,企业如何在提升绩效的同时,也为地球尽一份力?普渡大学理工学院教授 查德·劳克斯(Chad Laux),和来自 Maryville 大学、俄亥俄州立大学及 Trine 大学的三位学者,联合撰写了《精益可持续性:迈向循环经济之路(Lean Sustainability: Creating a Sustainable Future through Lean Thinking)》一书,为这一问题提供了深刻的答案。这本书也荣获了 国际精益六西格玛研究所(IL
    优思学院 2025-03-31 11:15 75浏览
  • 提到“质量”这两个字,我们不会忘记那些奠定基础的大师们:休哈特、戴明、朱兰、克劳士比、费根堡姆、石川馨、田口玄一……正是他们的思想和实践,构筑了现代质量管理的核心体系,也深远影响了无数企业和管理者。今天,就让我们一同致敬这些质量管理的先驱!(最近流行『吉卜力风格』AI插图,我们也来玩玩用『吉卜力风格』重绘质量大师画象)1. 休哈特:统计质量控制的奠基者沃尔特·A·休哈特,美国工程师、统计学家,被誉为“统计质量控制之父”。1924年,他提出世界上第一张控制图,并于1931年出版《产品制造质量的经济
    优思学院 2025-04-01 14:02 77浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦