具身智能进入GPT-3倒计时,距离贾维斯时刻还有多远?

原创 科创板日报 2024-12-15 21:55

Foundation model(通用模型)是一条能够明确跨越机器人操作(manipulation)领域数据障碍的路径。明年年底或者后年年初,预计能实现一个类似GPT-3级别的具身智能大模型。

作者 | 余诗琪

编者按:AGI(通用人工智能)起于大语言模型(LLM),将终于具身智能。
以大语言模型的突破为契机,通过赋予 AI具体的物理实体(如机器人和自动化设备等),使其能够和现实世界交互,具身智能成了AI通往物理世界的钥匙。
不同于快速收敛的大语言模型,具身智能的战线长的多,涉及的模态空前复杂,需要同时具备多模态感知、具身决策与规划和操作执行能力。
在这片AI的新大陆上,来自UC Berkley、斯坦福、北大、清华等顶尖院校的创业者们扎堆涌入。在他们的设想中,具身智能的终极形态是机器人能够灵活处理各种各样的复杂任务,适应工业、居家生活、医疗、养老等不同场景,像钢铁侠的AI智能管家贾维斯一样为人类服务。
资本亦蜂拥而至。尤其是在今年,具身智能成为当之无愧的风口赛道。红杉中国、高瓴资本、蓝驰创投……各类型的投资机构都希望能在早期阶段就押中这一新兴领域的未来头部。
在这个智能体与物理世界深度融合、边界不断拓展的领域,机遇与挑战相互交织,技术迭代如闪电般迅速。籍此年关之际,《科创板日报》对过去一年具身智能赛道的发展情况、热点项目进行了梳理,以期留下关于过去的记录,也提供未来的参照。同时,我们将始终保持敏锐的洞察力,持续追踪并深入报道浪潮中的先行者,记录下他们或曲折、或惊艳的探索与蜕变历程。
本期,《科创板日报》记者对话自变量机器人(X Square)的创始人兼CEO王潜,邀请他分享在具身智能浪潮下的思考和洞察。
近期刚完成新一轮融资的自变量机器人(X Square)是赛道内值得关注的玩家。这家成立仅一年的中国初创企业直接对标海外明星项目Physical Intelligence(估值达到20亿美元),从创立之初就选择了端到端统一大模型技术路线。公司正在训练的 Great Wall 操作大模型系列的 WALL-A模型,据称是目前世界上参数规模最大的端到端统一具身智能大模型
王潜本硕毕业于清华大学,是全球最早在神经网络中引入注意力机制的学者之一。博士期间,他在美国顶级机器人实验室参与了多项 Robotics Learning 的研究,方向覆盖了机器人多个前沿领域。

PART1|具身智能的GPT-3还有多远

科创板日报:今天具身的技术路线还远没有收敛,围绕 RL(强化学习)和模仿学习,小模型VS大模型的讨论一直在持续,自变量为什么从创立之初就选择了端到端的统一大模型路线?
王潜:在机器人这条路上,主流的技术路线我都尝试过,对各种技术路径的瓶颈都很清楚。我自己从 2016 年开始做端到端的机器人模型,在2019年到2021年逐渐看清楚了统一大模型这个大方向的必然性。
首先,机器人的manipulation(操作)所面临的物理交互非常复杂,虽然很多团队本能会觉得这是一个CV(计算机视觉)问题,将物体的形态和环境的三维空间结构进行重建来解决。但做到这里只是解决了manipulation问题的一半而已。
也有很多团队下意识地选择了非端到端的路线,通过模型分层分步的方法来做,表面上,这种方法似乎进展更快。但后续就会发现难度远超预期。manipulation 和语言、图像任务有着本质区别,其核心在于物理交互过程的复杂性:真正的难点在于处理机器人和物理世界的接触过程。
这决定了任何分层分步的方法都很难彻底解决manipulation问题,每分出一个步骤,都可能在中间引入一些不可控的噪声,或是丢失一些信息。这样,随着多个子模型或分层步骤的叠加,问题逐步累积,最终导致manipulation任务的失败。
在大模型出来前,强化学习被业界认为是最有机会的路线。当时主流想法是进行大规模的 simulation(仿真),然后通过模拟到现实的路径实现应用。但在机器人manipulation这个领域,这条路线存在明确局限,其所能达到的效果上限较低,而且很难再有进一步突破。核心问题还是回到手部的操作,物理世界交互的复杂性导致模拟器和现实世界存在巨大差距。
另一方面,如果完全依赖现实世界的数据来训练模型,为每个任务单独构建一个模型,随着任务复杂性的增加,所需的数据量也会指数级增长。那么,面对无限种类的任务,实际上需要无限的数据量,总体成本和难度不可控
到2020年左右,GPT-2在向GPT-3进化的过程中,随着模型学习任务数量不断增长,其能力持续提升,已经能够看到一些少样本学习现象的出现。
ChatGPT 是NLP(Natural Language Processing 自然语言处理 )领域的Foundation model(通用模型),可以通过零样本的方式,由一个模型完成所有任务。第一次有了用有限的数据量做无限种类的任务的可能性,这对机器人操作(manipulation)这个领域来说具有决定性意义,解决了长期以来最大的难题——数据不够的问题。
Foundation model实际上是一条能够明确跨越数据障碍的路径。
科创板日报:在那个节点,你做了什么?
王潜:当时我就意识到,未来具身智能的技术栈和之前完全不同,团队一定是大模型背景的人为主。过去小模型背景的同学会更多关注如何为每个任务设计特定的模型结构,但无法实现泛化。与之相反,大模型的人则重视的是如何通过工程化方式实现模型的scaling-up,直至达到完全通用
我自己已经有了机器人的技术储备,需要和大模型背景的顶尖专家搭配。所以就积极和他们接触,在这样的背景下认识了联合创始人王昊。双方算得上是一拍即合,王昊长期深耕在大模型领域,他一直在思考,大模型如何在真实世界落地。
相比于纯虚拟的大模型,通过机器人让AI在真实世界落地是更实际的一条路线。不止是王昊,我还与很多研究大模型的同行进行交流,能明显感觉到大家的热情和对这一领域发展的期待。
(背景补充:联合创始人兼 CTO 王昊博士毕业于北京大学,在粤港澳大湾区数字经济研究院(IDEA 研究院)期间担任封神榜大模型团队负责人,发布了国内首个多模态大模型「太乙」,首批百亿级大语言模型「燃灯 / 二郎神」及千亿级大语言模型「姜子牙」,模型累计下载量数百万。)
科创板日报:基于端到端的统一大模型路线,公司的进展如何?
王潜:我们的“端到端”包括两个维度,一是从机器人获取原始的感知数据(如视觉传感器数据、触觉传感器数据等)开始,直接将这些数据输入到模型中,由模型学习并输出机器人的决策和操作动作,中间没有任何分层分步的处理步骤。
第二个维度,是实现了不同任务的统一,所有的任务放在同一个模型中训练,推理也用同一模型进行操作。对于一切操作任务,在单一模型即可解决所有问题,因此称之为「统一」模型。
海外的明星创业公司Skild AI、Physical Intelligence(PI)等目前都在走这条路线。从目前公开的信息(比如学术界的论文、公司公布的进展)来看,在全世界范围内,我们应该都是属于第一梯队的,领先国内的竞争对手大概半年左右时间。
现在我们正在训练的Great Wall系列(GW)的WALL-A模型,是目前世界上参数规模最大的端到端统一具身大模型,在处理长序列复杂任务,以及泛化性、通用性等方面的能力都超越了现有已知模型。
科创板日报:在规划的路径上,公司接下来会突破哪些瓶颈?
王潜:我个人认为,当下的具身智能几乎可以类比到GPT-2所处的时间点。不管是我们自己的模型,还是PI最近发布的π0模型,它们现在的能力和配置,大致相当于GPT-2在大语言模型发展阶段所达到的水平。
按照现在的进度,明年年底或者后年年初,预计就能实现一个类似GPT-3级别的具身智能大模型。
用泛化性来理解,我把泛化性分为四个层次。最基础的泛化性,是对诸如光照变化、摄像头位置变化、物体位置改变等基础条件的泛化;
第二层是改变整个环境背景,例如之前是在桌面上操作,现在拿到厨房的玻璃台上,是不是也能完成操作;
到了第三个层次,就需要具备推理、归纳的能力。举例来说,以前只操作过一个杯子,能不能推广至各种各样完全不同的杯子上面去。任务是一样的,但被操作的物体是机器人此前没见过的,它还能不能完成?这明显要比前两层难很多;
在第四个层次,给机器人一个从未做过的任务,它能否想办法去完成。举一个相对极端的例子,比如给机器人一个九连环,它之前从来没有解过九连环,是否能尝试解开。
现在我们和PI的模型,在前三个层次上都体现出了很好的通用性、泛化性的能力,当然远没有达到完美的程度。在第四层上,PI目前还没有发布相关信息,但我们的模型已经有一点点能够自己发现新办法的迹象了。
只有达到足够的泛化性、通用性,才能在真实场景中解决问题,这是具身智能真正区别于以往机器人的核心。
科创板日报:随着技术的成熟,在商业侧做了哪些准备?
王潜:目前我们观察下来,实现前三个层次的泛化性基本意味着可以在一个半封闭的或者是一个半开放的场景里去替代掉很多繁琐的体力劳动。在商业化层面,也就具备了落地的可能。
我们早期还是要以to B为主,尤其是服务业的场景,会从里面优先挑选一些,在技术上可以达到的、其他各方面维度都比较好的场景优先去落地。
目前已经在和潜在的客户群接触,大家的预期还是比较乐观。我们的最终目标是要让它进入千家万户,从B端走向C端。
科创板日报:按照这个节奏,现在产品从demo到量产验证还有多久?
王潜:硬件具有特定的迭代周期,同时产品打磨也遵循其客观规律。这意味着,做出一个产品的demo并不是特别难,花费时间也不会很长。但一款非常成熟的产品,仍需要很长时间去打磨,去验证,包括需要在客户场景里实际去落地测试,再基于对方的反馈重新调整。我们的节奏是硬件和模型同步迭代。

PART2|具身智能的未来在中国

科创板日报:现在全球范围内的具身智能公司都处于相对早期,你曾经很明确地表示具身智能的未来在中国,是什么支持你做成这样的判断?
王潜:今天的大模型创业,和上一代AI阶段已经完全不一样了。那个时候是算法驱动的,每家公司都需要大量的算法人员,去解决模型海量的corner case。以前自动驾驶动辄大几千人的团队,但当大家开始做端到端模型之后,用人哲学就不是这样了。
现在是数据驱动的时代,相较于过去对算法研发的广泛投入,现在更需要通过大量工程化手段来实现大模型的优化和落地,只要把尽可能多的算力集中在最高效的几个人身上。目前海内外头部的大模型公司里,核心的算法团队一般是小几十个人,个别可以达到大几十个人规模,都很精简。
这样的趋势下,中国相对于美国而言,在工程师的人才密度上也具备优势。国内高质量的人才供应完全可以满足行业需求。
比起昂贵的算力成本,用相对有竞争力的价格招募高质量的人才,是非常值得的事情。具身智能大模型的技术栈和以往非常不一样,无论是纯做机器人,还是纯做大模型,投身具身大模型领域都存在技术跃迁的问题。我们希望吸引创新型人才,逐步培养他们的交叉技术能力,让人才随着公司一起发展。
另外,国内的产业生态也更完善。中国在供应链上的优势可能领先了美国一个数量级。例如数据收集工作,中国的成本基本上是美国的1/10。大语言模型公司可以通过把数据的工作外包到东南亚、肯尼亚等地区去控制成本。但机器人领域的数据采集需要一定的专业性,无法轻易外包出去,这又是和语言模型很不一样的地方。
之前学术界已经尝试过多次,以异地外包、众包的方式降低成本。但最终的结论是,这样得来的数据在质量上很难达到要求。如果要满足质量要求,最好还是在本地完成。
那么,中国的综合成本一定是全世界最好的,成本叠加效率,美国很多时候可能比中国就不只差一个数量级了,要慢更多的时间。像我们在深圳,定制一个零件几天就搞定了,在美国就需要几个月甚至更久。具身智能是个软硬件结合的领域,硬件上的效率差距,也会造成极大影响。
科创板日报:提到生态,现在国内的具身智能创业公司扎堆涌现,你们也参与了华为(深圳)全球具身智能产业创新中心,对于现在的产业生态怎么理解?
王潜:我觉得这是一件好事情,能看到大家有各自擅长的地方,想法也不同。我们最擅长的就是模型,包括手部的操作,目前全部精力集中在这一方向。对于一些其他的零部件,如移动底盘等,我们还是非常希望能和合作伙伴一起去完善。
机器人的市场空间足够大,产业链还在逐步成熟的过程中,我们希望和生态伙伴一起推动行业的良性发展。
这一波热潮中,有认真做事的公司,同时也存在泡沫。部分玩家确实存在过度包装以获取资本流量的现象,而对于技术发展及落地与否并不真正关心,这确实会影响行业良序发展。
科创板日报:基于生态的理解,你们是不是未来有机会去赋能其他公司的产品?
王潜:是的,我们一直在和合作伙伴尝试生态共建。机器人包含的子领域众多,每个子领域都有极强的专业性。例如对于硬件设计,可能需要专门针对某个环境的特殊要求进行定制化设计,甚至为了调整一个零件,就需要耗费两年之久进行反复调试。这种情况明显不适合我们去做。
国内的生态更适合共生模式,不同公司基于自身的禀赋,擅长做哪些事情、哪些场景,以及哪些技术,然后共同发挥优势,形成一个产业的生态,一起走下去。



科创板日报 国内首个专注科创板、创投及TMT等领域的新锐媒体,致力于打造领先、专业、权威的科创信息服务平台。
评论
  • 一、引言在数字化时代,芯片作为现代科技的核心,其制造过程却常被视作神秘的黑箱。菊地正典的《大话芯片制造》为我们揭开了这层神秘的面纱,以通俗易懂的方式,全面系统地介绍了芯片制造的各个环节。作为一名电子信息技术专业的教育工作者,我深感这本书不仅为学生提供了宝贵的知识资源,也让我对芯片制造及其在现代社会中的作用有了更深刻的理解。二、生活中的芯片印记芯片的影响渗透到我们日常生活的每一个角落。从智能手机的闹钟唤醒,到交通卡的便捷支付,再到智能家居的智能化功能,芯片以其强大的运算和处理能力,为我们的现代生活
    月光 2024-12-16 11:52 37浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-14 20:56 60浏览
  • 串口调试助手软件:XCOM 也是一款专为嵌入式开发和硬件调试设计的强大工具,如正点原子串口调试助手 XCOM V2.6。这款软件支持多种串口参数配置,满足不同开发需求,广泛应用于嵌入式系统开发、硬件调试以及电子爱好者的项目开发中。XCOM在嵌入式开发和硬件调试中的作用主要体现在以下几个方面: 1. 串口通信测试:XCOM作为一款强大的串口调试工具,允许用户通过计算机的串口进行数据的发送与接收,从而实现对串口通信的测试。这对于验证硬件设备的通信协议、确保数据传输的正确性至关重要。 2. 数据发
    丙丁先生 2024-12-15 11:56 58浏览
  • 霍尔传感器的原理        霍尔传感器是一种固体的传感器,其输出电压与磁场强度成比例。顾名思 义,这种器件是依赖于霍尔效应原理工作的。霍尔效应原理是在导体通电 和加有磁场的情况下,在导体的横向 上会产生电压。电子(在实践中多数载流子最常被使 用)在外部电场的驱动下会产生“漂移”,当暴露于磁场中时,这些运动 的带电粒子会受到一个垂直于电场和 磁场的力的作用。这个力会让导体的边缘充电,一边为正,一边为负。边
    锦正茂科技 2024-12-14 11:41 50浏览
  •        霍尔传感器是一种基于霍尔效应的传感器。霍尔效应指的是当通过一个导体的电流受到外部磁场的影响时,导体内部将会产生一种电场,使得在导体两端的电势差发生变化,这种电势差变化称为霍尔电势差。利用这种现象,可以设计出一种可以测量磁场强度和方向的传感器,即霍尔传感器。  霍尔传感器分为线型霍尔传感器和开关型霍尔传感器两种。  (一)开关型霍尔传感器由稳压器、霍尔元件、差分放大器,斯密特触发器和输出级组成,它输出数字量。开关型霍尔传感器还有一种特
    锦正茂科技 2024-12-14 10:58 58浏览
  • 光耦合器是一种重要的电子元件,其在电子信号隔离和传输中的作用不可替代。自20世纪60年代首次被研发以来,光耦合器经历了从基础隔离器件到高性能元件的不断演化,在现代电子设备中占据了重要地位。本文将深入探讨光耦合器的发展历程、技术特点以及在当今科技领域中的广泛应用。光耦合器的诞生背景光耦合器的诞生源于20世纪60年代,为了解决电子信号在不同电路之间传输时的隔离问题,科学家们设计了一种基于光信号传递的全新器件。光耦合器通过发光二极管(LED)将电信号转化为光信号,再由光敏器件接收并重新转换为电信号,从
    腾恩科技-彭工 2024-12-13 16:18 42浏览
  • 家用国产固态继电器(SSR)已成为各行各业的基石,性能可靠、设计紧凑、效率高。这些先进的开关设备取代了传统的机电继电器,具有静音运行、使用寿命更长、可靠性更高等诸多优点。家用SSR专为从工业自动化到家用电器等各种应用而设计,展示了本地制造商的独创性和竞争力。国产固态继电器特点和优势家用SSR采用半导体技术制造,与传统继电器相比,具有很强的耐磨性。主要特点包括:静音无振动运行:SSR使用半导体元件进行开关,消除了机械噪音。响应时间快:是工业控制系统中高速开关的理想选择。耐用性:没有移动部件,即使在
    克里雅半导体科技 2024-12-13 16:49 42浏览
  • 在现代软件开发领域,效率和可靠性是企业在竞争中取胜的关键。本文将深入探讨 ANA Systems 如何通过引入业界领先的 CI/CD 平台——CircleCI,克服传统开发流程的瓶颈,实现开发运营效率的全面提升。同时,本文还将详细解析 CircleCI 的核心优势,包括其强大的自动化功能、广泛的工具整合能力,以及为企业量身定制的支持服务,揭示其如何助力 ANA Systems 在「新一代国内旅客项目」中脱颖而出。这一案例将为企业优化开发流程、提升竞争力提供重要的实践参考。ANA Systems
    艾体宝IT 2024-12-16 16:44 31浏览
  • 概述 Cyclone 10 GX器件的ALM结构与Cyclone V类似,所以在Cyclone 10 GX器件上实现TDC功能理论上是可以完全参考甚至移植自Cyclone V系列的成功案例。但是,现实却是更多的问题出现当在Cyclone 10 GX使用和Cyclone V同样策略实现TDC的时候。 本文主要记录在Cyclone 10 GX器件上实现TDC时的探索,并为后续TDC设计、测试等展开前期研究。Cyclone 10 GX ALM结构 如图1所示,Cyclone 10 GX器件的ALM结构
    coyoo 2024-12-14 17:15 55浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-13 23:20 56浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦