导语:这家来自加州大学伯克利分校的分支机构表示,它们的新AI平台可以帮助机器人更像人类一样思考。
Covariant在本周宣布了RFM-1(机器人基础模型1)的推出。该公司是加州大学伯克利分校的一家人工智能衍生企业,其联合创始人兼首席执行官彼得·陈在接受笔者采访时表示,这个平台“基本上是一个大型语言模型(LLM),但专门用于机器人语言。”
RFM-1的研发成果部分来自于Covariant的Brain AI平台部署过程中收集的大量数据。在获得客户同意的情况下,这家初创公司一直在构建一个类似于LLM的机器人数据库。
陈说:“RFM-1的愿景是为未来数十亿台机器人提供动力。Covariant已经在仓库中成功部署了许多机器人,但这并不是我们想要达到的极限。我们真正想要的是让机器人在制造业、食品加工、回收、农业、服务业甚至人们的家庭中发挥作用。”
随着越来越多的机器人公司开始讨论“通用”系统的未来,该平台应运而生。像Agility、Figure、1X和Apptronik这样的人形机器人公司的突然出现,在这场讨论中起到了关键作用。
这种形态因其适应性(很像它所模仿的人类)而特别合适,尽管机器人上的AI/软件系统的健壮性则是另一个完全不同的问题。
目前,Covariant的软件主要部署在执行各种熟悉的仓库任务的工业机械臂上,包括像拣选箱子这样的工作。虽然目前还没有部署在人形机器人上,但该公司承诺其软件在某种程度上是与硬件无关的。
陈表示:“我们非常欣赏在更通用的机器人硬件领域正在进行的许多工作。智能的转折点与硬件的转折点的结合,将会让我们看到更多机器人应用的爆炸性增长。但是其中许多尚未完全成熟,尤其是在硬件方面。超越舞台视频是非常困难的。有多少人亲自与人形机器人互动过?这能告诉你它们成熟度的程度。”
尽管如此,Covariant在谈到RFM-1在机器人决策过程中所扮演的角色时,并不避讳与人类的比较。根据其新闻材料,该平台“赋予了机器人类似人类的推理能力,这是生成式AI首次成功地让商业机器人对语言和物理世界有了更深层次的理解。”
这是一个我们必须对声明保持谨慎的领域,无论是与抽象概念(甚至是哲学概念)的比较,还是它们实际的长期现实世界效果。
“类似人类的推理能力”是一个广泛的概念,对许多不同的人有很多不同的含义。在这里,这个概念适用于系统处理现实世界数据并确定执行手头任务的最佳行动方案的能力。
这与传统的机器人系统有所不同,传统系统是被编程来重复执行一个任务,无休止地进行。这种单一用途的机器人在高度结构化的环境中蓬勃发展,起始于汽车装配线。只要手头的任务几乎不变,机器人臂就可以一遍又一遍地工作,直到结束工作,收获其多年忠诚服务的象征性金表。
然而,即使是最小的偏差也可能迅速导致故障。比如,物体在传送带上的位置不够准确,或者灯光的调整影响了机载相机。这些差异可能对机器人的执行能力产生巨大影响。现在想象一下,试图让那台机器人处理一个新零件、新材料,甚至执行一个完全不同的任务。那就更难了。
这就是程序员传统上介入的时刻。机器人必须重新编程。通常,需要一位来自工厂外部的人介入。这是资源和时间的巨大消耗。如果你想避免这种情况,需要发生一件事情:1) 在地板上工作的人需要学习编码;或者2) 你需要一种与机器人交互的更自然的新方法。
虽然前者很理想,但似乎不太可能,公司愿意投资并等待必要的时间。后者正是Covariant试图通过RFM-1做到的。“机器人版ChatGPT”并不是一个完美的类比,但作为一个简短的说明(特别是考虑到创始人与OpenAI的联系)是合理的。
从客户的角度来看,该平台呈现为一个文本字段,很像当前面向消费者的生成式AI的迭代。输入一个文本命令,如“捡起苹果”,通过打字或语音,系统会使用其训练数据(形状、颜色、大小等)来识别面前与该描述最匹配的物体。
RFM-1然后生成视频结果——本质上是模拟——以确定使用过去的训练来执行的最佳行动方案。这最后一部分类似于我们的大脑在执行动作之前计算潜在结果的方式。
在一次现场演示中,系统对诸如“捡起红色物体”以及更语义复杂的“在穿鞋之前你会把什么穿在脚上”这样的输入作出反应,这导致机器人分别正确地捡起了苹果和一双袜子。
在讨论该系统的潜力时,有许多重大的想法被提出。至少,Covariant的创始人中有着令人印象深刻的背景。陈在伯克利学习AI,师从他的Covariant联合创始人兼首席科学家皮特·阿贝尔。
阿贝尔还在2016年成为了OpenAI的早期员工,就在陈加入ChatGPT公司一个月后。Covariant于次年成立。
陈表示,公司预计新的RFM-1平台将与Covariant软件已经部署的“大多数”硬件兼容。(TechCrunch)