点击蓝字 关注我们
SUBSCRIBE to US
Image: Google
据悉,谷歌希望通过发布人工智能学习模型机器人转换器(Robotic Transformer,RT-2)使其机器人更智能。
RT-2是该公司所称的视觉语言动作(VLA)模型的新版本。该模型教导机器人更好地识别视觉和语言模式,以解释指令并推断哪些对象最适合请求。
研究人员在厨房办公室的环境中用机械臂测试了RT-2。结合思维链推理,RT-2可以执行多阶段语义推理。即便是一些抽象概念,RT-2也能理解并指挥机械臂做出正确的动作。比如让它找一把临时用的简易锤子,它会抓起石头;让它给疲惫的人选一款饮料,它会选择红牛;让它把可乐罐移到泰勒·斯威夫特的照片上,它也能顺利完成。
该公司在一篇论文中表示,新模型基于网络和机器人数据进行训练,利用谷歌自己的Bard等大型语言模型的研究进展,并将其与机器人数据(如移动哪些关节)相结合。它还可以理解除英语以外的其他语言的指示。
多年来,研究人员一直试图给机器人灌输更好的推理能力,以解决如何在现实生活中生存的问题。The Verge的James Vincent指出,现实生活中存在着无法妥协的“混乱”。机器人需要更多的指导来为人类做一些简单的事情。
以前,教机器人需要很长时间。研究人员必须单独规划方向。但有了RT-2等VLA模型的强大功能,机器人可以通过访问更大的信息集来判断下一步该做什么。
谷歌首次进军智能机器人始于去年,当时谷歌宣布将在机器人领域使用其LLM-PaLM,创建了名为PaLM-SayCan的系统,将LLM与物理机器人相集成。
微信号|IEEE电气电子工程师
新浪微博|IEEE中国
· IEEE电气电子工程师学会 ·
往
期
推
荐
最新《期刊引证报告》发布,IEEE期刊持续引领电气电子工程、电信、计算机科学等领域
聊天机器人时代到来时,搜索领域的前景将如何发展?
一位可以穿在身上的机器人助手Calico
量子计算机即将到来,这对于网络安全意味着什么?