记者 | 张洋洋
▌具身智能=?
首先,给定环境信息(用相机采集RGB-D图像)和人类要执行的自然语言指令。
随后,LLM(大语言模型)根据这些内容编写代码,所生成代码与VLM(视觉语言模型)进行交互,指导系统生成相应的操作指示地图,即3D Value Map(包括在哪里行动,怎么行动)。
最后,运动规划器合成6-DoF动作(上下、左右、前后,6自由度)。
▌更智能的机器人,AI能力是关键
推荐阅读