CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models

2024年03月13日
  • 简介
    本文介绍了一种名为CoPa的新型框架,利用基础模型中嵌入的常识知识,生成开放世界机器人操作的6自由度末端执行器姿态序列。具体而言,将操作过程分解为两个阶段:任务导向抓取和任务感知运动规划。在任务导向抓取阶段,使用基础视觉语言模型(VLMs)通过一种新颖的粗到细的接地机制选择物体的抓取部位。在任务感知运动规划阶段,再次利用VLMs识别与任务相关的物体部件的空间几何约束,并用于推导抓取后的姿态。还演示了如何将CoPa与现有的机器人规划算法无缝集成,以完成复杂的长期任务。综合实际实验表明,CoPa具有对场景的精细物理理解,能够处理开放式指令和对象,且无需额外的训练和最小化提示工程。 项目页面:https://copa-2024.github.io/
  • 图表
  • 解决问题
    本论文旨在解决机器人操作中的任务规划问题,通过利用预训练的基础模型中的世界知识生成机器人操作序列,以及针对特定任务的学习方法的不足之处。
  • 关键思路
    CoPa框架将操作过程分解为任务导向抓取和任务感知运动规划两个阶段,利用基础视觉语言模型来确定物体的抓取部位和任务相关物体部位的空间几何约束,生成6-DoF末端执行器姿态序列。
  • 其它亮点
    CoPa框架在现实世界中进行了广泛的实验,表明其具有细粒度的场景物理理解能力,能够处理开放式指令和对象。实验结果表明,CoPa框架无需额外的训练和工程处理即可处理复杂的长期任务。
  • 相关研究
    在这个领域,最近的相关研究包括基于深度学习的机器人操作和任务规划,以及基于视觉语言模型的机器人操作和任务规划。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论