VLMPC: Vision-Language Model Predictive Control for Robotic Manipulation

2024年07月13日
  • 简介
    虽然模型预测控制(MPC)可以有效地预测系统的未来状态,因此在机器人操作任务中被广泛使用,但它没有环境感知能力,在某些复杂场景下会导致失败。为了解决这个问题,我们引入了Vision-Language Model Predictive Control(VLMPC),这是一个机器人操作框架,利用视觉语言模型(VLM)强大的感知能力,并将其与MPC集成。具体而言,我们提出了一个条件动作采样模块,它以目标图像或语言指令作为输入,并利用VLM采样一组候选动作序列。然后,设计了一个轻量级的动作条件视频预测模型,以候选动作序列为条件生成一组未来帧。VLMPC通过分层成本函数产生最佳动作序列,该函数制定了当前观察和目标图像之间的像素级和知识级一致性。我们证明了VLMPC在公共基准测试中优于最先进的方法。更重要的是,我们的方法在各种真实的机器人操作任务中展示了出色的性能。代码可在\url{https://github.com/PPjmchen/VLMPC}上找到。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决机器人操作中的环境感知问题,提出了一种Vision-Language Model Predictive Control (VLMPC)框架,将视觉语言模型与MPC相结合,以更好地预测未来状态。
  • 关键思路
    论文的关键思路是使用视觉语言模型(VLM)来帮助MPC进行操作序列的采样和优化,从而提高机器人操作的成功率。
  • 其它亮点
    VLMPC框架在公共基准测试中表现优异,并在各种真实世界的机器人操作任务中展现出卓越的性能。论文还开源了代码,并提供了详细的实验设计和数据集信息。
  • 相关研究
    与该论文相关的研究包括:End-to-End Learning of Semantic Grasping、Visual MPC、Neural Task Graphs等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问