MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting

2024年03月05日
  • 简介
    开放词汇泛化需要机器人系统在复杂和多样化的环境和任务目标中执行任务。虽然视觉语言模型(VLM)的最新进展为解决未知问题提供了前所未有的机会,但如何利用它们的新兴能力来控制物理世界中的机器人仍然是一个开放的问题。本文提出了MOKA(标记开放词汇关键点可用性),一种利用VLM解决由自由形式语言描述的机器人操作任务的方法。我们方法的核心是一种紧凑的基于点的可用性和运动表示,它连接了VLM对RGB图像的预测和机器人在物理世界中的运动。通过提示在互联网规模数据上预训练的VLM,我们的方法通过利用来自广泛来源的概念理解和常识知识来预测可用性并生成相应的运动。为了支持VLM的推理,我们提出了一种视觉提示技术,它在图像上注释标记,将关键点和航点的预测转换为一系列可行的视觉问答问题,这些问题可以被VLM解决。通过收集机器人的经验,我们进一步研究了通过上下文学习和策略蒸馏来提高性能的方法。我们评估和分析了MOKA在由自由形式语言描述的各种操作任务上的表现,例如工具使用、可变形体操纵和物体重新排列。
  • 图表
  • 解决问题
    本文旨在解决利用视觉语言模型(VLMs)控制机器人在复杂多样的环境中完成任务的问题。作者试图回答如何利用VLMs的能力来控制机器人在物理世界中完成任务的问题。
  • 关键思路
    本文提出了一种名为MOKA(Marking Open-vocabulary Keypoint Affordances)的方法,它利用VLMs解决自由形式语言描述的机器人操作任务。该方法采用紧凑的基于点的可操作性和运动表示,将VLM的预测与机器人在物理世界中的运动联系起来。通过提示在互联网规模数据上预训练的VLM,我们的方法利用广泛来源的概念理解和常识知识来预测可操作性并生成相应的运动。
  • 其它亮点
    本文提出了一种新颖的方法,通过视觉提示技术将预测的关键点和航点转换为一系列视觉问答问题,以支持VLM的推理。作者还通过在上下文中学习和策略蒸馏等方法来提高机器人操作的性能。作者在多个自由形式语言描述的机器人操作任务上评估了MOKA的性能,并进行了分析。
  • 相关研究
    在这个领域中,还有一些相关的研究,如使用深度强化学习解决机器人操作问题的研究(Learning Dexterous In-Hand Manipulation)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论