Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V

2024年04月16日
  • 简介
    自主机器人在开放环境中的导航和操作需要具备闭环反馈的推理和重新规划能力。我们提出了COME-robot,这是第一个利用GPT-4V视觉语言基础模型进行开放式推理和自适应规划的闭环框架,可应用于实际场景。我们精心构建了一个行动原语库,用于机器人探索、导航和操作,作为GPT-4V任务规划的可调用执行模块。在这些模块的基础上,GPT-4V作为大脑,可以完成多模态推理、生成带有代码的行动策略、验证任务进展并提供重新规划的反馈。这种设计使COME-robot能够(i)主动感知环境,(ii)进行情境推理,(iii)从失败中恢复。通过包括8个具有挑战性的真实桌面和操作任务的全面实验,COME-robot在任务成功率方面相对于现有基线方法有显著提高(约25%)。我们进一步进行了全面分析,阐明了COME-robot的设计如何促进失败恢复、自由形式指令跟随和长期任务规划。
  • 图表
  • 解决问题
    COME-robot是一个闭环框架,利用GPT-4V视觉语言基础模型进行开放式推理和适应性规划,以实现机器人在开放环境中的导航和操作。该论文试图解决机器人在复杂环境中的任务规划和执行问题。
  • 关键思路
    该论文的关键思路是使用GPT-4V模型作为大脑,构建机器人探索、导航和操作的可调用执行模块,并通过视觉和语言的融合进行任务规划和执行。这种设计使得COME-robot能够主动感知环境、执行多模态推理、生成动作策略并提供反馈进行重新规划。
  • 其它亮点
    论文通过8个具有挑战性的真实世界桌面和操作任务的综合实验,展示了COME-robot相比于现有最先进的基准方法在任务成功率方面的显著提高。论文还详细分析了COME-robot的设计如何促进故障恢复、自由形式指令遵循和长期任务规划。
  • 相关研究
    相关研究包括利用深度学习和强化学习进行机器人导航和操作的研究,以及利用自然语言处理进行任务规划和执行的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论