RoboMP$^2$: A Robotic Multimodal Perception-Planning Framework with Multimodal Large Language Models

2024年04月07日
  • 简介
    多模态大型语言模型(MLLMs)在各个领域展示出了令人印象深刻的推理能力和通用智能。这启发了研究人员训练端到端的MLLMs或利用大型模型生成带有人类选择提示的策略,以用于具有实体化特征的智能体。然而,这些方法在未见过的任务或场景上表现出有限的泛化能力,并忽略了对于机器人做出决策至关重要的多模态环境信息。在本文中,我们介绍了一个新颖的机器人多模态感知规划(RoboMP$^2$)框架,用于机器人操作,包括一个目标条件多模态感知器(GCMP)和一个检索增强的多模态规划器(RAMP)。特别地,GCMP通过使用专门为具有实体化特征的智能体定制的MLLMs来捕获环境状态,具有语义推理和定位能力。RAMP利用粗到细的检索方法来找到$k$个最相关的策略作为上下文演示,以增强规划器。广泛的实验表明,RoboMP$^2$在VIMA基准测试和真实世界任务上具有优越性,相对于基线提高了约10%。
  • 图表
  • 解决问题
    本论文旨在解决机器人在未知任务或情境下的泛化能力和忽略多模态环境信息的问题,提出了一种新的机器人多模态感知规划框架RoboMP^2。
  • 关键思路
    RoboMP^2框架由Goal-Conditioned Multimodal Preceptor (GCMP)和Retrieval-Augmented Multimodal Planner (RAMP)组成,GCMP利用定制的MLLMs捕捉环境状态,RAMP采用粗到细的检索方法找到最相关的策略以增强规划器。
  • 其它亮点
    本论文在VIMA基准测试和实际任务中进行了广泛的实验,证明了RoboMP^2的优越性,比基线模型提高了约10%。值得关注的是,GCMP利用了定制的MLLMs进行语义推理和定位,RAMP采用了检索方法来增强规划器。
  • 相关研究
    与本论文相关的研究包括使用MLLMs的多模态感知和规划,以及使用检索方法来增强规划器的研究。例如,标题为“Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout”的论文使用了类似的MLLMs方法来进行导航。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论