ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models

2024年03月17日
  • 简介
    多模态大型语言模型(MLLMs)与机器人系统的集成显著增强了机器人解释和执行自然语言指令的能力。尽管取得了这些进展,传统的MLLMs通常在通用的图像-文本对上进行训练,缺乏诸如可供性和物理知识等基本的机器人知识,这影响了它们在操作任务中的有效性。为了弥补这一差距,我们介绍了ManipVQA,这是一个新颖的框架,旨在通过视觉问答格式为MLLMs赋予操作中心知识。这种方法不仅包括工具检测和可供性识别,还扩展到对物理概念的全面理解。我们的方法始于收集一组多样化的显示交互对象的图像,这呈现了工具对象检测、可供性和物理概念预测的广泛挑战。为了将这种机器人特定的知识与MLLMs固有的视觉推理能力无缝地集成,我们采用了统一的VQA格式,并设计了一种精细调整策略,既保留了原始的视觉推理能力,又融合了新的机器人洞见。在机器人模拟器和各种视觉任务基准测试中进行的实证评估显示了ManipVQA的强大性能。代码和数据集将在https://github.com/SiyuanHuang95/ManipVQA上公开发布。
  • 图表
  • 解决问题
    该论文旨在解决传统的MLLMs模型在机器人操作任务中缺乏物理知识和工具识别等机器人特定知识的问题。
  • 关键思路
    论文提出了一种名为ManipVQA的框架,通过视觉问答的形式为MLLMs模型注入机器人特定的知识,包括工具检测、可用性识别和物理概念预测。
  • 其它亮点
    ManipVQA框架不仅包含工具检测和可用性识别,还扩展到对物理概念的全面理解。论文通过收集不同的图像集来展示交互对象,这些图像集包含了工具对象检测、可用性和物理概念预测等多种挑战。作者采用统一的VQA格式和微调策略,将机器人特定的知识与MLLMs模型的视觉推理能力无缝集成在一起。作者在机器人模拟器和各种视觉任务基准测试中进行了实证评估,证明了ManipVQA的鲁棒性能。作者将代码和数据集公开在https://github.com/SiyuanHuang95/ManipVQA。
  • 相关研究
    最近的相关研究包括:1. Yuke Zhu等人的论文《Visual Semantic Planning using Deep Successor Representations》;2. Jiajun Wu等人的论文《Learning Physical Intuition of Block Towers by Example》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论