WorldAfford: Affordance Grounding based on Natural Language Instructions

2024年05月21日
  • 简介
    本文介绍了“Affordance grounding”任务,旨在根据给定的指令,将场景图像中被操作物体的交互区域定位。Affordance grounding面临的关键挑战是,具有身体的代理应理解人类指令,并分析环境中可以使用哪些工具,以及如何使用这些工具来完成指令。大多数最近的工作主要支持简单的行动标签作为输入指令,以定位可供性区域,未能捕捉复杂的人类目标。此外,这些方法通常仅识别物体中心图像中单个对象的可供性区域,忽略对象上下文,并在实际应用中难以定位复杂场景中多个对象的可供性区域。为了解决这个问题,我们首次引入了基于自然语言指令的可供性接地任务,将其从先前使用复杂人类指令的简单标签扩展。针对这个新任务,我们提出了一个新的框架,WorldAfford。我们设计了一个新的可供性推理思维链条提示,以更加精确和逻辑地推理LLMs的可供性知识。随后,我们使用SAM和CLIP来定位与可供性知识相关的对象。我们通过可供性区域本地化模块识别对象的可供性区域。为了基准测试这个新任务并验证我们的框架,构建了一个可供性接地数据集LLMaFF。我们进行了广泛的实验,验证了WorldAfford在先前的AGD20K和新的LLMaFF数据集上表现出最先进的性能。特别是,WorldAfford可以定位多个对象的可供性区域,并在环境中的对象不能完全匹配给定指令时提供替代方案。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决affordance grounding中存在的问题,即如何理解人类指令并分析环境中可用的工具,并确定如何使用这些工具来完成指令。同时,本文还旨在扩展使用简单标签为输入指令的affordance grounding任务,以支持更复杂的自然语言指令。
  • 关键思路
    本文提出了一个新的affordance grounding框架,WorldAfford,通过使用Affordance Reasoning Chain-of-Thought Prompting来推理affordance知识,并使用SAM和CLIP来定位与affordance知识相关的对象。此外,本文还构建了一个新的affordance grounding数据集LLMaFF来验证该框架的性能。
  • 其它亮点
    本文的亮点包括:1. 提出了一个新的affordance grounding框架,支持使用自然语言指令;2. 使用Affordance Reasoning Chain-of-Thought Prompting来推理affordance知识;3. 使用SAM和CLIP来定位与affordance知识相关的对象;4. 构建了一个新的affordance grounding数据集LLMaFF并在该数据集上验证了框架的性能。
  • 相关研究
    最近在affordance grounding领域的相关研究包括:1. AGD20K;2. AffordanceNet;3. AffordanceNet++;4. AffordanceGAN。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问