WorldAfford: Affordance Grounding based on Natural Language Instructions

向作者提问

NEW

简介

本文介绍了“Affordance grounding”任务，旨在根据给定的指令，将场景图像中被操作物体的交互区域定位。Affordance grounding面临的关键挑战是，具有身体的代理应理解人类指令，并分析环境中可以使用哪些工具，以及如何使用这些工具来完成指令。大多数最近的工作主要支持简单的行动标签作为输入指令，以定位可供性区域，未能捕捉复杂的人类目标。此外，这些方法通常仅识别物体中心图像中单个对象的可供性区域，忽略对象上下文，并在实际应用中难以定位复杂场景中多个对象的可供性区域。为了解决这个问题，我们首次引入了基于自然语言指令的可供性接地任务，将其从先前使用复杂人类指令的简单标签扩展。针对这个新任务，我们提出了一个新的框架，WorldAfford。我们设计了一个新的可供性推理思维链条提示，以更加精确和逻辑地推理LLMs的可供性知识。随后，我们使用SAM和CLIP来定位与可供性知识相关的对象。我们通过可供性区域本地化模块识别对象的可供性区域。为了基准测试这个新任务并验证我们的框架，构建了一个可供性接地数据集LLMaFF。我们进行了广泛的实验，验证了WorldAfford在先前的AGD20K和新的LLMaFF数据集上表现出最先进的性能。特别是，WorldAfford可以定位多个对象的可供性区域，并在环境中的对象不能完全匹配给定指令时提供替代方案。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决affordance grounding中存在的问题，即如何理解人类指令并分析环境中可用的工具，并确定如何使用这些工具来完成指令。同时，本文还旨在扩展使用简单标签为输入指令的affordance grounding任务，以支持更复杂的自然语言指令。
关键思路

本文提出了一个新的affordance grounding框架，WorldAfford，通过使用Affordance Reasoning Chain-of-Thought Prompting来推理affordance知识，并使用SAM和CLIP来定位与affordance知识相关的对象。此外，本文还构建了一个新的affordance grounding数据集LLMaFF来验证该框架的性能。
其它亮点

本文的亮点包括：1. 提出了一个新的affordance grounding框架，支持使用自然语言指令；2. 使用Affordance Reasoning Chain-of-Thought Prompting来推理affordance知识；3. 使用SAM和CLIP来定位与affordance知识相关的对象；4. 构建了一个新的affordance grounding数据集LLMaFF并在该数据集上验证了框架的性能。
相关研究

最近在affordance grounding领域的相关研究包括：1. AGD20K；2. AffordanceNet；3. AffordanceNet++；4. AffordanceGAN。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问