AffordanceLLM: Grounding Affordance from Vision Language Models

向作者提问

NEW

简介

“Affordance grounding”指的是找到人与物品可以互动的区域。这是一项基本但具有挑战性的任务，因为成功的解决方案需要全面理解场景的多个方面，包括检测、定位和识别物体及其部件，场景的地理空间配置/布局，3D形状和物理特性，以及物体和人类的功能和潜在互动。其中许多知识是隐藏的，超出了来自有限训练集的监督标签的图像内容。在本文中，我们尝试通过利用预训练的大规模视觉语言模型中丰富的世界、抽象和人-物互动知识，来提高当前“affordance grounding”的泛化能力。在AGD20K基准测试下，我们提出的模型在野外物体“affordance grounding”方面表现出比竞争方法显著的性能提升。我们进一步证明，即使在训练过程中未看到物体和动作，它也可以为随机的互联网图像中的物体提供“affordance grounding”。项目网站：https://jasonqsy.github.io/AffordanceLLM/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文的问题是如何提高现有的affordance grounding的泛化能力，以便在野外环境中更好地理解物体与人的交互。这是否是一个新问题？
关键思路

本论文的关键思路是利用预训练的大规模视觉语言模型中的丰富世界、抽象和人-物交互知识来提高现有的affordance grounding的泛化能力。相比当前领域的研究状况，这篇论文的思路是有创新的。
其它亮点

本论文的亮点是在AGD20K基准下，所提出的模型相比竞争方法在野外物体affordance grounding方面表现出显著的性能提升。此外，论文还证明了它可以对来自随机互联网图像的对象进行affordance grounding，即使在训练过程中这些对象和动作都没有被看到过。论文还提供了项目网站，其中包括数据集和代码等资源。
相关研究

最近的相关研究包括：1. AffordanceNet：从单个图像中的物体检测到affordance推理，2. Affordance Detection of Tool Parts from Geometric Features，3. Deep Learning for Detecting Object Affordances in RGB Images。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问