- 简介人类表现出天生的能力,可以识别支持特定行动的工具。物体部件与它们促进的行动之间的关联通常被称为可供性。能够根据它们所促成的任务分割物体部件,对于使智能机器人使用日常生活物品至关重要。传统的可供性分割监督学习方法需要昂贵的像素级注释,而弱监督方法虽然要求较少,但仍依赖于对象交互示例,并支持一组封闭的动作。这些限制阻碍了可扩展性,可能引入偏见,并通常将模型限制在有限的预定义动作集中。本文提出了AffordanceCLIP,通过利用大型预训练的视觉-语言模型(如CLIP)中嵌入的隐式可供性知识来克服这些限制。我们在实验中证明,尽管CLIP并非专门为可供性检测而训练,但它保留了该任务的有价值信息。我们的AffordanceCLIP在零样本性能方面达到了与专门训练方法相竞争的水平,同时提供了几个优点:i)它适用于任何动作提示,而不仅仅是预定义的集合;ii)相比现有解决方案,它仅需要训练少量额外的参数;iii)它消除了对动作-对象配对的直接监督的需求,为模型的基于功能的推理开辟了新的视角。
- 图表
- 解决问题本文旨在提出一种新的方法,利用预训练的视觉-语言模型CLIP中内置的潜在的affordance知识,来解决affordance分割的问题,同时避免了传统方法中需要昂贵的像素级注释的问题。
- 关键思路本文提出的AffordanceCLIP利用了预训练的CLIP模型的视觉和语言信息,通过在少量参数上进行微调,实现了对affordance的分割。相比于传统方法,AffordanceCLIP不需要预定义的行为集合,也不需要直接监督行为-物体对,因此具有更高的可扩展性和更少的偏差。
- 其它亮点本文的实验表明,AffordanceCLIP在零样本情况下表现优异,与专门训练的方法相比具有竞争力。此外,AffordanceCLIP不仅可以与任何行为提示一起使用,而且只需要在现有解决方案的基础上训练少量的额外参数。本文还开源了代码,并使用了两个数据集进行实验评估。未来的工作可以探索如何进一步利用视觉-语言模型来解决更复杂的功能推理问题。
- 最近的相关研究包括:1)使用深度学习方法进行affordance分割的研究,如Mask R-CNN和FCN;2)使用弱监督方法进行affordance分割的研究,如使用行为-物体对和语义分割标签等;3)利用视觉-语言模型进行图像理解的研究,如ViLBERT和LXMERT。
沙发等你来抢
去评论
评论
沙发等你来抢