- 简介本文介绍了指代表达式分割(Referring Expression Segmentation,RES)的研究,旨在基于自然语言表达式识别和分割对象。虽然在RES方面取得了实质性进展,但广义指代表达式分割(Generalized Referring Expression Segmentation,GRES)的出现引入了新的挑战,因为它允许表达式描述多个对象或缺乏特定对象的参照。现有的RES方法通常依赖于复杂的编码器-解码器和特征融合模块,当面对GRES的复杂指称和二进制标签时,很难生成与每个实例相匹配的类原型。本文重新评估了RES和GRES之间的差异,提出了一种新颖的自适应绑定原型模型(Model with Adaptive Binding Prototypes,MABP),该模型能够自适应地将查询绑定到相应区域的对象特征上。它使得不同的查询向量能够匹配不同类别的实例或同一实例的不同部分,显著扩展了解码器的灵活性,将全局压力分散到所有查询上,并减轻了对编码器的需求。实验结果表明,MABP在gRefCOCO数据集的三个子集上显著优于现有最先进的方法。同时,MABP也超过了RefCOCO+和G-Ref数据集上的最先进方法,并在RefCOCO上取得了非常有竞争力的结果。代码可在https://github.com/buptLwz/MABP上获得。
-
- 图表
- 解决问题本文旨在解决Generalized Referring Expression Segmentation (GRES)带来的新挑战,即如何根据自然语言表达式识别和分割多个对象或没有特定对象参考的情况。
- 关键思路本文提出了一种新的模型,即具有自适应绑定原型的模型(MABP),通过自适应地将查询绑定到相应区域的对象特征上,使得不同的查询向量可以匹配不同类别的实例或同一实例的不同部分,从而显著提高了解码器的灵活性,并分散了全局压力,减轻了编码器的负担。
- 其它亮点实验结果表明,MABP在gRefCOCO数据集的所有三个分裂上都显著优于现有的最先进方法。同时,在RefCOCO+和G-Ref数据集上,MABP也超过了最先进的方法,并在RefCOCO上取得了非常有竞争力的结果。此外,本文提供了开源代码。
- 在相关研究方面,最近在这个领域中还有一些相关的研究,如:End-to-End Referring Expression Recognition and Segmentation with Recurrent Neural Networks、Referring Expression Segmentation via Cross-Modal Progressive Comprehension、Referring Image Segmentation via Recurrent Refinement Networks等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流