- 简介尽管在密集视觉识别问题(例如语义分割)方面,如深度学习取得了显著进展,但传统方法受到固定类别集的限制。同时,视觉-语言基础模型(如CLIP)在许多零样本图像级任务中展示了卓越的效果,因为它们具有强大的泛化能力。最近,一些研究探讨了在开放词汇语义分割(OVSS)中利用这些模型的方法。然而,现有方法通常依赖于不切实际的监督预训练或访问额外的预训练网络。在本研究中,我们提出了一种强大的基于训练的OVSS基线,称为邻域感知CLIP(NACLIP),它代表了CLIP的简单适应,专为这种情况量身定制。我们的方法在CLIP的视觉变换器的自我注意力中强制执行补丁的本地化,这在密集预测任务中是至关重要的,但在OVSS文献中却被忽视了。通过结合有利于分割的设计选择,我们的方法显著提高了性能,无需额外的数据、辅助预训练网络或广泛的超参数调整,使其非常适用于实际应用。我们在8个流行的语义分割基准上进行了实验,大多数情况下都取得了最先进的性能。我们的代码公开在https://github.com/sinahmr/NACLIP。
- 图表
- 解决问题本文旨在解决传统方法在固定类别集合的限制下,无法进行开放词汇语义分割的问题。同时,该论文试图证明基于视觉-语言基础模型(如CLIP)的训练无需监督预训练或访问额外的预训练网络即可实现开放词汇语义分割。
- 关键思路本文提出了一种名为NACLIP的强大基线方法,它是CLIP的简单适应,旨在解决开放词汇语义分割的问题。该方法通过在CLIP的视觉变换器的自注意力中强制执行补丁的定位,从而显著提高了性能。与现有方法相比,NACLIP不需要额外的数据,辅助预训练网络或广泛的超参数调整,因此在实际应用中非常实用。
- 其它亮点本文的实验在8个流行的语义分割基准上进行,大多数情况下都取得了最先进的性能。该论文的代码已经公开在GitHub上。本文的亮点包括:提出了一种新的方法解决开放词汇语义分割问题,不需要额外的数据和预训练网络;实验设计合理,使用了多个数据集进行测试;代码已经公开。
- 最近在这个领域中,还有一些相关研究,如:1)“Zero-shot Semantic Segmentation with Coarse-to-Fine Contextual Attention”;2)“Zero-Shot Semantic Segmentation via Group-Wise Deep Whitening”;3)“Zero-Shot Semantic Segmentation with the Attention Mechanism”等。
沙发等你来抢
去评论
评论
沙发等你来抢