Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision

简介

最近，从文本监督学习开放词汇语义分割取得了有前途的下游表现。然而，由于缺乏密集注释，当前方法遇到了对齐粒度差距的问题，其中它们在训练期间学习粗略的图像/区域-文本对齐，但在推理时进行组/像素级别的预测。这种差异导致了次优的学习效率和劣质的零样本分割结果。在本文中，我们引入了一个多粒度跨模态对齐（MGCA）框架，它明确地学习像素级别的对齐，同时学习对象和区域级别的对齐，以弥合粒度差距，而不需要任何密集注释。具体而言，MGCA巧妙地在图像-文本对上构建了伪多粒度语义对应关系，并与硬采样策略协作，以促进细粒度的跨模态对比学习。此外，我们指出了现有的组和像素预测单元在下游分割中存在的缺陷，并开发了一种自适应语义单元，有效地缓解了它们的困境，包括欠分割和过分割。仅在CC3M上进行训练，我们的方法在超过最先进的方法方面取得了显着的进展，证明了其有效性和效率。
图表
解决问题

解决问题：论文试图解决跨模态语义分割中的粒度差异问题，提高零样本分割的效果。
关键思路

关键思路：MGCA框架通过构建伪多粒度语义对齐和采用硬采样策略，显式地学习像素级别的对齐，以弥合粒度差异，并开发出自适应语义单元来有效缓解现有分割单位的问题。
其它亮点

亮点：MGCA框架在CC3M数据集上取得了显著的进展，实验结果表明其有效性和高效性。论文开源了代码。
相关研究

相关研究：最近的相关研究包括：《Learning to Segment Every Thing》、《Cross-Modal Contrastive Learning for Text-to-Image Matching》等。

Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision

评论