- 简介最近,从文本监督学习开放词汇语义分割取得了有前途的下游表现。然而,由于缺乏密集注释,当前方法遇到了对齐粒度差距的问题,其中它们在训练期间学习粗略的图像/区域-文本对齐,但在推理时进行组/像素级别的预测。这种差异导致了次优的学习效率和劣质的零样本分割结果。在本文中,我们引入了一个多粒度跨模态对齐(MGCA)框架,它明确地学习像素级别的对齐,同时学习对象和区域级别的对齐,以弥合粒度差距,而不需要任何密集注释。具体而言,MGCA巧妙地在图像-文本对上构建了伪多粒度语义对应关系,并与硬采样策略协作,以促进细粒度的跨模态对比学习。此外,我们指出了现有的组和像素预测单元在下游分割中存在的缺陷,并开发了一种自适应语义单元,有效地缓解了它们的困境,包括欠分割和过分割。仅在CC3M上进行训练,我们的方法在超过最先进的方法方面取得了显着的进展,证明了其有效性和效率。
- 图表
- 解决问题解决问题:论文试图解决跨模态语义分割中的粒度差异问题,提高零样本分割的效果。
- 关键思路关键思路:MGCA框架通过构建伪多粒度语义对齐和采用硬采样策略,显式地学习像素级别的对齐,以弥合粒度差异,并开发出自适应语义单元来有效缓解现有分割单位的问题。
- 其它亮点亮点:MGCA框架在CC3M数据集上取得了显著的进展,实验结果表明其有效性和高效性。论文开源了代码。
- 相关研究:最近的相关研究包括:《Learning to Segment Every Thing》、《Cross-Modal Contrastive Learning for Text-to-Image Matching》等。
沙发等你来抢
去评论
评论
沙发等你来抢