Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision

2024年03月06日
  • 简介
    最近,从文本监督学习开放词汇语义分割取得了有前途的下游表现。然而,由于缺乏密集注释,当前方法遇到了对齐粒度差距的问题,其中它们在训练期间学习粗略的图像/区域-文本对齐,但在推理时进行组/像素级别的预测。这种差异导致了次优的学习效率和劣质的零样本分割结果。在本文中,我们引入了一个多粒度跨模态对齐(MGCA)框架,它明确地学习像素级别的对齐,同时学习对象和区域级别的对齐,以弥合粒度差距,而不需要任何密集注释。具体而言,MGCA巧妙地在图像-文本对上构建了伪多粒度语义对应关系,并与硬采样策略协作,以促进细粒度的跨模态对比学习。此外,我们指出了现有的组和像素预测单元在下游分割中存在的缺陷,并开发了一种自适应语义单元,有效地缓解了它们的困境,包括欠分割和过分割。仅在CC3M上进行训练,我们的方法在超过最先进的方法方面取得了显着的进展,证明了其有效性和效率。
  • 图表
  • 解决问题
    解决问题:论文试图解决跨模态语义分割中的粒度差异问题,提高零样本分割的效果。
  • 关键思路
    关键思路:MGCA框架通过构建伪多粒度语义对齐和采用硬采样策略,显式地学习像素级别的对齐,以弥合粒度差异,并开发出自适应语义单元来有效缓解现有分割单位的问题。
  • 其它亮点
    亮点:MGCA框架在CC3M数据集上取得了显著的进展,实验结果表明其有效性和高效性。论文开源了代码。
  • 相关研究
    相关研究:最近的相关研究包括:《Learning to Segment Every Thing》、《Cross-Modal Contrastive Learning for Text-to-Image Matching》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论