- 简介本文提出了一种基于视觉语言模型(VLM)的半监督变化检测方法DiffMatch。由于标注大量像素级别的图像是费时费力的,特别是对于需要人工专家逐像素比较的多时相图像而言。考虑到VLM在零样本、开放词汇等方面的优异表现,可以利用VLM在有限标记数据下进行更好的CD。DiffMatch的核心思想是使用VLM合成自由变化标签,为未标记数据提供额外的监督信号。但目前几乎所有的VLM都是为单时相图像设计的,不能直接应用于双时相或多时相图像。因此,本文首先提出了一种基于VLM的混合变化事件生成策略,为未标记的CD数据产生伪标签。由于这些VLM驱动的伪标签提供的额外监督信号可能会与一致性正则化范例(例如FixMatch)的伪标签相冲突,因此我们提出了双投影头来解开不同信号源的纠缠。进一步,我们通过两个辅助分割解码器显式解耦双时相图像的语义表示,这些解码器也受到VLM的指导。最后,为了使模型更好地捕捉变化表示,我们通过特征级对比损失引入度量感知监督。大量实验证明了DiffMatch的优势。例如,在WHU-CD上,DiffMatch将FixMatch基线的IoU提高了5.3个百分点,在LEVIR-CD上将IoU提高了2.4个百分点,标签占比为5%。此外,我们的CEG策略在无监督情况下,可以实现远高于现有无监督CD方法的性能。
- 图表
- 解决问题论文旨在解决变化检测(CD)中标注数据成本高昂的问题,提出一种基于VLM的半监督CD方法DiffMatch,通过VLM合成自由变化标签来提供额外的监督信号。
- 关键思路DiffMatch的关键思路是使用VLM生成混合变化事件,产生伪标签以提供额外的监督信号,同时使用双投影头来解开不同信号源的冲突,通过两个辅助分割解码器显式解耦双时相图像的语义表示,并通过特征级对比损失引入度量感知监督。
- 其它亮点DiffMatch在WHU-CD和LEVIR-CD数据集上的实验结果表明,相对于FixMatch基线,DiffMatch在5%标签的情况下将IoU提高了5.3和2.4。此外,DiffMatch使用的CEG策略在无监督情况下比现有无监督CD方法表现更好。
- 在相关研究方面,最近的研究包括使用深度学习方法进行变化检测,使用半监督和自监督方法进行图像分割等。其中一些研究的论文标题包括'Semi-supervised Change Detection with Generative Adversarial Networks'和'Self-supervised Learning for Medical Image Analysis using Image Context Restoration'等。
沙发等你来抢
去评论
评论
沙发等你来抢