论文地址:https://arxiv.org/pdf/2110.07110.pdf

摘要

尽管图像级弱监督的语义分割(WSSS)作为基石的类激活图(CAM)取得了长足的进步,但分类和分割之间的较大监督差距仍然阻碍了该模型,以生成更完整,更精确的伪面膜进行分割。在这项研究中,我们提出了弱监督的像素到原型对比度,可以提供像素级的监督信号以缩小差距。在两个直观先验的指导下,我们的方法是在不同视图的情况下和图像的单一视图中执行的,旨在施加跨视图特征语义一致性正规化并促进特征空间的内部(Inter) - 类紧凑(分散)。我们的方法可以无缝地纳入现有的WSSS模型中,而不会对基本网络进行任何更改,也不会承担任何额外的推理负担。广泛的实验表明,我们的方法始终通过很大的边缘改善两个强基础,这表明了有效性。具体而言,我们建在接缝之上,我们在Pascal VOC 2012上将最初的种子MIOU从55.4%提高到61.5%。此外,根据我们的方法,我们将EPS的分割MIOU从70.8%增加到73.6%,从而实现了新的最先进。

主要贡献

总而言之,我们的主要贡献如下:

  • 我们提出了WSSS的弱监督像素到原型对比。它使像素能够从WSSS设置下每个类的可靠原型中接收监督,从而大大缩小了分类和分割之间的差距。
  • 我们建议在视图和图像的不同视图中执行像素到原型对比度学习,从而显着提高了CAM的质量和随后的分割掩码。
  • 我们的方法显示出令人印象深刻的结果,超过了基线模型,并在标准基准测试中取得了最高的性能。

实验

在SEAM和EPS之后,ResNet38被用作具有输出步幅的骨干网络等于8。图像被随机重新缩放到[448,768]的范围,最长的边缘将其作为网络的输入大小,然后裁剪为448×448以下[53]。我们使用将源图像调整到128×128的恢复转换,使输出步幅的倍数保持在128×128。这与接缝略有不同,但是重新缩放程度几乎相同。 CNN骨干和投影仪在两个视图之间共享权重。用于对比性损失的投影特征的尺寸为128。当我们提出的对比度正规化concontrast对SEAM和EPS时,我们将α= 0.1和β= 0.1设置为与分类损失保持平衡。我们遵循SEAM和EPS中的培训和推理程序,包括培训时期,学习率,学习率衰减政策,体重衰减率和优化器。

生成伪面罩后,我们训练三个语义分割网络,以与基线模型进行公平的比较。具体的,带有ResNet38的DeepLab-LargeFOV经过训练,可以与接缝进行比较。具有RESNET101的DeepLab-LargeFOV和DeepLab-ASPP分别与EPS进行比较。在推理期间,我们采用了以前的工作中完成的多尺度和翻转操作。标准密集的CRF用作后处理程序,以完善最终的分割掩膜。

内容中包含的图片若涉及版权问题,请及时与我们联系删除