论文地址:https://arxiv.org/pdf/2203.09653.pdf
开源代码:https://github.com/maeve07/RCA
摘要
从弱标记的(例如,仅图像标签)学习语义分割是具有挑战性的,因为很难从稀疏的语义标签中推断致密的对象区域。尽管经过广泛的研究,但当前的大多数努力直接从个人图像或图像对带来的有限语义注释中学习,并难以获得不可或缺的定位图。我们的工作从一个新颖的角度来减轻这一点,通过在丰富的语义背景下在丰富的弱标记培训数据中协同探索网络学习和推理。特别是,我们提出了区域语义对比度和聚(RCA)。 RCA配备了区域内存库,可存储训练数据中出现的大量,多样的对象模式,这是对数据集级别语义结构的强烈支持。特别是,我们建议i)语义与通过对比大规模的分类对象区域来推动网络学习的语义对比,从而导致更全面的对象模式理解,ii)语义聚集,以在记忆中收集各种关系环境以丰富语义表示。通过这种方式,RCA具有强大的精细语义理解能力,并最终建立了两个流行的基准测试,即Pascal VOC 2012和COCO 2014。
主要贡献
- 语义对比,该对比度使模型学会区分数据集中的所有可能对象区域,从而促进更全面的对象模式理解。特别是,对于每个伪区域,语义对比度强制将网络拉开其嵌入到同一类别的内存嵌入附近,并将其推开不同。这样的对比属性很好地补充了分类目标(对于每个图像),以改善对象表示学习。
- 语义汇总,该语义汇总允许模型收集数据集级别的上下文知识,以产生更有意义的对象表示。这是通过非参数注意模块来实现的,该模块总结了每个图像的内存表示。与传统的图像内部上下文学习方案相比[12,73],我们的语义聚合着重于图像间环境挖掘,因此能够捕获更多信息丰富的数据集级别的语义。
实验
我们在RCA中测试了两个常用的骨干(即VGG16 [49],ResNet38 [22])进行实验。骨干的权重是从ImageNet预训练的重量中加载的。使用具有批量8,动量0.9和重量衰减\( 5e-4 \)的SGD优化器对RCA进行训练。主链的初始学习率设置为\( 1e-3 \),而其他组件的初始学习速率则设置为\( 1e-2 \),每五个时期降低0.1。我们仅在等式中使用交叉熵损失在第一个时期内热身网络,即α1= 0。该网络总共经过30个时期的训练。对于VOC 2012,我们使用每个类的自适应内存大小来存储数据集中的所有区域嵌入,而对于Coco 2014,perclass存储器大小设置为500,以避免大量的内存消耗。 3.2.4中的K-均值原型聚类仅在每个时期的开头一次执行一次,并且默认情况下,每级原型编号设置为k = 10。对于超参数,我们分别将阈值ν,动量γ,形状参数β,权重α1和α2分别设置为0.7、0.99、8、0.01和0.4。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢