论文地址:https://arxiv.org/pdf/2203.10739.pdf
开源代码:https://github.com/megvii-research/TreeEnergyLoss
摘要
稀疏注释的语义分割(SASS)旨在训练一个分割网络,以粗粒(即点,涂鸦和块状)监督进行分割网络,其中每个图像中只有一小部分像素。在本文中,我们通过为未标记的像素提供语义指导,为SASS提出了一种新型的树木能量损失。树木能量损失表示图像是最小跨越树木的图像,以模拟低级和高级配对亲和力。通过将这些亲和力顺序应用于网络预测,以粗到未标记的方式生成无标记像素的软伪标签,从而实现了动态的在线自我训练。通过将树木的能量损失与传统的分割损失结合在一起,可以有效且易于将其纳入现有框架中。与以前的SASS方法相比,我们的方法不需要多阶段培训策略,交替的优化程序,其他监督数据或耗时的后处理,同时在所有SASS设置中都表现优于它们。
主要贡献
主要贡献总结如下。我们为Sass提出了一种新颖的树能损失(TEL)。 TEL利用最小跨越树木来建模像素之间的低级和高级结构关系。进一步引入了级联的滤波操作,以粗略的方式从网络预测中动态生成软伪标签。 TEL清洁且易于插入大多数现有的分割网络。为了进行综合验证,我们进一步引入了SASS的封锁设置。我们的方法的表现优于点,涂鸦和块状设置下的最新方法。
实验
我们采用三种流行的语义分割模型(即Deeplab V3+ [5],LTF [26]和HRNet [28])进行实验。ResNet-101 [12]和HRNetW48 [28]在ImageNet [7]数据集上进行了预训练,用作骨干网络。为了增加数据,采用了[0.5,2.0]中的随机水平翻转,随机调整了[-10,10]中的随机亮度。对于Pascal VOC 2012,CityScapes和ADE20K数据集,输入分辨率分别为512×512、1024×512和512×512。相应的初始学习率为0.001、0.01和0.02。使用0.9,重量衰减\( 1e-4 \)多项式时间表的SGD优化器。 Pascal VOC 2012,CityScapes和ADE20K数据集的总培训迭代分别为80K,40K和150K。在我们的实践中,我们将等式设置为λ= 0.4。 1.至于等式中的σ。 5,我们在Pascal VOC 2012数据集中设置σ= 0.02,并且由于语义类别的低水平外观多样性,在城市景观和ADE20K数据集中设置了σ= 0.002。所有实验均在Pytorch [23]上进行4 Tesla V100(32G)GPU进行。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢