CVPR 2022｜树能量损失：走向稀疏注释的语义分割

论文地址：https://arxiv.org/pdf/2203.10739.pdf

开源代码：https://github.com/megvii-research/TreeEnergyLoss

摘要

稀疏注释的语义分割（SASS）旨在训练一个分割网络，以粗粒（即点，涂鸦和块状）监督进行分割网络，其中每个图像中只有一小部分像素。在本文中，我们通过为未标记的像素提供语义指导，为SASS提出了一种新型的树木能量损失。树木能量损失表示图像是最小跨越树木的图像，以模拟低级和高级配对亲和力。通过将这些亲和力顺序应用于网络预测，以粗到未标记的方式生成无标记像素的软伪标签，从而实现了动态的在线自我训练。通过将树木的能量损失与传统的分割损失结合在一起，可以有效且易于将其纳入现有框架中。与以前的SASS方法相比，我们的方法不需要多阶段培训策略，交替的优化程序，其他监督数据或耗时的后处理，同时在所有SASS设置中都表现优于它们。

主要贡献

主要贡献总结如下。我们为Sass提出了一种新颖的树能损失（TEL）。 TEL利用最小跨越树木来建模像素之间的低级和高级结构关系。进一步引入了级联的滤波操作，以粗略的方式从网络预测中动态生成软伪标签。 TEL清洁且易于插入大多数现有的分割网络。为了进行综合验证，我们进一步引入了SASS的封锁设置。我们的方法的表现优于点，涂鸦和块状设置下的最新方法。

实验

我们采用三种流行的语义分割模型（即Deeplab V3+ [5]，LTF [26]和HRNet [28]）进行实验。ResNet-101 [12]和HRNetW48 [28]在ImageNet [7]数据集上进行了预训练，用作骨干网络。为了增加数据，采用了[0.5，2.0]中的随机水平翻转，随机调整了[-10，10]中的随机亮度。对于Pascal VOC 2012，CityScapes和ADE20K数据集，输入分辨率分别为512×512、1024×512和512×512。相应的初始学习率为0.001、0.01和0.02。使用0.9，重量衰减\( 1e-4 \)多项式时间表的SGD优化器。 Pascal VOC 2012，CityScapes和ADE20K数据集的总培训迭代分别为80K，40K和150K。在我们的实践中，我们将等式设置为λ= 0.4。 1.至于等式中的σ。 5，我们在Pascal VOC 2012数据集中设置σ= 0.02，并且由于语义类别的低水平外观多样性，在城市景观和ADE20K数据集中设置了σ= 0.002。所有实验均在Pytorch [23]上进行4 Tesla V100（32G）GPU进行。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

CVPR 2022｜树能量损失：走向稀疏注释的语义分割

摘要

主要贡献

实验

评论