CVPR 2022 | DAFormer：使用Transformer进行语义分割无监督域自适应的开篇之作

论文：https://arxiv.org/abs/2111.14887

代码：https://github.com/lhoyer/DAFormer

由于为语义分割标注真实图像是一个代价昂贵的过程，因此可以用更容易获得的合成数据训练模型，并在不需要标注的情况下适应真实图像。

在无监督域适应(UDA)中研究了这一过程。尽管有大量的方法提出了新的适应策略，但它们大多是基于比较经典的网络架构。由于目前网络结构的影响尚未得到系统的研究，作者首先对UDA的不同网络结构进行了基准测试，并揭示了Transformer在UDA语义分割方面的潜力。在此基础上提出了一种新的UDA方法DAFormer。

DAFormer的网络结构包括一个Transformer编码器和一个多级上下文感知特征融合解码器。它是由3个简单但很关键的训练策略来稳定训练和避免对源域的过拟合:

源域上的罕见类采样通过减轻Self-training对普通类的确认偏差提高了Pseudo-labels的质量;
Thing-Class ImageNet Feature Distance
Learning rate warmup促进了预训练的特征迁移

DAFormer代表了UDA的一个重大进步。它在GTA→Cityscapes改善了10.8 mIoU、Synthia→Cityscapes提升了5.4 mIoU。

简介

对于语义分割，标注的成本特别高，因为每个像素都必须被标记。例如，标注一幅Cityscapes图片需要1.5小时，而在恶劣的天气条件下，甚至需要3.3小时。

解决这个问题的一个方法是使用合成数据进行训练。然而，常用的CNN对域迁移很敏感，从合成数据到真实数据的泛化能力较差。该问题在无监督域适应(UDA)中得到解决，通过将由源(合成)数据训练的网络适应于不访问目标标签的目标(真实)数据。

以前的UDA方法主要是使用带有ResNet或VGG Backbone的DeepLabV2或FCN8s网络架构来评估其贡献，以便与之前发表的作品相媲美。然而，即使他们最强大的架构(DeepLabV2+ResNet101)在有监督的语义分割领域也过时了。

例如，它在Cityscape上只能实现65 mIoU的监督性能，而最近的网络达到85 mIoU。由于存在较大的性能差距，使用过时的网络架构是否会限制UDA的整体性能，是否会误导UDA的基准测试进展?

为了回答这个问题，本文研究了网络体系结构对UDA的影响，设计了一个更复杂的体系结构，并通过一些简单但关键的训练策略成功地应用于UDA。单纯地为UDA使用更强大的网络架构可能是次最优的，因为它更容易对源域过拟合。

基于在UDA环境下评估的不同语义分割架构的研究，作者设计了DAFormer，一个为UDA量身定制的网络架构。它是基于最近的Transformer，因为Transformer已经被证明比主流的CNN更强大。

DAFormer它们与上下文感知的多级特征融合相结合，进一步提高了UDA的性能。DAFormer是第一个揭示Transformer在UDA语义分割方面的巨大潜力的工作。

由于更复杂和有能力的架构更容易适应不稳定和对源域过拟合，在这项工作中，引入了3个训练策略，以UDA解决这些问题。

首先，提出了罕见类抽样(RCS)来考虑源域的长尾分布，这阻碍了罕见类的学习，特别是在UDA中，由于Self-training对常见类的确认偏差。通过频繁采样罕见类图像，网络可以更稳定地学习这些图像，提高了伪标签的质量，减少了确认偏差。

其次，提出了一个Thing-Class ImageNet Feature Distance(FD)，它从ImageNet特征中提取知识，以规范源训练。当源域仅限于特定类的几个实例(多样性较低)时，这尤其有用，因为它们的外观与目标域(域转移)不同。如果没有FD，这将导致学习缺乏表现力和特定于源领域的特性。当ImageNet特征被训练为事物类时，将FD限制为标记为事物类的图像区域。

最后，在UDA中引入了学习率warm up。通过在早期训练中线性提高学习率到预期值，学习过程稳定，从ImageNet预处理训练的特征可以更好地迁移到语义分割。

图1

如图1所示，DAFormer在很大程度上优于以前的方法，这支持了作者的假设，即网络架构和适当的训练策略对UDA发挥了重要作用。在GTA→cityscape上，将mIoU从57.5提高到68.3及以上，在Synthia→Cityscape上，将mIoU从55.5提高到60.9。

特别是DAFormer学习了以前的方法难以处理的更难的类。例如，在GTA→Cityscapes模式中，将火车等级从16 mIoU提高到65 mIoU，卡车等级从49 mIoU提高到75 mIoU，公共汽车等级从59 mIoU提高到78 mIoU。

总体而言，DAFormer代表了UDA的一个重大进步。本文的框架可以在16小时内在单个RTX 2080 Ti GPU上进行一个阶段的训练，这与之前的方法(如ProDA)相比简化了它的训练时间，后者需要在4个V100 GPU上训练1个阶段需要很多天。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

CVPR 2022 | DAFormer：使用Transformer进行语义分割无监督域自适应的开篇之作

简介

评论