论文:https://arxiv.org/abs/2111.14887

代码:https://github.com/lhoyer/DAFormer

由于为语义分割标注真实图像是一个代价昂贵的过程,因此可以用更容易获得的合成数据训练模型,并在不需要标注的情况下适应真实图像。

在无监督域适应(UDA)中研究了这一过程。尽管有大量的方法提出了新的适应策略,但它们大多是基于比较经典的网络架构。由于目前网络结构的影响尚未得到系统的研究,作者首先对UDA的不同网络结构进行了基准测试,并揭示了Transformer在UDA语义分割方面的潜力。在此基础上提出了一种新的UDA方法DAFormer。

DAFormer的网络结构包括一个Transformer编码器和一个多级上下文感知特征融合解码器。它是由3个简单但很关键的训练策略来稳定训练和避免对源域的过拟合:

  1. 源域上的罕见类采样通过减轻Self-training对普通类的确认偏差提高了Pseudo-labels的质量;
  2. Thing-Class ImageNet Feature Distance
  3. Learning rate warmup促进了预训练的特征迁移

DAFormer代表了UDA的一个重大进步。它在GTA→Cityscapes改善了10.8 mIoU、Synthia→Cityscapes提升了5.4 mIoU。

 

简介

对于语义分割,标注的成本特别高,因为每个像素都必须被标记。例如,标注一幅Cityscapes图片需要1.5小时,而在恶劣的天气条件下,甚至需要3.3小时。

解决这个问题的一个方法是使用合成数据进行训练。然而,常用的CNN对域迁移很敏感,从合成数据到真实数据的泛化能力较差。该问题在无监督域适应(UDA)中得到解决,通过将由源(合成)数据训练的网络适应于不访问目标标签的目标(真实)数据。

以前的UDA方法主要是使用带有ResNet或VGG Backbone的DeepLabV2或FCN8s网络架构来评估其贡献,以便与之前发表的作品相媲美。然而,即使他们最强大的架构(DeepLabV2+ResNet101)在有监督的语义分割领域也过时了。

例如,它在Cityscape上只能实现65 mIoU的监督性能,而最近的网络达到85 mIoU。由于存在较大的性能差距,使用过时的网络架构是否会限制UDA的整体性能是否会误导UDA的基准测试进展?

为了回答这个问题,本文研究了网络体系结构对UDA的影响,设计了一个更复杂的体系结构,并通过一些简单但关键的训练策略成功地应用于UDA。单纯地为UDA使用更强大的网络架构可能是次最优的,因为它更容易对源域过拟合。

基于在UDA环境下评估的不同语义分割架构的研究,作者设计了DAFormer,一个为UDA量身定制的网络架构。它是基于最近的Transformer,因为Transformer已经被证明比主流的CNN更强大。

DAFormer它们与上下文感知的多级特征融合相结合,进一步提高了UDA的性能。DAFormer是第一个揭示Transformer在UDA语义分割方面的巨大潜力的工作。

由于更复杂和有能力的架构更容易适应不稳定和对源域过拟合,在这项工作中,引入了3个训练策略,以UDA解决这些问题。

  • 首先,提出了罕见类抽样(RCS)来考虑源域的长尾分布,这阻碍了罕见类的学习,特别是在UDA中,由于Self-training对常见类的确认偏差。通过频繁采样罕见类图像,网络可以更稳定地学习这些图像,提高了伪标签的质量,减少了确认偏差。
  • 其次,提出了一个Thing-Class ImageNet Feature Distance(FD),它从ImageNet特征中提取知识,以规范源训练。当源域仅限于特定类的几个实例(多样性较低)时,这尤其有用,因为它们的外观与目标域(域转移)不同。如果没有FD,这将导致学习缺乏表现力和特定于源领域的特性。当ImageNet特征被训练为事物类时,将FD限制为标记为事物类的图像区域。
  • 最后,在UDA中引入了学习率warm up。通过在早期训练中线性提高学习率到预期值,学习过程稳定,从ImageNet预处理训练的特征可以更好地迁移到语义分割。

图1

如图1所示,DAFormer在很大程度上优于以前的方法,这支持了作者的假设,即网络架构和适当的训练策略对UDA发挥了重要作用。在GTA→cityscape上,将mIoU从57.5提高到68.3及以上,在Synthia→Cityscape上,将mIoU从55.5提高到60.9。

特别是DAFormer学习了以前的方法难以处理的更难的类。例如,在GTA→Cityscapes模式中,将火车等级从16 mIoU提高到65 mIoU,卡车等级从49 mIoU提高到75 mIoU,公共汽车等级从59 mIoU提高到78 mIoU。

总体而言,DAFormer代表了UDA的一个重大进步。本文的框架可以在16小时内在单个RTX 2080 Ti GPU上进行一个阶段的训练,这与之前的方法(如ProDA)相比简化了它的训练时间,后者需要在4个V100 GPU上训练1个阶段需要很多天。

内容中包含的图片若涉及版权问题,请及时与我们联系删除