Multi-Scale Representations by Varying Window Attention for Semantic Segmentation

2024年04月25日
  • 简介
    多尺度学习是语义分割的核心。我们可视化了规范多尺度表示的有效感受野(ERF),并指出了学习它们存在的两个风险:尺度不足和感受野失活。为了解决这些问题,我们提出了一种新的多尺度学习器——变窗口注意力(VWA)。VWA利用本地窗口注意力(LWA),并将LWA分离为查询窗口和上下文窗口,允许上下文的尺度变化以便查询学习多个尺度的表示。然而,将上下文变为大尺度窗口(扩大比例R)会显著增加内存占用和计算成本(比LWA大R²倍)。我们提出了一种简单但专业的重新缩放策略,以抵消额外的成本而不影响性能。因此,VWA使用与LWA相同的成本来克服本地窗口的感受野限制。此外,依靠VWA并采用各种MLP,我们引入了一个多尺度解码器(MSD),VWFormer,以改进语义分割的多尺度表示。VWFormer的效率与最计算友好的MSD(如FPN和MLP解码器)相当,但表现比任何MSD都要好得多。例如,使用近一半的UPerNet计算量,VWFormer在ADE20K上比它高1.0%-2.5%的mIoU。在几乎没有额外开销的情况下,~10G FLOPs的Mask2Former配备VWFormer可以提高1.0%-1.3%。
  • 作者讲解
  • 图表
  • 解决问题
    本论文的问题是如何解决多尺度学习中的两个问题:尺度不足和感受野失活,以及如何提高语义分割的多尺度表示。
  • 关键思路
    论文提出了一种新的多尺度学习方法,即变窗口注意力(VWA),它通过将局部窗口注意力(LWA)分解为查询窗口和上下文窗口来解决尺度不足和感受野失活问题。同时,通过重新缩放策略,VWA的计算成本与LWA相同,从而克服了局部窗口的感受野限制。此外,论文还提出了一种基于VWA的多尺度解码器(MSD),VWFormer,用于提高语义分割的多尺度表示。
  • 其它亮点
    论文的实验表明,VWFormer在效率方面与FPN和MLP解码器相当,但在性能方面表现更好。此外,论文还提供了ADE20K数据集和代码的开源实现。值得进一步研究的工作包括如何在其他任务和数据集上应用VWA和VWFormer。
  • 相关研究
    与本论文相关的研究包括FPN和MLP解码器等多尺度解码器,以及语义分割中的其他多尺度学习方法,如PSPNet和DeepLab系列。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问