Multi-Scale Representations by Varying Window Attention for Semantic Segmentation

向作者提问

NEW

简介

多尺度学习是语义分割的核心。我们可视化了规范多尺度表示的有效感受野（ERF），并指出了学习它们存在的两个风险：尺度不足和感受野失活。为了解决这些问题，我们提出了一种新的多尺度学习器——变窗口注意力（VWA）。VWA利用本地窗口注意力（LWA），并将LWA分离为查询窗口和上下文窗口，允许上下文的尺度变化以便查询学习多个尺度的表示。然而，将上下文变为大尺度窗口（扩大比例R）会显著增加内存占用和计算成本（比LWA大R²倍）。我们提出了一种简单但专业的重新缩放策略，以抵消额外的成本而不影响性能。因此，VWA使用与LWA相同的成本来克服本地窗口的感受野限制。此外，依靠VWA并采用各种MLP，我们引入了一个多尺度解码器（MSD），VWFormer，以改进语义分割的多尺度表示。VWFormer的效率与最计算友好的MSD（如FPN和MLP解码器）相当，但表现比任何MSD都要好得多。例如，使用近一半的UPerNet计算量，VWFormer在ADE20K上比它高1.0%-2.5%的mIoU。在几乎没有额外开销的情况下，~10G FLOPs的Mask2Former配备VWFormer可以提高1.0%-1.3%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文的问题是如何解决多尺度学习中的两个问题：尺度不足和感受野失活，以及如何提高语义分割的多尺度表示。
关键思路

论文提出了一种新的多尺度学习方法，即变窗口注意力（VWA），它通过将局部窗口注意力（LWA）分解为查询窗口和上下文窗口来解决尺度不足和感受野失活问题。同时，通过重新缩放策略，VWA的计算成本与LWA相同，从而克服了局部窗口的感受野限制。此外，论文还提出了一种基于VWA的多尺度解码器（MSD），VWFormer，用于提高语义分割的多尺度表示。
其它亮点

论文的实验表明，VWFormer在效率方面与FPN和MLP解码器相当，但在性能方面表现更好。此外，论文还提供了ADE20K数据集和代码的开源实现。值得进一步研究的工作包括如何在其他任务和数据集上应用VWA和VWFormer。
相关研究

与本论文相关的研究包括FPN和MLP解码器等多尺度解码器，以及语义分割中的其他多尺度学习方法，如PSPNet和DeepLab系列。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问