本文提出了增强型局部自注意力:ELSA,它可以在各种网络中无缝替代LSA及其对应物,助力现有ViT模型涨点!如Swin、Focal和VOLO等网络,代码将开源!

单位:华南理工大学, 阿里巴巴
代码:https://github.com/damo-cv/ELSA
论文:https://arxiv.org/abs/2112.12786
Self-attention 在建模远程依赖方面很强大,但在局部更精细级别的特征学习方面很弱。局部自注意力(LSA)的性能与卷积不相上下,不如动态filters,这让研究人员不知道是使用 LSA 还是它的对应物,哪个更好,以及是什么让 LSA 变得平庸。
为了澄清这些,我们从两个方面全面研究 LSA 及其对应物:channel setting 和 spatial processing。我们发现问题在于空间注意力的产生和应用,其中相对位置嵌入和相邻filter应用是关键因素。基于这些发现,我们提出了具有 Hadamard 注意力和ghost head的增强型局部自注意力(ELSA)。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢