涨点神器！ELSA：增强视觉Transformer的局部自注意力

本文提出了增强型局部自注意力：ELSA，它可以在各种网络中无缝替代LSA及其对应物，助力现有ViT模型涨点！如Swin、Focal和VOLO等网络，代码将开源！

单位：华南理工大学, 阿里巴巴
代码：https://github.com/damo-cv/ELSA
论文：https://arxiv.org/abs/2112.12786

Self-attention 在建模远程依赖方面很强大，但在局部更精细级别的特征学习方面很弱。局部自注意力（LSA）的性能与卷积不相上下，不如动态filters，这让研究人员不知道是使用 LSA 还是它的对应物，哪个更好，以及是什么让 LSA 变得平庸。

为了澄清这些，我们从两个方面全面研究 LSA 及其对应物：channel setting 和 spatial processing。我们发现问题在于空间注意力的产生和应用，其中相对位置嵌入和相邻filter应用是关键因素。基于这些发现，我们提出了具有 Hadamard 注意力和ghost head的增强型局部自注意力（ELSA）。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

涨点神器！ELSA：增强视觉Transformer的局部自注意力

评论列表

评论