标题:俄勒冈大学、Picsart、Meta|Neighborhood Attention Transformer (相邻注意力变换器)

作者:Ali Hassani, Steven Walton, Humphrey Shi等

简介:本文提出一种图像领域新型变换器结构。作者提出了邻里注意力变换器(NAT),一种高效、准确和可扩展的层次结构,对图像分类都适用的变换器和下游视觉任务。 它建立在 Neighborhood Attention (NA) 之上,这是一种简单灵活的注意力机制,可以为每个查询定位感受野到其最近的相邻像素。NA是本地化自我关注,并将其视为感受野尺寸增加。它在 FLOP 和内存使用上也与 Swin Transformer的偏移窗口注意力给定相同的感受野大小相当,同时受到较少的限制。 此外,NA包括局部感应偏置,从而消除了对额外操作的需要,例如随着像素的变化。 NAT实验结果具有竞争力:NAT-Tiny 在 ImageNet 上达到 83.2% 的 top-1 准确率,只有4.3 GFLOPs和28M参数,MS-COCO 上的 51.4% mAP 和 ADE20k 上的 48.4% mIoU。

代码下载:https://github.com/SHILabs/Neighborhood-Attention-Transformer

论文地址:https://arxiv.org/pdf/2204.07143v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除