- 简介视觉Transformer(ViT)的出现标志着计算机视觉领域的实质性范式转变。ViT通过自注意力模块捕获图像的全局信息,该模块在图像标记化的令牌之间执行点积计算。虽然自注意力模块使ViT能够捕获长距离依赖关系,但计算复杂度随着标记数量的增加呈二次增长,这是ViT实际应用的主要障碍。此外,深度ViT中的自注意力机制也容易受到注意力饱和问题的影响。因此,我们反对在每个层中计算注意力分数的必要性,并提出了少注意力视觉Transformer(LaViT),它仅在每个阶段计算少量注意力操作,并通过利用先前计算的注意力分数的注意力变换计算其他层的后续特征对齐。这种新颖的方法可以缓解困扰传统自注意力模块的两个主要问题:沉重的计算负担和注意力饱和。我们提出的架构提供了卓越的效率和实现便利,仅需要在当代深度学习框架中高度优化的矩阵乘法。此外,我们的架构在各种视觉任务中表现出优异的性能,包括分类、检测和分割。
-
- 图表
- 解决问题本论文旨在解决Vision Transformers (ViTs)在计算复杂度和注意力饱和方面存在的问题,提出了Less-Attention Vision Transformer (LaViT)的解决方案。
- 关键思路LaViT计算每个阶段仅有少量的注意力操作,并通过利用先前计算的注意力分数的注意力转换,在其他层中计算后续特征对齐,从而缓解了传统自注意力模块存在的两个主要问题:重负载的计算负担和注意力饱和。
- 其它亮点LaViT架构在各种视觉任务中表现出优异的性能,包括分类、检测和分割。LaViT仅需要矩阵乘法,易于实现,且具有卓越的效率。实验使用了多个数据集,包括ImageNet、COCO和ADE20K,并且开源代码可供使用。
- 最近的相关研究包括An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet以及Swin Transformer: Hierarchical Vision Transformer using Shifted Windows等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流