- 简介本文提出了聚合注意力(Aggregated Attention)和卷积GLU(Convolutional GLU)两种新型的模型设计来解决Vision Transformers模型中深度退化效应导致的信息交换不足问题,从而实现自然的视觉感知。聚合注意力是一种仿生设计的令牌混合器,模拟了生物视网膜的视觉和连续眼动,并使特征图上的每个令牌具有全局感知。此外,本文还引入了可学习的令牌,与传统的查询和键交互,进一步丰富了亲和矩阵的生成方式。卷积GLU是一种通道混合器,它弥合了GLU和SE机制之间的差距,使每个令牌都具有基于最近邻图像特征的通道注意力,增强了局部建模能力和模型的鲁棒性。本文将聚合注意力和卷积GLU结合起来,创建了一种新的视觉骨干网络TransNeXt。广泛的实验表明,TransNeXt在多个模型大小上均实现了最先进的性能。在$224^2$的分辨率下,TransNeXt-Tiny的ImageNet准确率达到了84.0%,比ConvNeXt-B少69%的参数。在$384^2$的分辨率下,TransNeXt-Base在ImageNet上的准确率为86.2%,ImageNet-A准确率为61.6%,COCO目标检测mAP为57.1,ADE20K语义分割mIoU为54.7。
- 图表
- 解决问题本文旨在解决Vision Transformers模型中的深度退化问题,提出了一种基于仿生学设计的令牌混合器Aggregated Attention以及一种通道混合器Convolutional GLU,用于提高模型的信息交换和局部建模能力。
- 关键思路本文提出的Aggregated Attention和Convolutional GLU可以有效地避免信息交换中的深度退化问题,并提高模型的自然视觉感知和局部建模能力,从而提高模型的性能。
- 其它亮点本文的实验结果表明,提出的TransNeXt模型在多个模型大小上均取得了最先进的性能,其中TransNeXt-Tiny在$224^2$的分辨率下的ImageNet准确率达到了84.0%,比ConvNeXt-B少69%的参数。TransNeXt-Base在$384^2$的分辨率下的ImageNet准确率为86.2%,ImageNet-A准确率为61.6%,COCO目标检测mAP为57.1,ADE20K语义分割mIoU为54.7。
- 与本文相关的研究包括Transformer、Vision Transformer、Convolutional Neural Networks等。
沙发等你来抢
去评论
评论
沙发等你来抢