标题:新加坡海洋AI实验室、新加坡国立|VOLO: Vision Outlooker for Visual Recognition(VOLO:用于视觉识别的视觉前景器

简介:尽管最近流行的视觉变换器在 ImageNet 分类中显示出基于自注意力模型的巨大潜力,如果没有提供额外的数据,它们的性能仍然不如最新的卷积网络。在这项工作中,我们的目标是减小表现差距并证明基于注意力的模型确实能够胜过卷积网络。我们发现限制视觉变换器对 ImageNet分类性能的主要因素是它们在将精细特征编码到符号表示中的效率低下。为此,我们介绍了一种新颖的前景注意并呈现简单而通用的架构,称为视觉前景器(VOLO)。与专注于粗略全局依赖模型的自注意力不同,前景注意的目标是有效地将更精细的特征和上下文编码为符号,这对识别性能至关重要,但在很大程度上被自注意力所忽略。

代码地址:https://github.com/sail-sg/volo

论文地址:https://arxiv.org/pdf/2106.13112v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除