Vision Transformer with Sparse Scan Prior

2024年05月22日
  • 简介
    最近几年,Transformer在计算机视觉任务中取得了显著进展。然而,它们的全局建模往往伴随着巨大的计算开销,与人眼的高效信息处理形成鲜明对比。受人眼的稀疏扫描机制启发,我们提出了一种稀疏扫描自注意机制($\rm{S}^3\rm{A}$)。该机制为每个标记预定义了一系列感兴趣的锚点,并采用局部注意力来有效地建模这些锚点周围的空间信息,避免冗余的全局建模和过度关注局部信息。这种方法模拟了人眼的功能,显著降低了视觉模型的计算负载。在$\rm{S}^3\rm{A}$的基础上,我们引入了稀疏扫描视觉Transformer(SSViT)。广泛的实验表明,SSViT在各种任务中表现出色。具体而言,在ImageNet分类任务中,没有额外的监督或训练数据,SSViT在4.4G/18.2G FLOPs下实现了84.4%/85.7%的top-1精度。SSViT在目标检测、实例分割和语义分割等下游任务中也表现出色。其鲁棒性在不同的数据集上得到了进一步验证。代码将在\url{https://github.com/qhfan/SSViT}上提供。
  • 图表
  • 解决问题
    解决问题:论文旨在通过模仿人眼的稀疏扫描机制,提出一种稀疏扫描自注意力机制(S3A),以有效地建模空间信息。同时,基于S3A提出了一种稀疏扫描视觉Transformer(SSViT),以减少计算负担并提高计算效率。
  • 关键思路
    关键思路:论文提出的S3A机制预定义每个令牌的一系列感兴趣的锚点,并采用局部注意力有效地建模这些锚点周围的空间信息,从而避免冗余的全局建模和过度关注局部信息。SSViT建立在S3A之上,通过实验表明其在各种任务中的出色性能。
  • 其它亮点
    其他亮点:SSViT在ImageNet分类任务中的表现优秀,无需额外的监督或训练数据,可以实现4.4G/18.2G FLOPs下的84.4%/85.7%的top-1准确率。SSViT还在目标检测、实例分割和语义分割等下游任务中表现出色。实验使用了多个数据集,并提供了开源代码。
  • 相关研究
    相关研究:最近的相关研究包括ViT、DeiT、T2T-ViT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论