ACC-ViT : Atrous Convolution's Comeback in Vision Transformers

2024年03月07日
  • 简介
    本文研究了视觉Transformer中的关注机制,通过灵感来源于视觉感知的创新,将其提升为最先进的视觉架构。目前,视觉Transformer中有两类关注机制,即区域关注和稀疏关注。前者将像素相互作用限制在一个区域内,后者将它们分散在稀疏的网格中。它们的对立性质导致了在保留层次关系或获得全局上下文之间的困境。本文提出了Atrous Attention,它是区域关注和稀疏关注的融合,可以自适应地 consol 两种局部和全局信息,同时保持层次关系。为了进一步致敬atrous卷积,我们使用atrous卷积重新设计了普遍存在的倒置残差卷积块。最后,我们提出了一个名为ACC-ViT的通用混合视觉Transformer骨干,遵循标准视觉任务的传统实践。我们的tiny版本模型在ImageNet-1K上实现了约84%的准确率,参数少于28.5百万个,比最先进的MaxViT提高了0.42%,并且参数少了8.4%。此外,我们还研究了ACC-ViT骨干在不同评估设置下的有效性,例如在涉及医学图像分析、目标检测和语言-图像对比学习的任务中进行微调、线性探测和零样本学习。因此,ACC-ViT是一个强大的视觉骨干,也适用于小型数据集的利基应用,具有竞争力的移动规模版本。
  • 图表
  • 解决问题
    论文旨在解决视觉transformer中局部关系和全局上下文之间的矛盾,提出了一种新的Atrous Attention机制,同时使用改进后的inverted residual convolution blocks和新的hybrid vision transformer backbone来实现更好的性能。
  • 关键思路
    Atrous Attention是一种融合了局部和稀疏注意力的机制,可以自适应地整合局部和全局信息,同时保持层次关系。同时使用改进后的卷积块和新的混合视觉transformer骨干网络来实现更好的性能。
  • 其它亮点
    实验结果表明,提出的ACC-ViT模型在ImageNet-1K任务上取得了84%的准确率,比现有最先进的MaxViT模型提高了0.42%,同时参数数量少了8.4%。此外,ACC-ViT在医学图像分析、目标检测和语言-图像对比学习等任务中也表现出色。
  • 相关研究
    最近的相关研究包括MaxViT、DeiT、ViT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论