论文标题:CvT: Introducing Convolutions to Vision Transformers 论文链接:https://arxiv.org/abs/2103.15808 代码链接:https://github.com/leoxiaobin/CvT 作者单位:麦吉尔大学 & 微软云+AI
在ImageNet拿下87.7% Top-1准确率!与其他视觉Transformer和ResNet相比,具有更少的参数和更低的FLOPs,在下游任务应用中,也保持性能提升!代码即将开源!
我们在本文中介绍了一种称为卷积视觉Transformer(CvT)的新体系结构,该体系结构通过将卷积引入ViT中来产生两种设计的最佳效果,从而提高了视觉Transformer(ViT)的性能和效率。这是通过两个主要修改完成的:包含新卷积token嵌入的Transformer层次结构,以及利用卷积投影的卷积Transformer块。这些变化将卷积神经网络(CNN)的理想特性引入到ViT架构中(即移位,缩放和失真不变性),同时保持了Transformers的优点(即动态注意力,全局上下文和更好的泛化)。我们通过进行广泛的实验来验证CvT,表明该方法与ImageNet-1k上的其他视觉Transformer和ResNet相比,具有更少的参数和更低的FLOPs,可实现最先进的性能。此外,在较大的数据集(例如ImageNet-22k)上进行预训练并针对下游任务进行微调时,可以保持性能提升。我们的CvT-W24在ImageNet-22k上进行了预训练,在ImageNet-1k val集合上获得了87.7%的top-1精度。最后,我们的结果表明,位置编码是现有视觉转换器的关键组成部分,可以在我们的模型中安全删除,从而简化了高分辨率视觉任务的设计。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢