- 简介本文解决了视觉Transformer(ViT)所面临的一个重要挑战:它们在不同图像分辨率下的可扩展性受到限制。通常情况下,ViT在处理与训练时不同分辨率的图像时会出现性能下降的情况。我们的工作引入了两个关键创新来解决这个问题。首先,我们提出了一个新的动态分辨率调整模块,采用单个Transformer块进行设计,特别是为了实现高效的增量令牌集成。其次,我们在视觉Transformer中引入模糊位置编码,以提供一致的位置感知性,跨多个分辨率,从而防止过度拟合到任何单个训练分辨率。我们的结果模型ViTAR(任意分辨率视觉Transformer)展现了令人印象深刻的适应性,实现了1120x1120分辨率下83.3%的top-1准确率和4032x4032分辨率下80.4%的准确率,同时降低了计算成本。ViTAR在实例和语义分割等下游任务中也表现出强大的性能,并且可以轻松地与自监督学习技术(如遮蔽自编码器)相结合。我们的工作提供了一种经济实惠的解决方案,以增强ViT的分辨率可扩展性,为更多多功能和高效的高分辨率图像处理铺平了道路。
- 图表
- 解决问题ViTs在处理不同分辨率的图像时,性能会下降,本文旨在解决这一问题。
- 关键思路本文提出了两个关键创新点:一是使用动态分辨率调整模块进行高效的增量令牌集成,二是在Vision Transformer中引入模糊位置编码,以提供一致的位置感知,从而防止过度拟合到任何单一训练分辨率。
- 其它亮点ViTAR在1120x1120分辨率下达到83.3%的top-1准确率,在4032x4032分辨率下达到80.4%的准确率,同时降低计算成本。ViTAR在实例和语义分割等下游任务中也表现出强大的性能,并且可以轻松与自监督学习技术(如Masked AutoEncoder)相结合。
- 最近的相关研究包括:Cai等人的 'Once for All: Train One Network and Specialize it for Efficient Deployment',Carion等人的 'End-to-End Object Detection with Transformers'等。
沙发等你来抢
去评论
评论
沙发等你来抢