我们探讨了Vision Transformers (ViTs)中一种微妙但重要的挑战:这些模型的特征图表现出网格状伪影,这会对ViTs在下游任务中的性能产生不利影响。我们的研究将这个根本性问题追溯到输入阶段的位置嵌入。为了解决这个问题,我们提出了一种新颖的噪声模型,它适用于所有ViTs。具体而言,噪声模型将ViT的输出分解为三个部分:一个不受噪声伪影影响的语义项和两个与伪影相关的项,这些项是基于像素位置条件的。通过在每个图像基础上使用神经场强制实现跨视图特征一致性,实现了这种分解。这个每个图像的优化过程从原始的ViT输出中提取出无伪影的特征,为离线应用提供了干净的特征。为了扩展我们的解决方案以支持在线功能,我们引入了一个可学习的去噪器,直接从未经处理的ViT输出中预测无伪影的特征,这展示了对新数据的显著泛化能力,无需每个图像的优化。我们的两阶段方法称为Denoising Vision Transformers (DVT),不需要重新训练现有的预训练ViTs,可立即应用于任何基于Transformer的架构。我们在多个代表性的ViTs(DINO、MAE、DeiT-III、EVA02、CLIP、DINOv2、DINOv2-reg)上评估了我们的方法。广泛的评估表明,我们的DVT在多个数据集上的语义和几何任务中,始终显著提高了现有的最先进的通用模型的性能(例如,+3.84 mIoU)。我们希望我们的研究能够鼓励重新评估ViT的设计,特别是关于位置嵌入的朴素使用。
提问交流