Denoising Vision Transformers

简介

我们探讨了Vision Transformers (ViTs)中一种微妙但重要的挑战：这些模型的特征图表现出网格状伪影，这会对ViTs在下游任务中的性能产生不利影响。我们的研究将这个根本性问题追溯到输入阶段的位置嵌入。为了解决这个问题，我们提出了一种新颖的噪声模型，它适用于所有ViTs。具体而言，噪声模型将ViT的输出分解为三个部分：一个不受噪声伪影影响的语义项和两个与伪影相关的项，这些项是基于像素位置条件的。通过在每个图像基础上使用神经场强制实现跨视图特征一致性，实现了这种分解。这个每个图像的优化过程从原始的ViT输出中提取出无伪影的特征，为离线应用提供了干净的特征。为了扩展我们的解决方案以支持在线功能，我们引入了一个可学习的去噪器，直接从未经处理的ViT输出中预测无伪影的特征，这展示了对新数据的显著泛化能力，无需每个图像的优化。我们的两阶段方法称为Denoising Vision Transformers (DVT)，不需要重新训练现有的预训练ViTs，可立即应用于任何基于Transformer的架构。我们在多个代表性的ViTs（DINO、MAE、DeiT-III、EVA02、CLIP、DINOv2、DINOv2-reg）上评估了我们的方法。广泛的评估表明，我们的DVT在多个数据集上的语义和几何任务中，始终显著提高了现有的最先进的通用模型的性能（例如，+3.84 mIoU）。我们希望我们的研究能够鼓励重新评估ViT的设计，特别是关于位置嵌入的朴素使用。
图表
解决问题

解决问题：论文旨在解决Vision Transformers（ViTs）的特征图中存在的网格状伪影问题，这会对ViTs在下游任务中的性能产生负面影响。
关键思路

关键思路：论文提出了一种新的噪声模型，可以将ViT的输出分解为三个部分，其中一个部分是与噪声伪影无关的语义项，另外两个部分是与像素位置相关的伪影项。通过神经场在每个图像上实现交叉视图特征一致性，实现了这种分解。为了支持在线功能，论文还引入了可学习的去噪器，可以直接从未经处理的ViT输出中预测无伪影的特征。
其它亮点

其他亮点：论文提出的方法名为Denoising Vision Transformers（DVT），可以直接应用于任何基于Transformer的结构，无需重新训练预训练的ViTs。实验结果表明，DVT可以显著提高现有通用模型在多个数据集上的语义和几何任务的性能。
相关研究

相关研究：最近在这个领域中，还有一些相关研究，如：《Do Vision Transformers See Like Convolutional Neural Networks?》、《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》等。

评论