- 简介本文研究了掩模图像建模(MIM)预训练技术对轻量级视觉转换器(ViTs)微调性能的影响。本文质疑了极其简单的ViTs微调性能是否也能从这种预训练范式中受益,这与引入复杂组件的轻量级架构设计方法相比,这种方法尚未得到充分研究。通过仔细地将各种典型的MIM预训练方法适应到这个轻量级范式中,并将它们与对比学习(CL)预训练在各种下游图像分类和密集预测任务中进行比较,我们系统地观察到了MIM和CL在下游微调数据规模方面的不同行为。此外,我们还分析了线性探测评估下的冻结特征以及所得模型之间的层表示相似性和注意力映射,这些清晰地显示了MIM预训练在更高层次上的学习效果较差,导致在数据不足的下游任务中的微调表现不佳。这一发现自然是选择适当的蒸馏策略来解决上述恶化问题的指南。在各种视觉任务的大量实验中,我们证明了我们的观察-分析-解决方案流程的有效性。特别是,我们在纯轻量级ViTs(5.7M/6.5M)上进行了蒸馏预训练,采用香草/分层设计,可以在ImageNet-1K上实现79.4%/78.9%的top-1准确率。它还使ADE20K语义分割任务(42.8% mIoU)和LaSOT视觉跟踪任务(66.1% AUC)在轻量级范式中实现了SOTA性能。后者甚至超过了所有当前的SOTA轻量级CPU实时跟踪器。
- 图表
- 解决问题本文旨在探讨轻量级视觉Transformer模型的预训练问题。作者试图回答是否可以将掩蔽图像建模(MIM)预训练方法应用于小规模模型的微调中,以提高性能。
- 关键思路本文通过将不同的MIM预训练方法与对比学习(CL)预训练方法相比较,系统地观察了它们在不同下游数据规模下的表现。作者还分析了线性探测评估下的冻结特征以及获得的模型之间的层表示相似性和注意图,发现MIM预训练在更高层次上的学习效果较差,导致对数据不足的下游任务的微调表现不佳。作者提出了适当的蒸馏策略来解决这个问题。
- 其它亮点本文的主要亮点包括:1)提出了将MIM预训练方法应用于小规模模型的微调中;2)通过实验系统地观察了MIM和CL在不同下游数据规模下的表现;3)通过分析线性探测评估下的冻结特征以及获得的模型之间的层表示相似性和注意图,发现MIM预训练在更高层次上的学习效果较差,导致对数据不足的下游任务的微调表现不佳;4)作者提出了适当的蒸馏策略来解决这个问题;5)在ImageNet-1K、ADE20K语义分割任务和LaSOT视觉跟踪任务上取得了SOTA表现。
- 在这个领域中,最近的相关研究包括:1)ViT模型的预训练方法的研究;2)轻量级模型的设计和优化;3)对比学习方法的研究。相关的论文包括:1)An Image is Worth 16x16 Words: Transformers for Image Recognition;2)MobileNetV3: Searching for MobileNetV3;3)Momentum Contrast for Unsupervised Visual Representation Learning。
沙发等你来抢
去评论
评论
沙发等你来抢