- 简介本文研究了在大规模数据集上训练的视觉Transformer模型中,尽管有效,但常常会在其提取的补丁令牌中出现瑕疵。虽然可以通过使用额外的分类令牌重新训练整个模型来缓解这些缺陷,但存在这些令牌的根本原因仍然不清楚。为此,本文结合理论分析和实证观察,对这一现象进行了彻底的调查。我们的发现表明,这些缺陷源于预训练网络本身,具体来说是源于网络权重的领先左奇异向量。此外,为了减轻这些缺陷,我们提出了一种新的微调平滑正则化方法,仅使用少量数据集即可纠正结构缺陷,从而避免了完全重新训练的需要。我们在各种下游任务上验证了我们的方法,包括无监督分割、分类、有监督分割和深度估计,证明了它在提高模型性能方面的有效性。代码和检查点可在https://github.com/haoqiwang/sinder上获得。
- 图表
- 解决问题本文旨在解决Vision Transformer模型在提取补丁标记时出现的缺陷问题,并探究其产生的原因。同时,提出了一种新的微调平滑正则化方法,以改善模型性能。
- 关键思路本文发现这些缺陷源于预训练网络本身,特别是网络权重的前导左奇异向量。为了解决这个问题,提出了一种新的微调平滑正则化方法,只使用小数据集即可纠正结构缺陷。
- 其它亮点本文提出的微调平滑正则化方法在多个下游任务中展示了其有效性,包括无监督分割、分类、监督分割和深度估计。代码和检查点都已经开源。
- 最近的相关研究包括:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》、《Training data-efficient image transformers & distillation through attention》等。
沙发等你来抢
去评论
评论
沙发等你来抢