- 简介Vision Transformer (ViT)已成为各种计算机视觉任务中突出的架构。在ViT中,我们将输入图像分成补丁标记,并通过一堆自我关注块进行处理。然而,与卷积神经网络(CNN)不同,ViT的简单架构没有信息归纳偏差(例如局部性等)。因此,ViT需要大量的数据进行预训练。已经提出了各种数据有效的方法(DeiT)来有效地在平衡的数据集上训练ViT。然而,有限的文献讨论了ViT在长尾不平衡数据集上的使用。在这项工作中,我们介绍了DeiT-LT来解决从头开始训练ViTs的长尾数据集的问题。在DeiT-LT中,我们通过使用超出分布图像并重新加权蒸馏损失来引入了一种有效的从CNN蒸馏DIST标记的方式,从而解决了该问题。这导致早期ViT块中学习类似本地CNN的特征,提高了尾部类的泛化能力。此外,为了减少过度拟合,我们建议从平坦的CNN教师蒸馏,这导致学习DIST标记在所有ViT块中的低秩可推广特征。通过所提出的DeiT-LT方案,蒸馏DIST标记成为尾部类的专家,分类器CLS标记成为头部类的专家。专家有助于使用同一ViT架构中的不同标记集有效地学习对应于多数和少数类的特征。我们展示了DeiT-LT在从小规模CIFAR-10 LT到大规模iNaturalist-2018的数据集上从头开始训练ViT的有效性。
- 图表
- 解决问题本论文旨在解决使用ViT架构在长尾数据集上进行训练时的问题,通过提出DeiT-LT方案,利用CNN的知识进行蒸馏,使得ViT能够更好地处理长尾数据集。
- 关键思路DeiT-LT方案中,通过引入DIST token和CLS token,利用CNN的知识进行蒸馏,从而在ViT架构中引入局部的类似于CNN的特征,提高尾部类别的泛化能力,并且通过从一个平坦的CNN teacher进行蒸馏,学习低秩的可推广特征,以缓解过拟合问题。
- 其它亮点论文提出了DeiT-LT方案,通过引入DIST token和CLS token,利用CNN的知识进行蒸馏,使得ViT架构能够更好地处理长尾数据集。实验结果表明,DeiT-LT方案在小规模CIFAR-10 LT和大规模iNaturalist-2018数据集上都取得了良好的效果。论文提供了开源代码。
- 在相关研究方面,最近的一些工作集中在如何训练长尾数据集上的模型上,例如LDAM和CB Loss。
沙发等你来抢
去评论
评论
沙发等你来抢