何凯明团队又出新论文！北大、上交校友教你用ViT做迁移学习

模型参数的初始化一直是一个重要的研究问题，一个合适的初始化能够提升模型性能，加速收敛找到最优解。

由于不需要训练数据，所以无监督或自监督训练后的模型，能够很自然地作为下游任务（如图像分类、目标检测）模型微调前的初始化参数。

无监督算法的性能由微调后模型在下游任务的性能，如准确率、收敛速度等等相比基线模型是否有提高来进行判断。

在计算机视觉领域，由于CNN在过去的统治力，所以无监督深度学习通常都是基于标准卷积网络模型。例如将ResNet预训练后的模型迁移到其他基于CNN模型也是相当容易且直接的。

但现在时代变了，Vision Transformer（ViT）成为了新的主流模型。

论文提出的方法使标准的ViT模型能够作为骨干在Mask R-CNN中得到实际的应用。

这些方法产生了可接受的训练内存和时间，同时也在COCO上取得了优异的结果，而且还不会涉及到复杂的扩展。

通过对五种不同的ViT初始化方法进行比较可以发现，虽然随机初始化要比预训练的初始化长大约4倍，但相比于比ImageNet-1k的监督预训练，可以取得更高的AP。

此外，MoCoV3作为对比性无监督学习的代表，其表现几乎与监督性预训练相同，因此也比随机初始化差。

更重要的是，论文发现了一个令人兴奋的新结果：基于masking的方法（BEiT和MAE）比有监督和随机初始化都有更大的收益，而且这些收益会随着模型大小的增大而增加。

内容中包含的图片若涉及版权问题，请及时与我们联系删除