华为诺亚 | 对比自监督学习的泛化

论文标题：Towards the Generalization of Contrastive Self-Supervised Learning

作者单位：华为诺亚方舟实验室 & 中国科学院大学 & 北京大学

最近，自监督学习引起了极大的关注，因为它只需要未标记的数据进行训练。对比学习是一种流行的自监督学习方法，并且在实践中凭经验表现良好。然而，对其对下游任务的泛化能力的理论理解并未得到很好的研究。为此，我们对对比性自监督预训练模型如何推广到下游任务提出了理论解释。具体而言，我们定量地表明，如果自监督模型将输入数据嵌入到具有区分类中心和紧密聚集的类内样本的特征空间中，则该自监督模型具有对下游分类任务的泛化能力。有了上述结论，我们进一步探索了 SimCLR 和 Barlow Twins，这是两种典型的对比自监督方法。我们证明了上述特征空间可以通过任何一种方法获得，从而解释了它们在下游分类任务泛化上的成功。最后，还进行了各种实验来验证我们的理论发现。