Do Generated Data Always Help Contrastive Learning?

2024年03月19日
  • 简介
    对比学习(CL)已成为无监督视觉表示学习中最成功的范例之一,但它通常依赖于大量手动数据增强。随着生成模型(特别是扩散模型)的兴起,生成接近真实数据分布的逼真图像的能力得到了充分认可。这些生成的高质量图像已成功应用于增强对比表示学习,这种技术被称为“数据膨胀”。然而,我们发现生成的数据(即使来自像DDPM这样的好的扩散模型)有时甚至会损害对比学习。我们从数据膨胀和数据增强的角度探究了这种失败的原因。我们首次揭示了更强的数据膨胀应该与更弱的增强相伴随,反之亦然,这两者具有互补作用。我们还通过在数据膨胀下推导其泛化界限,为这些现象提供了严格的理论解释。基于这些见解,我们提出了自适应膨胀(AdaInf),这是一种纯数据中心的策略,不会引入任何额外的计算成本。在基准数据集上,AdaInf可以为各种对比学习方法带来显着的改进。值得注意的是,不使用外部数据,AdaInf在SimCLR上在CIFAR-10上获得了94.70%的线性准确度,创造了超越许多复杂方法的新记录。代码可在https://github.com/PKU-ML/adainf获得。
  • 图表
  • 解决问题
    本论文旨在解决对比学习中数据增强的问题,提出了一种基于生成模型的数据膨胀方法AdaInf,并且探究了数据膨胀和数据增强之间的关系。
  • 关键思路
    AdaInf是一种纯数据中心的策略,通过生成模型产生高质量的图像来提高对比学习的效果。同时,论文发现强的数据膨胀应该伴随着弱的数据增强,反之亦然。
  • 其它亮点
    论文提出的AdaInf方法在多个对比学习方法上均取得了显著的提升,特别是在CIFAR-10数据集上,使用SimCLR算法取得了94.70%的线性准确率,创造了新的记录。论文还提供了开源代码。
  • 相关研究
    最近的相关研究包括:SimCLRv2、SwAV和MoCo v3等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论