InfoNCE: Identifying the Gap Between Theory and Practice

2024年06月28日
  • 简介
    之前的对于使用InfoNCE进行对比学习(CL)的理论研究表明,基于某些假设,学习到的表示可以揭示出真实的潜在因素。我们认为这些理论忽略了CL在实践中的关键方面。具体而言,它们假设在正样本对中,所有潜在因素要么变化程度相似,要么有些根本不变化。然而,在实践中,正样本对通常使用强裁剪等增强技术生成,只涉及到很少的像素。因此,更现实的假设是所有潜在因素都会发生变化,并且这些因素之间存在连续的变化程度。我们引入了AnInfoNCE,它是InfoNCE的一种推广形式,可以证明在这种各向异性设置下揭示潜在因素,广泛推广了先前在CL中的可识别性结果。我们在受控实验中验证了我们的可识别性结果,并展示了AnInfoNCE如何提高对CIFAR10和ImageNet中先前折叠信息的恢复,尽管这是以下游精度为代价的。此外,我们还探讨和讨论了理论假设和实际实现之间的进一步不匹配,包括对硬负样本挖掘和损失集成的扩展。
  • 图表
  • 解决问题
    论文旨在解决对比学习中的一个现实问题:在实践中,正样本对经常使用强裁剪等数据增强技术生成,导致所有潜在因素都发生变化,而不是只有一些潜在因素发生变化。研究者试图找到一种方法来解决这种异向性的问题。
  • 关键思路
    论文提出了AnInfoNCE,这是InfoNCE的一个扩展,可以在异向性的情况下揭示潜在因素,从而扩展了对比学习中的可识别性结果。研究者通过控制实验验证了他们的可识别性结果,并表明AnInfoNCE可以提高CIFAR10和ImageNet中以前折叠信息的恢复能力,但代价是下游精度的降低。
  • 其它亮点
    论文的实验设计非常严谨,使用了CIFAR10和ImageNet等数据集进行验证,并开源了代码。论文提出的AnInfoNCE方法在异向性的情况下可以揭示潜在因素,从而扩展了对比学习中的可识别性结果。此外,论文还探讨了理论假设与实践实现之间的进一步不匹配,包括对硬负样本挖掘和损失集合的扩展。
  • 相关研究
    最近的相关研究包括:"Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles","Unsupervised Learning of Visual Representations by Context Prediction"等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论