Noise contrastive estimation with soft targets for conditional models

2024年04月22日
  • 简介
    软目标与交叉熵损失相结合已经证明可以提高深度神经网络在监督分类任务上的泛化性能。然而,标准的交叉熵损失假定数据是分类分布的,但在实践中往往不是这种情况。相比之下,InfoNCE不依赖于这样一个明确的假设,而是通过负采样隐式地估计真实条件。不幸的是,在其标准公式中,它不能与软目标相结合,从而阻碍了它与复杂的训练策略的结合使用。在本文中,我们提出了一个基于原则的损失函数,与概率目标兼容。我们的新的软目标InfoNCE损失在概念上简单,计算高效,并且可以在噪声对比估计的框架内推导出来。我们使用一个玩具示例来展示交叉熵的分类分布假设的缺陷,并讨论从软分布中采样的影响。我们观察到,软目标InfoNCE表现与强软目标交叉熵基线相当,并且在包括ImageNet在内的流行基准测试中优于硬目标NLL和InfoNCE损失。最后,我们提供了一个简单的实现方式,专门针对监督分类,并且完全兼容使用交叉熵训练的深度分类模型。
  • 图表
  • 解决问题
    论文试图解决如何在深度神经网络的分类任务中使用软目标(probabilistic targets)的问题,以及如何克服现有方法的局限性。
  • 关键思路
    提出了一种基于噪声对比估计的新的软目标InfoNCE损失函数,该方法不需要显式假设数据服从分类分布,而是通过负采样隐式估计条件概率。该方法在分类任务中表现良好,可以与交叉熵一起使用。
  • 其它亮点
    论文提出的新方法在ImageNet等数据集上表现优秀,实验设计科学,且提供了简单易用的代码实现。
  • 相关研究
    与该论文相关的研究包括:Cross-Entropy Loss、InfoNCE Loss、Softmax Loss等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论