- 简介深度神经网络在使用大型、有注释数据集时,在各个领域都取得了显著的进展。然而,现实世界中的数据往往呈现长尾分布和标签噪声,这显著降低了泛化性能。最近的研究致力于解决这些问题,专注于使用噪声样本选择方法,该方法根据每个目标类别中的高置信度样本估计每个类别的质心。这些方法的性能受到限制,因为它们仅使用每个类别内的训练样本进行类质心估计,从而使质心的质量容易受到长尾分布和噪声标签的影响。在本研究中,我们提出了一种名为“分布感知样本选择和对比学习(DaSC)”的强大训练框架。具体而言,DaSC引入了一种分布感知类质心估计(DaCC)方法来生成增强的类质心。DaCC对所有样本的特征进行加权平均,权重基于模型预测进行确定。此外,我们提出了一种置信度感知的对比学习策略,以获得平衡和强健的表示。训练样本被分类为高置信度和低置信度样本。然后,我们的方法使用高置信度样本应用半监督平衡对比损失(SBCL),利用可靠的标签信息减轻类别偏差。对于低置信度样本,我们的方法计算Mixup增强实例判别损失(MIDL),以自我监督的方式改进它们的表示。我们在CIFAR和真实世界的噪声标签数据集上的实验结果表明,与之前的方法相比,所提出的DaSC具有更优越的性能。
- 图表
- 解决问题本文旨在解决现实世界数据中存在长尾分布和标签噪声的问题,这些问题会显著降低深度神经网络的泛化性能。
- 关键思路本文提出了一种名为DaSC的训练框架,其中引入了分布感知类中心估计(DaCC)和置信度感知对比学习策略。DaCC通过使用模型预测的权重对所有样本的特征进行加权平均来生成增强的类中心。对于高置信度样本,利用半监督平衡对比损失(SBCL)来缓解类别偏差。对于低置信度样本,使用Mixup增强实例判别损失(MIDL)来自我监督地改进它们的表示。
- 其它亮点本文在CIFAR和现实世界的噪声标签数据集上进行了实验,证明了DaSC相对于以前的方法具有优越的性能。值得注意的是,本文还提供了开源代码。
- 最近在这个领域中,还有一些相关的研究,如:《Learning with Feature Dependent Label Noise: A Progressive Approach》、《Deep Self-Learning From Noisy Labels》等。
沙发等你来抢
去评论
评论
沙发等你来抢