Mitigating Noisy Supervision Using Synthetic Samples with Soft Labels

简介

在现实世界的数据集中，尤其是从众包和网络搜索得出的大规模数据集中，标签嘈杂无序。使用嘈杂的数据集训练深度神经网络是具有挑战性的，因为网络在训练过程中容易过度拟合嘈杂的标签，导致泛化性能差。在早期学习阶段，观察到深度神经网络在记忆错误标记的样本之前会拟合正确的样本。本文深入研究了早期学习阶段的表示分布，并发现即使标签嘈杂，来自同一类别的图像的学习表示仍会聚集在一起。受此启发，我们提出了一个框架，通过训练新的合成样本来减轻嘈杂标签的影响。具体而言，我们提出了一种混合策略，通过聚合原始样本和它们的前K个最近邻来创建合成样本，其中权重是使用从每个样本损失分布中学习的混合模型计算的。为了增强在极端标签噪声存在下的性能，我们通过逐步纠正嘈杂标签来估计软目标。此外，我们证明了估计的软目标产生了更准确的基础真实标签的近似值，并且所提出的方法产生了更为分离和清晰边界的簇的优质学习表示。在两个基准测试集（CIFAR-10和CIFAR-100）和两个大规模现实世界数据集（Clothing1M和Webvision）的大量实验中，我们的方法表现优于现有最先进方法，并且学习表示的鲁棒性更强。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在存在噪声标签的数据集上训练深度神经网络，以提高泛化性能？
关键思路

提出了一种基于混合策略和软目标估计的框架，通过合成样本来缓解噪声标签的影响，并在早期学习阶段的表示分布中发现了同一类别的图像仍然聚集在一起，从而提高了学习表示的质量。
其它亮点

使用混合策略和软目标估计的框架，通过合成样本来缓解噪声标签的影响；在早期学习阶段的表示分布中发现了同一类别的图像仍然聚集在一起，提高了学习表示的质量；在CIFAR-10、CIFAR-100、Clothing1M和Webvision数据集上进行了实验，并展示了该方法的优越性能。
相关研究

相关研究包括：《Learning from Noisy Large-Scale Datasets with Minimal Supervision》、《CleanNet: Transfer Learning for Scalable Image Classifier Training with Label Noise》、《Training Deep Neural Networks on Noisy Labels with Bootstrapping》等。

Mitigating Noisy Supervision Using Synthetic Samples with Soft Labels

提问交流

提问交流