Enhanced Long-Tailed Recognition with Contrastive CutMix Augmentation

简介

真实世界的数据通常遵循长尾分布，即少数头部类别占据了大部分数据，而大量尾部类别仅包含非常有限的样本。在实践中，由于分布不平衡，深度模型通常在尾部类别上表现出较差的泛化性能。为了解决这个问题，数据增强已成为一种有效的方法，通过为尾部类别合成新的样本。其中，一种流行的方法是使用 CutMix，它明确地混合尾部类别和其他类别的图像，同时根据从两个图像裁剪的区域比例构造标签。然而，基于区域的标签完全忽略了增强样本的固有语义信息，通常会导致误导性的训练信号。为了解决这个问题，我们提出了一种对比 CutMix（ConCutMix），它构造具有语义一致标签的增强样本，以提高长尾识别的性能。具体来说，我们计算了对比学习所学习的语义空间中样本之间的相似性，并将其用于纠正基于区域的标签。实验证明，我们的 ConCutMix 显著提高了尾部类别和整体性能的准确性。例如，基于 ResNeXt-50，我们在 ImageNet-LT 上的整体准确性提高了 3.0%，得益于尾部类别的显著提高 3.3%。我们强调，这种改进也适用于其他基准和模型。我们的代码和预训练模型可在 https://github.com/PanHaulin/ConCutMix 上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决长尾分布下数据不平衡带来的模型泛化性能较差的问题，提出了一种数据增强方法来合成尾部类别的新样本。
关键思路

论文提出了一种Contrastive CutMix（ConCutMix）的方法，通过计算对比学习中语义空间中样本之间的相似度，来修正基于面积的标签，从而构建具有语义一致性的增强样本，提高长尾识别的性能。
其它亮点

实验结果表明，ConCutMix显著提高了尾部类别的准确率，同时也提高了整体性能。该方法在ImageNet-LT数据集上，基于ResNeXt-50模型，将整体准确率提高了3.0％，尾部类别的准确率提高了3.3％。论文提供了代码和预训练模型。
相关研究

相关研究包括使用数据增强来解决长尾问题的其他方法，例如CutMix。另外，对比学习在计算机视觉领域中也有广泛应用。

Enhanced Long-Tailed Recognition with Contrastive CutMix Augmentation

提问交流

提问交流