Ameliorate Spurious Correlations in Dataset Condensation

2024年06月06日
  • 简介
    这篇论文研究了原始数据集中的偏见对数据集压缩性能的影响。数据集压缩是将大型数据集压缩成较小的合成数据集,以便进行下游训练任务的一种技术。研究结果表明,原始数据集中的颜色和背景偏见将通过压缩过程被放大,导致在压缩数据集上训练的模型性能明显下降,而污染偏见则被压缩过程所抑制。为了减少数据集压缩中的偏见放大,论文提出了一种基于样本重新加权方案和核密度估计的简单而高效的方法。在多个真实和合成数据集上的实证结果证明了该方法的有效性。尤其是在具有5%偏见冲突比率和IPC 50的CMNIST上,我们的方法实现了91.5%的测试准确性,而原始方法只有23.8%,性能提高了67.7%,而将最先进的去偏见方法应用于相同的数据集仅实现了53.7%的准确性。这些发现强调了解决数据集压缩中的偏见的重要性,并提供了一个有前途的途径来解决这一过程中的偏见放大问题。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在研究数据集压缩中原始数据集中偏差对模型性能的影响,并提出一种基于样本重新加权的方法来减少偏差放大的影响。
  • 关键思路
    本文通过实验发现,原始数据集中的颜色和背景偏差在数据集压缩过程中会被放大,导致模型性能显著下降,而污染偏差则会在压缩过程中被抑制。为了减少偏差放大的影响,本文提出了一种简单而高效的方法,基于核密度估计的样本重新加权方案。
  • 其它亮点
    本文的实验覆盖了多个真实世界和合成数据集,并展示了提出的方法的有效性。与最先进的去偏方法相比,本文的方法在CMNIST数据集上将测试准确率从23.8%提高到91.5%,提高了67.7%。本文的研究强调了解决数据集压缩中的偏差问题的重要性,并提供了一个有希望的途径来解决偏差放大的问题。
  • 相关研究
    最近的相关研究包括使用生成对抗网络来进行数据集压缩和去偏。相关论文包括:《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》和《Learning from Simulated and Unsupervised Images through Adversarial Training》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问