Robust Data Pruning: Uncovering and Overcoming Implicit Bias

2024年04月08日
  • 简介
    在数据需求极高的模型时代,仔细选择训练数据是缓解深度学习的巨大成本的关键。数据修剪通过从数据集中删除冗余或无信息的样本来提供解决方案,从而实现更快的收敛和改进的神经比例定律。然而,我们很少了解其对训练模型的分类偏差的影响。我们进行了第一次系统研究,揭示了现有的数据修剪算法可能会产生高度偏见的分类器。同时,我们认为,具有适当类别比率的随机数据修剪有潜力改善最差类别的性能。我们提出了一种“公平感知”的修剪方法,并在标准计算机视觉基准测试上进行了实证演示。与现有算法形成鲜明对比的是,我们提出的方法在从数据集中修剪更多数据的同时,继续提高鲁棒性,平均性能的降低是可以容忍的。我们在混合高斯分类风险的理论分析中提出了算法的动机,并支持了我们的发现。
  • 图表
  • 解决问题
    数据修剪对深度学习模型的分类偏差有何影响?
  • 关键思路
    该论文提出了一种“公平感知”的数据修剪方法,可以在保持平均性能下提高最差类别的表现,并且在修剪更多数据时仍然保持鲁棒性。
  • 其它亮点
    论文进行了第一次系统研究数据修剪对分类器偏差的影响,并发现现有算法可能会产生高度偏见的分类器。作者提出的公平感知方法在标准计算机视觉基准测试中表现良好,并进行了理论分析以支持其发现。
  • 相关研究
    相关研究包括数据修剪和分类器偏差的研究,以及公平性和鲁棒性的研究。其中一些论文包括“On the impact of data pruning for deep learning”,“Fairness in machine learning: A survey”,“Improving fairness in machine learning systems: What do industry practitioners need?”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论