FairDeDup: Detecting and Mitigating Vision-Language Fairness Disparities in Semantic Dataset Deduplication

2024年04月24日
  • 简介
    最近的数据集去重技术表明,基于内容的数据集修剪可以显著降低训练视觉语言预训练(VLP)模型的成本,而与在原始数据集上训练相比,几乎没有性能损失。这些结果是基于修剪从网络收集的常用图像字幕数据集得出的,这些数据集已知存在有害的社会偏见,可能会在训练模型中被编码。在这项工作中,我们评估去重如何影响所得到的训练模型中这些偏见的普遍性,并引入了一种易于实现的修改后的SemDeDup算法,可以减少我们观察到的负面影响。当检查在去重的LAION-400M变体上训练的CLIP风格模型时,我们发现我们提出的FairDeDup算法在FairFace和FACET数据集上始终比SemDeDup表现出更好的公平度量,同时在CLIP基准测试中保持了零-shot性能。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在评估数据去重对于Vision-Language Pretrained (VLP)模型中社会偏见的影响,并提出了一种FairDeDup算法以减少这种负面影响。
  • 关键思路
    本文提出了一种改进的SemDeDup算法——FairDeDup,它可以在维持CLIP基准测试的零-shot性能的同时,提高在FairFace和FACET数据集上的公平度量。
  • 其它亮点
    本文的实验使用了LAION-400M数据集,并开源了代码。通过去重数据集,可以显著降低训练VLP模型的成本。本文提出的FairDeDup算法可以减少由于数据去重而导致的社会偏见。值得进一步研究的是如何进一步提高VLP模型的公平性。
  • 相关研究
    近期的数据去重技术已经证明,内容感知的数据集修剪可以显著降低训练VLP模型的成本,而不会对原始数据集训练的模型产生显著的性能损失。此外,还有一些关于VLP模型公平性的研究,如《Mitigating Gender Bias in Natural Language Processing: Literature Review》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问