FairDeDup: Detecting and Mitigating Vision-Language Fairness Disparities in Semantic Dataset Deduplication

向作者提问

NEW

简介

最近的数据集去重技术表明，基于内容的数据集修剪可以显著降低训练视觉语言预训练（VLP）模型的成本，而与在原始数据集上训练相比，几乎没有性能损失。这些结果是基于修剪从网络收集的常用图像字幕数据集得出的，这些数据集已知存在有害的社会偏见，可能会在训练模型中被编码。在这项工作中，我们评估去重如何影响所得到的训练模型中这些偏见的普遍性，并引入了一种易于实现的修改后的SemDeDup算法，可以减少我们观察到的负面影响。当检查在去重的LAION-400M变体上训练的CLIP风格模型时，我们发现我们提出的FairDeDup算法在FairFace和FACET数据集上始终比SemDeDup表现出更好的公平度量，同时在CLIP基准测试中保持了零-shot性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在评估数据去重对于Vision-Language Pretrained (VLP)模型中社会偏见的影响，并提出了一种FairDeDup算法以减少这种负面影响。
关键思路

本文提出了一种改进的SemDeDup算法——FairDeDup，它可以在维持CLIP基准测试的零-shot性能的同时，提高在FairFace和FACET数据集上的公平度量。
其它亮点

本文的实验使用了LAION-400M数据集，并开源了代码。通过去重数据集，可以显著降低训练VLP模型的成本。本文提出的FairDeDup算法可以减少由于数据去重而导致的社会偏见。值得进一步研究的是如何进一步提高VLP模型的公平性。
相关研究

近期的数据去重技术已经证明，内容感知的数据集修剪可以显著降低训练VLP模型的成本，而不会对原始数据集训练的模型产生显著的性能损失。此外，还有一些关于VLP模型公平性的研究，如《Mitigating Gender Bias in Natural Language Processing: Literature Review》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问