Who's in and who's out? A case study of multimodal CLIP-filtering in DataComp

2024年05月13日
  • 简介
    随着训练数据集越来越多地来自于像网络这样的非结构化、无控制的环境,研究人员和工业从业者越来越依赖数据过滤技术来“过滤”网络爬取的数据中的噪音。虽然数据集已经被广泛证明反映了其创建者的偏见和价值观,但在本文中,我们为评估创建这些数据集所使用的过滤器的新兴研究领域做出了贡献。我们展示了图像-文本数据过滤也存在偏见和价值观,编码了特定的概念,即什么样的数据被视为“高质量”数据。在我们的工作中,我们通过分析多种图像、文本和网站来源的注释技术之间的过滤差异,审计了学术基准DataComp的CommonPool上图像-文本CLIP过滤的标准方法。我们发现,与几个被揣测的人口群体相关的数据(如LGBTQ+人群、年长的女性和年轻的男性)与更高的排除率相关。此外,我们还展示了排除放大的情况:某些边缘化群体不仅在未经过滤的数据中已经少数派,而且CLIP过滤还以更高的比率排除了这些群体的数据。因此,机器学习流程中的数据过滤步骤可能会加剧数据采集步骤中已经存在的表征差异,特别是当现有的过滤器被设计为优化特定选择的下游性能指标,如零样本图像分类准确性时。最后,我们展示了NSFW过滤器无法从CommonPool中删除性内容,并且CLIP过滤器以高比率包括了几个类别的受版权保护的内容。我们的结论指出了数据集创建和过滤实践需要进行根本性的改变。
  • 图表
  • 解决问题
    本文试图分析图像-文本数据过滤的偏见和价值观,并发现现有的数据过滤方法会加剧数据采集阶段中存在的代表性差异,特别是当现有的过滤器被设计为优化特定的下游性能指标时。
  • 关键思路
    本文通过分析多种图像、文本和网站来源的各种注释技术的过滤差异,审计了在学术基准DataComp的CommonPool上使用的标准图像-文本CLIP过滤方法,并发现与几个假定的人口群体相关的数据与排除率更高。
  • 其它亮点
    本文发现数据过滤器也存在偏见和价值观,编码了特定的高质量数据概念,而且数据过滤步骤在机器学习流水线中的作用可能会加剧数据收集阶段中已经存在的代表性差异,特别是当现有的过滤器被设计为优化特定的下游性能指标时。此外,本文还发现NSFW过滤器无法从CommonPool中删除具有性暗示的内容,并且CLIP过滤器以高比例包括几个受版权保护的内容类别。
  • 相关研究
    近期的相关研究包括:1.《数据偏见和公平性的机器学习方法》;2.《机器学习中的公平性问题》;3.《数据过滤中的公平性问题》
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论