CLIP the Bias: How Useful is Balancing Data in Multimodal Learning?

ICLR 2024
2024年03月07日
  • 简介
    我们研究了数据平衡在对比语言图像预训练(CLIP)中减轻偏见的有效性,并确定了其优点和局限性。首先,我们重申了先前的结论,即CLIP模型可能会无意中吸收社会刻板印象。为了解决这个问题,我们提出了一种新算法,称为多模态矩匹配(M4),旨在减少多模态数据中的表示和关联偏差(即一阶和二阶统计量)。我们使用M4进行深入分析,考虑了各种因素,例如模型、表示和数据大小。我们的研究还探讨了CLIP学习和消除偏见的动态性质。特别是,我们发现微调可以有效地对抗表示偏差,但对于关联偏差其影响减弱。此外,数据平衡对质量的影响有好有坏:它往往可以提高分类,但可能会损害检索。有趣的是,数据和架构的改进似乎可以缓解数据平衡对性能的负面影响;例如,将M4应用于SigLIP-B/16并使用数据质量过滤器,可以将COCO图像到文本检索@5从86%(不使用数据平衡)提高到87%,并将ImageNet零样本分类从77%提高到77.5%!最后,我们提出了改进多模态系统中数据平衡有效性的建议。
  • 图表
  • 解决问题
    本论文旨在研究数据平衡对于缓解对比语言图像预训练(CLIP)中的偏见的有效性,并确定其优点和局限性。
  • 关键思路
    本文提出了一种新算法M4,旨在减少多模态数据中的表示和关联偏差,并深入分析了模型、表示和数据大小等因素的影响。研究还探讨了CLIP学习和消除偏见的动态过程。
  • 其它亮点
    实验结果表明,微调对于解决表示偏见是有效的,但对于关联偏见的影响逐渐减弱。数据平衡对分类有积极影响,但对检索有负面影响。本文提出的M4算法可以提高数据平衡的效果。
  • 相关研究
    最近的相关研究包括:《Mitigating Unintended Bias in Multimodal Data through Equalized Loss》、《Reducing Bias Amplification in Multimodal Classification》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论