- 简介本文介绍了视觉语言模型(VLMs)如CLIP的强大性,但它们可能存在不良偏见,使得它们在直接应用于文本到图像、文本到视频检索、反向搜索或分类任务等应用时不够安全。我们提出了一个新的框架来生成合成的反事实图像,以创建一个多样化和平衡的数据集,可用于微调CLIP。给定一组来自文本到图像模型的多样化合成基础图像,我们利用现成的分割和修补模型将具有不同视觉外观的人置于上下文中。我们展示了在这种数据集上训练的CLIP可以学习将人的外观与图像的上下文分离开来,即使得医生的不是人的视觉外观,如肤色或身体类型,而是上下文,如背景、穿着的服装或拿着的物品。我们展示了我们微调后的CLIP模型$CF_\alpha$在图像检索任务中改善了最大偏斜度、最小偏斜度和NDKL等关键公平指标,提高了40-66\%,同时在下游任务中仍然实现了类似水平的性能。我们展示了,通过设计,我们的模型保留了与原始CLIP模型的最大兼容性,并且可以轻松控制,以支持不同的准确性与公平性权衡。
- 图表
- 解决问题本文旨在解决Vision Language Models (VLMs)的偏见问题,通过生成合成对抗图像来创建一个多样化和平衡的数据集,用于微调CLIP模型。
- 关键思路本文提出了一种新的框架,利用文本到图像模型生成多样的合成基础图像,然后利用分割和修复模型将具有不同外观的人物放置在不同的场景中,从而训练出能够从图像中分离人物外观和背景的CLIP模型。
- 其它亮点本文的实验结果表明,经过微调的CLIP模型能够在维持性能的同时,显著提高图像检索任务的公平性指标,并且保持与原始CLIP模型的最大兼容性。
- 与本文相关的研究包括:1.《ImageNet数据集上的大规模图像分类挑战》;2.《CLIP: Connecting Text and Images》;3.《Fairness in Machine Learning: A Survey》等。
沙发等你来抢
去评论
评论
沙发等你来抢