- 简介生成模型可以通过创建合成训练数据集作为某些真实数据源的替代品,但这样做可能会将偏见转移到下游任务中。我们关注在生成合成训练数据集时保护质量和多样性。我们提出了质量-多样性生成采样(QDGS)框架,用于在用户定义的度量空间中均匀采样数据,尽管数据来自有偏见的生成器。QDGS是一个与模型无关的框架,利用提示指导来优化合成数据的多样性度量的质量目标,而无需微调生成模型。通过使用QDGS生成的平衡合成数据集,我们首先以彩色偏差形状数据集为例,解决了对训练分类器进行去偏见处理的问题。通过将QDGS应用于面部数据合成,我们提示所需的语义概念,例如肤色和年龄,以创建具有视觉特征的综合数据集。利用这些平衡数据来训练分类器可以在维持面部识别基准的准确性的同时提高公平性。代码可在以下网址找到:https://github.com/Cylumn/qd-generative-sampling
- 图表
- 解决问题如何在使用生成模型生成合成训练数据时,避免将偏见传递给下游任务?
- 关键思路提出了一种质量-多样性生成抽样(QDGS)框架,通过提示引导来优化合成数据的质量和多样性,以在用户定义的度量空间中均匀抽样数据,而无需微调生成模型。
- 其它亮点实验首先在颜色偏差形状数据集上进行了验证,证明了QDGS可以消除分类器中的偏见。然后将QDGS应用于面部数据合成,创建了一个交叉数据集,用于训练分类器以提高公平性并保持面部识别基准的准确性。
- 最近的相关研究包括《基于生成对抗网络的数据增强方法》、《使用生成对抗网络进行数据增强的自适应图像分类》等。
沙发等你来抢
去评论
评论
沙发等你来抢