- 简介数据集偏差是训练公平分类器的一个重要问题。当与分类无关的属性对某些类别表现出强烈的偏见时,基于这些数据集训练的分类器可能会过度依赖这些偏见属性,从而大幅降低少数群体的准确性。缓解技术可以根据偏见信息的可用性(即先验知识)进行分类。虽然未知偏差的情况更适合于实际应用场景,但是这个领域的先前工作往往存在偏见解释不足和性能较低的问题。在本研究中,我们提出了一个框架,基于标题中的部分出现来识别潜在的关键词偏见,而无需先验知识。我们进一步提出了两种去偏见的方法:(a)通过指定伪标签将其交给现有的需要先验知识的去偏见方法,和(b)通过文本到图像生成模型进行数据增强,使用获取的偏见关键词作为提示。尽管这个框架很简单,但实验结果表明,它不仅优于没有先验知识的现有方法,而且甚至可以与假设有先验知识的方法相媲美。
- 图表
- 解决问题如何在没有先验知识的情况下识别潜在的偏差,并减少偏差对分类器的影响?
- 关键思路本文提出了一种基于关键词的框架来识别潜在的偏差,并提出了两种去偏差的方法:使用现有去偏差方法并分配伪标签,或者使用文本到图像生成模型进行数据增强。该方法在没有先验知识的情况下,相比现有方法表现更好,甚至与使用先验知识的方法相媲美。
- 其它亮点论文提出了一种简单且有效的方法来识别潜在的偏差并减少其对分类器的影响。该方法不需要先验知识,只需使用部分出现在标题中的关键词。实验结果表明,该方法在各种数据集上都表现出色。论文还提出了两种去偏差的方法,并与其他现有方法进行了比较。该方法的优点是易于实现和解释。
- 最近在这个领域中,一些相关研究包括:《Learning Fair Representations without Seeing the Unseen》、《Fairness Constraints: Mechanisms for Fair Classification》、《Mitigating Unwanted Biases with Adversarial Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢