fairBERTs: Erasing Sensitive Information Through Semantic and Fairness-aware Perturbations

2024年07月11日
  • 简介
    预训练语言模型(PLMs)彻底改变了自然语言处理的研究和应用。然而,PLMs中编码的刻板偏见(如性别和种族歧视)引起了对PLMs负面的道德影响,这严重限制了它们的广泛应用。为了解决上述不公平问题,我们提出了fairBERTs,这是一个通用框架,通过生成对抗网络产生的语义和公平感知扰动来擦除受保护的敏感信息,从而学习公平的fine-tuned BERT系列模型。通过在两个真实任务上进行广泛的定性和定量实验,我们展示了fairBERTs在减轻不公平性方面的巨大优越性,同时保持模型效用。我们还验证了将fairBERTs中的对抗组件转移到其他传统训练的BERT-like模型以产生公平性改进的可行性。我们的发现可能为构建更公平的fine-tuned PLMs进一步的研究提供启示。
  • 图表
  • 解决问题
    解决PLMs中固有的偏见问题,提高模型的公平性和可用性。
  • 关键思路
    通过生成对抗网络(GAN)产生的语义和公平感知扰动来擦除敏感信息,从而学习公平的fine-tuned BERT系列模型。
  • 其它亮点
    论文提出了fairBERTs框架,通过实验验证了其在两个真实世界任务中减少不公平性的优越性。论文还探讨了将fairBERTs中的对抗组件转移到其他BERT-like模型的可行性。
  • 相关研究
    最近的相关研究包括:1. Manzini等人的“Black is to Criminal”如何影响语言模型的公平性?2. Zhao等人的“Gender Bias in Neural Natural Language Processing”探讨了PLMs中的性别偏见问题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论