在未经过滤的大规模文本数据上做训练时,语言模型会拾取并再现各种不良偏见,进而生成蕴含种族主义、性别歧视、暴力等有害内容的文字。为了减轻模型所学到的偏见,去偏(Debiasing Techniques)技术因此受到关注。本文将分享ACL 2022围绕文本去偏技术的三篇论文,其中包含一篇综述、一篇基于Prompt的方法文章、一篇围绕去偏技术在计算论辩领域的应用文章,辅助读者了解现阶段去偏技术的发展。

文章概览:

  • An Empirical Survey of the Effectiveness of Debiasing Techniques for Pre-trained Language Models

    https://arxiv.org/abs/2110.08527

    本文是一篇综述性文章,主要对最近提出的五种去偏技术在预训练语言模型中的应用进行了实证调研:反事实数据增强 (CDA)、Dropout、迭代零空间投影、Self-Debias 和 SentenceDebias。对每种技术,各使用三个内在偏差基准来量化其去偏效果,同时测量了这些技术对模型的语言建模能力、下游 NLU 任务的性能影响。

  • Auto-Debias: Debiasing Masked Language Models with Automated Biased Prompts

    https://arxiv.org/abs/2204.04026v1

    本文提出了Auto-Debias方法。该方法首先自动搜索出带偏见的prompt,故意诱导模型生成带偏见的语言,然后使用分布对齐损失进行训练,以减轻模型中的偏见。文章从性别歧视和种族歧视两个方面衡量了该方法对BERT、RoBERTa 和 ALBERT的去偏效果,并在GLUE基准任务上做了测试,发现该方法在提高模型公正性的同时,并不会降低模型的自然语言理解能力。

  • Fair and Argumentative Language Modeling

    https://aclanthology.org/2022.acl-long.72

    现有研究一般关注通用语言模型的偏见,鲜有工作探讨论辩性语言模型中的偏见。本文提出了为辩论场景定制的ABBA数据集,用于评估论辩语言模型的两种偏见——酷儿恐惧症和伊斯兰恐惧症,并使用基于Adapter的去偏方法对预训练语言模型进行调优、检验去偏效果。最后在论点质量评估任务上测试该方法对模型下游任务表现的影响。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除