The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models

2024年06月14日
  • 简介
    本文旨在揭示预训练语言模型中的社会偏见现象,提出了“社会偏见神经元”的概念,并通过引入“Integrated Gap Gradients (IG2)”方法精确定位与社会偏见等不良行为相关的单元(即神经元)。通过将不良行为形式化为语言分布属性,使用带有情感的提示来引出与这些情感相关的敏感词类别(人口统计学)。IG2将不同人口统计学的不均匀分布归因于特定的社会偏见神经元,从而跟踪PLM单元内不良行为的痕迹以实现互操作性。此外,本文还提出了“Bias Neuron Suppression (BNS)”方法来缓解社会偏见。通过研究BERT、RoBERTa和经过去偏置处理的FairBERTa之间的可归因差异,IG2允许我们定位和抑制已识别的神经元,并进一步减轻不良行为。通过StereoSet之前的度量,我们的模型在保持低成本的语言建模能力的同时,实现了更高程度的公平性。
  • 图表
  • 解决问题
    本论文旨在通过引入“社会偏差神经元”的概念,提出一种准确定位语言模型中导致社会偏差的神经元的方法,并通过提出的“Bias Neuron Suppression”方法来缓解社会偏差。
  • 关键思路
    通过将不良行为形式化为语言的分布属性,使用情感相关提示来揭示与此类情感相关的敏感词类别,从而确定导致社会偏差的神经元,并通过抑制这些神经元来缓解社会偏差。
  • 其它亮点
    论文提出了“Integrated Gap Gradients (IG^2)”方法来准确定位导致社会偏差的神经元,并提出了“Bias Neuron Suppression (BNS)”方法来缓解社会偏差。实验结果表明,该方法在保持语言建模能力的同时,能够实现更高程度的公平性。
  • 相关研究
    相关研究主要集中在使用黑盒方法来检测和量化PLMs中的社会偏差,以及使用新构建的反立体数据集来微调或甚至预训练语言模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论