Interpreting Bias in Large Language Models: A Feature-Based Approach

2024年06月18日
  • 简介
    本文探讨了大型语言模型(LLMs)在各种自然语言处理(NLP)任务中表现出的显著性能,但这些模型从它们所训练的多样化数据集中继承了社会偏见。本文通过一种新颖的基于特征的分析方法,研究了LLMs内部偏见的传播。我们从因果中介分析中汲取灵感,假设偏见相关特征的演变,并使用激活和归因修补等可解释性技术进行验证。本文的贡献有三个方面:(1)我们介绍并经验证了一种基于特征的LLMs偏见分析方法,应用于LLaMA-2-7B、LLaMA-3-8B和Mistral-7B-v0.3,使用职业数据集的模板。(2)我们将方法扩展到另一种形式的性别偏见,证明了其普适性。(3)我们区分了MLPs和注意力头在偏见传播中的角色,并使用反事实数据集实现了有针对性的去偏见。我们的发现揭示了LLMs中偏见的复杂性质,并强调了定制去偏见策略的必要性,为有效缓解偏见机制和路径提供了更深入的理解。
  • 图表
  • 解决问题
    论文旨在通过一种基于特征的分析方法,探究大型语言模型(LLMs)中的社会偏见传播。研究人员验证了假设,并提出了有针对性的去偏见策略。
  • 关键思路
    论文提出了一种基于特征的分析方法,通过类因果中介分析的灵感,验证了偏见相关特征的演化,并使用激活和归因修补等可解释性技术进行了验证。研究人员还区分了MLPs和attention heads在偏见传播中的作用,并使用反事实数据集实现了有针对性的去偏见。
  • 其它亮点
    论文使用LLaMA-2-7B、LLaMA-3-8B和Mistral-7B-v0.3等数据集,验证了基于特征的偏见分析方法的有效性。研究人员还扩展了该方法以处理另一种性别偏见,并提供了有针对性的去偏见策略。实验结果揭示了LLMs中偏见机制的复杂性,并强调了定制去偏见策略的必要性。
  • 相关研究
    最近的相关研究包括《Language (Technology) is Power: A Critical Survey of “Bias” in NLP》、《Mitigating Unwanted Biases with Adversarial Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论