UniBias: Unveiling and Mitigating LLM Bias through Internal Attention and FFN Manipulation

2024年05月31日
  • 简介
    大型语言模型(LLMs)通过上下文学习(ICL)范式,在各种任务中展示出了令人印象深刻的能力。然而,它们的有效性常常受到固有偏见的影响,导致提示脆弱性,即对设计设置(如示例选择、顺序和提示格式)敏感。以前的研究通过外部调整模型输出来解决LLM偏见问题,但导致这种偏见的内部机制仍未被探索。我们的工作深入研究了这些机制,特别是研究了前馈神经网络(FFNs)和注意力头如何导致LLMs的偏见。通过解释单个FFN向量和注意力头的贡献,我们确定了偏见LLM组件,这些组件使LLMs的预测偏向特定标签。为了减轻这些偏见,我们引入了UniBias,一种仅用于推理的方法,能够有效地识别和消除有偏见的FFN向量和注意力头。在12个NLP数据集上进行的广泛实验表明,UniBias显着提高了ICL的性能,减轻了LLMs的提示脆弱性。
  • 图表
  • 解决问题
    本文旨在探究大型语言模型(LLMs)内在偏差的机制,并提出一种名为UniBias的方法来减轻这种偏差对LLMs预测的影响。
  • 关键思路
    通过解释单个前馈神经网络(FFN)向量和注意力头的贡献,识别导致LLMs偏差的组件,并利用UniBias方法来消除这些偏差。
  • 其它亮点
    本文提出的UniBias方法通过消除LLMs中的偏差,显著提高了在12个NLP数据集上的ICL性能,减轻了LLMs的提示脆弱性。
  • 相关研究
    最近的相关研究包括使用外部调整模型输出来解决LLMs偏差的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论