Anchored Answers: Unravelling Positional Bias in GPT-2's Multiple-Choice Questions

2024年05月06日
  • 简介
    大型语言模型(LLMs),如GPT-4和LLaMA系列,在各种任务中都取得了相当大的成功,包括多项选择题(MCQs)。然而,这些模型表现出位置偏差,特别是在GPT-2系列中表现得更差,这里它们在推理过程中始终偏爱MCQ中的第一个选项“A”。这种锚定偏差挑战了GPT-2决策过程的完整性,因为它基于MCQ中选项的位置而不是内容来扭曲性能。在这项研究中,我们利用机械性可解释性方法来识别GPT-2模型内部模块对这种偏差负责。我们专注于多层感知器(MLP)层和注意力头,使用“logit lens”方法来跟踪和修改对偏差有贡献的特定值向量。通过在MLP中更新这些向量并重新校准注意模式以中和对第一个选项“A”的偏好,我们有效地减轻了这种锚定偏差。我们的干预不仅纠正了偏差,还提高了GPT-2系列在各种数据集上的整体MCQ预测准确性。这项工作代表了对GPT-2模型中MCQ中的锚定偏差的首次全面机械分析,引入了有针对性的、最小干预策略,显著增强了GPT2模型在MCQ中的鲁棒性和准确性。我们的代码可在https://github.com/ruizheliUOA/Anchored_Bias_GPT2上获取。
  • 图表
  • 解决问题
    本论文旨在解决GPT-2模型在多项选择题中出现的位置偏差问题,即在推理过程中偏向于选择第一个选项'A'的问题。作者使用机制可解释性方法,通过修改MLP层和注意力头中的特定值向量,以消除偏差。
  • 关键思路
    通过机制可解释性方法,修改MLP层和注意力头中的特定值向量,以消除GPT-2模型在多项选择题中的位置偏差问题。
  • 其它亮点
    论文介绍了一种针对GPT-2模型在多项选择题中位置偏差问题的解决方案,并提供了开源代码。实验结果表明,该方法不仅可以消除偏差,还可以提高模型的准确性。该方法的思路新颖,值得继续深入研究。
  • 相关研究
    近期相关研究包括使用不同的模型架构和技术来提高多项选择题的准确性,例如BERT和XLNet模型。相关研究的论文包括《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》和《XLNet: Generalized Autoregressive Pretraining for Language Understanding》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论