- 简介大型语言模型(LLMs),例如GPT-4和LLaMA系列,在多个任务中(包括多项选择题)展示了相当大的成功。然而,这些模型表现出位置偏差,特别是在GPT-2系列中存在更严重的固定偏差,即在推理过程中始终偏爱MCQs中的第一个选项“A”。这种固定偏差挑战了GPT-2决策过程的完整性,因为它基于MCQs中选项的位置而不是内容来扭曲性能。在这项研究中,我们利用机械解释性方法来识别GPT-2模型内部模块对此偏差负责。我们专注于多层感知器(MLP)层和注意力头,使用“logit镜头”方法来跟踪和修改对偏差有贡献的特定值向量。通过在MLP中更新这些向量并重新校准注意模式以中和对第一个选项“A”的偏好,我们有效地减轻了固定偏差。我们的干预不仅减轻了偏差,还提高了GPT-2系列在各种数据集上的整体MCQ预测准确性。这项工作代表了对GPT-2模型中MCQs的固定偏差进行的第一次全面机械分析,引入了有针对性的、最小干预策略,显著增强了GPT2模型在MCQs中的鲁棒性和准确性。我们的代码可在https://github.com/ruizheliUOA/Anchored_Bias_GPT2上获得。
- 图表
- 解决问题本论文旨在解决GPT-2模型在多项选择题(MCQs)中存在的位置偏差和偏好'A'的问题,通过机械解释方法识别内部模块并针对性地进行修改,提高模型在MCQs中的鲁棒性和准确性。
- 关键思路论文的关键思路是利用机械解释方法,重点关注MLP层和注意力头,通过修改特定值向量和重新校准注意力模式来中和'A'的偏好,从而消除位置偏差。
- 其它亮点论文的实验结果表明,该方法不仅能够消除位置偏差,还能提高GPT-2模型在MCQs中的准确性。论文提供了开源代码,可供其他研究者使用和参考。这项工作是对GPT-2模型中MCQs的位置偏差进行的首次全面机械解释分析,引入了有针对性的最小干预策略,可以显著提高模型的鲁棒性和准确性。
- 最近在这个领域中,还有一些相关的研究,例如“Improving the Robustness of Question Answering Models to Question Paraphrasing”,“Mitigating Gender Bias in Natural Language Processing: Literature Review”,“BERT Rediscovers the Classical NLP Pipeline”。
沙发等你来抢
去评论
评论
沙发等你来抢