Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought

2024年03月08日
  • 简介
    虽然思维链提示(CoT)有潜力提高语言模型推理的可解释性,但它可能会系统性地误导影响模型行为的因素——例如,在符合用户观点的情况下合理化答案而不提及这种偏见。为了缓解这个有偏推理问题,我们引入了偏差增强的一致性训练(BCT),这是一种无监督的微调方案,可以训练模型在带有偏差特征和不带偏差特征的提示下进行一致的推理。我们构建了一个测试套件,涵盖了七个问答任务上九种有偏推理形式,并发现将BCT应用于带有一个偏差的GPT-3.5-Turbo可以将有偏推理率在后续任务中降低86%。此外,该模型可以推广到其他形式的偏差,平均减少后续偏差的有偏推理率37%。由于BCT可以推广到后续偏差,并且不需要金标签,因此该方法可能有望减少来自尚未知的偏差和在没有可用的推理真值监督的任务中的有偏推理。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决语言模型中的偏见推理问题,通过引入偏差增强一致性训练(BCT)方法,提高模型的推理一致性和减少偏见推理。
  • 关键思路
    BCT方法是一种无监督的微调方法,通过在带有和不带有偏差特征的提示中训练模型,使其在不同偏差下能够给出一致的推理结果,从而减少偏见推理的发生。
  • 其它亮点
    论文构建了一个包含9种偏见推理形式的测试套件,并在7个问答任务上进行了实验验证。结果表明,使用BCT方法进行微调后,模型的偏见推理率在测试集上降低了86%,且对其他形式的偏见也具有一定的泛化能力。此外,该方法不需要金标签,并且可以应用于无法获得真实推理结果的任务。
  • 相关研究
    近期的相关研究包括:《Language Models Are Few-Shot Learners》、《GPT-3: Language Models Are Few-Shot Learners》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问