Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

2024年07月09日
  • 简介
    当被要求总结文章或在给定的段落中回答问题时,大型语言模型(LLMs)可能会产生细节幻觉,并回答与输入上下文不符的未经证实的答案,从而不准确。本文描述了一种检测此类上下文幻觉的简单方法。我们假设上下文幻觉与LLM关注所提供的上下文信息与其自身生成的信息的程度有关。基于这种直觉,我们提出了一种简单的幻觉检测模型,其输入特征由上下文与新生成的令牌(对于每个注意力头)的注意力权重比率给出。我们发现,基于这些回顾率特征的线性分类器与利用LLM的整个隐藏状态或基于文本蕴涵模型的更丰富的检测器一样有效。基于回顾率的检测器——Lookback Lens——被发现可以在任务和模型之间转移,允许将在7B模型上训练的检测器应用于更大的13B模型(无需重新训练)。我们进一步应用这个检测器来减轻上下文幻觉,并发现一个简单的分类器引导解码方法能够减少幻觉的数量,例如在XSum摘要任务中减少了9.6%。
  • 图表
  • 解决问题
    论文旨在解决大型语言模型(LLMs)在回答问题或摘要时出现的上下文幻觉问题,并提出一种简单的检测方法。
  • 关键思路
    论文提出的幻觉检测模型是基于注意力权重比例的,该比例反映了模型对提供的上下文信息和新生成的标记的关注程度,该模型被称为Lookback Lens。
  • 其它亮点
    论文发现,基于注意力权重比例的检测器与使用LLM的整个隐藏状态或文本蕴含模型的更丰富的检测器一样有效。Lookback Lens可以跨任务和模型进行转移学习,同时使用分类器引导解码方法可以减少上下文幻觉的数量。
  • 相关研究
    最近的相关研究包括使用不同的技术来解决上下文幻觉问题,如使用对抗训练和使用外部知识库。相关论文包括“Adversarial Training Methods for Contextual Language Understanding”和“Improving Language Generation by External Knowledge Integration”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论