Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

简介

当被要求总结文章或在给定的段落中回答问题时，大型语言模型（LLMs）可能会产生细节幻觉，并回答与输入上下文不符的未经证实的答案，从而不准确。本文描述了一种检测此类上下文幻觉的简单方法。我们假设上下文幻觉与LLM关注所提供的上下文信息与其自身生成的信息的程度有关。基于这种直觉，我们提出了一种简单的幻觉检测模型，其输入特征由上下文与新生成的令牌（对于每个注意力头）的注意力权重比率给出。我们发现，基于这些回顾率特征的线性分类器与利用LLM的整个隐藏状态或基于文本蕴涵模型的更丰富的检测器一样有效。基于回顾率的检测器——Lookback Lens——被发现可以在任务和模型之间转移，允许将在7B模型上训练的检测器应用于更大的13B模型（无需重新训练）。我们进一步应用这个检测器来减轻上下文幻觉，并发现一个简单的分类器引导解码方法能够减少幻觉的数量，例如在XSum摘要任务中减少了9.6%。
图表
解决问题

论文旨在解决大型语言模型（LLMs）在回答问题或摘要时出现的上下文幻觉问题，并提出一种简单的检测方法。
关键思路

论文提出的幻觉检测模型是基于注意力权重比例的，该比例反映了模型对提供的上下文信息和新生成的标记的关注程度，该模型被称为Lookback Lens。
其它亮点

论文发现，基于注意力权重比例的检测器与使用LLM的整个隐藏状态或文本蕴含模型的更丰富的检测器一样有效。Lookback Lens可以跨任务和模型进行转移学习，同时使用分类器引导解码方法可以减少上下文幻觉的数量。
相关研究

最近的相关研究包括使用不同的技术来解决上下文幻觉问题，如使用对抗训练和使用外部知识库。相关论文包括“Adversarial Training Methods for Contextual Language Understanding”和“Improving Language Generation by External Knowledge Integration”。

Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

评论