- 简介如今,大型语言模型已被广泛应用于高风险场景中,例如医疗咨询或法律建议,在这些场景中,幻觉问题可能造成严重危害。然而,现有的幻觉检测方法在实际应用中并不实用,因为它们要么仅限于简短的事实性问题,要么需要昂贵的外部验证。我们提出了一种低成本、可扩展的方法,用于在长文本生成中实时识别幻觉词元(token),并且成功将其扩展到拥有700亿参数的模型。我们的方法聚焦于**实体层面的幻觉**——例如虚构的名称、日期、引用等,而非主张(claim)层面的幻觉,从而自然地与词元级别的标签对应,并支持流式检测。我们开发了一种标注方法,利用网络搜索为模型的回答打上基于事实的标签,标明哪些词元对应的是虚构的实体。这一数据集使我们能够使用线性探针等简单高效的方法训练出有效的幻觉分类器。在四个模型系列上的评估表明,我们的分类器在长文本回答中的表现持续优于基线模型,甚至优于诸如语义熵等更复杂的方法(例如,在Llama-3.3-70B模型上AUC为0.90对比0.71),同时在短文本问答任务中也有提升。此外,尽管我们的探针仅使用实体级别的标签进行训练,它们仍能有效检测数学推理任务中的错误答案,显示出超越实体识别的泛化能力。虽然我们的标注方法成本较高,但我们发现,来自一个模型的标注回答可以用来训练其他模型的有效分类器。因此,我们公开发布了我们的数据集以促进后续的复用。总体而言,我们的研究为可扩展、适用于现实世界的幻觉检测提供了一种有前景的新方法。
-
- 图表
- 解决问题论文旨在解决大型语言模型在高风险应用场景(如医疗咨询或法律建议)中出现的幻觉问题,特别是在长文本生成中实时识别幻觉内容的挑战。这是一个重要的新问题,因为现有的幻觉检测方法通常不适用于现实世界场景,要么局限于短文本事实性问题,要么需要昂贵的外部验证。
- 关键思路论文提出了一种低成本、可扩展的方法,用于实时检测长文本生成中的幻觉token。其关键思路是关注“实体级幻觉”(如捏造的名称、日期、引用),而不是更广泛的“陈述级幻觉”,从而自然地映射到token级别的标签,并支持流式检测。此外,作者使用基于网络搜索的标注方法来训练简单的分类器(如线性探针),实现了高效的幻觉检测。
- 其它亮点1. 实验涵盖了四个模型家族,包括70B参数的Llama-3.3-70B,结果显示其分类器在AUC指标上显著优于现有方法(如语义熵)。 2. 尽管训练仅使用实体级标签,模型在数学推理任务中也能有效检测错误答案,显示出超出实体幻觉的泛化能力。 3. 虽然标注过程昂贵,但作者发现一个模型的标注响应可用于训练其他模型的有效分类器,因此公开了数据集以促进复用。 4. 论文提出了一种新的标注方法,结合网络搜索生成token级别的幻觉标签,为未来研究提供了高质量的数据资源。
- 1. Zhou et al., "TruthfulQA: Measuring How Models Learn and Mislearn Truthful and Deceptive Behavior", 2021. 2. Jiang et al., "Can Language Models Be Biased Truth Tellers, or Are They Naive Liars?", 2023. 3. Kadavath et al., "Language Models (Mostly) Know What They Know", 2022. 4. Shuster et al., "Truthful and Faithful Language Models", 2023. 5. Pavlick and Kwiatkowski, "In-Context Learning of Truthfulness", 2023.


提问交流