FACTOID: FACtual enTailment fOr hallucInation Detection

2024年03月28日
  • 简介
    大型语言模型的广泛应用带来了许多好处。然而,幻觉是一个重要的问题。为了应对这个问题,检索增强生成(RAG)作为一种高度有前途的范式出现,通过基于事实信息来改进LLM的输出。RAG依赖于文本蕴涵(TE)或类似的方法来检查LLM生成的文本是否受到检索文档的支持或反驳。本文认为传统的TE方法不足以发现LLM生成的内容中的幻觉。例如,考虑一个关于“美国对乌克兰战争的立场”的提示。AI生成的文本说,“美国总统巴拉克·奥巴马表示,美国不会在乌克兰投兵...”然而,在战争期间,美国总统是乔·拜登,这与实际情况相矛盾。此外,当前的TE系统无法准确地注释给定的文本并确定被反驳的确切部分。为了解决这个问题,我们提出了一种新型的TE,称为“事实蕴涵(FE)”,旨在检测LLM生成的内容中的事实不准确之处,同时突出显示与现实相矛盾的具体文本段落。我们提出了FACTOID(FACTual enTAILment for hallucInation Detection),这是一个用于FE的基准数据集。我们提出了一种多任务学习(MTL)框架用于FE,其中包括最先进的长文本嵌入,例如e5-mistral-7b-instruct,以及GPT-3、SpanBERT和RoFormer。所提出的FE的MTL架构在FACTOID基准测试中的准确率平均提高了40%,相比于现有的最先进TE方法。由于FE自动检测幻觉,我们评估了15个现代LLM并使用我们提出的自动幻觉易感性指数(HVI_auto)对它们进行排名。该指数量化并提供了一个比较尺度,用于评估和排名LLM的幻觉。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决使用大型语言模型(LLMs)生成的文本中存在幻觉的问题,提出了一种名为Factual Entailment(FE)的新型文本蕴含方法,用于检测LLMs生成的内容中的事实错误。
  • 关键思路
    FE方法通过多任务学习框架,结合最先进的长文本嵌入技术和GPT-3、SpanBERT和RoFormer等LLMs,实现了对LLMs生成的文本中的幻觉的准确检测和定位。
  • 其它亮点
    论文提出了一个名为FACTOID的基准数据集,用于评估FE方法的性能。通过FE方法检测了15个现代LLMs的幻觉,提出了自动幻觉易感性指数(HVI_auto)来评估和排名LLMs的幻觉易感性。实验结果表明,FE方法相对于当前最先进的文本蕴含方法,在FACTOID数据集上平均提高了40%的准确率。
  • 相关研究
    最近的相关研究包括使用知识库和外部信息来约束LLMs生成的文本,以及使用对抗训练来提高LLMs的鲁棒性。相关研究的论文包括:《Improving Language Understanding by Generative Pre-Training》、《ERNIE: Enhanced Language Representation with Informative Entities》和《Adversarial Training Methods for Semi-Supervised Text Classification》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问