FACTOID: FACtual enTailment fOr hallucInation Detection

向作者提问

NEW

简介

大型语言模型的广泛应用带来了许多好处。然而，幻觉是一个重要的问题。为了应对这个问题，检索增强生成（RAG）作为一种高度有前途的范式出现，通过基于事实信息来改进LLM的输出。RAG依赖于文本蕴涵（TE）或类似的方法来检查LLM生成的文本是否受到检索文档的支持或反驳。本文认为传统的TE方法不足以发现LLM生成的内容中的幻觉。例如，考虑一个关于“美国对乌克兰战争的立场”的提示。AI生成的文本说，“美国总统巴拉克·奥巴马表示，美国不会在乌克兰投兵...”然而，在战争期间，美国总统是乔·拜登，这与实际情况相矛盾。此外，当前的TE系统无法准确地注释给定的文本并确定被反驳的确切部分。为了解决这个问题，我们提出了一种新型的TE，称为“事实蕴涵（FE）”，旨在检测LLM生成的内容中的事实不准确之处，同时突出显示与现实相矛盾的具体文本段落。我们提出了FACTOID（FACTual enTAILment for hallucInation Detection），这是一个用于FE的基准数据集。我们提出了一种多任务学习（MTL）框架用于FE，其中包括最先进的长文本嵌入，例如e5-mistral-7b-instruct，以及GPT-3、SpanBERT和RoFormer。所提出的FE的MTL架构在FACTOID基准测试中的准确率平均提高了40％，相比于现有的最先进TE方法。由于FE自动检测幻觉，我们评估了15个现代LLM并使用我们提出的自动幻觉易感性指数（HVI_auto）对它们进行排名。该指数量化并提供了一个比较尺度，用于评估和排名LLM的幻觉。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决使用大型语言模型（LLMs）生成的文本中存在幻觉的问题，提出了一种名为Factual Entailment（FE）的新型文本蕴含方法，用于检测LLMs生成的内容中的事实错误。
关键思路

FE方法通过多任务学习框架，结合最先进的长文本嵌入技术和GPT-3、SpanBERT和RoFormer等LLMs，实现了对LLMs生成的文本中的幻觉的准确检测和定位。
其它亮点

论文提出了一个名为FACTOID的基准数据集，用于评估FE方法的性能。通过FE方法检测了15个现代LLMs的幻觉，提出了自动幻觉易感性指数（HVI_auto）来评估和排名LLMs的幻觉易感性。实验结果表明，FE方法相对于当前最先进的文本蕴含方法，在FACTOID数据集上平均提高了40％的准确率。
相关研究

最近的相关研究包括使用知识库和外部信息来约束LLMs生成的文本，以及使用对抗训练来提高LLMs的鲁棒性。相关研究的论文包括：《Improving Language Understanding by Generative Pre-Training》、《ERNIE: Enhanced Language Representation with Informative Entities》和《Adversarial Training Methods for Semi-Supervised Text Classification》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问