- 简介大型语言模型容易生成各种事实上不正确的陈述,这被广泛称为幻觉。目前的方法主要集中在粗粒度的自动幻觉检测或编辑,忽略了微妙的错误级别。在本文中,我们提出了一个新的任务——自动细粒度幻觉检测,并提出了一个包含六个分层定义类型的幻觉综合分类法。为了方便评估,我们引入了一个新的基准,其中包括对各种领域的两个语言模型输出进行细粒度人工判断的数据。我们的分析表明,ChatGPT和Llama 2-Chat的输出中分别有60%和75%的幻觉,并且其中大多数幻觉属于未被充分探索的类别。作为解决这个问题的初步步骤,我们训练了FAVA,这是一个检测和纠正细粒度幻觉的检索增强型语言模型,通过精心设计合成数据生成。在我们的基准测试中,我们的自动和人工评估显示,FAVA在细粒度幻觉检测方面显著优于ChatGPT,尽管未来仍有很大的改进空间。FAVA建议的编辑还提高了LM生成文本的事实性,导致了5-10%的FActScore改进。
- 图表
- 解决问题本文提出了一种新的任务——自动细粒度幻觉检测,并提出了一个包含六个层次定义的幻觉分类法。当前的方法主要集中在粗粒度的自动幻觉检测或编辑,忽略了细微的错误级别。
- 关键思路本文提出了一种新的任务——自动细粒度幻觉检测,并训练了一个基于检索的语言模型FAVA来检测和纠正细粒度幻觉。
- 其它亮点本文提出了一个细粒度的幻觉分类法,并引入了一个新的基准来评估语言模型的幻觉检测和纠正能力。使用ChatGPT和Llama 2-Chat作为实验对象,研究发现它们的幻觉检测率分别为60%和75%,且大多数幻觉属于未被充分探索的类别。FAVA在细粒度幻觉检测方面表现优异,并提出的编辑还可以提高语言模型生成文本的准确性。
- 最近的相关研究主要集中在粗粒度的幻觉检测和编辑,如使用规则或模型来检测和纠正幻觉。相关论文包括《Detecting and Correcting Hallucinations in Conversational Systems》和《Controllable Fine-grained Hallucination on Text》等。
沙发等你来抢
去评论
评论
沙发等你来抢