RefChecker: Reference-based Fine-grained Hallucination Checker and Benchmark for Large Language Models

简介

这篇论文介绍了一个名为RefChecker的框架，旨在引入claim-triplets来表示LLM响应中的声明，以检测细粒度的幻觉。在RefChecker中，一个提取器从响应中生成claim-triplets，然后由一个检查器针对参考文献进行评估。我们划分了三个任务设置：零、嘈杂和准确的上下文，以反映各种真实世界的用例。我们精选了一个跨越各种NLP任务的基准，并通过七个LLM注释了2.1k个响应中的11k个claim-triplets。RefChecker支持专有和开源模型作为提取器和检查器。实验表明，与响应、句子和子句级别的声明等其他粒度相比，claim-triplets能够实现更优秀的幻觉检测。RefChecker在我们的基准测试中比之前的方法表现提高了6.8到26.1个点，而且检查结果与人类判断高度一致。本研究在https://github.com/amazon-science/RefChecker上开源。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在引入claim-triplets的概念来检测LLM响应中的幻觉，以解决LLM的幻觉问题。这是否是一个新问题？
关键思路

RefChecker框架引入了claim-triplets的概念来检测LLM响应中的幻觉，这种方法比其他粒度的幻觉检测方法更加有效。同时，该框架支持使用专有和开源模型作为提取器和检查器。
其它亮点

本文提出了RefChecker框架，支持使用专有和开源模型作为提取器和检查器。作者使用11k claim-triplets从2.1k个LLM响应中进行了实验，并在Zero，Noisy和Accurate Context三种任务设置中获得了比以前更好的检测效果。作者还开源了该工作的代码。
相关研究

最近的相关研究包括：GPT-3的幻觉问题研究，以及其他幻觉检测方法的研究，如基于规则的方法和基于对抗样本的方法。

RefChecker: Reference-based Fine-grained Hallucination Checker and Benchmark for Large Language Models

提问交流

提问交流