Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese

KDD 2024
2024年07月01日
  • 简介
    本文主要研究事实一致性评估(Factual Consistency Evaluation,FCE),旨在解决传统检索增强生成(Retrieval Augmented Generation,RAG)中常见的实际不一致性错误问题。尽管此前已经提出了各种FCE方法,但这些方法都是在特定的大型语言模型(Large Language Models,LLMs)生成的数据集上进行评估的。由于缺乏全面的基准测试,因此尚未探讨这些FCE方法在其他具有不同错误分布甚至未知错误类型的LLMs上的表现如何,因为这些方法可能无法检测到其他LLMs生成的错误类型。为了填补这一空白,本文提出了第一个独立于底层LLM的全面FCE基准测试Face4RAG。我们的基准测试包括一个基于精心设计的事实不一致性错误分类法构建的合成数据集和一个由六个常用LLMs构建的真实数据集,可评估特定错误类型或真实世界错误分布下的FCE方法。在所提出的基准测试中,我们发现现有的FCE方法无法检测到逻辑谬误,即答案与检索参考之间逻辑结构不匹配的情况。为了解决这个问题,我们进一步提出了一种名为L-Face4RAG的新方法,其中包括保留逻辑的答案分解和事实逻辑FCE的两个新设计。大量实验证明,L-Face4RAG在广泛的任务中明显优于以前的FCE方法,特别是超出了其最初的RAG任务。我们提出的基准测试和方法都是公开可用的。
  • 图表
  • 解决问题
    本文旨在解决传统的检索增强生成(RAG)中存在的事实不一致性错误问题,提出了第一个独立于基础语言模型的全面事实一致性评估基准Face4RAG,并发现现有方法无法检测到逻辑谬误,提出了一种新方法L-Face4RAG。
  • 关键思路
    本文提出了第一个独立于基础语言模型的全面事实一致性评估基准Face4RAG,包括一个合成数据集和一个真实数据集,用于评估事实一致性评估方法在特定错误类型或现实错误分布上的性能。此外,作者还提出了一种新方法L-Face4RAG,通过逻辑保留答案分解和事实逻辑FCE的两个新设计,显著提高了事实不一致性检测的性能。
  • 其它亮点
    本文的亮点包括提出了第一个全面的独立于基础语言模型的事实一致性评估基准Face4RAG,提出了一种新方法L-Face4RAG,用于检测逻辑谬误,实验表明L-Face4RAG在多个任务上的性能显著优于之前的方法。作者还提供了数据集和代码用于进一步研究。
  • 相关研究
    最近的相关研究包括:1. Yixin Nie等人提出了一种基于逻辑的事实一致性评估方法。2. Pradeep Dasigi等人提出了一种评估生成模型中错误的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论