Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese

2024年07月01日
  • 简介
    本文探讨了传统的检索增强生成(Retrieval Augmented Generation,RAG)中存在的事实不一致错误问题,提出了事实一致性评估(Factual Consistency Evaluation,FCE)的研究。虽然之前提出了各种FCE方法,但这些方法都是在特定的大型语言模型(Large Language Models,LLMs)生成的数据集上进行评估的。由于这些方法可能无法检测到其他LLMs生成的错误类型,因此没有一个全面的基准可以评估这些FCE方法在其他LLMs上的性能。为了填补这一空白,本文提出了第一个独立于底层LLM的全面FCE基准Face4RAG。该基准包括一个基于精心设计的事实不一致性错误分类法的合成数据集和一个由六个常用LLMs构建的真实数据集,使得可以评估FCE方法在特定错误类型或真实错误分布上的性能。在所提出的基准上,发现现有的FCE方法无法检测到逻辑谬误,即答案与检索引用之间的逻辑结构不匹配。为了解决这个问题,本文进一步提出了一种名为L-Face4RAG的新方法,其中包括两个新颖的设计:逻辑保留答案分解和事实-逻辑FCE。广泛的实验表明,L-Face4RAG在各种任务上都显著优于以前的FCE方法,特别是超出了其最初的RAG任务。基准和所提出的方法都是公开可用的。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决传统的检索增强生成(RAG)中存在的事实不一致错误问题,提出了面向RAG的全面事实一致性评估基准Face4RAG,并发现现有的评估方法无法检测到逻辑谬误。该论文的问题是新问题。
  • 关键思路
    本文提出了一种新的方法L-Face4RAG,通过两个新颖的设计——逻辑保留答案分解和事实逻辑FCE,解决了现有方法无法检测到的逻辑谬误问题,并在广泛的任务中实现了事实不一致性检测的显著改进。
  • 其它亮点
    本文提出了全面的面向RAG的事实一致性评估基准Face4RAG,包括一个人工构建的合成数据集和一个由六个常用LLMs构建的真实数据集。此外,本文还提出了一种新的方法L-Face4RAG,该方法在广泛的任务中实现了事实不一致性检测的显著改进,并且在公开数据集上进行了充分的实验。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如FactCheckAI、FactCC、FEVER等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问