TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization

2024年02月20日
  • 简介
    最近几年,单篇新闻摘要在忠实度方面取得了显著进展,这得益于对事实一致性或幻觉评估的研究。我们想知道这些进展是否也适用于其他文本摘要领域。我们提出了一个新的评估基准,针对以主题为重点的对话摘要,由不同大小的LLM生成。我们提供了二进制句子级人工注释,注释了这些摘要的事实一致性,并详细解释了事实不一致的句子。我们的分析表明,现有的LLM在对话领域中会产生大量的事实错误,而模型大小并不影响这种情况。另一方面,当LLM(包括GPT-4)作为二进制事实评估器时,它们表现不佳,而且可以被现有的最先进的专业事实评估指标超越。最后,我们使用精心策划的错误分类法对幻觉类型进行了分析。我们发现,模型生成的摘要存在各种各样的错误和错误分布,而非LLM的评估指标可以更好地捕捉所有错误类型,优于LLM的评估器。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在研究对话摘要领域的文本生成模型的事实准确性,以及评估这些模型的性能。
  • 关键思路
    论文提出了一个新的评估基准,使用二元句子级人类注释来评估生成的摘要的事实准确性,并发现现有的文本生成模型在对话领域中存在显著的事实错误。此外,研究还发现,基于传统指标的模型评估方法可以更好地捕捉所有错误类型。
  • 其它亮点
    论文的亮点包括提出了一个新的评估基准,提供了二元句子级人类注释和详细的错误类型分类,发现现有的文本生成模型在对话领域中存在显著的事实错误,而传统的评估指标可以更好地评估这些错误。研究使用了LLMs生成对话摘要,并提供了开源代码。
  • 相关研究
    最近在这个领域中的相关研究包括“Single Document News Summarization Using Clustered Convolutional Neural Networks”和“Improving Multi-Document Summarization via Text Classification”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问