TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization

向作者提问

NEW

简介

最近几年，单篇新闻摘要在忠实度方面取得了显著进展，这得益于对事实一致性或幻觉评估的研究。我们想知道这些进展是否也适用于其他文本摘要领域。我们提出了一个新的评估基准，针对以主题为重点的对话摘要，由不同大小的LLM生成。我们提供了二进制句子级人工注释，注释了这些摘要的事实一致性，并详细解释了事实不一致的句子。我们的分析表明，现有的LLM在对话领域中会产生大量的事实错误，而模型大小并不影响这种情况。另一方面，当LLM（包括GPT-4）作为二进制事实评估器时，它们表现不佳，而且可以被现有的最先进的专业事实评估指标超越。最后，我们使用精心策划的错误分类法对幻觉类型进行了分析。我们发现，模型生成的摘要存在各种各样的错误和错误分布，而非LLM的评估指标可以更好地捕捉所有错误类型，优于LLM的评估器。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在研究对话摘要领域的文本生成模型的事实准确性，以及评估这些模型的性能。
关键思路

论文提出了一个新的评估基准，使用二元句子级人类注释来评估生成的摘要的事实准确性，并发现现有的文本生成模型在对话领域中存在显著的事实错误。此外，研究还发现，基于传统指标的模型评估方法可以更好地捕捉所有错误类型。
其它亮点

论文的亮点包括提出了一个新的评估基准，提供了二元句子级人类注释和详细的错误类型分类，发现现有的文本生成模型在对话领域中存在显著的事实错误，而传统的评估指标可以更好地评估这些错误。研究使用了LLMs生成对话摘要，并提供了开源代码。
相关研究

最近在这个领域中的相关研究包括“Single Document News Summarization Using Clustered Convolutional Neural Networks”和“Improving Multi-Document Summarization via Text Classification”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问