- 简介摘要中提到,自从出现了像GPT-4和Claude这样的大型语言模型,长篇摘要的重要性越来越受到关注。然而,当前的评估方法要么基于相似度的指标(如ROUGE和BERTScore),缺乏考虑信息量,要么基于大型语言模型的指标,缺乏信息丰富度的量化分析,而且比较主观。因此,本文提出了一种新的评估指标,称为EVA-Score,利用原子事实链生成和文档级关系提取相结合,自动计算信息量并给出一个确定的信息分数。实验结果表明,我们的指标与人类的相关性达到了最先进水平。此外,本文还从信息方面全面重新评估了大型语言模型在长篇摘要中的表现,预测了未来利用大型语言模型进行长篇摘要的方式。
-
- 图表
- 解决问题提出一种新的评估指标EVA-Score,用于长篇摘要的信息量评估,并重新评估LLMs在长篇摘要中的表现
- 关键思路使用原子事实链生成和文档级关系提取相结合的方法,自动计算信息量并给出一个明确的信息得分
- 其它亮点论文提出的EVA-Score指标在信息量评估方面表现优异,与人类评估结果的相关性达到最新水平。实验使用了多个数据集,并提供了开源代码。论文为使用LLMs进行长篇摘要提供了新的思路和方向。
- 当前的评估指标主要基于相似性,缺乏对信息量的考虑。最新的研究集中在使用LLMs进行长篇摘要。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流