- 简介自动化评估对于简化文本摘要基准测试和模型开发至关重要,考虑到人工评估的成本和耗时性。传统方法如 ROUGE 与人类判断的相关性不强,而最近提出的基于 LLM 的度量仅使用 Likert 刻度评分进行摘要级别的评估。这限制了更深入的模型分析,例如我们只能在摘要级别上分配一个幻觉分数,而在句子级别上,我们可以计算包含幻觉的句子数。为了解决这些限制,我们提出了 FineSurE,这是一个专门为使用大型语言模型(LLM)进行摘要任务而量身定制的细粒度评估器。它还采用完整性和简洁性标准,除了忠实度之外,还能进行多维度评估。我们比较了各种开源和专有的 LLM 作为 FineSurE 的主干。此外,我们还对 FineSurE 进行了广泛的基准测试,与包括 NLI、QA 和基于 LLM 的方法在内的 SOTA 方法进行了比较,表现出特别是在完整性和简洁性维度上的改进。代码可在 https://github.com/DISL-Lab/FineSurE-ACL24 上获得。
- 图表
- 解决问题FineSurE: 一种针对文本摘要任务的基于大语言模型的细粒度评估方法。
- 关键思路FineSurE是一种针对文本摘要任务的基于大语言模型的细粒度评估方法,可以评估摘要的完整性、简洁性和忠实度等多个维度,相比于传统方法和最新的LLM-based度量方法,FineSurE可以在句子级别进行评估。
- 其它亮点FineSurE的实验结果表明其在完整性和简洁性等方面的表现优于NLI、QA和LLM-based方法。研究者还比较了多个开源和专有LLM作为FineSurE的基础,并提供了开源代码。
- 与FineSurE相关的研究包括传统方法如ROUGE以及最新的LLM-based度量方法。
沙发等你来抢
去评论
评论
沙发等你来抢