FineSurE: Fine-grained Summarization Evaluation using LLMs

2024年07月01日
  • 简介
    自动评估对于简化文本摘要基准测试和模型开发至关重要,因为人工评估的成本和耗时很高。传统的 ROUGE 方法与人类判断的相关性不强,而最近提出的基于 LLM 的度量仅使用 Likert 量表评分进行摘要级别的评估,这限制了更深层次的模型分析。为了解决这些限制,我们提出了 FineSurE,这是一个专门为使用大型语言模型(LLMs)的摘要任务量身定制的细粒度评估器。它还采用了完整性和简洁性标准,除了忠实度,还能够进行多维度评估。我们比较了各种开源和专有的 LLM 作为 FineSurE 的骨干。此外,我们还对 FineSurE 进行了广泛的基准测试,与 NLI、QA 和 LLM 等 SOTA 方法进行了比较,表现出了特别在完整性和简洁性维度上的改进。代码可在 https://github.com/DISL-Lab/FineSurE-ACL24 上获得。
  • 图表
  • 解决问题
    本文旨在解决文本摘要评估的自动化问题,提出了一种基于大型语言模型的FineSurE评估器,以多维度评估文本摘要的完整性、简洁性和忠实度。
  • 关键思路
    FineSurE评估器采用大型语言模型作为骨干结构,通过对文本摘要的完整性、简洁性和忠实度进行多维度评估,相较于传统方法如ROUGE和LLM-based metrics,FineSurE评估器具有更高的相关性。
  • 其它亮点
    本文提出的FineSurE评估器在文本摘要评估中具有多维度评估能力,相较于传统方法具有更高的相关性。作者还进行了对多种开源和专有大型语言模型的比较,并与现有的NLI、QA和LLM-based方法进行了广泛的基准测试,证明了FineSurE评估器在完整性和简洁性方面的优越性。作者还提供了代码开源。
  • 相关研究
    在这个领域,最近的相关研究包括ROUGE和LLM-based metrics等传统方法,以及NLI、QA和LLM-based方法等新兴方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论