Is Reference Necessary in the Evaluation of NLG Systems? When and Where?

2024年03月21日
  • 简介
    大多数评估自然语言生成系统的自动度量指标都是基于参考文本的。然而,在许多应用场景中,由于人工标注结果的收集具有挑战性,因此缺乏可靠的参考文本。尽管最近参考文本自由度量的进展,但人们还不太清楚它们何时何地可以作为参考文本度量的替代品。在本研究中,通过采用多种分析方法,我们全面评估了两种度量标准在涵盖八个数据集和八个评估模型的广泛自然语言生成任务中的性能。基于可靠的实验,结果表明,相比参考文本度量,参考文本自由度量与人类判断具有更高的相关性和更大的语言质量缺陷敏感性。然而,它们的有效性因任务而异,并受到候选文本质量的影响。因此,在应用参考文本自由度量于新任务之前,特别是当输入形式不常见或答案空间高度变化时,评估其性能非常重要。我们的研究可以为自动度量的适当应用和度量选择对评估性能的影响提供见解。
  • 图表
  • 解决问题
    本文旨在评估基于参考和基于无参考的自动评估指标在自然语言生成任务中的效果,以及它们的适用性和局限性。
  • 关键思路
    通过对8个数据集和8个评估模型的全面评估,本文发现基于无参考的指标与人类判断之间的相关性更高,对于语言质量的不足更为敏感。但是,它们的有效性因任务而异,并受到候选文本质量的影响。因此,在应用基于无参考的指标之前,需要对其性能进行评估,特别是当输入数据不常见或答案空间高度变化时。
  • 其它亮点
    本文的实验设计全面,使用了多个数据集和评估模型,结果表明基于无参考的自动评估指标可以作为替代参考指标的一种选择,但其适用性因任务和候选文本质量而异。本文的研究结果对自动评估指标的合理应用以及指标选择对评估结果的影响提供了洞见。
  • 相关研究
    最近的相关研究主要集中在自然语言生成任务的自动评估指标方面,例如BLEU、ROUGE、METEOR等基于参考的指标以及基于语言模型的无参考指标。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论