Check-Eval: A Checklist-based Approach for Evaluating Text Quality

2024年07月19日
  • 简介
    评估大型语言模型(LLMs)生成的文本质量仍然是一个重大挑战。传统的度量方法往往无法很好地与人类判断相一致,特别是在需要创造力和细微差别的任务中。在本文中,我们提出了Check-Eval,一种新颖的评估框架,利用LLMs通过基于清单的方法评估生成文本的质量。Check-Eval可以作为参考无关和参考相关的评估方法,提供结构化和可解释的文本质量评估。该框架包括两个主要阶段:清单生成和清单评估。我们在两个基准数据集上验证了Check-Eval:葡萄牙法律语义文本相似性和SummEval。我们的结果表明,与现有的度量方法(如G-Eval和GPTScore)相比,Check-Eval与人类判断的相关性更高,突显了其作为自然语言生成任务更可靠和有效的评估框架的潜力。我们实验的代码可在https://anonymous.4open.science/r/check-eval-0DB4上获得。
  • 作者讲解
  • 图表
  • 解决问题
    如何评估大型语言模型(LLMs)生成的文本质量是一个重要的挑战。传统的评估方法往往无法很好地与人类判断相一致,特别是在需要创造力和细微差别的任务中。本文提出了一种新的评估框架Check-Eval,利用LLMs通过基于检查清单的方法评估生成文本的质量。Check-Eval可以作为无参考和有参考的评估方法,提供结构化和可解释的文本质量评估。框架包括两个主要阶段:检查清单生成和检查清单评估。作者在两个基准数据集上验证了Check-Eval:葡萄牙法律语义文本相似性和SummEval。结果表明,与现有的评估指标,如G-Eval和GPTScore相比,Check-Eval与人类判断的相关性更高,突显了其作为自然语言生成任务更可靠和有效的评估框架的潜力。
  • 关键思路
    Check-Eval是一种新的评估框架,利用LLMs通过基于检查清单的方法评估生成文本的质量。框架包括两个主要阶段:检查清单生成和检查清单评估。
  • 其它亮点
    本文提出的Check-Eval框架可以作为无参考和有参考的评估方法,提供结构化和可解释的文本质量评估。作者在两个基准数据集上验证了Check-Eval:葡萄牙法律语义文本相似性和SummEval。结果表明,Check-Eval与人类判断的相关性更高,相比现有的评估指标,如G-Eval和GPTScore更可靠和有效。作者提供了实验代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如G-Eval和GPTScore等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问