- 简介评估大型语言模型(LLMs)生成的文本质量仍然是一个重大挑战。传统的度量方法往往无法很好地与人类判断相一致,特别是在需要创造力和细微差别的任务中。在本文中,我们提出了Check-Eval,一种新颖的评估框架,利用LLMs通过基于清单的方法评估生成文本的质量。Check-Eval可以作为参考无关和参考相关的评估方法,提供结构化和可解释的文本质量评估。该框架包括两个主要阶段:清单生成和清单评估。我们在两个基准数据集上验证了Check-Eval:葡萄牙法律语义文本相似性和SummEval。我们的结果表明,与现有的度量方法(如G-Eval和GPTScore)相比,Check-Eval与人类判断的相关性更高,突显了其作为自然语言生成任务更可靠和有效的评估框架的潜力。我们实验的代码可在https://anonymous.4open.science/r/check-eval-0DB4上获得。
-
- 图表
- 解决问题如何评估大型语言模型(LLMs)生成的文本质量是一个重要的挑战。传统的评估方法往往无法很好地与人类判断相一致,特别是在需要创造力和细微差别的任务中。本文提出了一种新的评估框架Check-Eval,利用LLMs通过基于检查清单的方法评估生成文本的质量。Check-Eval可以作为无参考和有参考的评估方法,提供结构化和可解释的文本质量评估。框架包括两个主要阶段:检查清单生成和检查清单评估。作者在两个基准数据集上验证了Check-Eval:葡萄牙法律语义文本相似性和SummEval。结果表明,与现有的评估指标,如G-Eval和GPTScore相比,Check-Eval与人类判断的相关性更高,突显了其作为自然语言生成任务更可靠和有效的评估框架的潜力。
- 关键思路Check-Eval是一种新的评估框架,利用LLMs通过基于检查清单的方法评估生成文本的质量。框架包括两个主要阶段:检查清单生成和检查清单评估。
- 其它亮点本文提出的Check-Eval框架可以作为无参考和有参考的评估方法,提供结构化和可解释的文本质量评估。作者在两个基准数据集上验证了Check-Eval:葡萄牙法律语义文本相似性和SummEval。结果表明,Check-Eval与人类判断的相关性更高,相比现有的评估指标,如G-Eval和GPTScore更可靠和有效。作者提供了实验代码。
- 最近在这个领域中,还有一些相关的研究,如G-Eval和GPTScore等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流