Check-Eval: A Checklist-based Approach for Evaluating Text Quality

向作者提问

NEW

简介

评估大型语言模型（LLMs）生成的文本质量仍然是一个重大挑战。传统的度量方法往往无法很好地与人类判断相一致，特别是在需要创造力和细微差别的任务中。在本文中，我们提出了Check-Eval，一种新颖的评估框架，利用LLMs通过基于清单的方法评估生成文本的质量。Check-Eval可以作为参考无关和参考相关的评估方法，提供结构化和可解释的文本质量评估。该框架包括两个主要阶段：清单生成和清单评估。我们在两个基准数据集上验证了Check-Eval：葡萄牙法律语义文本相似性和SummEval。我们的结果表明，与现有的度量方法（如G-Eval和GPTScore）相比，Check-Eval与人类判断的相关性更高，突显了其作为自然语言生成任务更可靠和有效的评估框架的潜力。我们实验的代码可在https://anonymous.4open.science/r/check-eval-0DB4上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何评估大型语言模型（LLMs）生成的文本质量是一个重要的挑战。传统的评估方法往往无法很好地与人类判断相一致，特别是在需要创造力和细微差别的任务中。本文提出了一种新的评估框架Check-Eval，利用LLMs通过基于检查清单的方法评估生成文本的质量。Check-Eval可以作为无参考和有参考的评估方法，提供结构化和可解释的文本质量评估。框架包括两个主要阶段：检查清单生成和检查清单评估。作者在两个基准数据集上验证了Check-Eval：葡萄牙法律语义文本相似性和SummEval。结果表明，与现有的评估指标，如G-Eval和GPTScore相比，Check-Eval与人类判断的相关性更高，突显了其作为自然语言生成任务更可靠和有效的评估框架的潜力。
关键思路

Check-Eval是一种新的评估框架，利用LLMs通过基于检查清单的方法评估生成文本的质量。框架包括两个主要阶段：检查清单生成和检查清单评估。
其它亮点

本文提出的Check-Eval框架可以作为无参考和有参考的评估方法，提供结构化和可解释的文本质量评估。作者在两个基准数据集上验证了Check-Eval：葡萄牙法律语义文本相似性和SummEval。结果表明，Check-Eval与人类判断的相关性更高，相比现有的评估指标，如G-Eval和GPTScore更可靠和有效。作者提供了实验代码。
相关研究

最近在这个领域中，还有一些相关的研究，如G-Eval和GPTScore等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问