GPTScore:一种新的评估语言模型方法

标题:GPTScore: Evaluate as You Desire

链接https://arxiv.org/abs/2302.04166

作者:Jinlan Fu1, See-Kiong Ng1, Zhengbao Jiang2, Pengfei Liu2

单位:1 新加坡国立大学,2 卡内基梅隆大学

摘要

生成性人工智能(Generative AI)使复杂模型的开发成为可能,这些模型能够通过利用大型预先训练的模型来生成高质量的文本、图像和其他输出。然而,评估生成的质量是一项比生成任务本身更艰巨的任务,这个问题最近没有得到足够的考虑。

本文提出了一种新的评估框架 GPTScore,它利用生成性预训练模型中的涌现能力(例如,zero-shot 指导)来对生成的文本进行评分。在 4 个文本生成任务、22 个评价方面和对应的 37 个数据集上的实验结果表明,该方法可以有效地让我们通过自然语言指令来实现对文本的评价。这一特性帮助我们克服了文本评估中的几个长期挑战,即如何在不需要带注释的样本的情况下实现定制的、多方面的评估。

代码可以查看:https://github.com/jinlanfu/GPTScore

内容中包含的图片若涉及版权问题,请及时与我们联系删除