HumanRankEval: Automatic Evaluation of LMs as Conversational Assistants

简介

语言模型（LMs）作为对话助手最近成为流行的工具，可以帮助人们完成各种任务。这些通常是通过对预先训练的通用领域文本序列进行进一步的指导调整和可能的偏好优化方法来实现的。这样的LMs的评估理想情况下应该使用人类判断进行，但这是不可扩展的。另一方面，自动评估具有可扩展性，可以使用辅助LMs作为评判者和/或基于知识的任务，但难以评估对话能力和遵守指令的程度。为了加速LMs作为对话助手的开发，我们提出了一种新的自动评估任务：HumanRankEval（HRE）。它由一组大规模、多样化和高质量的问题组成，每个问题都有几个答案，由人编写和评分。为了进行评估，HRE基于LM的分布对这些答案进行排名，然后计算它们与相应人类排名的相关性。我们通过研究HRE如何有效地区分各种大小的预训练和指导调整的LMs来支持HRE的功效。我们展示了HRE与人类判断的相关性，并且对指导调整后的模型变化特别敏感。
图表
解决问题

提出一种自动评估方法 HumanRankEval（HRE），用于评估语言模型（LM）作为对话助手的能力，并解决当前评估方法的可扩展性和准确性问题。
关键思路

通过对一系列问题的多个人工回答进行评分，并将这些回答在LM分布下的对数似然性与人类排序进行相关性计算，从而评估LM的对话能力。
其它亮点

HRE是一种大规模、多样化、高质量的自动评估方法，能够有效区分预训练和指令调整后的LM。实验结果表明，HRE与人类判断相关性高，并且对指令调整后的模型变化敏感。
相关研究

近期的相关研究包括使用自动评估方法对LM进行评估，以及使用人工评估方法对对话助手进行评估。相关论文包括《BERTScore: Evaluating Text Generation with BERT》和《A Survey of Methods for Evaluating Dialogue Systems》等。

HumanRankEval: Automatic Evaluation of LMs as Conversational Assistants

评论