Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators

简介

大型语言模型（LLMs）在评估生成自然语言的质量方面已经展示出了很有前途的能力，然而，LLMs仍然存在评估偏见，并且常常难以生成与人类评估相一致的连贯评估。在这项工作中，我们首先对LLM评估器与人类判断之间的不一致进行了系统研究，揭示了现有的旨在减轻偏见的校准方法对于有效对齐LLM评估器是不足的。受RLHF中偏好数据的使用启发，我们将评估问题制定为排名问题，并引入了Pairwise-preference Search（PairS），一种基于不确定性引导搜索方法，利用LLMs进行成对比较并有效地对候选文本进行排名。PairS在代表性评估任务上取得了最先进的性能，并且比直接评分有了显著的改进。此外，我们提供了关于成对偏好在量化LLMs的传递性方面的见解，并展示了PairS如何受益于校准。
图表
解决问题

本文旨在解决LLMs在评估自然语言生成质量时存在的偏见和不准确性问题，提出一种基于偏好排序的评估方法。
关键思路

本文提出了一种基于偏好排序的评估方法PairS，通过使用LLMs进行成对比较和排序来有效地解决LLMs评估的偏见和不准确性问题。
其它亮点

PairS方法在代表性评估任务上取得了最先进的性能，并且明显优于直接评分。实验结果表明，偏好排序在量化LLMs的传递性方面发挥了重要作用，并且PairS方法受益于校准。该方法使用了公开的数据集和开源代码。
相关研究

最近的相关研究包括《Adversarial Evaluation of Dialogue Models》和《On Evaluation of Adversarial Perturbations for Sequence-to-Sequence Models》等。

Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators

评论