- 简介大型语言模型(LLMs)在评估生成自然语言的质量方面已经展示出了很有前途的能力,然而,LLMs仍然存在评估偏见,并且常常难以生成与人类评估相一致的连贯评估。在这项工作中,我们首先对LLM评估器与人类判断之间的不一致进行了系统研究,揭示了现有的旨在减轻偏见的校准方法对于有效对齐LLM评估器是不足的。受RLHF中偏好数据的使用启发,我们将评估问题制定为排名问题,并引入了Pairwise-preference Search(PairS),一种基于不确定性引导搜索方法,利用LLMs进行成对比较并有效地对候选文本进行排名。PairS在代表性评估任务上取得了最先进的性能,并且比直接评分有了显著的改进。此外,我们提供了关于成对偏好在量化LLMs的传递性方面的见解,并展示了PairS如何受益于校准。
- 图表
- 解决问题本文旨在解决LLMs在评估自然语言生成质量时存在的偏见和不准确性问题,提出一种基于偏好排序的评估方法。
- 关键思路本文提出了一种基于偏好排序的评估方法PairS,通过使用LLMs进行成对比较和排序来有效地解决LLMs评估的偏见和不准确性问题。
- 其它亮点PairS方法在代表性评估任务上取得了最先进的性能,并且明显优于直接评分。实验结果表明,偏好排序在量化LLMs的传递性方面发挥了重要作用,并且PairS方法受益于校准。该方法使用了公开的数据集和开源代码。
- 最近的相关研究包括《Adversarial Evaluation of Dialogue Models》和《On Evaluation of Adversarial Perturbations for Sequence-to-Sequence Models》等。
沙发等你来抢
去评论
评论
沙发等你来抢