Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators

Yinhong Liu ,
Han Zhou ,
Zhijiang Guo ,
Ehsan Shareghi ,
Ivan Vulić ,
Anna Korhonen ,
Nigel Collier
2024年03月25日
  • 简介
    大型语言模型(LLMs)在评估生成自然语言的质量方面已经展示出了很有前途的能力,然而,LLMs仍然存在评估偏见,并且常常难以生成与人类评估相一致的连贯评估。在这项工作中,我们首先对LLM评估器与人类判断之间的不一致进行了系统研究,揭示了现有的旨在减轻偏见的校准方法对于有效对齐LLM评估器是不足的。受RLHF中偏好数据的使用启发,我们将评估问题制定为排名问题,并引入了Pairwise-preference Search(PairS),一种基于不确定性引导搜索方法,利用LLMs进行成对比较并有效地对候选文本进行排名。PairS在代表性评估任务上取得了最先进的性能,并且比直接评分有了显著的改进。此外,我们提供了关于成对偏好在量化LLMs的传递性方面的见解,并展示了PairS如何受益于校准。
  • 图表
  • 解决问题
    本文旨在解决LLMs在评估自然语言生成质量时存在的偏见和不准确性问题,提出一种基于偏好排序的评估方法。
  • 关键思路
    本文提出了一种基于偏好排序的评估方法PairS,通过使用LLMs进行成对比较和排序来有效地解决LLMs评估的偏见和不准确性问题。
  • 其它亮点
    PairS方法在代表性评估任务上取得了最先进的性能,并且明显优于直接评分。实验结果表明,偏好排序在量化LLMs的传递性方面发挥了重要作用,并且PairS方法受益于校准。该方法使用了公开的数据集和开源代码。
  • 相关研究
    最近的相关研究包括《Adversarial Evaluation of Dialogue Models》和《On Evaluation of Adversarial Perturbations for Sequence-to-Sequence Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论