Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments

简介

大型语言模型（LLMs）已经表现出作为成本效益高且无需参考的评估器来评估语言生成质量的有希望的能力。特别是，成对的LLM评估器，用于比较两个生成的文本并确定首选项，已被广泛应用于各种应用中。然而，LLMs表现出偏好偏差和对提示设计的敏感性令人担忧。在这项工作中，我们首先揭示了即使使用语义等效的指令，LLMs的预测偏好也可能非常脆弱和偏斜。我们发现，LLMs产生更公正的预测偏好会导致与人类判断更好的一致性。受此现象的启发，我们提出了一种自动的零样本评估导向提示优化框架ZEPO，旨在产生更公正的偏好决策，并提高LLM评估器与人类判断的一致性。为此，我们提出了一个基于偏好决策公正性的零样本学习目标。ZEPO在代表性的元评估基准上，无需标记数据，展示了比最先进的LLM评估器显着的性能提升。我们的发现强调了偏好公正性与人类一致性之间的关键相关性，将ZEPO定位为一种有效的提示优化器，用于弥合LLM评估器与人类判断之间的差距。
图表
解决问题

本论文旨在解决大型语言模型(LLMs)在语言生成质量评估中存在的偏好偏差和对提示设计的敏感性问题。
关键思路

提出了一种自动的零样本评估导向提示优化框架(ZEPO)，通过考虑偏好决策的公平性来提高LLMs的人类对齐性。
其它亮点

论文发现LLMs的预测偏好可能高度脆弱和偏向，即使使用语义等价的指令。通过零样本学习目标，ZEPO实现了显著的性能提升，而无需标记数据。
相关研究

相关研究包括大量使用LLMs进行语言生成质量评估的工作，以及针对LLMs偏好偏差和提示设计敏感性的研究，如GPT-bias和PPLM。

Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments

评论