Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators

简介

LLM-based自动注释器已成为LLM开发过程的关键组成部分，因为与基于人工评估相比，它们具有成本效益和可扩展性。然而，这些自动注释器可能会引入复杂的偏差，这些偏差很难消除。即使是简单的已知混淆因素，如对较长输出的偏好，仍存在于现有的自动评估度量中。我们提出了一种简单的回归分析方法来控制自动评估中的偏差。作为一个真实的案例研究，我们专注于减少AlpacaEval的长度偏差，AlpacaEval是一种快速且经济实惠的聊天LLM基准，使用LLM估计响应质量。尽管与人类偏好高度相关，但已知AlpacaEval倾向于生成较长的输出模型。我们引入了一个长度控制的AlpacaEval，旨在回答反事实问题：“如果模型和基准的输出具有相同的长度，偏好会是什么？”为了实现这一点，我们首先拟合一个广义线性模型，以预测我们想要控制的介质（长度差异）和其他相关特征的偏差输出（自动注释器偏好）。然后，我们通过在长度差异为零的情况下对GLM进行条件预测来获得长度控制的偏好。长度控制不仅提高了度量对模型冗余的稳健性，我们还发现它将与LMSYS的Chatbot Arena的Spearman相关性从0.94提高到0.98。我们在https://tatsu-lab.github.io/alpaca_eval/上发布了代码和排行榜。

作者讲解·1

讲解视频
相关报道(1)

图表

解决问题

如何控制自动评估中的偏见，特别是长度偏见？

关键思路

使用简单的回归分析方法来控制偏见，提出了一种长度控制的评估方法，以回答如果模型和基准输出具有相同长度，偏好会是什么的问题。

其它亮点

提出的方法可以提高度量的鲁棒性，增加与人类偏好的相关性，实验表明使用长度控制后的度量与Chatbot Arena的相关性从0.94提高到0.98。研究团队还公开了代码和排行榜。

Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators

提问交流

提问交流