- 简介LLM-based自动注释器已成为LLM开发过程的关键组成部分,因为与基于人工评估相比,它们具有成本效益和可扩展性。然而,这些自动注释器可能会引入复杂的偏差,这些偏差很难消除。即使是简单的已知混淆因素,如对较长输出的偏好,仍存在于现有的自动评估度量中。我们提出了一种简单的回归分析方法来控制自动评估中的偏差。作为一个真实的案例研究,我们专注于减少AlpacaEval的长度偏差,AlpacaEval是一种快速且经济实惠的聊天LLM基准,使用LLM估计响应质量。尽管与人类偏好高度相关,但已知AlpacaEval倾向于生成较长的输出模型。我们引入了一个长度控制的AlpacaEval,旨在回答反事实问题:“如果模型和基准的输出具有相同的长度,偏好会是什么?”为了实现这一点,我们首先拟合一个广义线性模型,以预测我们想要控制的介质(长度差异)和其他相关特征的偏差输出(自动注释器偏好)。然后,我们通过在长度差异为零的情况下对GLM进行条件预测来获得长度控制的偏好。长度控制不仅提高了度量对模型冗余的稳健性,我们还发现它将与LMSYS的Chatbot Arena的Spearman相关性从0.94提高到0.98。我们在https://tatsu-lab.github.io/alpaca_eval/上发布了代码和排行榜。
-
- 图表
- 解决问题如何控制自动评估中的偏见,特别是长度偏见?
- 关键思路使用简单的回归分析方法来控制偏见,提出了一种长度控制的评估方法,以回答如果模型和基准输出具有相同长度,偏好会是什么的问题。
- 其它亮点提出的方法可以提高度量的鲁棒性,增加与人类偏好的相关性,实验表明使用长度控制后的度量与Chatbot Arena的相关性从0.94提高到0.98。研究团队还公开了代码和排行榜。
- 最近的相关研究包括使用神经网络进行自动评估的研究,以及探索自动评估中偏见的研究。
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流