Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences

简介

由于人工评估的繁琐性和基于代码的评估的局限性，大型语言模型（LLMs）越来越被用于协助人类评估LLM输出。然而，LLM生成的评估器只是继承了它们所评估的LLMs的所有问题，需要进一步的人工验证。我们提出了一种混合式方法来“验证验证器”——将LLM生成的评估函数（无论是提示还是代码）与人类要求对齐。我们的界面EvalGen为用户提供自动生成评估标准和实施断言的自动化帮助。在生成候选实现（Python函数、LLM评分提示）时，EvalGen要求人类对LLM输出的子集进行评分；这些反馈用于选择更符合用户评分的实现。一项定性研究发现EvalGen总体上得到支持，但强调了对齐的主观性和迭代过程。特别是，我们发现了一种现象，称为“标准漂移”：用户需要标准来评估输出，但评估输出有助于用户定义标准。此外，一些标准似乎取决于观察到的特定LLM输出（而不是可以事先定义的独立标准），对于假设评估与模型输出的观察独立的方法提出了严重问题。我们介绍了我们的界面和实现细节，将我们的算法与基线方法进行了比较，并对未来LLM评估助手的设计提出了影响。
图表
解决问题

解决问题的问题是如何验证LLM生成的评估器是否准确，以及如何解决LLM生成的评估器与人类要求之间的差异？
关键思路

提出了一种混合主动方法，使用EvalGen界面生成评估标准和实现断言，以帮助用户对LLM生成的评估器进行验证。该方法使用人类反馈来选择更符合用户要求的实现，解决了LLM生成的评估器与人类要求之间的差异问题。
其它亮点

实验使用了EvalGen界面和Python函数，提供了自动化辅助生成评估标准和实现断言的功能。研究发现EvalGen获得了整体支持，但强调了对标准的主观性和迭代过程的重要性。同时，发现了一种被称为“标准漂移”的现象，即用户需要标准来评估输出，但评估输出又帮助用户定义标准。
相关研究

近期的相关研究包括使用LLM生成的评估器来辅助人类评估，以及使用人类反馈来改进LLM生成的评估器的准确性。相关论文包括“Improving Evaluation of Language Generation with Auxiliary Tasks”和“Towards Better Language Model Evaluation”。

Who Validates the Validators? Aligning LLM-Assisted Evaluation of LLM Outputs with Human Preferences

评论