- 简介由于人工评估的繁琐性和基于代码的评估的局限性,大型语言模型(LLMs)越来越被用于协助人类评估LLM输出。然而,LLM生成的评估器只是继承了它们所评估的LLMs的所有问题,需要进一步的人工验证。我们提出了一种混合式方法来“验证验证器”——将LLM生成的评估函数(无论是提示还是代码)与人类要求对齐。我们的界面EvalGen为用户提供自动生成评估标准和实施断言的自动化帮助。在生成候选实现(Python函数、LLM评分提示)时,EvalGen要求人类对LLM输出的子集进行评分;这些反馈用于选择更符合用户评分的实现。一项定性研究发现EvalGen总体上得到支持,但强调了对齐的主观性和迭代过程。特别是,我们发现了一种现象,称为“标准漂移”:用户需要标准来评估输出,但评估输出有助于用户定义标准。此外,一些标准似乎取决于观察到的特定LLM输出(而不是可以事先定义的独立标准),对于假设评估与模型输出的观察独立的方法提出了严重问题。我们介绍了我们的界面和实现细节,将我们的算法与基线方法进行了比较,并对未来LLM评估助手的设计提出了影响。
- 图表
- 解决问题解决问题的问题是如何验证LLM生成的评估器是否准确,以及如何解决LLM生成的评估器与人类要求之间的差异?
- 关键思路提出了一种混合主动方法,使用EvalGen界面生成评估标准和实现断言,以帮助用户对LLM生成的评估器进行验证。该方法使用人类反馈来选择更符合用户要求的实现,解决了LLM生成的评估器与人类要求之间的差异问题。
- 其它亮点实验使用了EvalGen界面和Python函数,提供了自动化辅助生成评估标准和实现断言的功能。研究发现EvalGen获得了整体支持,但强调了对标准的主观性和迭代过程的重要性。同时,发现了一种被称为“标准漂移”的现象,即用户需要标准来评估输出,但评估输出又帮助用户定义标准。
- 近期的相关研究包括使用LLM生成的评估器来辅助人类评估,以及使用人类反馈来改进LLM生成的评估器的准确性。相关论文包括“Improving Evaluation of Language Generation with Auxiliary Tasks”和“Towards Better Language Model Evaluation”。
沙发等你来抢
去评论
评论
沙发等你来抢