- 简介随着语言模型(LMs)越来越能够处理各种任务,它们的评估变得与其开发同样具有挑战性。目前,大多数生成基准测试使用抽象的评估标准,如有益性和无害性进行LMs评估,这些标准通常缺乏人类评估的灵活性和细粒度。此外,这些基准测试往往过于关注特定能力,例如指令跟随,从而导致覆盖偏差。为了克服这些限制,我们引入了BiGGen Bench,这是一个原则性的生成基准测试,旨在全面评估LMs在77个不同任务中的九个不同能力。 BiGGen Bench的一个关键特点是其使用实例特定的评估标准,紧密地模拟了人类评估的细微差别。我们使用此基准测试来评估103个前沿LMs,使用五个评估器LMs。我们的代码、数据和评估结果都可以在https://github.com/prometheus-eval/prometheus-eval/tree/main/BiGGen-Bench上公开获取。
- 图表
- 解决问题介绍了一个新的基于实例特定评估标准的生成模型评估基准BiGGen Bench,旨在解决当前生成模型评估中抽象评估标准和覆盖偏差等问题。
- 关键思路BiGGen Bench基于实例特定评估标准,涵盖了77个不同的任务和9种不同的生成模型能力,对103个前沿LM进行了评估,是一种更加精细的生成模型评估方法。
- 其它亮点论文提出的BiGGen Bench使用了实例特定评估标准,涵盖了多个任务和能力,评估结果更加精细;实验使用了5个评估模型对103个前沿LM进行了评估,评估结果和代码公开。
- 与本文相关的研究包括生成模型评估相关的研究,如BLEU、ROUGE等评估标准的研究,以及其他基于实例特定评估标准的评估方法的研究。
沙发等你来抢
去评论
评论
沙发等你来抢