Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

2024年07月15日
  • 简介
    随着大型语言模型(LLM)的发展,由于人工评估的高成本,可靠地评估它们的输出变得越来越具有挑战性。为了朝着更好的LLM评估器迈进,我们介绍了FLAMe,一组基础大型评估模型。FLAMe是在我们的大量多样的100多项质量评估任务上进行训练的,包括500万+人类判断,这些任务是使用先前研究的公开发布的人类评估进行筛选和标准化的。FLAMe显著提高了对各种保留任务的泛化能力,在许多任务上优于使用专有数据(如GPT-4和Claude-3)进行训练的LLM。我们展示了FLAMe还可以作为进一步下游微调的强大起点,以奖励建模评估为案例研究(FLAMe-RM)。值得注意的是,在RewardBench上,我们的FLAMe-RM-24B模型(精度为87.8%)是仅使用许可数据训练的最佳生成模型,在性能上优于GPT-4-0125(85.9%)和GPT-4o(84.7%)。此外,我们探索了一种更高效的方法,使用新颖的尾部修补微调策略来优化我们的FLAMe多任务混合物,以进行奖励建模评估(FLAMe-Opt-RM),在需要约25倍的训练数据点的情况下提供具有竞争力的RewardBench性能。总体而言,我们的FLAMe变体在12个评估任务中的8个中都优于我们考虑的所有流行的专有LLM评估器模型,包括RewardBench和LLM-AggreFact。最后,我们的分析表明,在CoBBLEr评估器偏差基准测试中,FLAMe的偏差显著较小,同时有效地识别出用于代码生成的高质量响应。
  • 图表
  • 解决问题
    FLAMe试图解决如何更好地评估大型语言模型输出的问题,以及如何提高评估的效率和准确性。
  • 关键思路
    FLAMe是一种基于100多个质量评估任务的大规模评估模型,通过使用公开发布的人类评估数据进行训练,提高了对各种任务的泛化能力,并在许多任务上优于GPT-4等专有数据训练的大型语言模型。
  • 其它亮点
    FLAMe可以作为下游微调的强大起点,具有优秀的RewardBench表现,并且通过使用尾部微调策略可以大大减少训练数据点的数量。FLAMe比其他大型语言模型评估模型在CoBBLEr评估中的偏见更少,同时对于代码生成可以有效地识别高质量的响应。
  • 相关研究
    在这个领域中,最近的相关研究包括GPT-4和Claude-3等专有数据训练的大型语言模型评估模型,以及LLM-AggreFact等评估基准。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论