From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline

2024年06月17日
  • 简介
    语言模型的快速发展需要开发更具挑战性的基准测试。目前的静态基准测试往往难以始终区分不同模型的能力,并且无法与真实世界的用户偏好相一致。另一方面,像聊天机器人竞技场这样的在线众包平台收集了各种自然提示和用户反馈。然而,这些提示在复杂程度上存在差异,反馈也无法离线应用于新模型。为了确保基准测试跟上LLM发展的步伐,我们探讨了如何评估基准测试在自信地区分模型和与人类偏好的一致性方面的能力。在这些原则下,我们开发了BenchBuilder,这是一个活跃的基准测试,从实时数据源中过滤出高质量的提示,以便在新的具有挑战性的提示上进行离线评估。BenchBuilder识别了高质量提示的七个指标,例如需要领域知识,并利用LLM注释器从各个主题集群中选择高质量提示的子集。LLM评估过程采用LLM评判员,以确保完全自动化、高质量和不断更新的基准测试。我们将BenchBuilder应用于聊天机器人竞技场的提示,创建了Arena-Hard-Auto v0.1:来自各种任务的500个具有挑战性的用户提示。Arena-Hard-Auto v0.1提供了比MT-Bench更紧密的3倍置信区间,并实现了89.1%的与人类偏好排名的协议,而仅需25美元的成本,无需人工标注者。BenchBuilder流水线增强了评估基准测试,并为开发人员提供了有价值的工具,使他们能够从广泛的数据中提取高质量的基准测试,而几乎不需要努力。
  • 图表
  • 解决问题
    论文旨在解决当前语言模型评估中存在的问题,即静态基准测试难以区分不同模型的能力,与现实用户偏好不一致。同时,现有的在线平台虽然收集到了大量自然提示和用户反馈,但这些提示的复杂程度不同,反馈也无法应用于新模型的离线评估。因此,论文提出了一种基于动态数据源的评估框架BenchBuilder,旨在从高质量的提示中过滤出一组具有挑战性的提示,以进行离线评估。
  • 关键思路
    BenchBuilder利用LLM注释器从各个主题聚类中选择高质量的提示,并采用LLM评估器进行评估,以确保完全自动化、高质量和不断更新的基准测试。该框架可以提高评估基准测试的质量,为开发人员提供有价值的工具,使他们能够从大量数据中提取高质量的基准测试,并且成本低廉。
  • 其它亮点
    论文提出了一种新的动态数据源的评估框架BenchBuilder,可以从在线平台收集到的自然提示和用户反馈中过滤出高质量的提示,以进行离线评估。该框架使用LLM注释器和评估器进行评估,以确保完全自动化、高质量和不断更新的基准测试。在Chatbot Arena的提示上应用BenchBuilder,创建了一个具有挑战性的基准测试Arena-Hard-Auto v0.1,其置信区间比MT-Bench紧3倍,与人类偏好排名的一致性达到89.1%,成本仅为25美元且不需要人工标注。
  • 相关研究
    在最近的相关研究中,也有一些关于语言模型评估的研究。例如,一些研究提出了使用人类评估者进行评估的方法,但这种方法成本高昂且不够高效。还有一些研究提出了使用自动评估指标进行评估的方法,但这些指标的可靠性和有效性有待进一步研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论