MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures

2024年06月03日
  • 简介
    评估大型语言模型(LLMs)是具有挑战性的。传统的基于真实数据的基准测试无法捕捉到现实世界查询的全面性和细微差别,而以LLM为评判标准的基准测试则存在评分偏见和查询数量有限的问题。两种测试方法还可能随时间而污染。用户界面评估,例如Chatbot Arena,提供可靠的信号,但成本高且速度慢。在这项工作中,我们提出了MixEval,这是一种建立高效、金标准LLM评估的新范式,通过策略性地混合现成的基准测试,连接(1)全面分布良好的现实用户查询和(2)高效、公正评分的基于真实数据的基准测试,通过将从网络挖掘的查询与现有基准测试中的相似查询匹配。基于MixEval,我们进一步构建了MixEval-Hard,为模型改进提供更大的空间。我们基准测试的优点在于(1)高度公正的查询分布和评分机制,与Chatbot Arena的0.96模型排名相关性,(2)快速、廉价、可重复执行(MMLU的6%时间和成本),(3)快速稳定的数据更新管道实现动态评估。我们对自己和现有LLM基准测试进行了广泛的元评估和分析,以加深社区对LLM评估的理解,并指导未来的研究方向。
  • 图表
  • 解决问题
    论文提出了MixEval,一种新的评估大型语言模型的方法,旨在解决传统基于真实数据和基于评分的评估方法的缺陷,并提供更快速、更可靠的评估方式。
  • 关键思路
    MixEval通过将从网络挖掘的查询与现有基准测试中相似的查询进行匹配,将真实世界的用户查询和基于真实数据的基准测试相结合,从而建立了一种高效的、金标准的LLM评估方法。
  • 其它亮点
    MixEval的优点包括:与Chatbot Arena具有0.96的模型排名相关性;执行速度快、成本低、可重复;通过数据更新管道实现动态评估。论文还提供了广泛的元评估和分析,以加深对LLM评估的理解并指导未来的研究方向。
  • 相关研究
    最近的相关研究包括:MMLU、Chatbot Arena、SuperGLUE、GLUE、SQuAD等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论