LiveBench: A Challenging, Contamination-Free LLM Benchmark

2024年06月27日
  • 简介
    测试集污染是公平LLM评估中的一个众所周知的障碍,即来自基准测试的测试数据最终出现在新模型的训练集中,这可能很快使基准测试过时。为了缓解这种情况,许多最近的基准测试从人类或LLM评委那里众包新的提示和评估;然而,这些可能引入重大偏见,并且在评分困难问题时失效。在这项工作中,我们介绍了一个新的LLM基准测试,旨在免疫于测试集污染和LLM评分以及人类众包的缺陷。我们发布了LiveBench,这是第一个基准测试,它(1)包含来自最近信息来源的经常更新的问题,(2)根据客观的基准值自动评分,以及(3)包含各种具有挑战性的任务,涵盖数学、编码、推理、语言、指令遵循和数据分析。为了实现这一点,LiveBench包含基于最近发布的数学竞赛、arXiv论文、新闻文章和数据集的问题,并且它包含来自以前基准测试(如Big-Bench Hard、AMPS和IFEval)的更难、无污染的任务版本。我们评估了许多知名的闭源模型,以及从0.5B到110B不等的许多开源模型。LiveBench很困难,顶尖模型的准确率低于65%。我们发布所有问题、代码和模型答案。问题将每月添加和更新,我们将随着时间的推移发布新任务和更难的任务版本,以便LiveBench可以区分LLM未来的能力。我们欢迎社区参与和合作,扩展基准测试任务和模型。
  • 图表
  • 解决问题
    LiveBench:一个新的语言模型基准,旨在解决测试数据集污染和评分偏见等问题
  • 关键思路
    LiveBench基于最新的信息来源,包含各种挑战性任务,并根据客观的基准值自动评分,从而避免了测试数据集污染和评分偏见等问题。同时,LiveBench还会定期更新任务,以便区分未来语言模型的能力。
  • 其它亮点
    LiveBench是第一个自动评分的基准,难度较大,顶尖模型的准确率不到65%。所有问题、代码和模型答案都已经公开。LiveBench还包含来自先前基准的任务的更难版本,如Big-Bench Hard,AMPS和IFEval。
  • 相关研究
    最近的研究主要集中在使用人工或LLM评委进行众包评估,以减轻测试数据集污染的问题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论