The Leaderboard Illusion

2025年04月29日
  • 简介
    衡量进展是任何科学领域进步的基础。随着基准测试在评估中扮演越来越核心的角色,它们也变得更加容易受到扭曲。Chatbot Arena 已成为排名最先进人工智能系统的主要排行榜。然而,在本研究中,我们发现了导致竞争环境失真的系统性问题。我们发现,未公开的私有测试实践使少数提供商受益,这些提供商可以在公开发布前测试多个模型变体,并根据需要撤回分数。我们证明,这些提供商选择最佳分数的能力由于对性能结果的选择性披露而导致了 Arena 分数的偏差。在极端情况下,我们发现 Meta 在 Llama-4 发布前夕测试了 27 种私有的大型语言模型(LLM)变体。我们还证明,专有的闭源模型在更高的战斗次数下被采样,并且与开源或开放权重模型相比,较少被从 Arena 中移除。这两种政策随着时间推移导致了巨大的数据访问不对称性。例如,Google 和 OpenAI 分别获得了 Arena 上所有数据的大约 19.2% 和 20.4%。相比之下,83 种开放权重模型合计仅获得了约 29.7% 的总数据。我们展示了 Chatbot Arena 数据的访问能够带来显著的好处;根据我们的保守估计,即使是有限的额外数据也能在 Arena 的分布上带来高达 112% 的相对性能提升。这些动态共同作用,导致模型过度拟合到 Arena 特定的评估机制,而非反映模型的整体质量。Arena 建立在组织者和维护这一宝贵评估平台的开放社区的巨大努力之上。我们提出了可操作的建议,以改革 Chatbot Arena 的评估框架,并推动该领域更公平、更透明的基准测试。
  • 图表
  • 解决问题
    论文试图解决Chatbot Arena作为AI系统排名基准中存在的系统性偏差问题,包括私有测试、选择性披露和数据访问不对称等现象。这是一个新问题,因为随着基准的重要性增加,其潜在的不公平性和透明度问题开始显现。
  • 关键思路
    论文的关键思路是揭示Arena中的一些不公平实践,例如私有测试、选择性披露以及对封闭模型的数据倾斜,并提出通过改革Arena的评价框架来实现更公平、透明的基准测试。相比现有研究,这篇论文首次详细分析了这些实践如何导致模型质量评估的偏差,并提出了具体的改进措施。
  • 其它亮点
    论文通过实证分析展示了Meta在Llama-4发布前测试了27个未公开变体,以及Google和OpenAI等公司获得了不成比例的大量数据。此外,论文指出额外的Arena数据可显著提升模型性能(高达112%)。实验设计基于Arena的历史数据进行统计分析,但未提及代码开源情况。值得进一步研究的方向包括开发更透明的测试机制和减少数据访问不平等的方法。
  • 相关研究
    相关研究包括:1) "Benchmarking Language Models: A Critical Review",探讨了语言模型基准测试中的常见问题;2) "On the Dangers of Stochastic Parrots",关注大型语言模型训练中的偏见问题;3) "Evaluating Large Language Models with Human Feedback",研究人类反馈在模型评估中的作用;4) "The Unreasonable Effectiveness of Prompt Engineering",讨论提示工程对模型表现的影响。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论