The Leaderboard Illusion

2025年04月29日
  • 简介
    衡量进步是任何科学领域发展的基础。随着基准测试在科学研究中扮演越来越核心的角色,它们也更容易受到扭曲的影响。Chatbot Arena 已成为评估最先进人工智能系统能力的首选排行榜。然而,在本研究中,我们发现了导致该排名体系失真的系统性问题。我们发现,未公开的私有测试实践使少数供应商受益,这些供应商可以在公开发布前测试多个模型变体,并根据需要撤回分数。我们证实,这些供应商选择最佳分数的能力由于对性能结果的选择性披露而导致了 Chatbot Arena 的评分偏差。在极端情况下,我们发现 Meta 在发布 Llama-4 之前测试了 27 种私有的大语言模型变体。此外,我们还发现专有的闭源模型参与对抗测试(即“战斗”次数)的比例更高,并且从 Arena 中移除的模型数量少于开源或开放权重模型。这些政策随着时间推移导致了巨大的数据访问不对称性。例如,Google 和 OpenAI 分别获得了 Arena 上约 19.2% 和 20.4% 的所有数据。相比之下,83 个开源模型仅获得了总数据量的约 29.7%。我们证明,访问 Chatbot Arena 数据可以带来显著的好处;即使只是有限的额外数据,也能使模型在 Arena 数据分布上的相对性能提升高达 112%(基于我们的保守估计)。综上所述,这些动态导致模型过度拟合到 Arena 特定的评测机制,而非真正反映模型的整体质量。Chatbot Arena 建立在组织者和一个开放社区的巨大努力之上,这个社区维护着这一重要的评估平台。我们提出了切实可行的建议,以改革 Chatbot Arena 的评估框架,推动更公平、更透明的基准测试,从而促进整个领域的健康发展。
  • 图表
  • 解决问题
    该论文探讨了Chatbot Arena作为AI系统排名基准中存在的系统性问题,特别是由于私有测试实践和数据访问不对称导致的评分偏差。这是一个重要但尚未被充分研究的问题,涉及公平性和透明度。
  • 关键思路
    论文的关键思路是揭示大型语言模型提供商通过私有测试和选择性披露结果获得的竞争优势,并分析数据访问不对称对模型评估的影响。相比现有研究,本文首次量化了不同模型在Arena中的采样率差异及其对性能提升的作用,提出了改革评价框架的具体建议。
  • 其它亮点
    1. 发现Meta在Llama-4发布前测试了27个未公开变体;2. 指出Google和OpenAI等公司获得了不成比例的高数据访问量;3. 实验证明额外数据可使性能提升高达112%;4. 提供了改进Arena评价体系的可行建议。论文未提及代码开源,但提供了详细的Arena数据分析方法。
  • 相关研究
    相关工作包括:1. 「On the Dangers of Stochastic Parrots」讨论了模型训练中的偏见问题;2. 「Benchmarking Neural Network Robustness to Common Corruptions and Perturbations」研究了模型鲁棒性评估;3. 「Evaluating Large Language Models」探索了LLM的全面评估方法。这些研究共同关注模型评估的公正性和有效性。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论