The Flaw of Averages: Quantifying Uniformity of Performance on Benchmarks

向作者提问

NEW

简介

基准测试决定了人们对模型能力的科学判断，并引导着模型的发展方向。这就形成了一个反馈循环：更强的基准推动更优的模型，而更优的模型又要求更具区分度的基准。因此，确保基准的可靠性对于可信的评估和真正有意义的进步至关重要。在本研究中，我们从分布的角度探讨基准的可靠性，并提出了“基准协调性”（benchmark harmony）这一概念，用以衡量模型在某一基准的不同子领域中的表现是否分布均匀。我们认为，高协调性是基准应具备的理想特性，表明总体指标能够反映模型在各个子领域中表现的一致性。通过对19个多项选择题基准和5个模型家族的分析，我们将每个基准映射到一个基于各模型计算所得的协调性均值-方差平面上，其中高均值和低方差代表更可靠的评估效果。我们的分析表明，协调性较低的基准可能产生误导性结果，因为整体准确率可能过度受到特定子领域的影响。例如，ARC-Easy基准被“生物概念”类问题所主导，从而掩盖了地理、物理、化学和环境科学等其他关键子领域的重要性。我们建议在报告准确率的同时也应报告协调性，从而将评估范式从简单的性能平均值转变为一种更为稳健、在分布意义上更可靠的性能度量方式。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决人工智能模型评估中基准测试（benchmark）可靠性的问题，特别是当前广泛使用的聚合指标（如整体准确率）可能掩盖模型在不同子领域间表现不均的问题。这个问题虽然未被充分重视，但并非全新，随着模型能力提升，现有基准是否能公平、全面反映模型真实能力已成为社区关注的焦点。
关键思路

提出‘基准和谐性’（benchmark harmony）这一新度量，从分布视角评估模型在基准测试各子域上的表现均匀程度。高和谐性意味着模型能力分布均衡，整体准确率更具代表性。该思路将评估从单一平均性能扩展为分布感知的可靠性分析，强调应同时报告准确率与和谐性以提升评估可信度。
其它亮点

研究覆盖19个多项选择基准和5个主流模型家族（如LLaMA、GPT、PaLM等），系统计算了各基准的和谐性均值与方差，并将其映射到‘均值-方差平面’以可视化评估可靠性。发现诸如ARC-Easy等常用基准存在严重不均衡问题，其结果主要由‘生物概念’类题目主导，弱化了地理、物理等其他学科的表现信号。作者呼吁将harmony作为标准评估指标之一。目前尚未提及代码开源。未来可探索如何构建高和谐性基准，或设计激励均衡能力的训练方法。
相关研究

1. Measuring Massive Multitask Language Understanding 2. Holistic Evaluation of Language Models 3. The Measurability of Intelligence 4. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 5. Beyond Accuracy: Behavioral Testing of NLP Models with CheckList

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问