- 简介基准测试决定了人们对模型能力的科学判断,并引导着模型的发展方向。这就形成了一个反馈循环:更强的基准推动更优的模型,而更优的模型又要求更具区分度的基准。因此,确保基准的可靠性对于可信的评估和真正有意义的进步至关重要。在本研究中,我们从分布的角度探讨基准的可靠性,并提出了“基准协调性”(benchmark harmony)这一概念,用以衡量模型在某一基准的不同子领域中的表现是否分布均匀。我们认为,高协调性是基准应具备的理想特性,表明总体指标能够反映模型在各个子领域中表现的一致性。通过对19个多项选择题基准和5个模型家族的分析,我们将每个基准映射到一个基于各模型计算所得的协调性均值-方差平面上,其中高均值和低方差代表更可靠的评估效果。我们的分析表明,协调性较低的基准可能产生误导性结果,因为整体准确率可能过度受到特定子领域的影响。例如,ARC-Easy基准被“生物概念”类问题所主导,从而掩盖了地理、物理、化学和环境科学等其他关键子领域的重要性。我们建议在报告准确率的同时也应报告协调性,从而将评估范式从简单的性能平均值转变为一种更为稳健、在分布意义上更可靠的性能度量方式。
-
- 图表
- 解决问题论文试图解决人工智能模型评估中基准测试(benchmark)可靠性的问题,特别是当前广泛使用的聚合指标(如整体准确率)可能掩盖模型在不同子领域间表现不均的问题。这个问题虽然未被充分重视,但并非全新,随着模型能力提升,现有基准是否能公平、全面反映模型真实能力已成为社区关注的焦点。
- 关键思路提出‘基准和谐性’(benchmark harmony)这一新度量,从分布视角评估模型在基准测试各子域上的表现均匀程度。高和谐性意味着模型能力分布均衡,整体准确率更具代表性。该思路将评估从单一平均性能扩展为分布感知的可靠性分析,强调应同时报告准确率与和谐性以提升评估可信度。
- 其它亮点研究覆盖19个多项选择基准和5个主流模型家族(如LLaMA、GPT、PaLM等),系统计算了各基准的和谐性均值与方差,并将其映射到‘均值-方差平面’以可视化评估可靠性。发现诸如ARC-Easy等常用基准存在严重不均衡问题,其结果主要由‘生物概念’类题目主导,弱化了地理、物理等其他学科的表现信号。作者呼吁将harmony作为标准评估指标之一。目前尚未提及代码开源。未来可探索如何构建高和谐性基准,或设计激励均衡能力的训练方法。
- 1. Measuring Massive Multitask Language Understanding 2. Holistic Evaluation of Language Models 3. The Measurability of Intelligence 4. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 5. Beyond Accuracy: Behavioral Testing of NLP Models with CheckList
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流