- 简介最近语言模型(LMs)的进展促进了多个基准的创建,旨在评估这些模型的一般能力。然而,关键任务是评估基准本身的有效性。这通常通过基准协议测试(BAT)来完成,其中使用某些协议度量(例如,等级相关性)来验证新基准与已建立基准之间的一致性。尽管BAT对于基准构建者和消费者至关重要,但目前没有标准化的程序进行协议测试。这个缺陷可能导致无效的结论,从而破坏了对适当基准的选择的能力。通过分析40多个著名基准,我们演示了一些被忽视的方法选择如何显着影响BAT结果,潜在地破坏结论的有效性。为了解决这些不一致性,我们提出了一组BAT最佳实践,并演示了如何利用这些方法显著提高BAT的鲁棒性和有效性。为了促进采用和便于未来研究,我们介绍了BenchBench,一个用于BAT的Python软件包,并发布了BenchBench排行榜,这是一个元基准,旨在使用同行评估基准。我们的发现强调了标准化BAT的必要性,确保在语言模型研究的不断发展中,基准评估的鲁棒性和有效性。 BenchBench软件包:https://github.com/IBM/BenchBench 排行榜:https://huggingface.co/spaces/per/BenchBench
-
- 图表
- 解决问题本文旨在解决Benchmark Agreement Testing(BAT)的标准化问题,提出一套BAT的最佳实践方法,以及介绍BenchBench和BenchBench-leaderboard,用于评估和比较不同的基准测试。
- 关键思路本文提出了一套BAT的最佳实践方法,包括选择合适的基准测试,使用合适的统计方法进行数据分析和比较,以及使用BenchBench和BenchBench-leaderboard来评估和比较不同的基准测试。
- 其它亮点本文分析了40多个著名的基准测试,并展示了一些被忽视的方法选择如何显著影响BAT结果,可能破坏结论的有效性。作者提出了一套最佳实践方法,包括选择合适的基准测试,使用合适的统计方法进行数据分析和比较,以及使用BenchBench和BenchBench-leaderboard来评估和比较不同的基准测试。BenchBench是一个python包,用于BAT,BenchBench-leaderboard是一个元基准测试,用于评估基准测试。本文的发现强调了标准化BAT的必要性,确保在语言模型研究不断发展的环境中,基准测试的评估具有鲁棒性和有效性。
- 最近在这个领域中,还有一些相关的研究,包括:1. SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Models;2. XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization;3. How Can We Know What Language Models Know?。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流