Benchmarks as Microscopes: A Call for Model Metrology

简介

现代语言模型(LMs)在能力评估方面提出了新的挑战。静态基准不可避免地会饱和，而且不能提供关于基于LM的系统部署容忍度的信心，但开发人员仍然声称他们的模型具有推理或开放域语言理解等广义特征，这是基于这些有缺陷的指标。LMs的科学和实践需要一种新的基准评估方法，该方法通过动态评估来测量特定能力。为了对我们的指标有信心，我们需要一种新的模型计量学学科——专注于如何生成可以预测部署性能的基准。受我们的评估标准的激励，我们概述了建立一个模型计量学实践者社区的方法——专注于构建工具和研究如何测量系统能力——这是满足这些需求并为AI讨论增添清晰度的最佳方式。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何评估语言模型的能力？
关键思路

建立模型计量学，通过动态评估来衡量语言模型的具体能力
其它亮点

建议建立模型计量学社区，专注于构建工具和研究如何衡量系统能力；需要进行动态评估来预测部署下的性能；
相关研究

最近的相关研究包括：《GLUE：一种用于评估语言理解的多任务基准》、《SuperGLUE：一种更具挑战性的多任务基准》等。