$\texttt{metabench}$ -- A Sparse Benchmark to Measure General Ability in Large Language Models

2024年07月04日
  • 简介
    大型语言模型在各种任务中的能力各不相同。$\texttt{Open LLM Leaderboard}$ 等倡议旨在通过多个大型基准(一组测试项目,LLM可以正确或错误地回答)来量化这些差异。然而,基准分数内部和之间的高相关性表明,(1)存在一小组共同的基本能力,这些基准可以衡量,(2)项目涉及冗余信息,基准因此可以被大大压缩。我们利用来自 $n>5000$ 个LLM的数据,识别了六个基准(ARC、GSM8K、HellaSwag、MMLU、TruthfulQA和WinoGrande)中最有信息量的项目,这些基准共有 $d=28,632$ 个项目。我们从中提炼出一个稀疏基准 $\texttt{metabench}$,其大小不到所有六个基准的 $3\%$。这个新的稀疏基准不仅可以得出分数,还可以产生基准特定能力的估计量。我们展示了这些估计量:(1)可以用来重构每个原始的 $\textit{individual}$ 基准分数,平均根均方误差为 $1.5\%$,(2)可以用 $0.8\%$ 的根均方误差重构原始的 $\textit{total}$ 分数,(3)具有一个单一的基本共同因素,其与总分的斯皮尔曼相关系数为 $r=0.93$。
  • 图表
  • 解决问题
    论文旨在压缩六个基准测试数据集,并提取其中最具信息量的测试项,以便更准确地评估大型语言模型的能力。同时,论文还试图证明这些基准测试数据集测量的是一组共同的潜在能力。
  • 关键思路
    通过对超过5000个大型语言模型的数据进行分析,论文提出了一种新的基准测试数据集,称为元基准测试集。这个新的基准测试数据集不仅比原来的六个数据集小得多,而且可以用于估计每个数据集特定的能力,并且具有一个共同的潜在因素。
  • 其它亮点
    论文的亮点包括通过元基准测试集提高了大型语言模型能力评估的准确性,同时压缩了原有数据集的大小。论文还提供了重建每个原始基准测试数据集得分的估算器,以及重建总分的估算器。此外,论文还探讨了元基准测试集的潜在因素,以及如何使用它来评估大型语言模型的能力。实验使用了六个基准测试数据集,包括ARC、GSM8K、HellaSwag、MMLU、TruthfulQA和WinoGrande,并且提供了开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括使用不同的基准测试数据集来评估大型语言模型的能力,以及探索使用元分析来提高评估的准确性。其中一些相关的论文包括《SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems》、《Measuring Massive Multitask Language Understanding》和《Meta-Analysis of State-of-the-Art Results for the CoNLL 2017 Shared Task》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论