Are We Done with MMLU?

简介

也许不是这样。我们识别和分析了流行的大规模多任务语言理解(Massive Multitask Language Understanding，MMLU)基准测试中的错误。尽管MMLU被广泛采用，但我们的分析显示出许多基本真相错误，这些错误掩盖了LLMs的真正能力。例如，我们发现在病毒学子集中分析的问题中，有57%包含错误。为了解决这个问题，我们引入了一个全面的框架，使用新的错误分类法来识别数据集错误。然后，我们创建了MMLU-Redux，它是30个MMLU主题中的3,000个手动重新注释的问题子集。使用MMLU-Redux，我们展示了与最初报告的模型性能指标存在显著差异的结果。我们的结果强烈主张修改MMLU中存在错误的问题，以增强其未来作为基准测试的效用和可靠性。因此，我们开放了MMLU-Redux以进行附加注释。https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux。
图表
解决问题

分析MMLU数据集中存在的错误，提出新的数据集MMLU-Redux来改进MMLU的可靠性和实用性。
关键思路

提出一个全面的框架来识别数据集中的错误，使用新的错误分类法，手动重新注释了3000个问题，展示了MMLU的性能指标存在的显著差异。
其它亮点

论文发现MMLU数据集中存在大量错误，提出了MMLU-Redux数据集来改进MMLU的可靠性和实用性。实验使用了新的错误分类法来识别数据集中的错误，并手动重新注释了3000个问题。论文的结果表明原始的MMLU性能指标存在显著差异，需要修正数据集中的错误。MMLU-Redux数据集已经开源。
相关研究

最近的相关研究主要集中在LLM领域，例如GPT-3等。

评论