Are We Done with MMLU?

2024年06月06日
  • 简介
    也许不是这样。我们识别和分析了流行的大规模多任务语言理解(Massive Multitask Language Understanding,MMLU)基准测试中的错误。尽管MMLU被广泛采用,但我们的分析显示出许多基本真相错误,这些错误掩盖了LLMs的真正能力。例如,我们发现在病毒学子集中分析的问题中,有57%包含错误。为了解决这个问题,我们引入了一个全面的框架,使用新的错误分类法来识别数据集错误。然后,我们创建了MMLU-Redux,它是30个MMLU主题中的3,000个手动重新注释的问题子集。使用MMLU-Redux,我们展示了与最初报告的模型性能指标存在显著差异的结果。我们的结果强烈主张修改MMLU中存在错误的问题,以增强其未来作为基准测试的效用和可靠性。因此,我们开放了MMLU-Redux以进行附加注释。https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux。
  • 图表
  • 解决问题
    分析MMLU数据集中存在的错误,提出新的数据集MMLU-Redux来改进MMLU的可靠性和实用性。
  • 关键思路
    提出一个全面的框架来识别数据集中的错误,使用新的错误分类法,手动重新注释了3000个问题,展示了MMLU的性能指标存在的显著差异。
  • 其它亮点
    论文发现MMLU数据集中存在大量错误,提出了MMLU-Redux数据集来改进MMLU的可靠性和实用性。实验使用了新的错误分类法来识别数据集中的错误,并手动重新注释了3000个问题。论文的结果表明原始的MMLU性能指标存在显著差异,需要修正数据集中的错误。MMLU-Redux数据集已经开源。
  • 相关研究
    最近的相关研究主要集中在LLM领域,例如GPT-3等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论