MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

2024年06月03日
  • 简介
    在大规模语言模型的时代,像“大规模多任务语言理解”(MMLU)这样的基准在推动人工智能在不同领域的语言理解和推理方面取得突破性进展方面发挥了关键作用。然而,随着模型的不断改进,它们在这些基准上的表现已经开始趋于平稳,这使得越来越难以区分模型能力的差异。本文介绍了MMLU-Pro,这是一个增强的数据集,旨在通过整合更具挑战性的、重点放在推理上的问题,并将选项数量从四个扩展到十个,来扩展主要基于知识的MMLU基准。此外,MMLU-Pro消除了MMLU中的琐碎和噪声问题。我们的实验结果表明,与MMLU相比,MMLU-Pro不仅提高了挑战水平,导致准确率下降了16%至33%,而且在不同提示下表现更加稳定。在测试了24种不同的提示样式后,模型得分对提示变化的敏感性从MMLU的4-5%降至MMLU-Pro的仅2%。此外,我们发现,在MMLU-Pro上使用“思维链”(CoT)推理的模型比直接回答问题的模型表现更好,这与原始MMLU的发现形成了鲜明对比,表明MMLU-Pro包含了更复杂的推理问题。我们的评估证实,MMLU-Pro是一个更具区分性的基准,可以更好地跟踪该领域的进展。
  • 图表
  • 解决问题
    MMLU-Pro试图解决的问题是什么?
  • 关键思路
    MMLU-Pro通过将更具挑战性的、注重推理的问题与更多选项集成到MMLU基准中,提高了基准的难度,并消除了噪声问题,从而更好地跟踪该领域的进展。
  • 其它亮点
    MMLU-Pro的实验结果表明,它不仅提高了挑战性,使准确率下降了16%到33%,而且在不同提示下表现更加稳定。此外,该论文发现,与直接回答相比,利用CoT推理的模型在MMLU-Pro上表现更好,这与原始MMLU的发现形成了鲜明对比。
  • 相关研究
    与此相关的研究包括MMLU基准的先前工作,以及在大规模语言模型上进行推理任务的其他相关工作,如LAMBADA和SuperGLUE。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论