MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

2024年06月03日
  • 简介
    在大规模语言模型的时代,像“大规模多任务语言理解”(MMLU)这样的基准测试对于推动人工智能在各个领域的语言理解和推理能力的边界至关重要。然而,随着模型不断改进,它们在这些基准测试上的表现已经开始趋于平稳,这使得区分模型能力的差异变得越来越困难。本文介绍了MMLU-Pro,这是一个增强的数据集,旨在通过整合更具挑战性、注重推理的问题并将选项集从四个扩展到十个来扩展主要基于知识的MMLU基准测试。此外,MMLU-Pro消除了MMLU中琐碎和嘈杂的问题。我们的实验结果表明,MMLU-Pro不仅提高了挑战性,使得与MMLU相比准确率下降了16%到33%,而且在不同提示下表现更加稳定。在测试了24种不同的提示风格后,模型得分对提示变化的敏感性从MMLU的4-5%降至MMLU-Pro的仅2%。此外,我们发现,利用“思维链”(CoT)推理的模型在MMLU-Pro上的表现优于直接回答,这与原始的MMLU的研究结果形成了鲜明的对比,表明MMLU-Pro包括更复杂的推理问题。我们的评估证实,MMLU-Pro是一个更具区分性的基准测试,可以更好地跟踪该领域的进展。
  • 图表
  • 解决问题
    MMLU-Pro试图解决MMLU基准测试的性能瓶颈问题,通过添加更具挑战性的推理问题和扩展选项选择集来扩展基准测试。
  • 关键思路
    MMLU-Pro通过添加更具挑战性的问题和扩展选项选择集来提高基准测试的难度,消除了MMLU中的噪声问题,并且通过24种不同的提示样式测试,证明了其更稳定的性能。此外,研究还发现使用CoT推理的模型在MMLU-Pro上表现更好。
  • 其它亮点
    论文设计了MMLU-Pro数据集,并进行了实验,结果表明MMLU-Pro比MMLU更具挑战性,更稳定,并且CoT推理在MMLU-Pro上表现更好。
  • 相关研究
    最近的相关研究包括:《Massive Multitask Language Understanding》(MMLU)和《Chain of Reasoning》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论